← 名词百科

DSA

分类:模型架构

DeepSeek Sparse Attention(DeepSeek 稀疏注意力)是 V3.2 引入的两级注意力机制。

  • 闪电索引器 — 快速筛选出与当前 token 最相关的 k 个 token
  • 细粒度 token 选择 — 对选中的 token 进行标准注意力计算

将注意力复杂度从 O(n²) 降至 ~O(n·k),其中 k=2048(远小于序列长度 n)。

两级筛选流程

输入 Query
    │
    ▼
┌──────────────────────┐
│  第一级:闪电索引器    │  快速粗筛 O(n)
│  Lightweight Indexer  │  从 n 个 Keys 中选 top-k
└──────────┬───────────┘
           │ 候选集 (k 个)
           ▼
┌──────────────────────┐
│  第二级:细粒度选择    │  精确筛选 O(k)
│  Fine-grained Select  │  从 k 个中选最终 top-m
└──────────┬───────────┘
           │ 最终选定 (m 个, m << k << n)
           ▼
    标准 Attention 计算

总复杂度: O(n × k) —— 远低于标准 O(n²)

📎 出处文章