DSA
DeepSeek Sparse Attention(DeepSeek 稀疏注意力)是 V3.2 引入的两级注意力机制。
- 闪电索引器 — 快速筛选出与当前 token 最相关的 k 个 token
- 细粒度 token 选择 — 对选中的 token 进行标准注意力计算
将注意力复杂度从 O(n²) 降至 ~O(n·k),其中 k=2048(远小于序列长度 n)。
两级筛选流程
输入 Query
│
▼
┌──────────────────────┐
│ 第一级:闪电索引器 │ 快速粗筛 O(n)
│ Lightweight Indexer │ 从 n 个 Keys 中选 top-k
└──────────┬───────────┘
│ 候选集 (k 个)
▼
┌──────────────────────┐
│ 第二级:细粒度选择 │ 精确筛选 O(k)
│ Fine-grained Select │ 从 k 个中选最终 top-m
└──────────┬───────────┘
│ 最终选定 (m 个, m << k << n)
▼
标准 Attention 计算
总复杂度: O(n × k) —— 远低于标准 O(n²)