DSA – Oopvo – 分享学习内容~不断完善ing

DeepSeek Sparse Attention（DeepSeek 稀疏注意力）是 V3.2 引入的两级注意力机制。

闪电索引器 — 快速筛选出与当前 token 最相关的 k 个 token
细粒度 token 选择 — 对选中的 token 进行标准注意力计算

将注意力复杂度从 O(n²) 降至 ~O(n·k)，其中 k=2048（远小于序列长度 n）。

两级筛选流程

输入 Query
    │
    ▼
┌──────────────────────┐
│  第一级：闪电索引器    │  快速粗筛 O(n)
│  Lightweight Indexer  │  从 n 个 Keys 中选 top-k
└──────────┬───────────┘
           │ 候选集 (k 个)
           ▼
┌──────────────────────┐
│  第二级：细粒度选择    │  精确筛选 O(k)
│  Fine-grained Select  │  从 k 个中选最终 top-m
└──────────┬───────────┘
           │ 最终选定 (m 个, m << k << n)
           ▼
    标准 Attention 计算

总复杂度: O(n × k) —— 远低于标准 O(n²)

两级筛选流程

Page Settings