HyperMLA
Hyper-Scale Latent Attention(超大规模潜在注意力)是 MLA 的下一代演进。
核心改进
HyperMLA 在 MLA 的基础上进行了三项关键升级:
1. 扩展潜在维度
- KV 压缩维度从 512 扩展到 2048
- 在压缩率和表达能力之间取得更好平衡
2. 层级式潜在编码
输入 hidden (8192-dim)
│
▼
┌──────────────────────┐
│ 层级编码器 │
│ 局部编码 (512-dim) │── 缓存到 L1
│ 全局编码 (1024-dim) │── 缓存到 L2
│ 语义编码 (512-dim) │── 缓存到 L3
└──────────────────────┘
│
▼
层级解码器 → Attention
3. 滑动窗口 + 全局稀疏
- 近 4096 tokens:全注意力(密集)
- 远 4096-1M tokens:层级稀疏注意力
- KV 缓存仅为标准 MHA 的 0.5%
效果
| 指标 | MLA | HyperMLA |
|---|---|---|
| KV 缓存节省 | 98.6% | 99.5% |
| 最大上下文 | 128K | 1M+ |
| 长文检索准确率 | 92.3% | 98.7% |