← 名词百科

HyperMLA

分类:模型架构

Hyper-Scale Latent Attention(超大规模潜在注意力)是 MLA 的下一代演进。

核心改进

HyperMLA 在 MLA 的基础上进行了三项关键升级:

1. 扩展潜在维度

  • KV 压缩维度从 512 扩展到 2048
  • 在压缩率和表达能力之间取得更好平衡

2. 层级式潜在编码

输入 hidden (8192-dim)
      │
      ▼
  ┌──────────────────────┐
  │  层级编码器           │
  │  局部编码 (512-dim)   │── 缓存到 L1
  │  全局编码 (1024-dim)  │── 缓存到 L2
  │  语义编码 (512-dim)   │── 缓存到 L3
  └──────────────────────┘
      │
      ▼
  层级解码器 → Attention

3. 滑动窗口 + 全局稀疏

  • 近 4096 tokens:全注意力(密集)
  • 远 4096-1M tokens:层级稀疏注意力
  • KV 缓存仅为标准 MHA 的 0.5%

效果

指标 MLA HyperMLA
KV 缓存节省 98.6% 99.5%
最大上下文 128K 1M+
长文检索准确率 92.3% 98.7%

📎 出处文章