HyperMLA

Hyper-Scale Latent Attention（超大规模潜在注意力）是 MLA 的下一代演进。

核心改进

HyperMLA 在 MLA 的基础上进行了三项关键升级：

1. 扩展潜在维度

KV 压缩维度从 512 扩展到 2048
在压缩率和表达能力之间取得更好平衡

2. 层级式潜在编码

输入 hidden (8192-dim)
      │
      ▼
  ┌──────────────────────┐
  │  层级编码器           │
  │  局部编码 (512-dim)   │── 缓存到 L1
  │  全局编码 (1024-dim)  │── 缓存到 L2
  │  语义编码 (512-dim)   │── 缓存到 L3
  └──────────────────────┘
      │
      ▼
  层级解码器 → Attention

3. 滑动窗口 + 全局稀疏

近 4096 tokens：全注意力（密集）
远 4096-1M tokens：层级稀疏注意力
KV 缓存仅为标准 MHA 的 0.5%

效果

指标	MLA	HyperMLA
KV 缓存节省	98.6%	99.5%
最大上下文	128K	1M+
长文检索准确率	92.3%	98.7%

核心改进

效果

Page Settings