MLA（Multi-Head Latent Attention，多头潜在注意力）

KV联合低秩压缩+潜在隐向量缓存+按需解压，做到「推理只存低维隐向量、计算还原完整多头K/V」，KV Cache最高压缩93%+，精度逼近原生MHA，超长上下文标配注意力架构。

MLA KV 缓存压缩机制

一、诞生背景：MHA→MQA→GQA→MLA演进逻辑

前代方案痛点

MHA（原生多头）：H个head各存独立K/V，KV Cache显存=O(H·d)，超长上下文（128K+）显存爆炸、推理速度极慢；
MQA：全Head共用1组K/V，缓存O(d)，压缩最强，但精度掉点严重；
GQA：Q分为H头、K/V分为G组共享，缓存O(G·d)（常用G=H/8），工业主流，但压缩上限被分组约束，没法进一步大幅降显存。

MLA核心革新思路

利用多头K/V天然低秩冗余，把全部多头K/V信息压缩进1个低维隐向量$c^{KV}$，推理只缓存$c^{KV}$，计算注意力时再上投影还原全量多头K/V，实现：存储≈MQA大小，计算≈MHA精度。

二、三大核心阶段

1. 压缩阶段（Down-projection：训练时生成隐向量）

输入隐藏层特征$h_t\in\mathbb R^d$（d为模型隐藏维度） $\boldsymbol c_t^{KV}=h_t\cdot W_{DKV}$

$W_{DKV}\in\mathbb R^{d\times d_c}$：联合压缩矩阵，$d_c\ll H\cdot d_h$（$d_c$=隐向量维度，远小于全部多头K/V总维度）；
$\boldsymbol c_t^{KV}$：潜在隐向量（Latent Vector），承载所有Head的K/V全部信息；

关键：不再分头生成K/V，先统一压缩成一条短向量。

2. 缓存阶段

KV Cache只保存低维$\boldsymbol c_t^{KV}$，彻底抛弃原始多头K/V

MHA：单Token缓存=$H\times(d_k+d_v)$
MLA：单Token缓存=$d_c$（$d_c$通常为原生1/8~1/32，显存下降70%~97%）

3. 解压重建阶段（Up-projection：注意力计算前还原多头K/V）

用两套独立可学习上投影矩阵，从同一个隐向量还原每个head独立K、V： $k_t^{(h)}=\boldsymbol c_t^{KV}\cdot W_{UK}^{(h)},\quad v_t^{(h)}=\boldsymbol c_t^{KV}\cdot W_{UV}^{(h)}$ $W_{UK}^{(h)}/W_{UV}^{(h)}$：第h个注意力头专属升维矩阵，每个头仍然拥有独立K/V，保留MHA多头表征能力。

还原后照常执行标准多头Attention：$Attn(Q^{(h)},k_t^{(h)},v_t^{(h)})$

三、关键难点：RoPE旋转位置编码拆分

RoPE不能被低秩压缩（位置信息逐维绑定），MLA做Q/K二分拆分设计：

Q拆分两部分
- $Q_{nope}$：无位置信息，跟随隐向量低秩压缩；
- $Q_{rope}$：带RoPE位置编码，单独小维度投影、独立加RoPE；
K拆分两部分
- $K_{nope}$：从隐向量上投影还原；
- $K_{rope}$：和$Q_{rope}$同维度，单独存储、加RoPE；
  
  最终：只有极小部分rope-K单独缓存，绝大部分KV信息仍压缩在隐向量，兼顾位置精度与压缩率（DeepSeek默认：rope维度=0.5×head_dim）。

四、MHA/MQA/GQA/MLA四项指标横向对比

|指标|MHA|MQA|GQA|MLA| | —- | —- | —- | —- | —- | |KV缓存复杂度|$O(Hd)$|$O(d)$|$O(Gd)$|$O(d_c),d_c\ll d$| |缓存压缩率|基准×1|×1/H|×G/H|×$d_c/(Hd_h)$（最高1/64）| |表达能力|最优|差|良好|≈MHA（几乎无损）| |额外计算开销|0|0|0|少量上下投影（<5%）| |超长上下文适配|差|一般|中等|极佳（128K/256K首选）|

注：H=总头数，G=GQA分组数，$d_h$单头维度，$d_c$MLA隐向量维度

五、MLA两大核心优缺点

✅ 优势

极致显存节省：DeepSeek-V2配置下KV Cache降低93.3%，同等显存可开8~30倍上下文长度，推理吞吐提升5~6倍；
精度无损：计算时完整还原多头K/V，效果对标原生MHA，远优于MQA/GQA压缩带来的性能损耗；
天然适配MoE：DeepSeek标配「MLA+MoE」组合，专家拆分+注意力显存双优化，千亿参数长文本模型最优路线；
向下兼容：数学上GQA、MQA均可等价转化为MLA，现有GQA模型可微调迁移MLA。

❌ 缺点

训练额外算力：新增上下投影矩阵，训练阶段FLOPs小幅上涨（3%~8%）；
实现复杂：RoPE拆分、矩阵吸收优化需要定制算子，无法直接套用原生Attention实现；
小短文本收益有限：上下文<4K时，KV Cache本身不大，MLA压缩优势不明显。

六、矩阵吸收（Matrix Absorption）

预训练阶段把Q投影矩阵和上投影矩阵提前融合吸收，推理时合并矩阵乘法： $Q\cdot W_Q \cdot W_{UK}\Rightarrow Q\cdot W_{merge}$ 把两次矩阵乘合并为一次，抹平MLA额外计算开销，推理速度追平GQA（DeepSeek工程落地关键）。