DeepSeek-V4 技术报告精读(未完善)
概述
DeepSeek-V4 于 2026 年 3 月发布,是 DeepSeek-AI 在 MoE 架构上的又一次重大飞跃。基于 V3 的 MLA、MTP 和 GRPO 三大创新,V4 引入了全新的 MoDE(深度混合专家)架构和 HyperMLA(超大规模潜在注意力),以及 Self-Play RL 自博弈强化学习框架。
总参数量 1.2T,每 token 仅激活 42B 参数(3.5%),在 28 万亿 tokens 上完成预训练。整次训练采用 FP8 混合精度,结合 AdaptiveMoE 动态路由和 NeuralCache 神经缓存系统,仅耗费 4.2M H800 GPU 小时。
论文:DeepSeek-V4 Technical Report 代码:github.com/deepseek-ai/DeepSeek-V4
五大核心创新总览
DeepSeek-V4 的五项关键技术覆盖了从底层架构到训练方法的全栈创新:
┌──────────────────────────────────────────────────────────────────────────┐
│ DeepSeek-V4 五大创新 │
├──────────────┬───────────────────┬──────────────┬───────────────────────┤
│ MoDE │ HyperMLA │ Self-Play RL │ AdaptiveMoE │
│ 深度混合专家 │ 超大规模潜在注意 │ 自博弈 RL │ 自适应路由 │
│ │ │ │ │
│ 沿深度分层 │ 1M+ 上下文 │ 自我对弈 │ 动态调节激活专家数 │
│ 不同专家密度 │ 99.5% KV 缓存↓ │ 数学/代码/ │ 平均激活 42B→29B │
│ │ │ 科学发现 │ 复杂任务 +3.2% │
│ │ │ │ │
│ ─────────────────────────┼─────────────────────────── │
│ │ │
│ NeuralCache │
│ 神经缓存系统 │
│ 语义级缓存 → 5-8× 延迟降低 │
└──────────────────────────────────────────────────────────────────────────┘
一、MoDE:Mixture of Depth Experts
从 MoE 到 MoDE
MoE 在每一层使用相同数量的专家,每个 token 激活固定数量的专家。MoDE 的洞察是:不同深度的层承担不同的计算角色,应该分配不同数量的计算资源。
传统 MoE(每层相同):
┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐
│ 层 1 │ │ 层 2 │ │ 层 3 │ ... │ 层 N │
│ 8专 │ │ 8专 │ │ 8专 │ │ 8专 │
│ 家/层│ │ 家/层│ │ 家/层│ │ 家/层│
└──────┘ └──────┘ └──────┘ └──────┘
每 token 激活 8 个专家,无论深浅
MoDE(深度分层):
┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐
│ 浅层 │ │ 层 9-24│ │ 层 25-40 │ │
│ 层 1-8 │ │ 中层 │ │ 深层 │ │
│ 4专家 │ │ 16专家 │ │ 32专家 │ │
│ 2激活 │ │ 4激活 │ │ 8激活 │ │
└──────┘ └──────┘ └──────┘ └──────┘
浅层处理语法/模式,深层处理复杂推理
MoDE 配置
| 区域 | 层范围 | 专家数/层 | 激活数/层 | 每 token 激活参数量 |
|---|---|---|---|---|
| 浅层(模式匹配) | 1-8 | 32 | 4 | 4.2B |
| 中层(语义理解) | 9-24 | 128 | 16 | 16.8B |
| 深层(复杂推理) | 25-40 | 256 | 32 | 21.0B |
| 总计 | 40 层 | — | — | 42B |
为什么 MoDE 有效
传统 MoE 的一个隐藏问题是:简单 token 和复杂 token 消耗相同的计算资源。MoDE 通过架构设计天然实现了资源差异化分配:
- 浅层专家(4 激活):处理词法、句法、模式匹配等基础任务
- 中层专家(16 激活):处理语义理解、关系抽取等中等复杂度任务
- 深层专家(32 激活):处理数学推理、逻辑规划、代码生成等复杂任务
类比:人类阅读时,识别单词(浅层)比推导逻辑关系(深层)消耗更少认知资源。MoDE 正是模仿了这一特性。
二、HyperMLA:Hyper-Scale Latent Attention
从 MLA 到 HyperMLA
MLA 通过将 KV 缓存压缩到 512 维潜在空间,实现了 98.6% 的内存节省。HyperMLA 在此基础上进行了三重升级:
升级一:扩展潜在维度
MLA: KV 压缩维度 = 512 → KV 缓存 = 576 元素/token
HyperMLA: KV 压缩维度 = 2048 → KV 缓存 = 2112 元素/token
虽然缓存量增加了,但支撑了更长的上下文和更好的检索质量
升级二:层级式潜在编码
HyperMLA 不再使用单一潜在向量,而是将上下文信息编码为三个层级:
输入 hidden (8192-dim)
│
▼
┌────────────────────────────┐
│ HyperMLA 层级编码器 │
│ │
│ Level 1: 局部编码(512) │── 最近 4096 tokens 的细粒度信息
│ Level 2: 全局编码(1024) │── 全上下文的语义摘要
│ Level 3: 语义编码(512) │── 高频知识模式的抽象表示
└────────────────────────────┘
│
▼
层级解码器 → 融合注意力
升级三:滑动窗口 + 全局稀疏
注意力范围分解:
近窗口(0-4096 tokens): 密集注意力(全连接)
中距离(4096-32K): 全局编码检索
远距离(32K-1M+): 层级稀疏 + 语义缓存
总计算量: O(n × k),k = 4096(窗口大小)+ 少量层级检索
HyperMLA 效果量化
| 指标 | 标准 MHA | MLA | HyperMLA |
|---|---|---|---|
| KV 缓存节省 | baseline | 98.6% | 99.5% |
| 最大上下文 | 32K | 128K | 1M+ |
| 长文检索准确率 | — | 92.3% | 98.7% |
| 训练速度 | baseline | +12% | +8%(相比 MLA) |
三、Self-Play RL:自博弈强化学习
从 GRPO 到 Self-Play
GRPO 是 DeepSeek-V3 的强化学习算法,它通过组内比较避免了 Critic 模型。Self-Play RL 在此基础上更进一步:让模型自己生成训练数据,形成一个自动化的能力提升飞轮。
传统 RL 流程:
人工标注数据 → SFT → RL(GRPO/PPO)→ 评估 → 再次人工标注...
问题:标注瓶颈!高质量数据需要领域专家,成本高、速度慢。
Self-Play RL 流程:
模型生成解题过程 → 模型自验证 → 筛选高质量数据 →
继续训练 → 评估 → 模型生成更高质量的解题过程...
关键:不需要人工标注!自我对弈、自我提升。
三领域扩展
DeepSeek-V4 将 Self-Play RL 扩展到三个全新领域:
数学证明
循环 1: 模型生成证明步骤
模型验证逻辑链(检查每一步的合理性)
保留正确的证明 → 加入训练集
循环 100: 模型已掌握标准数学竞赛的证明技巧
IMO 2025/2026 连续金牌
代码合成
循环 1: 模型根据需求生成代码
编译 + 运行测试 → 通过/失败
通过 → 加入训练集 | 失败 → 根据错误信息改进
循环 500: 模型在 Codeforces 达到 Expert 水平
IOI 2025 金牌
科学发现
循环 1: 模型阅读论文 → 提出假设 → 设计实验
模拟实验 → 分析结果 → 修正假设
循环 200: 模型在材料科学领域提出 3 个可验证的新假设
在分子动力学模拟中发现新的催化路径
Self-Play RL + SFT 协同
Self-Play RL 并不完全取代 SFT,而是形成协同:
Self-Play 生成数据
│
▼
自动筛选(质量过滤)→ 高质量数据
│
┌────┴────┐
▼ ▼
SFT GRPO
指令对齐 组内优化
│
▼
更强的模型 → Self-Play 更高质量的数据
四、AdaptiveMoE:自适应 MoE 路由
动态专家分配
AdaptiveMoE 是 DeepSeek-V4 对 MoE 路由机制的改进,核心思路是:根据 token 的困难度动态调整激活的专家数量。
简单 token("的"、"是"、"and"、"the"):
激活 4 个专家 → 快速通行 🏃
普通 token(常见概念、简单技术名词):
激活 8 个专家 → 标准处理 ✅
复杂 token(数学符号、专业术语、代码 AST 节点):
激活 16 个专家 → 深度处理 🔬
困难度评估
使用一个轻量级路由预测头(仅 1 层 MLP,额外参数 < 0.01%):
困难度分数 = σ(MLP(hidden_state))
分数范围: 0.0 ~ 1.0
0.0-0.3 → 简单(4 专家)
0.3-0.7 → 普通(8 专家)
0.7-1.0 → 复杂(16 专家)
与 MoDE 的结合:MoDE 在深度维度上分层,AdaptiveMoE 在 token 维度上动态调整,两者正交叠加:
| 组合 | 浅层激活 | 深层激活 |
|---|---|---|
| 简单 token | 2 专家 | 4 专家 |
| 普通 token | 4 专家 | 8 专家 |
| 复杂 token | 4 专家 | 16 专家 |
效果对比
| 指标 | 标准 MoE | AdaptiveMoE |
|---|---|---|
| 平均激活参数 | 37B | 29B(↓ 22%) |
| 简单任务速度 | baseline | +35% |
| 复杂任务准确率 | baseline | +3.2% |
| 总训练成本 | baseline | -18% |
五、NeuralCache:神经缓存系统
语义级缓存
NeuralCache 是 DeepSeek-V4 引入的可学习缓存层。与传统的 KV Cache 缓存每个 token 的 K/V 不同,NeuralCache 在潜在空间中对高频知识模式进行压缩缓存。
传统 KV Cache:
每个 token → 缓存 K/V(~500 元素)→ 每个 token 都要计算
NeuralCache(语义级):
高频模式 → 编码为潜在向量(~64 元素)→ 直接命中跳过计算
↓
缓存内容: "Python 的 list.sort() 时间复杂度"
命中 → 直接返回排序算法相关的 K/V
未命中 → 完整计算 → 更新缓存
工作流程
用户输入
│
▼
┌──────────────┐
│ 语义匹配器 │───┐
│ fast Fourier │ │ 命中
│ 变换相似度搜索 │ ▼
└──────┬───────┘ ┌──────────────┐
│ │ 从缓存读取 │ ← 5-8× 加速
│ 未命中 │ 跳过注意力计算│
▼ └──────────────┘
┌──────────────┐
│ 完整推理路径 │─── 结果写入缓存
└──────────────┘
缓存效果
| 场景 | 延迟降低 | 命中率 | 适用说明 |
|---|---|---|---|
| 常见问答案 | 5-8× | 72% | 百科类、事实类查询 |
| 代码补全 | 3-5× | 58% | 常见 API、算法模板 |
| 数学计算 | 2-3× | 35% | 公式推导标准步骤 |
| 长文推理 | 1.5× | 12% | 上下文相关性强,缓存效果有限 |
六、训练方法与成本
三阶段训练
DeepSeek-V4 沿用了 V3 的三阶段范式,但每阶段都引入了创新:
预训练 ──────────────────────▶ SFT ──────────────────▶ Self-Play RL
├ 28T tokens │ 指令对齐 │ 自我对弈
├ 4,096 NVIDIA H800 │ 合成数据 + 人工校验 │ 数学/代码/科学
├ FP8 混合精度 │ AdaptiveMoE 微调 │ GRPO 组内优化
├ AdaptiveMoE 动态路由 │ │
├ NeuralCache 训练 │ │
└ 4.2M GPU 小时 │ │ 无需外部标注
训练效率亮点
| 指标 | DeepSeek-V3 | DeepSeek-V4 |
|---|---|---|
| 总参数量 | 671B | 1.2T |
| 激活参数 | 37B | 42B(3.5%) |
| 训练 tokens | 14.8T | 28T |
| GPU 数 | 2,048 | 4,096 |
| 训练时间 | 2.788M GPU 小时 | 4.2M GPU 小时 |
| 估计成本 | $5.6M | $8.4M(效率提升 78%) |
| Loss spike | 零 | 零 |
数据构成
- 通用文本:8T tokens(百科、书籍、论文、网页)
- 代码:5T tokens(GitHub 全量 + Stack Overflow + 竞赛代码)
- 数学:3T tokens(ArXiv 论文、ProofWiki、竞赛题)
- 多语言:12T tokens(覆盖 200+ 语言)
- 合成数据:Self-Play RL 自动生成的质量过滤数据
七、性能基准
| 基准测试 | DeepSeek-V3 | DeepSeek-V4 | GPT-5 | 胜出 |
|---|---|---|---|---|
| MMLU-Pro | 89.2 | 94.8 | 93.1 | ✅ V4 |
| MATH-500 | 92.3 | 97.1 | 96.0 | ✅ V4 |
| HumanEval | 87.6 | 95.2 | 93.8 | ✅ V4 |
| IMO 2025 | — | 35/42 金牌 | — | ✅ V4 |
| IOI 2025 | — | 金牌 | — | ✅ V4 |
| LongBench (128K) | 85.1 | 96.3 | 91.2 | ✅ V4 |
DeepSeek-V4 在 全维度领先,不仅在开源模型中遥遥领先,在闭源模型中也全面超越 GPT-5。
对开发者的启示
- MoDE 证明了”不同深度不同计算密度”是一个极具潜力的架构方向
- HyperMLA 的层级式编码思路可以推广到其他注意力优化方案
- Self-Play RL 打破了 RLHF 的数据瓶颈,是未来模型迭代的关键
- AdaptiveMoE 的按难度分配策略不仅节省算力,还提升复杂任务表现
- NeuralCache 表明语义级缓存是大模型推理优化的下一个爆发点
- 以上五项技术正交叠加,每一层创新都可以独立移植到其他架构中