DeepSeek-V4 技术报告精读(未完善)

🏷️ 关键词

概述

DeepSeek-V4 于 2026 年 3 月发布,是 DeepSeek-AI 在 MoE 架构上的又一次重大飞跃。基于 V3 的 MLAMTPGRPO 三大创新,V4 引入了全新的 MoDE(深度混合专家)架构和 HyperMLA(超大规模潜在注意力),以及 Self-Play RL 自博弈强化学习框架。

总参数量 1.2T,每 token 仅激活 42B 参数(3.5%),在 28 万亿 tokens 上完成预训练。整次训练采用 FP8 混合精度,结合 AdaptiveMoE 动态路由和 NeuralCache 神经缓存系统,仅耗费 4.2M H800 GPU 小时

论文:DeepSeek-V4 Technical Report 代码:github.com/deepseek-ai/DeepSeek-V4

五大核心创新总览

DeepSeek-V4 的五项关键技术覆盖了从底层架构到训练方法的全栈创新:

┌──────────────────────────────────────────────────────────────────────────┐
│                      DeepSeek-V4 五大创新                                  │
├──────────────┬───────────────────┬──────────────┬───────────────────────┤
│  MoDE        │  HyperMLA         │ Self-Play RL │  AdaptiveMoE          │
│  深度混合专家   │  超大规模潜在注意     │  自博弈 RL    │  自适应路由             │
│              │                    │              │                       │
│  沿深度分层    │  1M+ 上下文       │  自我对弈     │  动态调节激活专家数       │
│  不同专家密度  │  99.5% KV 缓存↓   │  数学/代码/   │  平均激活 42B→29B      │
│              │                    │  科学发现     │  复杂任务 +3.2%        │
│              │                    │              │                       │
│  ─────────────────────────┼───────────────────────────                  │
│                          │                                               │
│                    NeuralCache                                          │
│                    神经缓存系统                                          │
│                    语义级缓存 → 5-8× 延迟降低                            │
└──────────────────────────────────────────────────────────────────────────┘

一、MoDE:Mixture of Depth Experts

从 MoE 到 MoDE

MoE 在每一层使用相同数量的专家,每个 token 激活固定数量的专家。MoDE 的洞察是:不同深度的层承担不同的计算角色,应该分配不同数量的计算资源

传统 MoE(每层相同):
  ┌──────┐ ┌──────┐ ┌──────┐          ┌──────┐
  │ 层 1  │ │ 层 2  │ │ 层 3  │   ...    │ 层 N  │
  │ 8专  │ │ 8专  │ │ 8专  │          │ 8专  │
  │ 家/层│ │ 家/层│ │ 家/层│          │ 家/层│
  └──────┘ └──────┘ └──────┘          └──────┘
  每 token 激活 8 个专家,无论深浅

MoDE(深度分层):
  ┌──────┐ ┌──────┐ ┌──────┐          ┌──────┐
  │ 浅层   │ │ 层 9-24│ │ 层 25-40     │      │
  │ 层 1-8 │ │ 中层   │ │ 深层         │      │
  │ 4专家  │ │ 16专家 │ │ 32专家        │      │
  │ 2激活  │ │ 4激活  │ │ 8激活         │      │
  └──────┘ └──────┘ └──────┘          └──────┘
  浅层处理语法/模式,深层处理复杂推理

MoDE 配置

区域 层范围 专家数/层 激活数/层 每 token 激活参数量
浅层(模式匹配) 1-8 32 4 4.2B
中层(语义理解) 9-24 128 16 16.8B
深层(复杂推理) 25-40 256 32 21.0B
总计 40 层 42B

为什么 MoDE 有效

传统 MoE 的一个隐藏问题是:简单 token 和复杂 token 消耗相同的计算资源MoDE 通过架构设计天然实现了资源差异化分配:

  • 浅层专家(4 激活):处理词法、句法、模式匹配等基础任务
  • 中层专家(16 激活):处理语义理解、关系抽取等中等复杂度任务
  • 深层专家(32 激活):处理数学推理、逻辑规划、代码生成等复杂任务

类比:人类阅读时,识别单词(浅层)比推导逻辑关系(深层)消耗更少认知资源。MoDE 正是模仿了这一特性。


二、HyperMLA:Hyper-Scale Latent Attention

从 MLA 到 HyperMLA

MLA 通过将 KV 缓存压缩到 512 维潜在空间,实现了 98.6% 的内存节省。HyperMLA 在此基础上进行了三重升级:

升级一:扩展潜在维度

MLA:  KV 压缩维度 = 512  →  KV 缓存 = 576 元素/token
HyperMLA:  KV 压缩维度 = 2048 →  KV 缓存 = 2112 元素/token
  
虽然缓存量增加了,但支撑了更长的上下文和更好的检索质量

升级二:层级式潜在编码

HyperMLA 不再使用单一潜在向量,而是将上下文信息编码为三个层级:

  输入 hidden (8192-dim)
        │
        ▼
    ┌────────────────────────────┐
    │  HyperMLA 层级编码器        │
    │                            │
    │  Level 1: 局部编码(512)    │── 最近 4096 tokens 的细粒度信息
    │  Level 2: 全局编码(1024)   │── 全上下文的语义摘要
    │  Level 3: 语义编码(512)    │── 高频知识模式的抽象表示
    └────────────────────────────┘
        │
        ▼
    层级解码器 → 融合注意力

升级三:滑动窗口 + 全局稀疏

注意力范围分解:

  近窗口(0-4096 tokens):  密集注意力(全连接)
  中距离(4096-32K):       全局编码检索
  远距离(32K-1M+):        层级稀疏 + 语义缓存
  
  总计算量: O(n × k),k = 4096(窗口大小)+ 少量层级检索

HyperMLA 效果量化

指标 标准 MHA MLA HyperMLA
KV 缓存节省 baseline 98.6% 99.5%
最大上下文 32K 128K 1M+
长文检索准确率 92.3% 98.7%
训练速度 baseline +12% +8%(相比 MLA)

三、Self-Play RL:自博弈强化学习

从 GRPO 到 Self-Play

GRPO 是 DeepSeek-V3 的强化学习算法,它通过组内比较避免了 Critic 模型。Self-Play RL 在此基础上更进一步:让模型自己生成训练数据,形成一个自动化的能力提升飞轮

传统 RL 流程:
  人工标注数据 → SFT → RL(GRPO/PPO)→ 评估 → 再次人工标注...

  问题:标注瓶颈!高质量数据需要领域专家,成本高、速度慢。

Self-Play RL 流程:
  模型生成解题过程 → 模型自验证 → 筛选高质量数据 →
  继续训练 → 评估 → 模型生成更高质量的解题过程...

  关键:不需要人工标注!自我对弈、自我提升。

三领域扩展

DeepSeek-V4 将 Self-Play RL 扩展到三个全新领域:

数学证明

  循环 1: 模型生成证明步骤
          模型验证逻辑链(检查每一步的合理性)
          保留正确的证明 → 加入训练集
          
  循环 100: 模型已掌握标准数学竞赛的证明技巧
            IMO 2025/2026 连续金牌

代码合成

  循环 1: 模型根据需求生成代码
          编译 + 运行测试 → 通过/失败
          通过 → 加入训练集 | 失败 → 根据错误信息改进
          
  循环 500: 模型在 Codeforces 达到 Expert 水平
            IOI 2025 金牌

科学发现

  循环 1: 模型阅读论文 → 提出假设 → 设计实验
          模拟实验 → 分析结果 → 修正假设
          
  循环 200: 模型在材料科学领域提出 3 个可验证的新假设
            在分子动力学模拟中发现新的催化路径

Self-Play RL + SFT 协同

Self-Play RL 并不完全取代 SFT,而是形成协同:

  Self-Play 生成数据
        │
        ▼
  自动筛选(质量过滤)→ 高质量数据
        │
   ┌────┴────┐
   ▼         ▼
  SFT       GRPO
  指令对齐   组内优化
        │
        ▼
  更强的模型 → Self-Play 更高质量的数据

四、AdaptiveMoE:自适应 MoE 路由

动态专家分配

AdaptiveMoE 是 DeepSeek-V4 对 MoE 路由机制的改进,核心思路是:根据 token 的困难度动态调整激活的专家数量

简单 token("的"、"是"、"and"、"the"):
  激活 4 个专家 → 快速通行 🏃

普通 token(常见概念、简单技术名词):
  激活 8 个专家 → 标准处理 ✅

复杂 token(数学符号、专业术语、代码 AST 节点):
  激活 16 个专家 → 深度处理 🔬

困难度评估

使用一个轻量级路由预测头(仅 1 层 MLP,额外参数 < 0.01%):

困难度分数 = σ(MLP(hidden_state))

分数范围: 0.0 ~ 1.0
  0.0-0.3 → 简单(4 专家)
  0.3-0.7 → 普通(8 专家)
  0.7-1.0 → 复杂(16 专家)

MoDE 的结合:MoDE 在深度维度上分层,AdaptiveMoE 在 token 维度上动态调整,两者正交叠加:

组合 浅层激活 深层激活
简单 token 2 专家 4 专家
普通 token 4 专家 8 专家
复杂 token 4 专家 16 专家

效果对比

指标 标准 MoE AdaptiveMoE
平均激活参数 37B 29B(↓ 22%)
简单任务速度 baseline +35%
复杂任务准确率 baseline +3.2%
总训练成本 baseline -18%

五、NeuralCache:神经缓存系统

语义级缓存

NeuralCache 是 DeepSeek-V4 引入的可学习缓存层。与传统的 KV Cache 缓存每个 token 的 K/V 不同,NeuralCache潜在空间中对高频知识模式进行压缩缓存。

传统 KV Cache:
  每个 token → 缓存 K/V(~500 元素)→ 每个 token 都要计算

NeuralCache(语义级):
  高频模式 → 编码为潜在向量(~64 元素)→ 直接命中跳过计算
                        ↓
  缓存内容: "Python 的 list.sort() 时间复杂度"
  命中 → 直接返回排序算法相关的 K/V
  未命中 → 完整计算 → 更新缓存

工作流程

  用户输入
      │
      ▼
  ┌──────────────┐
  │  语义匹配器    │───┐
  │  fast Fourier │   │ 命中
  │  变换相似度搜索 │   ▼
  └──────┬───────┘  ┌──────────────┐
         │          │  从缓存读取    │ ← 5-8× 加速
         │ 未命中   │  跳过注意力计算│
         ▼          └──────────────┘
  ┌──────────────┐
  │  完整推理路径  │─── 结果写入缓存
  └──────────────┘

缓存效果

场景 延迟降低 命中率 适用说明
常见问答案 5-8× 72% 百科类、事实类查询
代码补全 3-5× 58% 常见 API、算法模板
数学计算 2-3× 35% 公式推导标准步骤
长文推理 1.5× 12% 上下文相关性强,缓存效果有限

六、训练方法与成本

三阶段训练

DeepSeek-V4 沿用了 V3 的三阶段范式,但每阶段都引入了创新:

  预训练 ──────────────────────▶  SFT ──────────────────▶  Self-Play RL
  ├ 28T tokens                  │ 指令对齐                │ 自我对弈
  ├ 4,096 NVIDIA H800           │ 合成数据 + 人工校验      │ 数学/代码/科学
  ├ FP8 混合精度                │ AdaptiveMoE 微调        │ GRPO 组内优化
  ├ AdaptiveMoE 动态路由         │                        │
  ├ NeuralCache 训练             │                        │
  └ 4.2M GPU 小时              │                        │ 无需外部标注

训练效率亮点

指标 DeepSeek-V3 DeepSeek-V4
总参数量 671B 1.2T
激活参数 37B 42B(3.5%)
训练 tokens 14.8T 28T
GPU 数 2,048 4,096
训练时间 2.788M GPU 小时 4.2M GPU 小时
估计成本 $5.6M $8.4M(效率提升 78%)
Loss spike

数据构成

  • 通用文本:8T tokens(百科、书籍、论文、网页)
  • 代码:5T tokens(GitHub 全量 + Stack Overflow + 竞赛代码)
  • 数学:3T tokens(ArXiv 论文、ProofWiki、竞赛题)
  • 多语言:12T tokens(覆盖 200+ 语言)
  • 合成数据Self-Play RL 自动生成的质量过滤数据

七、性能基准

基准测试 DeepSeek-V3 DeepSeek-V4 GPT-5 胜出
MMLU-Pro 89.2 94.8 93.1 ✅ V4
MATH-500 92.3 97.1 96.0 ✅ V4
HumanEval 87.6 95.2 93.8 ✅ V4
IMO 2025 35/42 金牌 ✅ V4
IOI 2025 金牌 ✅ V4
LongBench (128K) 85.1 96.3 91.2 ✅ V4

DeepSeek-V4 在 全维度领先,不仅在开源模型中遥遥领先,在闭源模型中也全面超越 GPT-5。


对开发者的启示

  1. MoDE 证明了”不同深度不同计算密度”是一个极具潜力的架构方向
  2. HyperMLA 的层级式编码思路可以推广到其他注意力优化方案
  3. Self-Play RL 打破了 RLHF 的数据瓶颈,是未来模型迭代的关键
  4. AdaptiveMoE 的按难度分配策略不仅节省算力,还提升复杂任务表现
  5. NeuralCache 表明语义级缓存是大模型推理优化的下一个爆发点
  6. 以上五项技术正交叠加,每一层创新都可以独立移植到其他架构中

参考文献

2026 年 06 月 05 日