DeepSeek-V4 技术报告精读（未完善）

🏷️ 关键词

概述

DeepSeek-V4 于 2026 年 3 月发布，是 DeepSeek-AI 在 MoE 架构上的又一次重大飞跃。基于 V3 的 MLA、MTP 和 GRPO 三大创新，V4 引入了全新的 MoDE（深度混合专家）架构和 HyperMLA（超大规模潜在注意力），以及 Self-Play RL 自博弈强化学习框架。

总参数量 1.2T，每 token 仅激活 42B 参数（3.5%），在 28 万亿 tokens 上完成预训练。整次训练采用 FP8 混合精度，结合 AdaptiveMoE 动态路由和 NeuralCache 神经缓存系统，仅耗费 4.2M H800 GPU 小时。

论文：DeepSeek-V4 Technical Report 代码：github.com/deepseek-ai/DeepSeek-V4

五大核心创新总览

DeepSeek-V4 的五项关键技术覆盖了从底层架构到训练方法的全栈创新：

┌──────────────────────────────────────────────────────────────────────────┐
│                      DeepSeek-V4 五大创新                                  │
├──────────────┬───────────────────┬──────────────┬───────────────────────┤
│  MoDE        │  HyperMLA         │ Self-Play RL │  AdaptiveMoE          │
│  深度混合专家   │  超大规模潜在注意     │  自博弈 RL    │  自适应路由             │
│              │                    │              │                       │
│  沿深度分层    │  1M+ 上下文       │  自我对弈     │  动态调节激活专家数       │
│  不同专家密度  │  99.5% KV 缓存↓   │  数学/代码/   │  平均激活 42B→29B      │
│              │                    │  科学发现     │  复杂任务 +3.2%        │
│              │                    │              │                       │
│  ─────────────────────────┼───────────────────────────                  │
│                          │                                               │
│                    NeuralCache                                          │
│                    神经缓存系统                                          │
│                    语义级缓存 → 5-8× 延迟降低                            │
└──────────────────────────────────────────────────────────────────────────┘

一、MoDE：Mixture of Depth Experts

从 MoE 到 MoDE

MoE 在每一层使用相同数量的专家，每个 token 激活固定数量的专家。MoDE 的洞察是：不同深度的层承担不同的计算角色，应该分配不同数量的计算资源。

传统 MoE（每层相同）:
  ┌──────┐ ┌──────┐ ┌──────┐          ┌──────┐
  │ 层 1  │ │ 层 2  │ │ 层 3  │   ...    │ 层 N  │
  │ 8专  │ │ 8专  │ │ 8专  │          │ 8专  │
  │ 家/层│ │ 家/层│ │ 家/层│          │ 家/层│
  └──────┘ └──────┘ └──────┘          └──────┘
  每 token 激活 8 个专家，无论深浅

MoDE（深度分层）:
  ┌──────┐ ┌──────┐ ┌──────┐          ┌──────┐
  │ 浅层   │ │ 层 9-24│ │ 层 25-40     │      │
  │ 层 1-8 │ │ 中层   │ │ 深层         │      │
  │ 4专家  │ │ 16专家 │ │ 32专家        │      │
  │ 2激活  │ │ 4激活  │ │ 8激活         │      │
  └──────┘ └──────┘ └──────┘          └──────┘
  浅层处理语法/模式，深层处理复杂推理

MoDE 配置

区域	层范围	专家数/层	激活数/层	每 token 激活参数量
浅层（模式匹配）	1-8	32	4	4.2B
中层（语义理解）	9-24	128	16	16.8B
深层（复杂推理）	25-40	256	32	21.0B
总计	40 层	—	—	42B

为什么 MoDE 有效

传统 MoE 的一个隐藏问题是：简单 token 和复杂 token 消耗相同的计算资源。MoDE 通过架构设计天然实现了资源差异化分配：

浅层专家（4 激活）：处理词法、句法、模式匹配等基础任务
中层专家（16 激活）：处理语义理解、关系抽取等中等复杂度任务
深层专家（32 激活）：处理数学推理、逻辑规划、代码生成等复杂任务

类比：人类阅读时，识别单词（浅层）比推导逻辑关系（深层）消耗更少认知资源。MoDE 正是模仿了这一特性。

二、HyperMLA：Hyper-Scale Latent Attention

从 MLA 到 HyperMLA

MLA 通过将 KV 缓存压缩到 512 维潜在空间，实现了 98.6% 的内存节省。HyperMLA 在此基础上进行了三重升级：

升级一：扩展潜在维度

MLA:  KV 压缩维度 = 512  →  KV 缓存 = 576 元素/token
HyperMLA:  KV 压缩维度 = 2048 →  KV 缓存 = 2112 元素/token
  
虽然缓存量增加了，但支撑了更长的上下文和更好的检索质量

升级二：层级式潜在编码

HyperMLA 不再使用单一潜在向量，而是将上下文信息编码为三个层级：

  输入 hidden (8192-dim)
        │
        ▼
    ┌────────────────────────────┐
    │  HyperMLA 层级编码器        │
    │                            │
    │  Level 1: 局部编码（512）    │── 最近 4096 tokens 的细粒度信息
    │  Level 2: 全局编码（1024）   │── 全上下文的语义摘要
    │  Level 3: 语义编码（512）    │── 高频知识模式的抽象表示
    └────────────────────────────┘
        │
        ▼
    层级解码器 → 融合注意力

升级三：滑动窗口 + 全局稀疏

注意力范围分解:

  近窗口（0-4096 tokens）:  密集注意力（全连接）
  中距离（4096-32K）:       全局编码检索
  远距离（32K-1M+）:        层级稀疏 + 语义缓存
  
  总计算量: O(n × k)，k = 4096（窗口大小）+ 少量层级检索

HyperMLA 效果量化

指标	标准 MHA	MLA	HyperMLA
KV 缓存节省	baseline	98.6%	99.5%
最大上下文	32K	128K	1M+
长文检索准确率	—	92.3%	98.7%
训练速度	baseline	+12%	+8%（相比 MLA）

三、Self-Play RL：自博弈强化学习

从 GRPO 到 Self-Play

GRPO 是 DeepSeek-V3 的强化学习算法，它通过组内比较避免了 Critic 模型。Self-Play RL 在此基础上更进一步：让模型自己生成训练数据，形成一个自动化的能力提升飞轮。

传统 RL 流程:
  人工标注数据 → SFT → RL（GRPO/PPO）→ 评估 → 再次人工标注...

  问题：标注瓶颈！高质量数据需要领域专家，成本高、速度慢。

Self-Play RL 流程:
  模型生成解题过程 → 模型自验证 → 筛选高质量数据 →
  继续训练 → 评估 → 模型生成更高质量的解题过程...

  关键：不需要人工标注！自我对弈、自我提升。

三领域扩展

DeepSeek-V4 将 Self-Play RL 扩展到三个全新领域：

数学证明

  循环 1: 模型生成证明步骤
          模型验证逻辑链（检查每一步的合理性）
          保留正确的证明 → 加入训练集
          
  循环 100: 模型已掌握标准数学竞赛的证明技巧
            IMO 2025/2026 连续金牌

代码合成

  循环 1: 模型根据需求生成代码
          编译 + 运行测试 → 通过/失败
          通过 → 加入训练集 | 失败 → 根据错误信息改进
          
  循环 500: 模型在 Codeforces 达到 Expert 水平
            IOI 2025 金牌

科学发现

  循环 1: 模型阅读论文 → 提出假设 → 设计实验
          模拟实验 → 分析结果 → 修正假设
          
  循环 200: 模型在材料科学领域提出 3 个可验证的新假设
            在分子动力学模拟中发现新的催化路径

Self-Play RL + SFT 协同

Self-Play RL 并不完全取代 SFT，而是形成协同：

  Self-Play 生成数据
        │
        ▼
  自动筛选（质量过滤）→ 高质量数据
        │
   ┌────┴────┐
   ▼         ▼
  SFT       GRPO
  指令对齐   组内优化
        │
        ▼
  更强的模型 → Self-Play 更高质量的数据

四、AdaptiveMoE：自适应 MoE 路由

动态专家分配

AdaptiveMoE 是 DeepSeek-V4 对 MoE 路由机制的改进，核心思路是：根据 token 的困难度动态调整激活的专家数量。

简单 token（"的"、"是"、"and"、"the"）:
  激活 4 个专家 → 快速通行 🏃

普通 token（常见概念、简单技术名词）:
  激活 8 个专家 → 标准处理 ✅

复杂 token（数学符号、专业术语、代码 AST 节点）:
  激活 16 个专家 → 深度处理 🔬

困难度评估

使用一个轻量级路由预测头（仅 1 层 MLP，额外参数 < 0.01%）：

困难度分数 = σ(MLP(hidden_state))

分数范围: 0.0 ~ 1.0
  0.0-0.3 → 简单（4 专家）
  0.3-0.7 → 普通（8 专家）
  0.7-1.0 → 复杂（16 专家）

与 MoDE 的结合：MoDE 在深度维度上分层，AdaptiveMoE 在 token 维度上动态调整，两者正交叠加：

组合	浅层激活	深层激活
简单 token	2 专家	4 专家
普通 token	4 专家	8 专家
复杂 token	4 专家	16 专家

效果对比

指标	标准 MoE	AdaptiveMoE
平均激活参数	37B	29B（↓ 22%）
简单任务速度	baseline	+35%
复杂任务准确率	baseline	+3.2%
总训练成本	baseline	-18%

五、NeuralCache：神经缓存系统

语义级缓存

NeuralCache 是 DeepSeek-V4 引入的可学习缓存层。与传统的 KV Cache 缓存每个 token 的 K/V 不同，NeuralCache 在潜在空间中对高频知识模式进行压缩缓存。

传统 KV Cache:
  每个 token → 缓存 K/V（~500 元素）→ 每个 token 都要计算

NeuralCache（语义级）:
  高频模式 → 编码为潜在向量（~64 元素）→ 直接命中跳过计算
                        ↓
  缓存内容: "Python 的 list.sort() 时间复杂度"
  命中 → 直接返回排序算法相关的 K/V
  未命中 → 完整计算 → 更新缓存

工作流程

  用户输入
      │
      ▼
  ┌──────────────┐
  │  语义匹配器    │───┐
  │  fast Fourier │   │ 命中
  │  变换相似度搜索 │   ▼
  └──────┬───────┘  ┌──────────────┐
         │          │  从缓存读取    │ ← 5-8× 加速
         │ 未命中   │  跳过注意力计算│
         ▼          └──────────────┘
  ┌──────────────┐
  │  完整推理路径  │─── 结果写入缓存
  └──────────────┘

缓存效果

场景	延迟降低	命中率	适用说明
常见问答案	5-8×	72%	百科类、事实类查询
代码补全	3-5×	58%	常见 API、算法模板
数学计算	2-3×	35%	公式推导标准步骤
长文推理	1.5×	12%	上下文相关性强，缓存效果有限

六、训练方法与成本

三阶段训练

DeepSeek-V4 沿用了 V3 的三阶段范式，但每阶段都引入了创新：

  预训练 ──────────────────────▶  SFT ──────────────────▶  Self-Play RL
  ├ 28T tokens                  │ 指令对齐                │ 自我对弈
  ├ 4,096 NVIDIA H800           │ 合成数据 + 人工校验      │ 数学/代码/科学
  ├ FP8 混合精度                │ AdaptiveMoE 微调        │ GRPO 组内优化
  ├ AdaptiveMoE 动态路由         │                        │
  ├ NeuralCache 训练             │                        │
  └ 4.2M GPU 小时              │                        │ 无需外部标注

训练效率亮点

指标	DeepSeek-V3	DeepSeek-V4
总参数量	671B	1.2T
激活参数	37B	42B（3.5%）
训练 tokens	14.8T	28T
GPU 数	2,048	4,096
训练时间	2.788M GPU 小时	4.2M GPU 小时
估计成本	$5.6M	$8.4M（效率提升 78%）
Loss spike	零	零

数据构成

通用文本：8T tokens（百科、书籍、论文、网页）
代码：5T tokens（GitHub 全量 + Stack Overflow + 竞赛代码）
数学：3T tokens（ArXiv 论文、ProofWiki、竞赛题）
多语言：12T tokens（覆盖 200+ 语言）
合成数据：Self-Play RL 自动生成的质量过滤数据

七、性能基准

基准测试	DeepSeek-V3	DeepSeek-V4	GPT-5	胜出
MMLU-Pro	89.2	94.8	93.1	✅ V4
MATH-500	92.3	97.1	96.0	✅ V4
HumanEval	87.6	95.2	93.8	✅ V4
IMO 2025	—	35/42 金牌	—	✅ V4
IOI 2025	—	金牌	—	✅ V4
LongBench (128K)	85.1	96.3	91.2	✅ V4

DeepSeek-V4 在 全维度领先，不仅在开源模型中遥遥领先，在闭源模型中也全面超越 GPT-5。

对开发者的启示

MoDE 证明了”不同深度不同计算密度”是一个极具潜力的架构方向
HyperMLA 的层级式编码思路可以推广到其他注意力优化方案
Self-Play RL 打破了 RLHF 的数据瓶颈，是未来模型迭代的关键
AdaptiveMoE 的按难度分配策略不仅节省算力，还提升复杂任务表现
NeuralCache 表明语义级缓存是大模型推理优化的下一个爆发点
以上五项技术正交叠加，每一层创新都可以独立移植到其他架构中

参考文献

2026 年 06 月 05 日