MoDE
Mixture of Depth Experts(深度混合专家)是 DeepSeek-V4 引入的新型架构,沿深度维度分配不同计算密度的专家层。
核心思想
传统 MoE 在每一层使用相同数量的专家,而 MoDE 在不同深度层使用不同数量和类型的专家:
MoDE 架构示意
浅层(语法/模式匹配):
┌──────────────────────────────┐
│ 层 1-8: 4 个轻量专家/层 │
│ 每 token 激活 2 个 │ ← 快速模式匹配
└──────────────────────────────┘
中层(语义理解):
┌──────────────────────────────┐
│ 层 9-24: 16 个标准专家/层 │
│ 每 token 激活 4 个 │ ← 深度语义理解
└──────────────────────────────┘
深层(推理/规划):
┌──────────────────────────────┐
│ 层 25-40: 32 个重型专家/层 │
│ 每 token 激活 8 个 │ ← 复杂推理
└──────────────────────────────┘
配置参数
| 参数 | 数值 |
|---|---|
| 总参数量 | 1.2T |
| 每 token 激活 | 42B(3.5%) |
| 总层数 | 40 |
| 浅层专家 | 32/层(4 激活)× 8 层 |
| 中层专家 | 128/层(16 激活)× 16 层 |
| 深层专家 | 256/层(32 激活)× 16 层 |