← 名词百科

MoDE

分类:模型架构

Mixture of Depth Experts(深度混合专家)是 DeepSeek-V4 引入的新型架构,沿深度维度分配不同计算密度的专家层。

核心思想

传统 MoE 在每一层使用相同数量的专家,而 MoDE 在不同深度层使用不同数量和类型的专家

                 MoDE 架构示意
                 
  浅层(语法/模式匹配):
  ┌──────────────────────────────┐
  │  层 1-8:  4 个轻量专家/层     │
  │  每 token 激活 2 个           │  ← 快速模式匹配
  └──────────────────────────────┘
  
  中层(语义理解):
  ┌──────────────────────────────┐
  │  层 9-24: 16 个标准专家/层    │
  │  每 token 激活 4 个           │  ← 深度语义理解
  └──────────────────────────────┘
  
  深层(推理/规划):
  ┌──────────────────────────────┐
  │  层 25-40: 32 个重型专家/层   │
  │  每 token 激活 8 个           │  ← 复杂推理
  └──────────────────────────────┘

配置参数

参数 数值
总参数量 1.2T
每 token 激活 42B(3.5%)
总层数 40
浅层专家 32/层(4 激活)× 8 层
中层专家 128/层(16 激活)× 16 层
深层专家 256/层(32 激活)× 16 层

📎 出处文章