MoDE – Oopvo – 分享学习内容~不断完善ing

Mixture of Depth Experts（深度混合专家）是 DeepSeek-V4 引入的新型架构，沿深度维度分配不同计算密度的专家层。

核心思想

传统 MoE 在每一层使用相同数量的专家，而 MoDE 在不同深度层使用不同数量和类型的专家：

                 MoDE 架构示意
                 
  浅层（语法/模式匹配）:
  ┌──────────────────────────────┐
  │  层 1-8:  4 个轻量专家/层     │
  │  每 token 激活 2 个           │  ← 快速模式匹配
  └──────────────────────────────┘
  
  中层（语义理解）:
  ┌──────────────────────────────┐
  │  层 9-24: 16 个标准专家/层    │
  │  每 token 激活 4 个           │  ← 深度语义理解
  └──────────────────────────────┘
  
  深层（推理/规划）:
  ┌──────────────────────────────┐
  │  层 25-40: 32 个重型专家/层   │
  │  每 token 激活 8 个           │  ← 复杂推理
  └──────────────────────────────┘

配置参数

参数	数值
总参数量	1.2T
每 token 激活	42B（3.5%）
总层数	40
浅层专家	32/层（4 激活）× 8 层
中层专家	128/层（16 激活）× 16 层
深层专家	256/层（32 激活）× 16 层

核心思想

配置参数

Page Settings