← 名词百科

AdaptiveMoE

分类:模型架构

自适应 MoE 路由(Adaptive Mixture of Experts)是 DeepSeek-V4 对 MoE 路由机制的改进。

核心思路

传统 MoE 对所有 token 一视同仁,每个 token 激活固定数量的专家。AdaptiveMoE 根据输入困难度动态调整激活专家数量

简单 token(如"的"、"是"、"和"):
  激活 2-4 个专家 → 快速处理

普通 token(普通词汇、简单概念):
  激活 8 个专家 → 标准处理

复杂 token(专业术语、数学符号):
  激活 16 个专家 → 深度处理

困难度评估

使用一个轻量级路由预测头(仅 1 层 MLP,额外参数 < 0.01%)评估每个 token 的困难度:

困难度分数 = σ(MLP(hidden_state))
0.0 → 简单(4 专家)
0.5 → 普通(8 专家)
1.0 → 复杂(16 专家)

效果

指标 标准 MoE AdaptiveMoE
平均激活参数 37B 29B(↓ 22%)
复杂任务准确率 baseline +3.2%
推理速度 baseline +18%

📎 出处文章