AdaptiveMoE

自适应 MoE 路由（Adaptive Mixture of Experts）是 DeepSeek-V4 对 MoE 路由机制的改进。

核心思路

传统 MoE 对所有 token 一视同仁，每个 token 激活固定数量的专家。AdaptiveMoE 根据输入困难度动态调整激活专家数量：

简单 token（如"的"、"是"、"和"）:
  激活 2-4 个专家 → 快速处理

普通 token（普通词汇、简单概念）:
  激活 8 个专家 → 标准处理

复杂 token（专业术语、数学符号）:
  激活 16 个专家 → 深度处理

使用一个轻量级路由预测头（仅 1 层 MLP，额外参数 < 0.01%）评估每个 token 的困难度：

困难度分数 = σ(MLP(hidden_state))
0 → 简单（4 专家）
5 → 普通（8 专家）
0 → 复杂（16 专家）