Qwen3 技术报告精读

🏷️ 关键词

2025 年 4 月 29 日发布,Qwen3 是阿里巴巴通义千问系列的最新成员。235B 总参数仅激活 22B(9.4%),多项基准超越 DeepSeek-R1 和 OpenAI o1,Apache 2.0 协议开源。


一、模型家族概览

Qwen 3 提供了完整的模型家族:

类型 规模 特点
密集模型 0.6B / 1.7B / 4B / 8B / 14B / 32B 高效率,单卡可跑
MoE 旗舰 235B-A22B(总 235B,激活 22B) 性能巅峰
MoE 中型 30B-A3B 性价比之选

最令人震惊的数据:Qwen3-4B(40 亿参数)性能匹敌 Qwen2.5-72B(720 亿参数)——18 倍效率提升!而 Qwen3-0.6B 仅需 1.49GB 内存即可本地运行。


二、MoE 架构深度解析

核心配置

参数 Qwen3-235B DeepSeek-V3 Llama 4 Maverick
总参数量 235B 671B 400B
激活参数 22B(9.4%) 37B(5.5%) 17B(4.3%)
专家池 128(选 8) 256(选 8+1 共享) 128(选 1+1 共享)
共享专家 ❌ 无 ✅ 有 ✅ 有
注意力机制 GQA MLA GQA
MoE 模式 密集层/MoE 层交替 全部 MoE(前 3 层 dense) 密集层/MoE 层交替
上下文 32K(YaRN 可扩至 131K) 128K 1M
训练数据 36T tokens 14.8T
许可证 Apache 2.0 自定义 自定义

关键设计决策

1. 为什么不用共享专家?

DeepSeek-V3 和 Llama 4 都使用了一个”共享专家”——每个 token 都会激活它。Qwen3 团队实验发现共享专家没有带来可衡量的收益,于是直接去掉,简化了推理优化。

DeepSeek-V3 的 MoE 层:
  输入 → [共享专家(始终激活)] + [128 个路由专家中选 8 个]
         = 每 token 激活 9 个专家 ✅

Qwen3 的 MoE 层:
  输入 → [128 个路由专家中选 8 个]
         = 每 token 激活 8 个专家(更简单,效果一样)

2. 为什么用 GQA 而不是 MLA?

DeepSeek-V3 的 MLA 通过低秩压缩大幅减少 KV 缓存,但工程实现复杂。Qwen3 选择了更简单的 GQA

GQA(Qwen3 的选择):
  优点:实现简单,生态成熟,与现有框架兼容
  缺点:KV 缓存比 MLA 大

MLA(DeepSeek 的选择):
  优点:KV 缓存减少 97%,推理更高效
  缺点:需要自定义 kernel,工程复杂度高

结论:两种方案都可行,取决于团队工程能力

3. 密集/MoE 交替设计

Qwen3 在 94 个 Transformer 块中交替使用密集层和 MoE 层。这类似于 Llama 4 的设计,但与 DeepSeek 的全部 MoE 不同。

Qwen3 的 94 层结构:
  层 1: 密集 FFN → 层 2: MoE(8/128) → 层 3: 密集 → 层 4: MoE → ...

  密集层处理通用知识,MoE 层处理专业分工
  交替设计比全 MoE 更稳定,训练更容易

MoE 设计模式对比(2025)

模型 专家池 激活策略 共享专家 设计哲学
Qwen3 128 Top-8 多专家专精
DeepSeek-V3 256 Top-8 + 1 共享 极大规模
Llama 4 128 Top-1 + 1 共享 少专家保守
Kimi K2 256+ Top-8 + 1 共享 超大容量

三、训练方法

训练数据

  • 36 万亿 tokens(DeepSeek-V3 的 2.4 倍,Llama 3 的 2.3 倍)
  • 多语言混合:英语 ~60%,中文 ~25%,其他语言 ~15%
  • 代码和数学数据大幅上采样
  • 多阶段质量过滤

训练流程

Phase 1 — 预训练:
  36T tokens
  FP8 混合精度
  MoE 分布式训练
  连续训练(无中断)

Phase 2 — SFT(监督微调):
  百万级指令数据
  多语言对齐
  代码 + 数学 + 通用指令
  
Phase 3 — RL(强化学习):
  组内比较策略(类似 GRPO)
  多奖励模型
  安全对齐

Qwen3 在 RL 阶段也使用了类似 GRPO 的组内比较策略(而非传统 PPO),这与 DeepSeek-V3 的设计一致。


四、混合推理:快思考 + 慢思考

Qwen3 是首个实现混合推理的开源模型——同一个模型同时支持两种推理模式:

快速思考(Direct Response):
  输入问题 → 直接生成答案
  适用:简单问答、事实查询
  特点:低延迟,低成本

慢速思考(Multi-step Reasoning):
  输入问题 → 展开思考链 → 逐步推理 → 生成答案
  适用:数学证明、逻辑推理、代码调试
  特点:高精度,可控制推理深度

「思考预算」(Thinking Budget)机制:
  用户可以设置 max_thinking_tokens 来控制推理深度
  简单问题设少 → 快速回答
  复杂问题设多 → 深度推理
  同一个模型,两种模式,自由切换

五、性能基准

Qwen3-235B vs DeepSeek-R1 vs Llama 4

基准测试 Qwen3-235B DeepSeek-R1 胜出
AIME 2025(数学奥赛) 81.5 70.0 ✅ Qwen3
AIME 2024 85.7 79.8 ✅ Qwen3
LiveCodeBench v3(编程) 70.7 64.3 ✅ Qwen3
Arena-Hard(人类偏好) 95.6 93.2 ✅ Qwen3
CodeForces(竞赛编程) 2056 ELO 2029 ✅ Qwen3
MMLU ~86.0 ~84.5 ✅ Qwen3

Qwen3-235B 总参数量仅 DeepSeek-R1 的 1/3,但在几乎所有基准上全面超越!

密集模型的惊人效率

模型 参数量 AIME 2025 效率比
Qwen3-32B(密集) 32B 72.9 ⭐⭐⭐⭐⭐
DeepSeek-R1 ~671B 70.0
Qwen3-4B 4B 匹配 Qwen2.5-72B 18× 提升

六、Qwen3 vs DeepSeek-V3:架构哲学对比

维度 Qwen3 DeepSeek-V3
总参数量 235B(够用就好) 671B(越大越好)
激活参数 22B(9.4%) 37B(5.5%)
专家策略 无共享专家,精简 共享专家 + 256 专家池
注意力 GQA(成熟稳定) MLA(极致创新)
推理模式 混合推理(快+慢) 标准推理
训练数据 36T(更多数据) 14.8T(更精炼)
开源协议 Apache 2.0 ✅ 自定义 ⚠️
核心优势 效率、中文、混合推理 推理速度、长上下文

一句话总结:Qwen3 追求”用更少的参数达到更好的效果”,DeepSeek-V3 追求”用更大的模型覆盖更多场景”。两种路线各有千秋。


七、推理优化

  • 稀疏激活:MoE 架构每 token 仅激活 8/128 专家(6.25%)
  • KV 缓存优化:结合 GQA 降低访存
  • 投机解码:自研投机采样加速生成
  • 量化部署:FP8/INT4 量化支持
  • 本地运行:0.6B 仅需 1.49GB 内存,手机可跑

参考文献

2026 年 06 月 06 日