Qwen3 技术报告精读

🏷️ 关键词

2025 年 4 月 29 日发布，Qwen3 是阿里巴巴通义千问系列的最新成员。235B 总参数仅激活 22B（9.4%），多项基准超越 DeepSeek-R1 和 OpenAI o1，Apache 2.0 协议开源。

一、模型家族概览

Qwen 3 提供了完整的模型家族：

类型	规模	特点
密集模型	0.6B / 1.7B / 4B / 8B / 14B / 32B	高效率，单卡可跑
MoE 旗舰	235B-A22B（总 235B，激活 22B）	性能巅峰
MoE 中型	30B-A3B	性价比之选

最令人震惊的数据：Qwen3-4B（40 亿参数）性能匹敌 Qwen2.5-72B（720 亿参数）——18 倍效率提升！而 Qwen3-0.6B 仅需 1.49GB 内存即可本地运行。

二、MoE 架构深度解析

核心配置

参数	Qwen3-235B	DeepSeek-V3	Llama 4 Maverick
总参数量	235B	671B	400B
激活参数	22B（9.4%）	37B（5.5%）	17B（4.3%）
专家池	128（选 8）	256（选 8+1 共享）	128（选 1+1 共享）
共享专家	❌ 无	✅ 有	✅ 有
注意力机制	GQA	MLA	GQA
MoE 模式	密集层/MoE 层交替	全部 MoE（前 3 层 dense）	密集层/MoE 层交替
上下文	32K（YaRN 可扩至 131K）	128K	1M
训练数据	36T tokens	14.8T	—
许可证	Apache 2.0	自定义	自定义

关键设计决策

1. 为什么不用共享专家？

DeepSeek-V3 和 Llama 4 都使用了一个”共享专家”——每个 token 都会激活它。Qwen3 团队实验发现共享专家没有带来可衡量的收益，于是直接去掉，简化了推理优化。

DeepSeek-V3 的 MoE 层:
  输入 → [共享专家（始终激活）] + [128 个路由专家中选 8 个]
         = 每 token 激活 9 个专家 ✅

Qwen3 的 MoE 层:
  输入 → [128 个路由专家中选 8 个]
         = 每 token 激活 8 个专家（更简单，效果一样）

2. 为什么用 GQA 而不是 MLA？

DeepSeek-V3 的 MLA 通过低秩压缩大幅减少 KV 缓存，但工程实现复杂。Qwen3 选择了更简单的 GQA：

GQA（Qwen3 的选择）:
  优点：实现简单，生态成熟，与现有框架兼容
  缺点：KV 缓存比 MLA 大

MLA（DeepSeek 的选择）:
  优点：KV 缓存减少 97%，推理更高效
  缺点：需要自定义 kernel，工程复杂度高

结论：两种方案都可行，取决于团队工程能力

3. 密集/MoE 交替设计

Qwen3 在 94 个 Transformer 块中交替使用密集层和 MoE 层。这类似于 Llama 4 的设计，但与 DeepSeek 的全部 MoE 不同。

Qwen3 的 94 层结构:
  层 1: 密集 FFN → 层 2: MoE(8/128) → 层 3: 密集 → 层 4: MoE → ...

  密集层处理通用知识，MoE 层处理专业分工
  交替设计比全 MoE 更稳定，训练更容易

MoE 设计模式对比（2025）

模型	专家池	激活策略	共享专家	设计哲学
Qwen3	128	Top-8	❌	多专家专精
DeepSeek-V3	256	Top-8 + 1 共享	✅	极大规模
Llama 4	128	Top-1 + 1 共享	✅	少专家保守
Kimi K2	256+	Top-8 + 1 共享	✅	超大容量

三、训练方法

训练数据

36 万亿 tokens（DeepSeek-V3 的 2.4 倍，Llama 3 的 2.3 倍）
多语言混合：英语 ~60%，中文 ~25%，其他语言 ~15%
代码和数学数据大幅上采样
多阶段质量过滤

训练流程

Phase 1 — 预训练:
  36T tokens
  FP8 混合精度
  MoE 分布式训练
  连续训练（无中断）

Phase 2 — SFT（监督微调）:
  百万级指令数据
  多语言对齐
  代码 + 数学 + 通用指令
  
Phase 3 — RL（强化学习）:
  组内比较策略（类似 GRPO）
  多奖励模型
  安全对齐

Qwen3 在 RL 阶段也使用了类似 GRPO 的组内比较策略（而非传统 PPO），这与 DeepSeek-V3 的设计一致。

四、混合推理：快思考 + 慢思考

Qwen3 是首个实现混合推理的开源模型——同一个模型同时支持两种推理模式：

快速思考（Direct Response）:
  输入问题 → 直接生成答案
  适用：简单问答、事实查询
  特点：低延迟，低成本

慢速思考（Multi-step Reasoning）:
  输入问题 → 展开思考链 → 逐步推理 → 生成答案
  适用：数学证明、逻辑推理、代码调试
  特点：高精度，可控制推理深度

「思考预算」（Thinking Budget）机制:
  用户可以设置 max_thinking_tokens 来控制推理深度
  简单问题设少 → 快速回答
  复杂问题设多 → 深度推理
  同一个模型，两种模式，自由切换

五、性能基准

Qwen3-235B vs DeepSeek-R1 vs Llama 4

基准测试	Qwen3-235B	DeepSeek-R1	胜出
AIME 2025（数学奥赛）	81.5	70.0	✅ Qwen3
AIME 2024	85.7	79.8	✅ Qwen3
LiveCodeBench v3（编程）	70.7	64.3	✅ Qwen3
Arena-Hard（人类偏好）	95.6	93.2	✅ Qwen3
CodeForces（竞赛编程）	2056 ELO	2029	✅ Qwen3
MMLU	~86.0	~84.5	✅ Qwen3

Qwen3-235B 总参数量仅 DeepSeek-R1 的 1/3，但在几乎所有基准上全面超越！

密集模型的惊人效率

模型	参数量	AIME 2025	效率比
Qwen3-32B（密集）	32B	72.9	⭐⭐⭐⭐⭐
DeepSeek-R1	~671B	70.0	⭐
Qwen3-4B	4B	匹配 Qwen2.5-72B	18× 提升

六、Qwen3 vs DeepSeek-V3：架构哲学对比

维度	Qwen3	DeepSeek-V3
总参数量	235B（够用就好）	671B（越大越好）
激活参数	22B（9.4%）	37B（5.5%）
专家策略	无共享专家，精简	共享专家 + 256 专家池
注意力	GQA（成熟稳定）	MLA（极致创新）
推理模式	混合推理（快+慢）	标准推理
训练数据	36T（更多数据）	14.8T（更精炼）
开源协议	Apache 2.0 ✅	自定义 ⚠️
核心优势	效率、中文、混合推理	推理速度、长上下文

一句话总结：Qwen3 追求”用更少的参数达到更好的效果”，DeepSeek-V3 追求”用更大的模型覆盖更多场景”。两种路线各有千秋。

七、推理优化

稀疏激活：MoE 架构每 token 仅激活 8/128 专家（6.25%）
KV 缓存优化：结合 GQA 降低访存
投机解码：自研投机采样加速生成
量化部署：FP8/INT4 量化支持
本地运行：0.6B 仅需 1.49GB 内存，手机可跑

参考文献

2026 年 06 月 06 日