Transformer
Transformer 是一种基于自注意力机制的深度神经网络架构,2017 年由 Google 在论文 “Attention Is All You Need” 中提出。它摒弃了传统的循环/卷积结构,完全依赖注意力机制建模序列数据中的长距离依赖关系,奠定了现代大语言模型的基础。
完整架构图

输出序列
▲
│
┌───┴──────────────────┐
│ Linear + Softmax │ ← 映射到词表概率
└───┬──────────────────┘
│
┌───┴──────────────────┐
│ Add & Norm │
│ Feed Forward │ ← 两层线性变换 + ReLU
│ (position-wise) │
└───┬──────────────────┘
│
┌───┴──────────────────┐
│ Add & Norm │
│ Multi-Head │ ← 多头自注意力(8 个头)
│ Attention │
└───┬──────────────────┘ ↑ 如果是 Decoder,这里还有 Cross-Attention
│ │
│ + Positional Encoding │
│ │
输入序列 ───────────────────────┘
核心组件
- Attention:每个位置关注所有位置,一步建立长距离连接
- Multi-Head Attention:8 个头并行,从不同子空间关注信息
- Positional Encoding:注入位置信息,解决置换不变性
- 前馈网络(FFN):每个位置独立的非线性变换
- 残差连接 + 层归一化:稳定深层网络训练
输入输出流程
输入: "我 爱 学习"
1. Token Embedding: 每个词映射为 512 维向量
2. + Positional Encoding: 加入位置信号
3. Multi-Head Self-Attention: 每个词关注其他词
4. Feed Forward: 逐位置非线性变换
5. × 6 层: 重复上述过程
6. Output Projection: 映射到词表
输出: "I love learning"