GPT 系列精读
🏷️ 关键词
GPT 系列彻底改变了人工智能的格局。从 2018 年 GPT-1 的 1.17 亿参数到 GPT-4 的多模态能力,这篇带你完整走一遍 GPT 的进化之路。
一、GPT 是什么?
GPT(Generative Pre-trained Transformer)是 OpenAI 开发的 Autoregressive 语言模型系列。核心思想很简单:
在互联网级文本上预训练 → 在各种任务上微调(或零样本直接使用)
与 BERT 的编码器架构不同,GPT 使用解码器-only架构——只保留了 Transformer 的解码器部分,去掉编码器-解码器交叉注意力。
二、Autoregressive 生成方式
GPT 使用自回归方式生成文本:逐一预测下一个 token。
生成过程
输入: "I love"
↓
模型计算: P(next | "I love")
↓
预测: "learning"(概率最高)
↓
输入: "I love learning"
↓
模型计算: P(next | "I love learning")
↓
预测: "."
...
因果掩码(Causal Masking)
自回归的关键是因果掩码——每个位置只能关注它自己及之前的位置:
注意力矩阵(「我 爱 深 度 学 习」):
我 爱 深 度 学 习
我 [●, ✗, ✗, ✗, ✗, ✗] ← 只能看自己
爱 [●, ●, ✗, ✗, ✗, ✗] ← 能看"我"和"爱"
深 [●, ●, ●, ✗, ✗, ✗]
度 [●, ●, ●, ●, ✗, ✗]
学 [●, ●, ●, ●, ●, ✗]
习 [●, ●, ●, ●, ●, ●] ← 最后一个能看到所有
实现方式:未来位置分数设为 -∞,Softmax 后为 0
三、GPT 家族发展
GPT-1(2018.06):证明可行性
- 1.17 亿参数,12 层 Transformer 解码器
- 在 BooksCorpus 上预训练
- 核心贡献:首次证明 Transformer 解码器可以在大规模无标注数据上预训练,再通过微调迁移到下游任务
GPT-2(2019.02):零样本的震撼
- 15 亿参数,48 层
- 在 WebText(800 万网页)上预训练
- 核心贡献:展示零样本迁移能力——不需要微调,给几个示例就能完成任务
GPT-2 的零样本能力:
输入: "翻译成中文:I love learning →"
输出: "我爱学习"
没有专门训练过翻译,但通过大量的互联网文本学会了
→ 这就是「上下文学习(In-Context Learning)」的雏形
GPT-3(2020.05):大模型时代的开端
- 1750 亿参数,96 层
- 在 Common Crawl + WebText2 + Books + Wikipedia 上训练
- 训练成本:约 $12M
- 核心贡献:Scaling Law——模型越大,能力越强,涌现出小模型没有的能力
GPT-3 的涌现能力:
小模型做不到 → 到一定规模突然能做
• 上下文学习:给 1-2 个示例就能理解任务
• 代码生成:写 Python、JavaScript
• 算术推理:多位加减法
• 翻译、问答、创意写作...
GPT-4(2023.03):多模态飞跃
- 参数量未公开(估计 1.5T+,MoE 架构)
- 多模态:可输入图像
- 核心贡献:推理能力大幅提升,在各种专业考试中表现优异
GPT-4 的考试成绩:
Uniform Bar Exam: ~90% percentile ← 超过大部分人类律师
SAT 阅读/写作: 710/800
AP 生物学: 5/5(满分)
编程竞赛 (Codeforces): 超过 50% 参赛者
四、GPT 与 BERT:两种范式对比
| 维度 | GPT | BERT |
|---|---|---|
| 架构 | 解码器-only | 编码器-only |
| 注意力 | 单向(因果掩码) | 双向 |
| 训练目标 | 自回归(预测下一个词) | MLM(掩码预测) |
| 适合任务 | 生成(对话、创作) | 理解(分类、抽取) |
| 发展方向 | 模型规模 Scaling | 模型深度 + 双向理解 |
| 影响力 | GPT-3 开创大模型时代 | BERT 开启预训练+微调范式 |
| 后继 | GPT-4、Llama、DeepSeek | RoBERTa、ALBERT、DistilBERT |
两者都基于 Transformer 架构,但设计哲学不同。历史证明,自回归解码器架构最终胜出,成为现代大模型(GPT-4、Llama、DeepSeek)的标准选择。
五、GPT 系列的影响
- Scaling Law:GPT-3 证明了模型规模与能力之间的正相关关系
- 上下文学习:不需要为每个任务微调,prompt 工程成为新范式
- ChatGPT:GPT-3.5 + RLHF 引发了全球 AI 热潮
- GPT-4:多模态 + 推理能力接近人类专家水平
参考文献
2026 年 06 月 07 日