GPT 系列精读

🏷️ 关键词

GPT 系列彻底改变了人工智能的格局。从 2018 年 GPT-1 的 1.17 亿参数到 GPT-4 的多模态能力,这篇带你完整走一遍 GPT 的进化之路。


一、GPT 是什么?

GPT(Generative Pre-trained Transformer)是 OpenAI 开发的 Autoregressive 语言模型系列。核心思想很简单:

在互联网级文本上预训练 → 在各种任务上微调(或零样本直接使用)

BERT 的编码器架构不同,GPT 使用解码器-only架构——只保留了 Transformer 的解码器部分,去掉编码器-解码器交叉注意力。


二、Autoregressive 生成方式

GPT 使用自回归方式生成文本:逐一预测下一个 token。

生成过程

输入: "I love"
         ↓
模型计算: P(next | "I love")
         ↓
预测: "learning"(概率最高)
         ↓
输入: "I love learning"
         ↓
模型计算: P(next | "I love learning")
         ↓
预测: "."
...

因果掩码(Causal Masking)

自回归的关键是因果掩码——每个位置只能关注它自己及之前的位置:

注意力矩阵(「我 爱 深 度 学 习」):

    我  爱  深  度  学  习
我  [●,  ✗,  ✗,  ✗,  ✗,  ✗]  ← 只能看自己
爱  [●,  ●,  ✗,  ✗,  ✗,  ✗]  ← 能看"我"和"爱"
深  [●,  ●,  ●,  ✗,  ✗,  ✗]
度  [●,  ●,  ●,  ●,  ✗,  ✗]
学  [●,  ●,  ●,  ●,  ●,  ✗]
习  [●,  ●,  ●,  ●,  ●,  ●]  ← 最后一个能看到所有

实现方式:未来位置分数设为 -∞,Softmax 后为 0

三、GPT 家族发展

GPT-1(2018.06):证明可行性

  • 1.17 亿参数,12 层 Transformer 解码器
  • 在 BooksCorpus 上预训练
  • 核心贡献:首次证明 Transformer 解码器可以在大规模无标注数据上预训练,再通过微调迁移到下游任务

GPT-2(2019.02):零样本的震撼

  • 15 亿参数,48 层
  • 在 WebText(800 万网页)上预训练
  • 核心贡献:展示零样本迁移能力——不需要微调,给几个示例就能完成任务
GPT-2 的零样本能力:
  输入: "翻译成中文:I love learning →"
  输出: "我爱学习"
  
  没有专门训练过翻译,但通过大量的互联网文本学会了
  → 这就是「上下文学习(In-Context Learning)」的雏形

GPT-3(2020.05):大模型时代的开端

  • 1750 亿参数,96 层
  • 在 Common Crawl + WebText2 + Books + Wikipedia 上训练
  • 训练成本:约 $12M
  • 核心贡献Scaling Law——模型越大,能力越强,涌现出小模型没有的能力
GPT-3 的涌现能力:
  小模型做不到 → 到一定规模突然能做

  • 上下文学习:给 1-2 个示例就能理解任务
  • 代码生成:写 Python、JavaScript
  • 算术推理:多位加减法
  • 翻译、问答、创意写作...

GPT-4(2023.03):多模态飞跃

  • 参数量未公开(估计 1.5T+,MoE 架构)
  • 多模态:可输入图像
  • 核心贡献:推理能力大幅提升,在各种专业考试中表现优异
GPT-4 的考试成绩:
  Uniform Bar Exam:     ~90%  percentile  ← 超过大部分人类律师
  SAT 阅读/写作:        710/800
  AP 生物学:            5/5(满分)
  编程竞赛 (Codeforces): 超过 50% 参赛者

四、GPT 与 BERT:两种范式对比

维度 GPT BERT
架构 解码器-only 编码器-only
注意力 单向(因果掩码) 双向
训练目标 自回归(预测下一个词) MLM(掩码预测)
适合任务 生成(对话、创作) 理解(分类、抽取)
发展方向 模型规模 Scaling 模型深度 + 双向理解
影响力 GPT-3 开创大模型时代 BERT 开启预训练+微调范式
后继 GPT-4、Llama、DeepSeek RoBERTa、ALBERT、DistilBERT

两者都基于 Transformer 架构,但设计哲学不同。历史证明,自回归解码器架构最终胜出,成为现代大模型(GPT-4、Llama、DeepSeek)的标准选择。


五、GPT 系列的影响

  1. Scaling Law:GPT-3 证明了模型规模与能力之间的正相关关系
  2. 上下文学习:不需要为每个任务微调,prompt 工程成为新范式
  3. ChatGPT:GPT-3.5 + RLHF 引发了全球 AI 热潮
  4. GPT-4:多模态 + 推理能力接近人类专家水平

参考文献

2026 年 06 月 07 日