BERT – Oopvo – 分享学习内容~不断完善ing

Bidirectional Encoder Representations from Transformers（双向编码器表示）是 Google 于 2018 年提出的预训练语言模型。

核心创新：双向预训练

与 GPT 自回归（从左到右）不同，BERT 使用 MLM（掩码语言模型） 实现双向理解：

传统自回归（GPT）:
  我 → 爱 → [？] → 学 → 习
  → 只能看左边 → 单向 ❌

BERT 双向 MLM:
  我 → 爱 → [MASK] → 学 → 习
  → 同时看左右 → 双向 ✅
  
  模型需要预测 [MASK] = "深度"

架构

BERT 使用 Transformer 编码器（双向自注意力 + 无因果掩码）：

输入: [CLS] I love [MASK] learning [SEP]
    │
    ▼
┌──────────────────┐
│ Token + Segment  │
│ + Position Embed │
└──────┬───────────┘
       │
┌──────┴───────────┐
│ Bidirectional    │  ← 无掩码！所有位置互相可见
│ Multi-Head Attn  │
└──────┬───────────┘
       │  × N 层
       ▼
输出: 每个位置的 contextual embedding

影响

BERT 在发布时在 11 项 NLP 基准上取得 SOTA，开启了「预训练 + 微调」范式的全面应用。其编码器架构虽然被后来的生成模型（GPT）取代，但双向理解的思想深刻影响了后续模型设计。

核心创新：双向预训练

架构

影响

Page Settings