MLM
Masked Language Model(掩码语言模型)是 BERT 的核心预训练任务。
原理
随机将输入中 15% 的 token 替换为 [MASK],让模型预测原始词:
输入: 我去 [MASK] 场看电影
↑ 15% 概率被掩码
输出: 预测 [MASK] = "电"
三种替换策略(15% 的被选 token)
80% → [MASK]: "我去 [MASK] 场看电影"
10% → 随机词: "我去 操 场看电影" ← 增加难度
10% → 保持不变: "我去 电 场看电影" ← 模型仍需输出"电"
与自回归区别
| 特性 | MLM (BERT) | 自回归 (GPT) |
|---|---|---|
| 上下文方向 | 双向 | 单向(左→右) |
| 适合任务 | 理解(分类、抽取) | 生成(对话、创作) |
| 训练效率 | 高(并行) | 低(串行) |