← 名词百科

MLM

分类:训练方法

Masked Language Model(掩码语言模型)是 BERT 的核心预训练任务。

原理

随机将输入中 15% 的 token 替换为 [MASK],让模型预测原始词:

输入:  我去 [MASK] 场看电影
        ↑ 15% 概率被掩码
输出:  预测 [MASK] = "电"

三种替换策略(15% 的被选 token)

80% → [MASK]:     "我去 [MASK] 场看电影"
10% → 随机词:      "我去 操 场看电影"  ← 增加难度
10% → 保持不变:    "我去 电 场看电影"  ← 模型仍需输出"电"

与自回归区别

特性 MLM (BERT) 自回归 (GPT)
上下文方向 双向 单向(左→右)
适合任务 理解(分类、抽取) 生成(对话、创作)
训练效率 高(并行) 低(串行)