MLM – Oopvo – 分享学习内容~不断完善ing

Masked Language Model（掩码语言模型）是 BERT 的核心预训练任务。

原理

随机将输入中 15% 的 token 替换为 [MASK]，让模型预测原始词：

输入:  我去 [MASK] 场看电影
        ↑ 15% 概率被掩码
输出:  预测 [MASK] = "电"

三种替换策略（15% 的被选 token）

80% → [MASK]:     "我去 [MASK] 场看电影"
10% → 随机词:      "我去 操 场看电影"  ← 增加难度
10% → 保持不变:    "我去 电 场看电影"  ← 模型仍需输出"电"

与自回归区别

特性	MLM (BERT)	自回归 (GPT)
上下文方向	双向	单向（左→右）
适合任务	理解（分类、抽取）	生成（对话、创作）
训练效率	高（并行）	低（串行）

Page Settings

Background Image

Choose Wallpaper

Overlay Dark

30%