← 名词百科

SFT

分类:训练方法

Supervised Fine-Tuning(监督微调)是 LLM 训练三阶段的第二阶段。

使用人工标注的高质量指令数据对预训练模型进行微调,使其对齐人类偏好和指令遵循能力。SFT 是预训练和 RL 之间的关键桥梁。

📎 出处文章