← 名词百科

Self-Play RL

分类:训练方法

自博弈强化学习(Self-Play Reinforcement Learning)是 DeepSeek-V4 的核心训练方法。

原理

模型通过自我对弈生成训练数据 → 训练 → 评估的循环不断提升能力,无需外部标注:

  回合 1: 模型 A 生成解题过程
          模型 B(相同模型)验证并评分
          
  回合 2: 根据得分筛选高质量数据
          在高质量数据上继续训练
          
  回合 n: 模型能力持续提升
          生成的解题过程越来越精确

DeepSeek-V4 的扩展

V4 将 Self-Play 扩展到三个全新领域:

  • 数学证明:模型自行生成证明步骤并验证逻辑链
  • 代码合成:生成代码 → 运行测试 → 根据结果改进
  • 科学发现:提出假设 → 设计验证 → 分析结果

与 GRPO 的关系

Self-Play RL 建立在 GRPO 的基础上,GRPO 提供组内比较的奖励信号,Self-Play 提供数据生成的自动化流程。

📎 出处文章