GRPO – Oopvo – 分享学习内容~不断完善ing

Group Relative Policy Optimization（分组相对策略优化）是 DeepSeek 自研的强化学习算法。

与传统的 PPO 不同，GRPO 不需要 Critic 模型（价值函数模型），而是通过对同一 prompt 生成的多个 response 进行分组比较来估计优势函数，大幅简化了 RL 训练流程。