PPO – Oopvo – 分享学习内容~不断完善ing

Proximal Policy Optimization（近端策略优化）是 OpenAI 于 2017 年提出的经典强化学习算法。

核心思想

PPO 通过裁剪策略更新幅度来保证训练稳定性。每次更新时，新策略不能偏离旧策略太远，否则裁剪机制会阻止更新。

在 LLM 中的应用

在大模型的 RLHF 阶段，PPO 是标准的强化学习算法：

PPO 流程:

Actor（策略模型）──▶ 生成回答 ──▶ Reward Model ──▶ 评分
    │                                 ▲
    └────── Critic（价值模型）──────────┘
    需要额外维护 Critic 模型 → 显存翻倍

PPO 的局限

需同时维护 Actor 和 Critic 两个模型，显存开销大
Critic 模型训练不稳定，容易不收敛
超参数敏感，调参困难

GRPO 正是为解决 PPO 的这些局限而提出。

Page Settings

Background Image

Choose Wallpaper

Overlay Dark

30%