GRPO 算法笔记:无需 Critic 的强化学习

什么是 GRPO?

GRPO (Group Relative Policy Optimization) 是 DeepSeek 团队提出的一种 RL 算法,它最大的特点是不需要训练一个单独的 Critic(价值网络),从而大幅降低了训练成本。

核心思路

传统的 PPO 需要一个 Critic 来估计每个 token 的 value baseline,而 GRPO 的做法更加简洁:

  • 对每个 prompt,采样一组(group)回复
  • 用组内回复的平均 reward 作为 baseline
  • 将每个回复的 reward 减去这个 baseline,得到 advantage

这样就绕过了训练 Critic 网络的需要,同时仍然能有效减少梯度估计的方差。

与 PPO 的对比

PPO 需要维护一个与 policy 模型同等规模的 value network,这在大模型时代意味着双倍的显存开销。GRPO 用组内相对比较的方式巧妙地解决了这个问题。

实际影响

DeepSeek-R1 的成功很大程度上归功于 GRPO,它使得在大规模模型上进行 RL 训练变得更加可行。