GRPO 算法笔记：无需 Critic 的强化学习

什么是 GRPO？

GRPO (Group Relative Policy Optimization) 是 DeepSeek 团队提出的一种 RL 算法，它最大的特点是不需要训练一个单独的 Critic（价值网络），从而大幅降低了训练成本。

传统的 PPO 需要一个 Critic 来估计每个 token 的 value baseline，而 GRPO 的做法更加简洁：

这样就绕过了训练 Critic 网络的需要，同时仍然能有效减少梯度估计的方差。

PPO 需要维护一个与 policy 模型同等规模的 value network，这在大模型时代意味着双倍的显存开销。GRPO 用组内相对比较的方式巧妙地解决了这个问题。

DeepSeek-R1 的成功很大程度上归功于 GRPO，它使得在大规模模型上进行 RL 训练变得更加可行。