DAPO — Ruiqing

Clip-Higher

传统clip为什么会导致墒崩塌：对于那些概率已经很高的 Token（利用 Token），算法非常宽容，允许它们迅速占据统治地位（接近 1.0）。这会导致模型很快就只愿意说那几句”稳妥的话”，而失去了寻找更好答案的动力。

DAPO clip

Key to Token-level loss

传统GRPO中，每个样本在最终损失计算中被赋予了相同的权重，导致长回答中对整体损失的贡献可能会表现得比较低。

Dynamic sampling

去掉奖励为全0或者全1的组

去掉KL散度

因为数据集是数学问题，所以推理路径比较固定，可以去掉，其他数据集未必可以去掉

Overlong Filtering

在生成最大长度的基础上，增加了一个Soft Overlong Punishment，不直接强行截断回答，这样会添加噪声。当回答长度超过设定的最大回答长度并落入惩罚区间内时，随着响应长度增加，对于长度的奖励也会增加。

example： “因此，这道题的答案是”---->reward=0 “因此，这道题的答案是32”---->reward=1

缓慢的熵增有助于提升模型性能

DAPO findings

Case study

反思行为的出现： However, wait a moment, let’s rethink about the dihedral angle involving planes in a more thoughtful geometric way. Consider the plane α1=A⁢B⁢C, which lies entirely on the xy coordinate plane (as z=0). Let the plane α2=S⁢B⁢C. The point A projected perpendicularly to plane α2 lands on H. The line l=A⁢B …