全称: Soft Adaptive Policy Optimization
在MOE架构模型训练中,路由不平均和长回答可能会放大tokens之间的差异,会导致增加不稳定性。过于严格的硬裁剪限制了梯度计算的有效采样数,而宽松的硬裁剪则会引入噪声梯度。
SAPO
目标函数:
J(θ)=Eq∼D,{yi}i=1G∼πθold(⋅∣q)G1i=1∑G∣yi∣1t=1∑∣yi∣fi,t(ri,t(θ))A^i,t
where fi,t(x) is defined as:
fi,t(x)=σ(τi,t(x−1))⋅τi,t4,τi,t={τpos,τneg,if A^i,t>0otherwise
其中 fi,t (Token-level Gate): 根据当前 Token 的 ri,t 计算出一个权重。
-
如果这个 Token 很离谱,fi,t 会变小(软截断)。
-
如果这个 Token 很正常,fi,t 保持正常。
其中,4是为了抵消sigmoid函数在零处的梯度(1/4)。(x-1)是为了将importance ratio=1对齐到sigmoid函数中x=0的位置。
为什么要采用非对称温度
在大型语言模型的强化学习微调中,动作空间是一个庞大的词汇(通常有数十万个令牌),而在特定状态下,期望动作的数量较少。因此,负梯度会扩散到许多无关的标记——虽然提供了一定的正则化,但也引发了不稳定性,尤其是在非策略场景中。