群体相对策略优化 (GRPO) 算法详解
背景与目标: 群体相对策略优化 (Group Relative Policy Optimization, GRPO) 是一种强化学习算法,最初用于强化大型语言模型(LLMs)的推理能力。与依赖独立“批评者”价值网络的传统方法(如 PPO)不同,GRPO 在每个任务(或查询)上生成多个候选响应/轨迹,并通过组内比较来衡量每条响应的“相对优势”。具体而言,算法将同一批次中所有候选的奖励归一化(即减去均值再除以标准差)得到优势值,进而优化策略。这样不需要额外的价值网络,大幅降低计算和内存开销。在多智能体场景下,各个智能体(或多次采样的同一策略)产生的策略输出可以视为一组“候选”,GRPO 根据它们在该组中的表现相对优劣来更新策略,使得每个智能体的策略更新考虑了群体绩效的影响。总的来说,GRPO 的目标是通过“组内相对评估”提升策略,使模型能够更高效地学习复杂任务。
算法原理
GRPO 的核心是修改后的策略梯度目标函数,其形式与 PPO 类似,但优势函数由群体响应归一化奖励给出,并且可选地包含参考策略的 KL 正则项。其目标函数可以表达为:
JGRPO(θ)=Eq∼P(Q),{ oi}i=1G∼πθold(⋅∣q)[1G∑i=1Gmin(πθ(oi∣q)πθold(oi∣q)Ai⏟策略比值×优势值, clip(πθ(oi∣q)