GRPO参考代码

贾斯汀玛尔斯

已于 2025-06-18 11:22:48 修改

阅读量64

点赞数

CC 4.0 BY-SA版权

分类专栏：海量数据分析-机器学习和深度学习 AI大模型 python 文章标签：人工智能 python

于 2025-06-16 17:10:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011095039/article/details/148694746

海量数据分析-机器学习和深度学习同时被 3 个专栏收录

168 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

80 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

45 篇文章

订阅专栏

群体相对策略优化 (GRPO) 算法详解

背景与目标： 群体相对策略优化 (Group Relative Policy Optimization, GRPO) 是一种强化学习算法，最初用于强化大型语言模型（LLMs）的推理能力。与依赖独立“批评者”价值网络的传统方法（如 PPO）不同，GRPO 在每个任务（或查询）上生成多个候选响应/轨迹，并通过组内比较来衡量每条响应的“相对优势”。具体而言，算法将同一批次中所有候选的奖励归一化（即减去均值再除以标准差）得到优势值，进而优化策略。这样不需要额外的价值网络，大幅降低计算和内存开销。在多智能体场景下，各个智能体（或多次采样的同一策略）产生的策略输出可以视为一组“候选”，GRPO 根据它们在该组中的表现相对优劣来更新策略，使得每个智能体的策略更新考虑了群体绩效的影响。总的来说，GRPO 的目标是通过“组内相对评估”提升策略，使模型能够更高效地学习复杂任务。

算法原理

GRPO 的核心是修改后的策略梯度目标函数，其形式与 PPO 类似，但优势函数由群体响应归一化奖励给出，并且可选地包含参考策略的 KL 正则项。其目标函数可以表达为：

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

贾斯汀玛尔斯 愿我的经历曾为你指明方向

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。