天津大学:LLM混合策略强化学习

在这里插入图片描述

📖标题:Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model
🌐来源:arXiv, 2507.06892

🌟摘要

🔸强化学习 (RL) 已经证明了它提高大型语言模型 (LLM) 推理能力的潜力。尽管 RL 授权的自我改进具有优势,但大多数现有的强化微调 (RFT) 方法的一个主要限制是它们本质上是策略上的 RL,即过去学习过程中生成的数据没有得到充分利用。这不可避免地以计算时间和时间成本出现,这对持续经济和高效缩放提出了严格的瓶颈。
🔸为此,我们推出了非策略 RL 的复兴,并探索了在 RFT 的背景下从历史数据中学习的前景。具体来说,我们提出了重新关联混合策略近端策略梯度 (ReMix),这是一种实现策略上 RFT 方法的通用方法,如 PPO 和 GRPO,以利用非策略数据。ReMix 由三个主要组件组成:(1)Mix-policy 近端策略梯度与增加的 Update-To-Data (UTD) 比率增加,该比率利用当前策略和过去策略生成的数据进行有效的训练; (2) KL-Convex 策略约束,它结合了基础模型上的 KL 约束和先例模型来平衡训练期间稳定性和灵活性之间的权衡; (3) 策略恢复,以中间方式将基础模型替换为混合策略 RFT 模型,并在策略训练上重新启动,以实现从高效早期学习到稳定渐近改进的无缝过渡。
🔸在我们的实验中,我们从 1.5B、7B 基础模型训练了一系列基于 PPO、GRPO 的 ReMix 模型。ReMix 在五个数学推理基准(即 AIME’24, AMC’23, Minerva, OlympiadBench 和 MATH500)上实现了 52.10% 的平均 Pass@1 准确度(对于 1.5B 模型),分别具有 0.007M/0.011M 响应推出、50/75 个训练步骤(即 AIME’24, AMC’23, Minerva, OlympmadBench 和 MATH500)。与最近 15 个高级模型相比,ReMix 在推出数据量方面显示了 SOTA 级性能,训练成本降低了 30 倍到 450 倍,显示出卓越的训练效率。此外,我们通过多方面分析揭示了深刻的发现,包括由于非策略差异的剪切效应、在存在严重非策略性的情况下自我反射行为的崩溃模式、响应长度约束下的性能、提示格式的影响等。项目在https://anitaleungxx.github.io/ReMix

🛎️文章简介

🔸研究问题:如何高效利用离政策数据进行大语言模型(LLM)的强化微调以提升推理能力?
🔸主要贡献:论文提出了一种名为Reincarnating Mix-policy Proximal Policy Optimization (ReMix)的方法,使得策略相关的强化学习方法能够有效地利用离线策略数据,从而在提高推理能力的同时降低训练成本。

📝重点思路

🔸引入混合策略的近端策略优化方法(Mix-PPG),并增加更新对数据(UTD)比率,以提升训练效率。
🔸通过策略重生(Policy Reincarnation),在训练后期从高效的离线策略学习转变为稳定的在线策略学习,以实现早期快速提升和后期稳定改进。
🔸应用KL-Convex策略,允许动态调整策略约束,从而实现对策略训练的不再依赖于静态约束的局限性。

🔎分析总结

🔸实验结果显示,ReMix在五个数学推理基准上达到了最先进的准确率,同时大幅减少了训练所需的回滚数据量及训练步骤。
🔸混合近端策略优化在早期阶段明显提高了训练效率,而策略重生则确保了后期的收敛性,避免了过度依赖离线策略数据造成的性能下降。
🔸在进行消融研究时,结果表明每个组件的贡献独立且重要,缺少任何一个组件都会导致性能下降。

💡个人观点

论文的创新之处在于将离线策略学习的优势与在线策略学习的稳定性有效结合,通过提出的ReMix方法,在保留最终性能的同时,显著提升训练效率。

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值