LLaMA-Berry:通过类似 O1 的蒙特卡洛树搜索实现奥林匹克级数学推理的成对优化

24年11月来自复旦大学、上海AI实验室、UC Merced、香港理工、新南威尔士大学、上海交大和斯坦福大学的论文“LLaMA-Berry: Pairwise Optimization for Olympiad-level Mathematical Reasoning via O1-like Monte Carlo Tree Search”。

本文提出一个数学推理框架 LLaMA-Berry,用于增强大语言模型 (LLM) 的问题求解能力。该框架将蒙特卡洛树搜索与自我细化 (SR-MCTS) 相结合以优化推理路径,并利用成对奖励模型对全局的不同路径进行评估。通过利用 LLM 的自我批评和重写功能,SR-MCTS 通过促进更有效地探索解决方案空间来克服传统逐步和贪婪搜索算法的低效和局限性。为了指导搜索过程,提出成对偏好奖励模型 (PPRM),通过强化学习从人类反馈 (RLHF) 训练的指令遵循能力来预测解决方案之间的成对偏好。最后,采用增强型 Borda 计数 (EBC) 方法将成对偏好合成为全局分位数分数以进行评估。该方法解决数学推理任务中评分变异性和非独立分布的挑战。该框架已在通用和高级基准上进行了测试,与现有的开源和闭源方法相比,显示出不错的搜索效率和性能,特别是在复杂的奥林匹克级基准测试中,包括 AIME24 和 AMC23。

数学推理是人工智能领域的一大挑战,广泛应用于自动定理证明、数学问题解决和科学发现(Ahn,2024)。最近,GPT-4 等大语言模型 (LLM)(Achiam,2023)在涉及算术和几何问题解决的一般数学任务方面取得重大进展(Cobbe,2021;Sun,2024;Ying,2024)。然而,复杂的数学推理仍然具有挑战性,尤其是在奥林匹克级别的基准测试中,例如 AIME(MAA,2024)。

提高问题解决能力的一种直观方法是将解决方案分解为逐步推理路径(Lightman,2023;Luo,2024a),如 Chain-of-Thought(CoT Wei,2022)所示。虽然基于提示的方法可以有效地促进这种推理路径的构建,但由于生成过程中缺乏全面的反馈,它们仍可能遇到挑战,从而影响效率(Paul,2023)。与逐步生成方法相比,另一个有前途的研究方向将整个解决方案视为一个独立的状态,使用重写功能来改进解决方案,例如 Self-Refine(Madaan,2023a)和 Reflexion(Shinn,2024)。然而,这些方法虽然具有创新性,但有时也会面临一些挑战,比如容易陷入局部最优或由于反馈缺陷而可能偏向次优解,这可能会影响它们的最大潜在性能。

除了生成推理路径之外,有效的解决方案评估也至关重要,结果奖励模型 (ORM) 和过程奖励模型 (PRM) (Uesato,2022) 等模型就是很有价值的例子。ORM 关注推理路径中最终答案的正确性,而 PRM 则强调流程中每个步骤的正确性。虽然这两种方法都使奖励模型能够分配标量分数,但获得可靠的标记数据来训练这些奖励模型仍然是一项重大挑战。此外,数学推理任务的评分标准可能有很大差异,因为每个问题都有独特的特点。这种变化使奖励模型的扩展变得复杂,并阻碍它们捕捉解决方案之间局部偏好关系的能力。尽管使用语言模型进行训练,这些奖励模型尚未充分利用指令遵循能力,这

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值