【LLM Tool Learning】论文分享:Search-R1

论文名称:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

论文链接:https://arxiv.org/abs/2503.09516v2

机构:伊利诺伊大学厄巴纳-香槟分校 + 马萨诸塞大学阿默斯特分校

Github代码链接:https://github.com/PeterGriffinJin/Search-R1

简介

这篇论文提出 Search-R1,通过强化学习让 LLMs 在逐步推理过程中自主生成搜索查询并实时检索,在七个问答数据集上比强基线模型性能显著提升。整体思路与R1-Searcher非常相似,因此只介绍一些核心项。

一阶段RL

  • 梯度方法:PPO&GRPO。

  • 外部检索结果:不参与loss计算,与R1-Searcher设置一致。

  • 多轮:考虑到了多步Rollouts的情况。

在这里插入图片描述

在这里插入图片描述

  • Reward Design:采用的是精确匹配。

在这里插入图片描述

模型训练

数据集

训练只用域内的数据集,测试的时候是覆盖所有数据集。

  • In-Domain:NQ(一般问答)、HotpotQA(多跳问答)

  • Out-of-Domain:

    • 一般问答:TriviaQA、PopQA

    • 多跳问答:2WikiMultiHopQA、Musique 和 Bamboogle

模型选型

  • Baseline Model:无

  • Backbone Model:

    • Qwen-2.5-3B(Base/Instruct)

    • Qwen-2.5-7B(Base/Instruct)

    • Llama-3.2-3B(Base/Instruct)

Prompt

  • For Base Model

在这里插入图片描述

转成中文版本如下:

回答给定的问题。每次获得新信息时,你必须先在<think></think>之间进行推理。

推理后,如果你发现自己缺乏某些知识,可以通过<search>查询内容</search>调用搜索引擎,它将在<information></information>之间返回搜索结果。

你可以根据需要进行多次搜索。如果你发现不再需要外部知识,可以直接在<answer></answer>之间提供答案,无需详细说明。例如,<answer>北京</answer>。问题:{question}

实验结果

评测方式

  • EM:Exact Match,精确匹配

关键结论

  • Search-R1 在 Qwen2.5-7B、Qwen2.5-3B 和 LLaMA3.2-3B 实现了 26%、21% 和 10% 的平均相对改进,在域内(即 NQ 和 HotpotQA)和域外(即 TriviaQA、PopQA、2WikiMultiHopQA、Musique 和 Bamboogle)数据集中均成立。

  • Search-R1 将搜索纳入语言模型推理可获取相关外部知识,从而提高整体性能。

在这里插入图片描述

Key Insights

PPO VS GRPO

  • PPO表现出更高的训练稳定性。图2(b)说明了当GRPO应用于LLaMA3.2-3B-Instruct模型时会导致奖励崩溃,而 PPO就比较稳定。

  • GRPO通常优于PPO。表3说明了在 Qwen2.5-3B 和LLaMA3.2-3B中,GRPO实现了更高的平均性能,证明了其在优化检索增强推理方面的有效性。

在这里插入图片描述

在这里插入图片描述

Base vs Instruct LLMs

  • Instruct 比 Base 模型收敛速度更快,初始性能更高。但经过训练后,两种模型类型的最终性能仍然非常接近。

  • 虽然通用的Instuct后训练在推理加搜索场景中加速了学习,但 RL 可以随着时间的推移有效地弥补差距,使Base模型能够实现相当的性能。

在这里插入图片描述

Response Length & Loss Mask

作者在 LLaMA3.2-3b-base 模型上进行实验,用 NQ 训练数据集。

  • 响应长度(图4a):

    • 早期阶段(前100步)Length急剧下降,Reward略有增加,模型开始学会消除过多的填充词。

    • 中期阶段(100 - 130 步):Length和Reward都显著增加,因为模型学会调用搜索引擎,检索到了相关段落,导致Length 变长。而Reward大幅提高,是因为模型在利用搜索结果方面变得更加有效。

    • 后期(130 步后):Length稳定下来,Reward略有增加。在这个阶段,模型已经学会有效地使用搜索引擎,并专注于优化其搜索查询。

  • 搜索内容Mask(图4b):应用Mask会带来更好的reward效果。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值