论文名称:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
论文链接:https://arxiv.org/abs/2503.09516v2
机构:伊利诺伊大学厄巴纳-香槟分校 + 马萨诸塞大学阿默斯特分校
Github代码链接:https://github.com/PeterGriffinJin/Search-R1
简介
这篇论文提出 Search-R1,通过强化学习让 LLMs 在逐步推理过程中自主生成搜索查询并实时检索,在七个问答数据集上比强基线模型性能显著提升。整体思路与R1-Searcher非常相似,因此只介绍一些核心项。
一阶段RL
-
梯度方法:PPO&GRPO。
-
外部检索结果:不参与loss计算,与R1-Searcher设置一致。
-
多轮:考虑到了多步Rollouts的情况。
- Reward Design:采用的是精确匹配。
模型训练
数据集
训练只用域内的数据集,测试的时候是覆盖所有数据集。
-
In-Domain:NQ(一般问答)、HotpotQA(多跳问答)
-
Out-of-Domain:
-
一般问答:TriviaQA、PopQA
-
多跳问答:2WikiMultiHopQA、Musique 和 Bamboogle
-
模型选型
-
Baseline Model:无
-
Backbone Model:
-
Qwen-2.5-3B(Base/Instruct)
-
Qwen-2.5-7B(Base/Instruct)
-
Llama-3.2-3B(Base/Instruct)
-
Prompt
- For Base Model
转成中文版本如下:
回答给定的问题。每次获得新信息时,你必须先在<think>和</think>之间进行推理。
推理后,如果你发现自己缺乏某些知识,可以通过<search>查询内容</search>调用搜索引擎,它将在<information>和</information>之间返回搜索结果。
你可以根据需要进行多次搜索。如果你发现不再需要外部知识,可以直接在<answer>和</answer>之间提供答案,无需详细说明。例如,<answer>北京</answer>。问题:{question}。
实验结果
评测方式
- EM:Exact Match,精确匹配
关键结论
-
Search-R1 在 Qwen2.5-7B、Qwen2.5-3B 和 LLaMA3.2-3B 实现了 26%、21% 和 10% 的平均相对改进,在域内(即 NQ 和 HotpotQA)和域外(即 TriviaQA、PopQA、2WikiMultiHopQA、Musique 和 Bamboogle)数据集中均成立。
-
Search-R1 将搜索纳入语言模型推理可获取相关外部知识,从而提高整体性能。
Key Insights
PPO VS GRPO
-
PPO表现出更高的训练稳定性。图2(b)说明了当GRPO应用于LLaMA3.2-3B-Instruct模型时会导致奖励崩溃,而 PPO就比较稳定。
-
GRPO通常优于PPO。表3说明了在 Qwen2.5-3B 和LLaMA3.2-3B中,GRPO实现了更高的平均性能,证明了其在优化检索增强推理方面的有效性。
Base vs Instruct LLMs
-
Instruct 比 Base 模型收敛速度更快,初始性能更高。但经过训练后,两种模型类型的最终性能仍然非常接近。
-
虽然通用的Instuct后训练在推理加搜索场景中加速了学习,但 RL 可以随着时间的推移有效地弥补差距,使Base模型能够实现相当的性能。
Response Length & Loss Mask
作者在 LLaMA3.2-3b-base 模型上进行实验,用 NQ 训练数据集。
-
响应长度(图4a):
-
早期阶段(前100步)Length急剧下降,Reward略有增加,模型开始学会消除过多的填充词。
-
中期阶段(100 - 130 步):Length和Reward都显著增加,因为模型学会调用搜索引擎,检索到了相关段落,导致Length 变长。而Reward大幅提高,是因为模型在利用搜索结果方面变得更加有效。
-
后期(130 步后):Length稳定下来,Reward略有增加。在这个阶段,模型已经学会有效地使用搜索引擎,并专注于优化其搜索查询。
-
-
搜索内容Mask(图4b):应用Mask会带来更好的reward效果。