【LLM Tool Learning】论文分享：Search-R1

依然易冷

已于 2025-06-01 22:44:35 修改

阅读量820

点赞数 34

CC 4.0 BY-SA版权

分类专栏： Tool Learning 文章标签：人工智能深度学习 python

于 2025-05-02 09:55:16 首次发布

本文链接：https://blog.csdn.net/LG154721/article/details/147660062

Tool Learning 专栏收录该内容

8 篇文章

订阅专栏

论文名称：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

论文链接：https://arxiv.org/abs/2503.09516v2

机构：伊利诺伊大学厄巴纳-香槟分校 + 马萨诸塞大学阿默斯特分校

Github代码链接：https://github.com/PeterGriffinJin/Search-R1

简介

这篇论文提出 Search-R1，通过强化学习让 LLMs 在逐步推理过程中自主生成搜索查询并实时检索，在七个问答数据集上比强基线模型性能显著提升。整体思路与R1-Searcher非常相似，因此只介绍一些核心项。

一阶段RL

梯度方法：PPO&GRPO。
外部检索结果：不参与loss计算，与R1-Searcher设置一致。
多轮：考虑到了多步Rollouts的情况。

在这里插入图片描述

Reward Design：采用的是精确匹配。

在这里插入图片描述

模型训练

数据集

训练只用域内的数据集，测试的时候是覆盖所有数据集。

In-Domain：NQ（一般问答）、HotpotQA（多跳问答）
Out-of-Domain：
- 一般问答：TriviaQA、PopQA
- 多跳问答：2WikiMultiHopQA、Musique 和 Bamboogle

模型选型

Baseline Model：无
Backbone Model：
- Qwen-2.5-3B（Base/Instruct）
- Qwen-2.5-7B（Base/Instruct）
- Llama-3.2-3B（Base/Instruct）

Prompt

For Base Model

在这里插入图片描述

转成中文版本如下：

回答给定的问题。每次获得新信息时，你必须先在<think>和</think>之间进行推理。

推理后，如果你发现自己缺乏某些知识，可以通过<search>查询内容</search>调用搜索引擎，它将在<information>和</information>之间返回搜索结果。

你可以根据需要进行多次搜索。如果你发现不再需要外部知识，可以直接在<answer>和</answer>之间提供答案，无需详细说明。例如，<answer>北京</answer>。问题：{question}。

实验结果

评测方式

EM：Exact Match，精确匹配

关键结论

Search-R1 在 Qwen2.5-7B、Qwen2.5-3B 和 LLaMA3.2-3B 实现了 26%、21% 和 10% 的平均相对改进，在域内（即 NQ 和 HotpotQA）和域外（即 TriviaQA、PopQA、2WikiMultiHopQA、Musique 和 Bamboogle）数据集中均成立。
Search-R1 将搜索纳入语言模型推理可获取相关外部知识，从而提高整体性能。

在这里插入图片描述

Key Insights

PPO VS GRPO

PPO表现出更高的训练稳定性。图2(b)说明了当GRPO应用于LLaMA3.2-3B-Instruct模型时会导致奖励崩溃，而 PPO就比较稳定。
GRPO通常优于PPO。表3说明了在 Qwen2.5-3B 和LLaMA3.2-3B中，GRPO实现了更高的平均性能，证明了其在优化检索增强推理方面的有效性。

在这里插入图片描述

Base vs Instruct LLMs

Instruct 比 Base 模型收敛速度更快，初始性能更高。但经过训练后，两种模型类型的最终性能仍然非常接近。
虽然通用的Instuct后训练在推理加搜索场景中加速了学习，但 RL 可以随着时间的推移有效地弥补差距，使Base模型能够实现相当的性能。

在这里插入图片描述

Response Length & Loss Mask

作者在 LLaMA3.2-3b-base 模型上进行实验，用 NQ 训练数据集。

响应长度（图4a）：
- 早期阶段（前100步）Length急剧下降，Reward略有增加，模型开始学会消除过多的填充词。
- 中期阶段（100 - 130 步）：Length和Reward都显著增加，因为模型学会调用搜索引擎，检索到了相关段落，导致Length 变长。而Reward大幅提高，是因为模型在利用搜索结果方面变得更加有效。
- 后期（130 步后）：Length稳定下来，Reward略有增加。在这个阶段，模型已经学会有效地使用搜索引擎，并专注于优化其搜索查询。
搜索内容Mask（图4b）：应用Mask会带来更好的reward效果。

在这里插入图片描述