翻译: React 语言模型中的推理与行动协同 Synergizing Reasoning and Acting in Language Models

本文链接：https://blog.csdn.net/zgpeace/article/details/148733505

摘要

虽然大型语言模型 (LLM) 在语言理解和交互式决策等任务中表现出色，但它们的推理能力（如思路链提示）和行动能力（如行动计划生成）主要作为单独的主题进行研究。在本文中，我们探索使用 LLM 以交错的方式生成推理轨迹和特定于任务的操作，从而实现两者之间的更大协同作用：推理轨迹帮助模型诱导、跟踪和更新行动计划以及处理异常，而操作则允许它与知识库或环境等外部来源交互并从中收集更多信息。我们将我们的方法（名为 \model ）应用于各种语言和决策任务，并证明其在最先进的基线上的有效性以及提高了人类的可解释性和可信度。具体来说，在问答系统（HotpotQA）和事实验证系统（Fever）上， \model 通过与简单的维基百科 API 交互，克服了思维链推理中普遍存在的幻觉和错误传播问题，并生成了比没有推理痕迹的基线更具可解释性的类人任务解决轨迹。此外，在两个交互式决策基准测试（ALFWorld 和 WebShop）上， \model 的表现分别比模仿学习和强化学习方法高出 34% 和 10% 的绝对成功率，而这些测试仅需提供一两个上下文相关的示例。

1 简介

人类智能的一个独特特征是能够将面向任务的操作与言语推理（或内部语言， Alderson-Day 和 Fernyhough， 2015 ）无缝结合起来，这在人类认知中发挥着重要作用，可以实现自我调节或策略制定（Vygotsky， 1987 ；Luria， 1965 ；Fernyhough， 2010 ）并维持工作记忆（Baddeley， 1992 ）。考虑在厨房做饭的例子。在任何两个具体动作之间，我们都可以通过语言进行推理以跟踪进度（“现在一切都准备好了，我应该加热一壶水”），处理异常或根据情况调整计划（“我没有盐，所以我可以用酱油和胡椒粉代替”），并意识到何时需要外部信息（“我如何准备面团？让我在互联网上搜索”）。我们还可以采取行动（打开菜谱阅读菜谱、打开冰箱、查看食材）来支持推理并回答问题（“我现在可以做什么菜？”）。“行动”和“推理”之间的紧密协同使人类能够快速学习新任务，并进行稳健的决策或推理，即使在前所未有的情况下或面临信息不确定性的情况下也是如此。

最近的研究结果暗示了在自主系统中将语言推理与交互式决策相结合的可能性。一方面，经过适当提示的大型语言模型 (LLM) 已展现出涌现的能力，能够执行多步推理轨迹，从算术、常识和符号推理任务中的问题中得出答案 (Wei et al., 2022 ) 。然而，这种“思路链”推理是一个静态的黑匣子，因为模型使用其自身的内部表征来生成思想，而不是基于外部世界，这限制了其反应性推理或更新知识的能力。这可能导致诸如事实幻觉和推理过程中的错误传播等问题 (图 1 (1b))。另一方面，最近的研究探索了使用预训练语言模型在交互式环境中进行规划和行动（Ahn 等人， 2022 年；Nakano 等人， 2021 年；Yao 等人， 2020 年；Huang 等人， 2022a ），重点是通过语言先验预测动作。这些方法通常将多模态观察转换为文本，使用语言模型生成特定领域的动作或计划，然后使用控制器来选择或执行它们。然而，除了 Huang 等人（ 2022b ）进行有限形式的语言推理以重申有关当前状态的空间事实外，它们不使用语言模型对高级目标进行抽象推理或维护工作记忆来支持行动。除了这种与几个块交互的简单体现任务之外，还没有研究如何将推理和行动以协同的方式结合起来以解决一般任务，以及这种组合是否比单独的推理或行动带来系统性的好处。

在这里插入图片描述
图 1： (1) 四种提示方法的比较：(a) 标准提示法、(b) 思维链（ CoT ，仅推理）、© 仅行动提示法和 (d) \model （推理+行动），用于解决 HotpotQA (Yang et al., 2018 ) 问题。(2) 比较 (a) 仅行动提示法和 (b) \model 提示法，用于解决 AlfWorld (Shridhar et al., 2020b ) 游戏。在这两个领域中，我们都省略了提示中的上下文示例，仅展示由模型（行动、思维）和环境（观察）生成的任务解决轨迹。

在这项工作中，我们提出了 \model ，这是一个将推理和行动与语言模型相结合的通用范式，用于解决各种语言推理和决策任务（图 1 ）。 \model 促使 LLM 以交错的方式生成与任务相关的言语推理痕迹和动作，这使得模型可以执行动态推理来创建、维护和调整高级行动计划（行动的理由），同时还可以与外部环境（例如维基百科）交互以将附加信息纳入推理（行动推理）。

我们对四个不同的基准测试对 \model 和最新基线进行了实证评估：问答（HotPotQA， Yang 等人， 2018 年）、事实验证（Fever， Thorne 等人， 2018 年）、基于文本的游戏（ALFWorld， Shridhar 等人， 2020b 年）和网页导航（WebShop， Yao 等人， 2022 年）。对于 HotPotQA 和 Fever，通过访问模型可以交互的 Wikipedia API， \model 的表现优于原始动作生成模型，同时与思路链推理（ CoT ）相媲美（Wei 等人， 2022 年）。总体而言，最好的方法是结合 \model 和 CoT ，这样可以在推理过程中同时使用内部知识和外部获取的信息。在 ALFWorld 和 WebShop 上，两次甚至一次的 “模型提示”能够超越使用 $10^3$ ∼ $10^5$ 任务实例训练的模仿或强化学习方法，成功率分别提升了 34% 和 10%。我们还证明了稀疏、通用推理在决策中的重要性，因为它在仅使用动作的情况下，相对于受控基线表现出持续的优势。除了普遍适用性和性能提升之外，推理与行动的结合还有助于提升模型在所有领域的可解释性、可信度和可诊断性，因为人类能够轻松区分来自模型内部知识和外部环境的信息，并检查推理轨迹以理解模型动作的决策基础。

综上所述，我们的主要贡献如下：（1）我们引入了 \model ，这是一种基于提示的新型范式，用于协同语言模型中的推理和行动以解决一般任务；（2）我们在不同的基准上进行了广泛的实验，以展示 \model 在小样本学习设置中相对于以前单独执行推理或动作生成的方法的优势；（3）我们进行了系统的消融和分析，以理解行动在推理任务中的重要性以及推理在交互任务中的重要性；（4）我们分析了 \model 在提示设置下的局限性（即对推理和行动行为的支持有限），并进行了初步的微调实验，展示了 \model 通过额外的训练数据进行改进的潜力。扩大 \model 的规模以训练和运行更多任务，并将其与强化学习等互补范式相结合，可以进一步释放大型语言模型的潜力。

2. model: Synergizing Reasoning + Acting 协同推理 + 行动

在这里插入图片描述

然而，由于语言空间 ℒ是无限的，在这种增强的动作空间中学习非常困难，需要强大的语言先验知识。在本文中，我们主要关注这样一个设置：使用一个冻结的大型语言模型 PaLM-540B (Chowdhery 等人， 2022 ) 1 ，通过少样本上下文示例来生成领域特定动作和自由形式语言思维，以用于任务解决（图 1 (1d)、(2b)）。每个上下文示例都是人类通过动作、思维和环境观察的轨迹，用于解决一个任务实例（参见附录 C ）。对于推理至关重要的任务（图 1 (1)），我们交替生成思维和动作，以便任务解决轨迹由多个思维-动作-观察步骤组成。相比之下，对于可能涉及大量动作的决策任务（图 1 (2)），想法只需要稀疏地出现在轨迹中最相关的位置，因此我们让语言模型自己决定想法和动作的异步发生。

由于决策和推理能力被集成到一个大型语言模型中， \model 具有几个独特的特性：

A) 直观且易于设计：设计模型提示非常简单，因为人工注释者只需在执行操作的基础上，用语言记录下他们的想法即可。本文不采用任何临时的格式选择、思维设计或示例选择。我们将在第 3 节和第 4 节中详细介绍每个任务的提示设计。
B）通用性和灵活性：由于灵活的思维空间和思维动作发生格式， \model 适用于具有不同动作空间和推理需求的各种任务，包括但不限于 QA，事实验证，文本游戏和网络导航。
C) 性能卓越且稳健： \model 在仅学习一到六个上下文示例的情况下，就展现出对新任务实例的强大泛化能力，其表现始终优于仅在不同领域进行推理或行动的基线模型。我们还在第 3 节中展示了启用微调后的额外优势，并在第 4 节中展示了 \model 在提示选择方面如何保持稳健。
D）与人类一致且可控： “\”模型承诺实现可解释的顺序决策和推理过程，人类可以轻松检查推理过程和事实的正确性。此外，人类还可以通过思维编辑来控制或纠正智能体的行为，如第 4 节中的图 5 所示。

3Knowledge-Intensive Reasoning Tasks 知识密集型推理任务

我们从知识密集型推理任务入手，例如多跳问答和事实验证。如图 1 (1d) 所示，通过与维基百科 API 交互， \model 能够检索信息以支持推理，同时还能利用推理来确定下一步要检索的内容，展现了推理与行动的协同作用。

3.1Setup 设置

Domains 域

我们考虑两个对知识检索和推理具有挑战性的数据集：

（1）HotPotQA （Yang 等人， 2018 ），一个多跳问答基准，需要对两个或更多维基百科段落进行推理；
（2）FEVER （Thorne 等人， 2018 ），一个事实验证基准，其中每个声明都注释为“支持”、“反驳”或“信息不足”，具体取决于是否存在可验证该声明的维基百科段落。在这项工作中，我们对这两个任务都采用了仅限问题的设置，其中模型仅接收问题/声明作为输入，而无法访问支持段落，并且必须依靠其内部知识或通过与外部环境交互来检索知识以支持推理。

Action Space 动作空间

我们设计了一个简单的维基百科 Web API，它具有三种类型的操作来支持交互式信息检索：

（1）搜索 [ 实体 ]，如果存在，则返回相应实体 wiki 页面的前 5 个句子，否则建议来自维基百科搜索引擎的前 5 个相似实体，
（2）查找 [ 字符串 ]，将返回页面中包含字符串的下一个句子，模拟浏览器上的 Ctrl+F 功能。
（3）完成 [ 答案 ]，将以答案完成当前任务。我们注意到，这个动作空间大多只能根据确切的段落名称检索段落的一小部分，这明显弱于最先进的词汇或神经检索器。目的是模拟人类如何与维基百科互动，并强制模型通过语言的明确推理进行检索。

3.2Methods 方法

\model Prompting 提示

对于 HotpotQA 和 Fever，我们从训练集中随机选择了 6 个和 3 个案例 2 ，并手动编写 \model 格式的轨迹，用作提示中的小样本样本。与图 1 (d) 类似，每个轨迹由多个“思考-行动-观察”步骤（即密集思考）组成，其中自由形式的想法用于各种目的。具体来说，我们使用多种想法来分解问题（“我需要搜索 x，找到 y，然后找到 z”），从维基百科观察中提取信息（“x 始于 1844 年”，“该段落没有告诉 x”），执行常识（“x 不是 y，所以 z 必须是…”）或算术推理（“1844 < 1989”），指导搜索重构（“也许我可以搜索/查找 x”），并合成最终答案（“…所以答案是 x”）。有关更多详细信息，请参阅附录 C。

Baselines 基线

我们系统地消除 \model 轨迹来构建多个基线的提示（格式如图 1 （1a-1c）所示）：

（a）标准提示（ Standard ），删除 \model 轨迹中的所有想法、动作和观察。
（b）思路链提示（ CoT ）（Wei et al., 2022 ），删除动作和观察，作为仅推理的基线。我们还通过在推理过程中对解码温度为 0.7 的 21 个 CoT 轨迹进行采样并采用多数答案来构建自洽基线（ CoT-SC ）（Wang et al., 2022a ; b ），结果发现，这可以持续提高 CoT 的性能。
（c）纯动作提示（ Act ），它删除了 \model 轨迹中的想法，大致类似于 WebGPT （Nakano 等人， 2021 年）与互联网交互以回答问题的方式，尽管它在不同的任务和动作空间上运行，并且使用模仿和强化学习而不是提示。

Combining Internal and External Knowledge 结合内部和外部知识

正如第 3.3 节将详细介绍的那样，我们观察到 \model 所展示的问题解决过程更加基于事实，更有根据，而 CoT 在构建推理结构方面更准确，但容易受到虚假事实或想法的影响。因此，我们建议结合 \model 和 CoT-SC ，让模型根据以下启发式方法决定何时切换到另一种方法：一个） \model →→\toCoT-SC：当 \model 未能在给定步骤内返回答案时，返回 CoT-SC 。我们为 HotpotQA 和 FEVER 分别设置了 7 个和 5 个步骤，因为我们发现增加步骤并不会提升 \model 的性能 3 。 B） CoT-SC→→\to\model：当 n 个 CoT-SC 样本中的大多数答案出现的次数少于 n/2 次（即内部知识可能无法自信地支持该任务）时，退回到 \model 。

Finetuning 微调

由于大规模手动注释推理轨迹和动作的挑战性，我们考虑采用类似 Zelikman 等人 ( 2022 ) 的引导方法，使用 \model 生成的 3,000 条包含正确答案的轨迹（也适用于其他基线模型）来微调较小的语言模型 (PaLM-8/62B)，以解码基于输入问题/主张的轨迹（所有想法、动作和观察）。更多详情请参阅附录 B.1 。

3.3Results and Observations 结果与观察

\model outperforms Act consistently 始终优于 Act

表 1 展示了使用 PaLM-540B 作为基础模型，并采用不同提示方法的 HotpotQA 和 Fever 测试结果。我们注意到， \model 在这两个任务上的表现均优于 Act ，这证明了推理在指导行动方面的价值，尤其是在合成最终答案方面，如图 1 (1c-d) 所示。微调结果 3 也证实了推理痕迹对更明智行动的益处。
在这里插入图片描述

\model vs. CoT

另一方面， \model 在 Fever 上的表现优于 CoT （60.9 vs. 56.3），在 HotpotQA 上略逊于 CoT （27.4 vs. 29.4）。Fever 对 SUPPORTS/REFUTES 的断言可能只有细微的差别（参见附录 D.1 ），因此检索准确且最新的知识至关重要。为了更好地理解 \model 和 CoT 在 HotpotQA 上的行为差异，我们从 \model 和 CoT 中分别随机抽取了 50 条包含正确和错误答案（由 EM 判断）的轨迹（因此总共 200 个示例），并在表 2 中手动标记了它们的成功和失败模式。一些关键观察结果如下：

A）幻觉是 CoT 的一个严重问题，导致其成功模式的假阳性率远高于 \model （14% vs. 6%），并成为其主要失败模式（56%）。相比之下，由于能够访问外部知识库， \model 的问题解决轨迹更加扎实、基于事实、更加值得信赖。

B) 虽然交错推理、行动和观察步骤可以提高 \model 的扎实度和可信度，但这种结构约束也降低了其在制定推理步骤方面的灵活性，导致推理错误率高于 CoT 。我们注意到， \model 有一种常见的错误模式，即模型重复生成以前的想法和动作，我们将其归类为“推理错误”的一部分，因为模型无法推理出下一步该采取什么正确的行动并跳出循环 6 。

C) 对于 \model 来说，成功地通过搜索检索信息丰富的知识至关重要。非信息丰富的搜索（占错误案例的 23%）会破坏模型推理，使其难以恢复和重新表述思路。这或许是事实性和灵活性之间预期的权衡，也正是这种权衡促使我们提出了结合两种方法的策略。

我们在附录 E.1 中提供了每种成功和失败模式的示例。我们还发现一些 HotpotQA 问题可能包含过时的答案标签，例如图 4 。

\model + CoT-SC perform best for prompting LLMs

表 1 还显示，HotpotQA 和 Fever 上最佳的提示方法分别为 \model → CoT-SC 和 CoT-SC → \model 。此外，图 1 展示了不同方法在不同 CoT-SC 样本数量下的表现。虽然两种 \model + CoT-SC 方法在各自任务中各有优势，但它们在不同样本数量下的表现均显著且一致地优于 CoT-SC ，仅使用 3-5 个样本即可达到 21 个样本的 CoT-SC 性能。这些结果表明，在推理任务中，合理结合模型内部知识和外部知识具有重要价值。
在这里插入图片描述

\model performs best for fine-tuning

图 3 展示了在 HotpotQA 上提示/微调四种方法（ Standard 、 CoT 、 Act 、 \model ）的扩展效果。对于 PaLM-8/62B，提示 \model 在四种方法中表现最差，因为很难从上下文示例中学习推理和行动。然而，当仅使用 3,000 个示例进行微调时， \model 成为四种方法中最好的方法，其中 PaLM-8B 微调的 \model 优于所有 PaLM-62B 提示方法，而 PaLM-62B 微调的 \model 优于所有 540B 提示方法。相比之下，对于 PaLM-8/62B，微调 Standard 或 CoT 明显比微调 \model 或 Act 差，因为前者本质上教模型记忆（可能产生幻觉的）知识事实，而后者教模型如何（推理和）行动来获取维基百科中的信息，这是一种更通用的知识推理技能。由于所有提示方法与特定领域的最新方法（表 1 ）仍有很大的差距，我们认为使用更多人工编写的数据进行微调可能是释放 \model 功能的更好方法。

4Decision Making Tasks 决策任务

我们还在两个基于语言的交互式决策任务 ALFWorld 和 WebShop 上测试了 \model ，这两个任务都具有复杂的环境，需要代理在稀疏的奖励下长期行动，从而需要推理才能有效地行动和探索。

ALFWorld ALF 世界

ALFWorld (Shridhar et al., 2020b ) （图 1 (2)）是一款基于文本的合成游戏，旨在与具体化的 ALFRED 基准（Shridhar et al., 2020a ）保持一致。它包含 6 种类型的任务，其中代理需要通过文本操作（例如，前往咖啡桌 1、拿纸 2、使用台灯 1）导航并与模拟家庭互动，以实现高级目标（例如，在台灯下检查试卷）。一个任务实例可以有 50 多个位置，并且需要专家策略超过 50 个步骤才能解决，因此挑战代理规划和跟踪子目标，以及系统地探索（例如，逐一检查所有桌子上的台灯）。具体来说，ALFWorld 面临的一个挑战是需要确定常见家居用品的可能位置（例如，台灯可能放在桌子、架子或梳妆台上），这使得该环境非常适合 LLM 利用其预先训练的常识知识。为了提示 \model ，我们为每种任务类型随机注释了来自训练集的三条轨迹，其中每条轨迹包含稀疏想法，这些想法（1）分解目标，（2）跟踪子目标完成情况，（3）确定下一个子目标，以及（4）通过常识推理在哪里找到一个物体以及如何处理它。我们在附录 C.4 中展示了用于 ALFWorld 的提示。按照 Shridhar 等人（ 2020b ）的研究，我们在特定于任务的设置中对 134 个未见过的评估游戏进行了评估。为了稳健性，我们通过从我们注释的 3 条轨迹中分别排列 2 条带注释的轨迹，为每种任务类型构建了 6 个提示。 Act 提示使用相同的轨迹构建，但不包含思维——由于任务实例是从训练集中随机选择的，因此它既不偏向 \model 也不偏向 Act ，而是提供公平且可控的比较，以检验稀疏思维的重要性。作为基线，我们使用 BUTLER (Shridhar et al., 2020b ) ，这是一个模仿学习代理，针对每种任务类型 7 的 $10^5$ 条专家轨迹进行训练。

WebShop 网上商店

模型是否也能与嘈杂的真实世界语言环境交互以用于实际应用？我们研究了 WebShop （Yao 等人， 2022 ），这是一个最近提出的在线购物网站环境，拥有 118 万种真实产品和 1.2 万条人工指令。与 ALFWorld 不同，Webshop 包含各种结构化和非结构化文本（例如从亚马逊爬取的产品标题、描述和选项），并且需要代理根据用户指令购买产品（例如“我正在寻找一个带抽屉的床头柜。它应该是镀镍的，价格低于 140 美元”）通过网络交互（例如搜索“床头柜抽屉”，选择“颜色：现代镍白”或“返回搜索”等按钮）。此任务通过 500 条测试指令的平均分数（所选产品在所有 episode 中平均覆盖所需属性的百分比）和成功率（所选产品满足所有要求的 episode 百分比）进行评估。我们制定了包含搜索、选择产品、选择选项和购买等操作的 “动作” 提示，并额外添加了 “模型” 提示，用于推理确定探索内容、购买时间以及哪些产品选项与指令相关。示例提示请参见表 6 ，模型预测请参见附录中的表 10。我们将其与使用 1,012 条人工注释轨迹训练的模仿学习 (IL) 方法以及额外使用 10,587 条训练指令训练的模仿+强化学习 (IL + RL) 方法进行了比较。

Results 结果
在这里插入图片描述

\model \模型

在 ALFWorld（表 4 ）和 Webshop（表 4 ）上都优于 Act 。在 ALFWorld 上，最佳 \model 试验的平均成功率为 71%，明显优于最佳 Act （45%）和 BUTLER（37%）试验。事实上，即使是最差的 \model 试验（48%）也击败了两种方法中最好的试验。此外， \model 优于 Act 的优势在六次受控试验中保持一致，相对性能增益从 33% 到 90%，平均为 62%。从质量上讲，我们发现，在没有任何思考的情况下， Act 无法正确地将目标分解为更小的子目标，或者失去对环境当前状态的跟踪。附录 D.2.1 和附录 D.2.2 中可以找到比较 \model 和 Act 的示例轨迹。

在 Webshop 上，一次性动作提示的表现已经与 IL 和 IL+RL 方法相当。通过额外的稀疏推理， \model 取得了显著更好的性能，比之前的最佳成功率提高了 10%。通过检查示例，我们发现 \model 更有可能通过推理来弥合嘈杂的观察和动作之间的差距，从而识别与指令相关的产品和选项（例如，“对于‘节省空间的客厅脚凳’，该商品有‘39x18x18 英寸’和‘蓝色’选项，看起来很值得购买。”）。然而，现有方法仍然远远达不到人类专家的表现（表 4 ），他们执行了更多的产品探索和查询重新制定，这对于基于提示的方法来说仍然具有挑战性。

On the value of internal reasoning vs. external feedback 论内部推理与外部反馈的价值

据我们所知， \model 是首次将 LLM 应用于闭环系统内的交互环境，实现推理与行动相结合的演示。或许最接近的先前研究是 Huang 等人（ 2022b ）的“内心独白”（IM），其中具身智能体的行为由同名的“内心独白”所驱动。然而，IM 的“内心独白”仅限于对环境状态的观察，以及智能体需要完成哪些操作才能实现目标。相比之下， \模型中的决策推理轨迹灵活且稀疏，允许针对不同的任务推导出不同的推理类型（参见第 2 节）。

为了展示 \model 和 IM 之间的差异，并强调内部推理相对于对外部反馈的简单反应的重要性，我们使用由类似 IM 的密集外部反馈组成的思维模式进行了一项消融实验。如表 4 所示， \model 的表现远远优于 IM 式提示（ ReAct-IM ）（总体成功率为 71 比 53），并且在六项任务中的五项中始终占据优势。从质量上讲，我们观察到，由于缺乏高级目标分解， ReAct-IM 经常在识别子目标何时完成或下一个子目标应该是什么时出错。此外，由于缺乏常识推理，许多 ReAct-IM 轨迹难以确定某个项目在 ALFWorld 环境中的可能位置。这两个缺点都可以在 \model 范式中得到解决。有关 ReAct-IM 的更多详细信息，请参见附录 B.2 。可以在附录 C.4 中找到 ReAct-IM 的示例提示，在附录 D.2.3 中可以找到示例轨迹。

5 Related Work 相关工作

Language model for reasoning 推理语言模型

也许最著名的使用 LLM 进行推理的工作是思维链 (CoT) (Wei 等， 2022 ) ，它揭示了 LLM 制定自己的问题解决“思维程序”的能力。此后，又进行了一些后续工作，包括用于解决复杂任务的从最少到最多的提示 (Zhou 等， 2022 ) 、零样本 CoT (Kojima 等， 2022 ) 和自洽推理 (Wang 等， 2022a ) 。最近， (Madaan & Yazdanbakhsh， 2022 ) 系统地研究了 CoT 的公式和结构，并观察到符号、模式和文本的存在对 CoT 的有效性至关重要。其他工作也已扩展到超越简单提示的更复杂的推理架构。例如，选择推理 (Creswell et al., 2022 ) 将推理过程分为“选择”和“推理”两个步骤。STaR (Zelikman et al., 2022 ) 通过基于模型自身生成的正确原理对模型进行微调来引导推理过程。忠实推理 (Creswell & Shanahan, 2022 ) 将多步骤推理分解为三个步骤，每个步骤分别由专用的语言模型 (LM) 执行。类似的方法，例如 Scratchpad (Nye et al., 2021 ) ，它在中间计算步骤上对语言模型进行微调，也证明了多步骤计算问题的改进。与这些方法相比， \model 不仅仅执行孤立的、固定的推理，还将模型动作及其相应的观察结果集成到连贯的输入流中，以便模型更准确地推理并处理推理之外的任务（例如交互式决策）。

Language model for decision making 决策语言模型

LLM 的强大功能使其能够执行语言生成以外的任务，并且利用 LLM 作为决策的策略模型正变得越来越流行，尤其是在交互式环境中。WebGPT （Nakano 等人， 2021 年）使用 LM 与 Web 浏览器交互、浏览网页以及从 ELI5 (Fan et al., 2019 ) 中推断复杂问题的答案。与 \model 相比，WebGPT 没有明确地模拟思考和推理过程，而是依靠昂贵的人工反馈进行强化学习。在对话建模中，像 BlenderBot (Shuster et al., 2022b ) 和 Sparrow (Glaese et al., 2022 ) 这样的聊天机器人以及像 SimpleTOD (Hosseini-Asl et al., 2020 ) 这样的面向任务的对话系统也训练 LM 来对 API 调用做出决策。与 \model 不同，它们也没有明确地考虑推理过程，并且还依靠昂贵的数据集和人工反馈集合进行策略学习。相比之下， \model 以更便宜的方式学习策略，因为决策过程只需要推理过程的语言描述。

LLMS 也越来越多地应用于交互式和具身化环境中的规划和决策。在这方面，与 \model 最相关的或许是 SayCan （Ahn 等人， 2022 年）和 Inner Monologue （Huang 等人， 2022b 年），它们使用 LLM 进行机器人行动规划和决策。在 SayCan 中，LLM 被提示直接预测机器人可能采取的行动，然后由基于视觉环境的可供性模型对其进行重新排序，以进行最终预测。Inner Monologue 进行了进一步的改进，添加了同名的“内心独白”，它作为来自环境的注入反馈来实现。据我们所知，Inner Monologue 是第一个展示这种闭环系统的作品， \model 正是以此为基础构建的。然而，我们认为 Inner Monologue 并不真正包含内心想法——这将在第 4 节中详细阐述。我们还注意到，在交互式决策过程中利用语言作为语义丰富的输入已被证明在其他环境下是成功的（Abramson 等人， 2020 年；Karamcheti 等人， 2021 年；Huang 等人， 2022a 年；Li 等人， 2022 年）。越来越明显的是，在 LLM 的帮助下，语言作为一种基本的认知机制将在交互和决策中发挥关键作用。此外，LLM 的进展也激发了像 Reed 等人（ 2022 年）这样的多功能和通才代理的开发。

6 Conclusion 结论

我们提出了 \model—— 一种简单而有效的方法，用于协同大型语言模型中的推理和行动。通过对多跳问答、事实核查和交互式决策任务进行的一系列实验，我们证明了 \model 能够带来卓越的性能，并产生可解释的决策轨迹。尽管我们的方法很简单，但对于具有较大动作空间的复杂任务，需要更多的演示才能学好，而这很容易超出上下文学习的输入长度限制。我们在 HotpotQA 上探索了微调方法，并取得了初步的良好效果，但从更多高质量的人工注释中学习将是进一步提升性能的关键。通过多任务训练扩展 \model ，并将其与强化学习等互补范式相结合，可以构建更强大的智能体，从而进一步释放 LLM 在更多应用领域的潜力。

Acknowledgments 致谢

我们感谢 Google Brain 团队和普林斯顿 NLP 小组众多成员的支持和反馈。本研究部分由美国国家科学基金会 (NSF) 资助，资助编号为 2107048。本文中表达的任何观点、发现、结论或建议均为作者本人观点，并不一定反映 NSF 的观点。

Reproducibility Statement 可重复性声明

我们的主要实验是在 PaLM （Chowdhery 等人， 2022 年）上进行的，该模型目前尚未公开。为了提高可重复性，我们在附录 C 中提供了所有用到的提示，在附录 A.1 中提供了使用 GPT-3 （Brown 等人， 2020 年）进行的额外实验，并在 https://anonymous.4open.science/r/ReAct-2268/ 上提供了相关的 GPT-3 模型提示代码。

Ethics Statement 道德声明

促使大型语言模型生成比以往方法更易于人类解释、诊断和控制的任务解决轨迹。然而，将大型语言模型与动作空间连接起来与外部环境（例如网络、物理环境）交互存在潜在风险，例如查找不适当或隐私信息，或在环境中采取有害行动。我们的实验通过将交互限制在不包含隐私信息的特定网站（维基百科或 WebShop）上，并在动作空间设计中避免任何危险操作（例如，模型无法真正在研究基准 WebShop 上购买产品或编辑维基百科），从而最大限度地降低了此类风险。我们认为，研究人员在未来设计更广泛的实验之前应该意识到这些风险。