大模型从失败中学习 —— 微调大模型以提升Agent性能

人工智能咨询培训老师叶梓转载标明出处

以往的研究在微调LLMs作为Agent时，通常只使用成功的交互轨迹，而丢弃了未完成任务的轨迹。这不仅造成了数据和资源的浪费，也可能限制了微调过程中可能的优化路径。论文《Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents》提出了负面感知训练（Negative-Aware Training, NAT）方法，通过适当的数据清洗和微调策略，使大模型能够从失败中学习，旨在提高模型在数学推理、多跳问答和策略性问答任务中的性能。

方法

图1为先前的方法和作者的NAT范式。在数据收集阶段，收集了LLMs与环境（工具）之间的交互。在数据处理阶段，先前的方法简单地过滤掉负面样本，而NAT通过在任务查询中添加提示来重新格式化轨迹，根据它们是正面还是负面。图1(c)给出了重格式化的正面和负面轨迹的示例。这里省略了系统提示，以简化说明。

如图1所示，Agent框架中任务解决过程被详细划分。首先，LLM被提供了一个系统提示，概述了（a）要解决的具体任务（例如，“解决一个数学问题”），（b）任务执行允许使用的工具，以及（c）预期的动作空间和输出格式（例如，finish[N]表示N是最终答案）。其次，引入一个查询实例。以ReAct格式提示模型回答查询，包括推理文本（称为“thoughts”）和“actions”。最后，在互动阶段，系统使用预定义的工具执行LLM生成的动作，将结果观察返回给LLM，并提示后续动作，直到生成任务的完成动作，或交互轮次超过预定义阈值。

对于数学任务，作者设计了一个由SymPy实现的计算器，它接受数学表达式作为输入并输出结果。对于两个问答任务，作者设计了一个搜索工具，使用Serper 2 API。它接受搜索查询作为输入并返回谷歌搜索结