2025智源大会上,一些关于智能体调度优化、压缩的论文和项目。其中部分有代码实现,可以参考使用。可以关注钱忱的博客获取最新内容和代码。
作者还编写了一本 电子书:电子书地址
1.A*-Thought: Efficient Reasoning via Bidirectional
Compression for Low-Resource Settings
A-Thought*,一个旨在通过双向压缩来提高大型推理模型(LRMs)在低资源环境下推理效率的框架。 [cite: 1] 其核心思想是,在不牺牲甚至提升模型性能的前提下,从冗长的思维链(Chain-of-Thought, CoT)中识别并提取出最关键的推理步骤,从而生成一个更短、信息密度更高的推理路径。 [cite: 6, 8]
A*-Thought 方法主要包含两个层面:步骤层面(Step-Level)和路径层面(Path-Level)。
1. 步骤层面:双向重要性评分 (Bidirectional Importance Score, BIS)
在步骤层面,为了有效识别出冗长思维链中哪些步骤是重要的,研究者提出了一种双向重要性评分 (BIS) 机制。 [cite: 33, 39]
- 目的:量化每一个独立思考步骤的重要性。 [cite: 33]
- 双向性:一个有效的思考步骤不仅应与“问题 (question)”相关,还应与最终的“解决方案 (solution)”紧密相连。 [cite: 58, 59] 因此,BIS会同时考量该步骤对于问题和答案的双向关联度。 [cite: 59, 60]
- 计算方式:BIS的计算综合了两个维度的评估:
- 注意力层面 (Attention Level):使用一个小型语言模型(如GPT-2)计算出的注意力权重,来衡量一个步骤对问题和答案的影响。 [cite: 62, 67, 68]
- 模型层面 (Model Level):使用负对数似然(Negative Log-Likelihood, NLL)来评估一个步骤对问题和答案的贡献。 [cite: 64, 67, 68]
- 最终的BIS分数由这两部分加权组合而成,通过一个超参数 α \alpha α 来平衡问题和答案的相对重要性。 [cite: 69]
通过BIS评分,可以将原始思维链中的所有步骤按重要性进行排序,为后续的路径搜索提供指导,从而显著提升搜索效率。 [cite: 39, 40]
2. 路径层面:A 搜索算法 (A Search Algorithm)**
在路径层面,该方法将推理过程的构建形式化为一个在巨大的推理空间中寻找最优路径的搜索问题。 [cite: 7] 由于一个包含N个步骤的思维链存在 2 N 2^{N} 2N 种可能的子集,穷举搜索是不现实的。 [cite: 75] 因此,研究者采用了 A 搜索算法*来高效地找到一条既简短又有效的推理路径。 [cite: 8, 34, 76]
- 搜索树:算法将搜索过程构建为一棵树,树中的每个节点代表一个推理片段(span),这个片段通常包含一个核心思考步骤及其相邻的上下文步骤,以避免信息碎片化。 [cite: 7, 83, 84]
- 初始化与迭代:搜索从一个根据BIS分数选出的最高分步骤开始作为根节点。 [cite: 85, 87] 随后,算法进入迭代式的“验证 (Verification)”与“探索 (Exploration)”循环。 [cite: 77]
- 验证:在每一步,一个验证模型 (Verification Model) 会评估当前的路径是否已经能够推导出正确的答案。 [cite: 78, 88] 如果是,则搜索结束。 [cite: 89]
- 探索:如果验证失败,算法会从按BIS排序的队列中取出排名靠前的几个步骤作为候选的下一步,并利用一个精心设计的成本函数 (cost function) 来评估每个候选路径。 [cite: 92, 93]
- 成本函数
f
(
⋅
)
f(·)
f(⋅):这是A*搜索的核心,它遵循
f
=
g
+
h
f = g + h
f=g+h 的形式。 [cite: 94]
- g ( ⋅ ) g(·) g(⋅) - 当前成本:评估从起点到当前节点路径的质量。 [cite: 95, 101] 它通过验证模型计算当前路径的生成概率来量化。 [cite: 102]
- h ( ⋅ ) h(·) h(⋅) - 未来成本启发式估计:估算从当前节点到达最终解决方案所需的未来成本。 [cite: 96, 101, 104] 它通过计算在当前路径和问题的条件下,生成正确答案的条件自信息 (conditional self-information) 来实现。 [cite: 106, 107]
- 路径选择:算法会选择总成本 f ( ⋅ ) f(·) f(⋅) 最小的路径作为下一步的扩展方向,并继续迭代,直到找到解决方案或达到最大搜索深度。 [cite: 97, 98]
总而言之,A*-Thought框架通过步骤层面的BIS评分来高效地筛选出重要的思考步骤,再通过路径层面的A*搜索结合专门设计的成本函数,智能地将这些关键步骤组合成一条紧凑且逻辑连贯的推理链,最终实现在保证甚至提升推理准确性的同时,大幅缩短输出长度,提高计算效率。 [cite: 6, 178, 180, 182]
2.ChatDev
地址:ChatDev
ChatDev是一家虚拟软件公司,通过各种担任不同角色的智能体进行运作,这些角色包括首席执行官、首席产品官、首席技术官、程序员、评审员、测试员和艺术设计师。这些智能体形成了一个多智能体组织结构,并因“通过编程彻底改变数字世界”的使命而团结在一起。ChatDev内的智能体通过参加专门的功能研讨会进行协作,这些研讨会包括设计、编码、测试和文档编写等任务。
ChatDev的主要目标是提供一个基于大型语言模型(LLM)的易于使用、高度可定制且可扩展的框架,该框架是研究和理解集体智慧的理想场景。
3.SCALING LARGE LANGUAGE MODEL-BASED MULTI-AGENT COLLABORATION
该框架旨在探索并利用“协作规模法则”(collaborative scaling law),即通过增加协作智能体的数量来提升复杂任务的解决性能。
MACNET的核心方法主要包括三个关键部分:网络构建、交互式推理和内存控制。
3.1. 网络构建 (Network Construction)
MACNET并非让智能体随意交互,而是将它们组织在一个具有特定拓扑结构的网络中。
- 拓扑结构:该框架使用有向无环图 (DAG) 来组织智能体,这确保了信息在网络中单向流动,避免了循环和信息回流,增强了通用性 [cite: 3, 37]。论文重点研究了三种代表性的拓扑类型及其变体:
- 链式 (Chain):智能体线性排列,类似于瀑布流模型 [cite: 39]。
- 树形 (Tree):允许智能体分支,向不同方向独立交互,分为“更宽”的星形(Star)和“更深”的树形(Tree) [cite: 40, 41]。
- 图状 (Graph):支持更复杂的交互依赖,分为全连接的网状(Mesh)、MLP形状的分层(Layer)和不规则的随机(Random)拓扑 [cite: 41, 42]。
- 角色分配:为了实现有效的分工,MACNET采用了功能性二分法。网络中的每个节点 (node) 被分配一个执行者 (actor) 智能体,负责提供具体的产出物(artifact);每个边 (edge) 被分配一个评论家 (critic) 智能体,负责发布指令和建议 [cite: 21, 44]。这种设计促进了角色专业化和渐进式的任务解决 [cite: 22]。
3.2. 交互式推理 (Interactive Reasoning)
智能体在构建好的网络中遵循有序的规则进行协作推理。
- 拓扑排序:智能体的交互顺序遵循图的拓扑排序原则,确保每个智能体只有在其所有前置依赖(上游智能体)完成工作后才开始活动 [cite: 47]。这保证了信息在网络中有序地传播 [cite: 49]。
- 双智能体交互:核心交互发生在由边连接的一对智能体之间(即一个评论家和一个执行者) [cite: 53]。交互模式为:上一个执行者请求反馈,评论家提供反思性建议并请求下游执行者进行改进,下游执行者最终提供一个精炼后的产出物 [cite: 55]。这个过程实现了对产出物的持续反思和迭代优化 [cite: 56]。
- 信息流:重要的是,只有最终精炼的产出物(例如代码、文档、答案等)才会在网络中向后传播,而整个对话历史记录则不会 [cite: 23]。这有效控制了上下文的规模 [cite: 24]。
3.3 内存控制 (Memory Control)
为了解决随着智能体数量增加而可能出现的“上下文爆炸”问题,MACNET采用了严格的内存管理机制。
- 短时记忆和长时记忆:每个智能体都拥有短时记忆来处理当前交互的上下文,以及长时记忆来保持任务的连续性 [cite: 57, 58, 59]。
- 产出物传播:长时记忆只保留当前对话中最终形成的产出物,而不是完整的对话历史 [cite: 59]。这个机制确保只有关键信息在网络中流动,从而将上下文长度的增长从与网络规模(n)的二次方关系( O ( n 2 ) O(n^2) O(n2))降低到线性关系( O ( n ) O(n) O(n)),极大地提升了框架的可扩展性,使其能够支持超过一千个智能体的大规模协作 [cite: 4, 69]。
- 信息聚合:在有多个输入边的汇聚节点,智能体会通过分层聚合的方式,整合所有上游产出物的优点,形成一个更优的聚合产出物,再进行下一步的精炼 [cite: 62]。
总而言之,MACNET通过将智能体组织在有向无环图中,并分配“执行者”和“评论家”角色,再通过基于拓扑排序的有序交互和严格的内存控制机制,实现了一个高效、可扩展的多智能体协作框架。该框架不仅提升了任务解决的性能,还揭示了增加智能体数量可以像增加神经网络神经元一样带来性能提升的“协作规模法则” [cite: 5]。
4.Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication
核心方法是 AutoForm(Autonomously-Decided Format,自主决定格式)。
这是一种简单而有效的提示(prompting)机制 [cite: 66],旨在挑战大型语言模型(LLM)默认使用自然语言(NL)进行推理和通信的现状 [cite: 4]。
4.1 AutoForm方法的核心思想
AutoForm的核心思想是,不假定自然语言是LLM处理所有任务的最佳格式,而是通过在提示中加入特定指令,引导LLM自主地为当前任务选择并使用最合适的非自然语言(non-NL)格式 [cite: 4, 26, 66]。研究假设,诸如代码、逻辑表达式、列表或JSON等结构化格式,能够带来更精确的推理和更高效的沟通 [cite: 2, 65]。
AutoForm的实现方式
该方法的实现非常直接,主要是在常规的思维链(Chain-of-Thought, CoT)提示中增加一条额外指令。
-
对于单模型推理:在原始CoT提示中,加入一条指令,鼓励LLM探索并使用一种适合当前输入的非自然语言格式来解决问题 [cite: 26, 67]。例如,提示LLM可以考虑使用代码、伪代码、JSON、Markdown表格、逻辑运算符或数学方程等格式来增强清晰度和消除歧义 [cite: 314, 319]。
-
对于多智能体通信:在多智能体协作的场景中,同样会添加类似的指令,引导智能体(LLMs)之间采用更直接、精确的通信媒介,而不是类似闲聊的自然语言 [cite: 68, 362]。
AutoForm解决的主要问题
该方法旨在解决自然语言在LLM应用中的两个关键限制:
- 推理的模糊性:自然语言固有的模糊性和冗长性可能不适合需要高精度的逻辑、数学或符号推理任务 [cite: 23]。
- 通信的低效率:在多智能体系统中,使用自然语言进行交流会包含大量冗余信息(如客套话、情感表达),导致通信效率低下,消耗更多计算资源(tokens) [cite: 23, 174, 175]。
4.2 AutoForm方法的两个主要应用场景
论文将AutoForm应用于两个关键场景中,并进行了验证(如图2所示) [cite: 53, 54]:
-
单LLM推理 (Single-LLM Reasoning):
- 目标:提升单个LLM解决复杂推理任务的准确性 [cite: 1]。
- 过程:LLM在解决问题时,其“思考”过程会以其自主选择的非自然语言格式(如逻辑表达式)呈现,而不是传统的自然语言描述 [cite: 54]。
- 结果:实验表明,该方法能使不同LLM的推理效率提升3.3%至5.7% [cite: 5, 29]。
-
多智能体通信 (Multi-Agent Communication):
- 目标:提升多个LLM协作解决问题时的通信效率和效果 [cite: 1]。
- 过程:多个LLM智能体在交流时,会放弃传统的对话形式,转而使用更简洁、结构化的格式(如JSON或自定义格式)来交换必要信息 [cite: 28, 54]。
- 结果:在保持沟通有效性的前提下,通信的令牌(token)使用量最多可减少72.7% [cite: 5, 30]。
4.3 核心方法的关键特性
- 自主性 (Autonomy):LLM能够根据任务自主决定最合适的格式 [cite: 26, 95]。
- 通用性 (Generalization):LLM可以从少量任务示例中归纳出一种通用的格式,并应用于整个任务 [cite: 6, 98, 146]。
- 可转移性 (Transferability):由一个LLM(如GPT-4)决定的格式可以被另一个不同的LLM(如Gemini Pro)有效使用 [cite: 6, 99, 153]。
- 与现有标准的一致性 (Alignment with Standards):在多智能体通信中,LLM自主选择的格式在结构上与传统智能体通信语言(ACLs,如KQML)有显著的相似之处,但通常更简洁 [cite: 7, 35, 195, 196, 203]。
综上所述,AutoForm 是本文提出的核心方法,它通过一种简单的提示工程,赋予LLM选择最佳思考和沟通格式的能力,从而显著提升了其在复杂推理和多智能体协作场景下的性能与效率。
5.OPTIMA (Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System)
OPTIMA (Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System) 的核心做法是一个创新的训练框架,旨在通过迭代优化,同时提升基于大型语言模型(LLM)的多智能体系统(MAS)的任务效果和沟通效率 [cite: 2, 22]。
该框架的核心是一个迭代式的“生成、排序、选择、训练” (generate, rank, select, and train) 范式 [cite: 3, 24, 39]。
5.1OPTIMA 框架流程
OPTIMA 的工作流程遵循一个循环,每个循环包含四个主要阶段,如图 2 所示 [cite: 44, 45]:
-
生成 (Generate):使用当前迭代的 LLM,为每个任务生成多个对话轨迹 [cite: 47]。特别地,在为直接偏好优化(DPO)生成数据时,该框架会使用一种受蒙特卡洛树搜索(MCTS)启发的技术,将对话的轮次视为树的节点,以探索多样化的交互路径 [cite: 5, 27, 75, 76]。
-
排序 (Rank):使用一个专门设计的奖励函数对所有生成的对话轨迹进行评估和排序 [cite: 47, 54]。这个奖励函数非常关键,它旨在平衡三个目标:
- 任务性能 ( R t a s k R_{task} Rtask):确保智能体在特定任务上的表现得到提升 [cite: 48]。
- 令牌效率 ( R t o k e n R_{token} Rtoken):通过惩罚冗长的交流来鼓励简洁高效的沟通 [cite: 48]。
- 沟通可读性 ( R l o s s R_{loss} Rloss):通过评估基础模型对该对话的语言建模损失,来保证对话的自然度和可读性 [cite: 48]。
-
选择 (Select):根据奖励分数,从生成的轨迹中筛选出高质量的子集,用于下一步的训练 [cite: 50]。
-
训练 (Train):使用筛选出的高质量数据来更新和优化模型,然后进入下一个迭代周期 [cite: 51]。
5.2 三种训练实例
OPTIMA 框架可以实例化为三种不同的训练算法 [cite: 4, 26]:
- 迭代式监督微调 (iSFT):这是一种直接的方法,在每次迭代中,选择奖励分数最高的对话轨迹,通过标准的监督微调(SFT)来训练模型 [cite: 66, 69]。
- 迭代式直接偏好优化 (iDPO):为了利用更细致的偏好信息,此方法使用 MCTS 生成的对话轨迹对,构建包含“选择的”(chosen)和“拒绝的”(rejected)回复的成对数据,然后通过 DPO 进行模型优化 [cite: 72, 74, 88, 89]。
- 混合迭代训练 (iSFT-DPO):该方法结合了 iSFT 和 iDPO 的优点,通过交替进行 SFT 和 DPO 训练,旨在平衡对已知高效模式的利用和对多样化沟通策略的探索 [cite: 90, 91, 92, 93]。
初始化
在开始迭代训练之前,OPTIMA 还包含一个初始化步骤 [cite: 57]。它通过使用一个包含多种格式(如 JSON、列表)的提示池来生成多样化的初始对话数据,然后对基础模型进行微调 [cite: 58, 64]。这使得初始模型能够掌握多种沟通方式,为后续的迭代优化提供了更好的探索基础 [cite: 65, 67]。
通过这一整套流程,OPTIMA 能够训练出不仅任务完成得好,而且沟通起来非常高效、简洁的智能体,从而解决了现有 LLM-based MAS 中普遍存在的沟通冗余、成本高昂的问题 [cite: 2]。
6 Multi-Agent Collaboration via Evolving Orchestration
该研究的核心做法是一种名为**“偶戏师(Puppeteer)”范式的、用于大型语言模型(LLM)多智能体协作的框架 [cite: 3, 93]。该框架通过一个中心化的、可学习的“编排器”(Orchestrator)**来动态地指导和优化一群“傀儡”智能体(agents)的协作过程 [cite: 3, 8, 9]。
其核心思想和实现方式可分为两个主要部分:动态编排 (Dynamic Orchestration) 和 自适应进化 (Adaptive Evolution)。
6.1 核心思想
该研究旨在解决现有LLM多智能体系统中普遍存在的静态、预定义协作结构所导致的灵活性差和效率低下的问题 [cite: 2, 14]。其灵感来源于木偶戏,其中一个中心的“偶戏师”在幕后熟练地操控多个木偶 [cite: 20]。同样地,该框架由一个中央“编排器”根据任务状态的实时变化,动态地选择和排序要激活的智能体,从而隐式地协调整个团队的协作 [cite: 20, 40]。
6.2 具体实现
-
动态编排 (Dynamic Orchestration)
- 中心化控制:框架的核心是一个中央编排器(即“偶戏师”),它取代了以往智能体自主选择合作者的方式 [cite: 38, 39]。在每个推理步骤中,编排器会根据当前的全局系统状态( S t S_t St)和任务要求( τ \tau τ),选择一个智能体( a t a_t at)来执行任务 [cite: 48]。
- 序列化决策:整个多智能体协作过程被建模为一个序列化决策问题 [cite: 23, 47]。编排器通过策略(policy) π \pi π 将复杂的协作拓扑“展开”成一个推理序列 [cite: 44]。这个过程满足马尔可夫属性,即下一步的决策仅依赖于当前状态 [cite: 49]。
- 动态拓扑生成:协作的拓扑结构(如链、树、图)不是预先固定的,而是在推理过程中由编排器根据实时情况动态构建的 [cite: 129, 130]。这允许系统形成更复杂的交互模式,如分支、回溯和循环 [cite: 133, 137]。
-
自适应进化 (Adaptive Evolution)
- 强化学习优化:为了让编排器学会如何做出最优决策,该框架采用了强化学习(RL)技术,特别是REINFORCE算法,来持续优化其策略 [cite: 4, 24, 58]。
- 复合奖励设计:在每个任务完成后,系统会根据一个综合性的奖励函数(reward function)提供反馈 [cite: 54]。这个奖励函数同时考虑了两个方面:
- 解决方案质量:任务是否正确完成或答案质量的高低 [cite: 64, 65]。
- 计算效率:通过惩罚过度的计算开销(如token消耗)来鼓励简洁的推理 [cite: 66, 67]。
- 持续进化:通过强化学习,编排器不断从过去的经验中学习,逐渐学会优先选择那些能以更少成本获得更好结果的智能体和推理路径,同时“修剪”掉那些效果不佳或冗余的分支 [cite: 25, 55, 56]。这使得整个多智能体系统(MAS)能够进化出更高效、更紧凑的协作结构 [cite: 6, 145]。
6.3 关键特征与目标
- 灵活性与可扩展性:通过将智能体选择与智能体内部行为解耦,极大地增强了系统的适应性和可扩展性 [cite: 41]。
- 效率与性能并重:旨在同时最大化协作的效果和计算效率,打破了以往性能提升往往伴随着成本激增的困境 [cite: 17, 118]。
- 涌现的组织结构:研究发现,经过进化,系统会自发形成更紧凑(compaction)和更具循环性(cyclicality)的推理结构,这被认为是性能提升的关键 [cite: 6, 146]。
6.4 示例
假设我们要解决一个来自 GSM-Hard 数据集的复杂数学应用题 [cite: 68],系统中有以下可选的智能体(“傀儡”):
DecomposeAgent
: 负责将复杂问题分解成小步骤。CalculateAgent
: 负责执行数学计算(内部可能调用代码解释器工具 [cite: 89])。VerifyAgent
: 负责检验计算结果或逻辑的正确性。SummarizeAgent
: 负责整合最终答案。TerminateAgent
: 负责输出最终答案并结束任务。
训练过程如下:
第1轮 (初始策略)
- 执行: 编排器接收到数学题。它的初始策略可能比较随机或初步,它按以下顺序调用了智能体:
DecomposeAgent
→CalculateAgent
→VerifyAgent
→CalculateAgent
→SummarizeAgent
→TerminateAgent
。
- 评估:
- 质量 ( r r r): 任务完成,但最终答案是错误的。因此, r = 0 r=0 r=0 [cite: 64]。
- 成本 ( C T C_T CT): 调用了6个智能体,总共消耗了 3000 Tokens。
- 总奖励 ( R R R): 奖励为负数或一个很低的值 ( 0 − λ ⋅ 3000 0 - \lambda \cdot 3000 0−λ⋅3000)。
- 更新: 因为奖励很低,REINFORCE 算法会更新策略,降低在未来遇到类似问题时,选择这一特定序列的概率。
第N轮 (经过一段时间的训练)
- 执行: 编排器再次接收一个类似的数学题。经过多轮学习,它的策略已经进化。这次它选择了更优的序列:
DecomposeAgent
→CalculateAgent
→SummarizeAgent
→TerminateAgent
。- 它“学会”了对于这类问题,
VerifyAgent
的调用可能不是必须的,或者第一次计算后直接总结即可。
- 评估:
- 质量 ( r r r): 任务完成,最终答案是正确的。因此, r = 1 r=1 r=1 [cite: 64]。
- 成本 ( C T C_T CT): 调用了4个智能体,总共消耗了 1500 Tokens。
- 总奖励 ( R R R): 奖励为一个较高的正值 ( 1 − λ ⋅ 1500 1 - \lambda \cdot 1500 1−λ⋅1500)。这个奖励远高于第一轮。
- 更新: 因为获得了高奖励,策略网络会得到正向加强,未来它会更倾向于选择这条更短、更高效且能得出正确答案的路径。
通过这种方式,编排器不仅学会了如何解决问题,更重要的是,它学会了如何以更经济的方式解决问题,最终演化出论文中提到的那种更紧凑、高效的协作结构 [cite: 174]。
7 Co-Saving: Resource Aware Multi-Agent Collaboration for Software Development
该方法的核心创新在于引入并利用了**“快捷方式”(Shortcuts)**这一概念,通过借鉴历史成功经验来显著提升软件开发任务的效率和产出质量 [cite: 4, 5]。
整个方法可以分解为以下几个关键步骤:
-
利用历史经验(Reference Chains)
- 当系统接收到一个新任务时,它首先会从历史记录中检索一个相似且已成功完成的任务作为“参考链”(Reference Chain)[cite: 33, 20]。这个参考链本质上是一个完整的、高质量的任务执行记录,充当了新任务的“记忆”或指南 [cite: 34]。
-
提取“快捷方式”(Shortcuts)
- 定义:“快捷方式”是一种特殊的指令,它连接了参考链中两个不相邻的节点(即解决方案状态),从而能够绕过中间一系列的推理步骤或智能体交互 [cite: 40, 55]。
- 目的:这些快捷方式被视为从成功经验中提炼出的“快车道”,旨在让智能体能够直接从一个较早的解决方案状态高效地过渡到一个更成熟的状态,从而跳过冗余的中间过程 [cite: 5, 26]。
- 存储:系统会从所有历史任务中提取这些快捷方式,并将它们作为“经验知识”存储起来,供后续任务使用 [cite: 56, 57]。
-
快捷方式的过滤与选择(Shortcut Filtering)
- 并非所有快捷方式都对当前任务有效,因此系统设计了一套严格的筛选流程 [cite: 58, 59]。
- 第一步:资源预筛选。系统会首先丢弃那些预估消耗资源(时间和tokens)超过当前剩余预算的快捷方式 [cite: 62]。
- 第二步:价值-成本评估。对通过预筛选的快捷方式,系统会从两个维度进行评分:
- 价值 (Value):评估该快捷方式对提升解决方案质量的贡献度。这个分数综合考虑了解决方案与任务需求的相似度、与最终目标的相似度,以及代码本身是否可编译 [cite: 66, 69, 70]。
- 成本 (Cost):一个综合了时间和Token消耗的复合指标。它通过计算快捷方式在历史数据集中的时间与Token消耗的百分位排名,然后用调和平均数得出一个归一化的成本分数 [cite: 73, 74, 78]。
- 第三步:引入“紧急因子” (Emergency Factor)。这是一个动态调整权重,用于平衡“价值”和“成本”的重要性 [cite: 83]。
- 在任务初期,资源充足时,系统更侧重于选择高价值的快捷方式,以追求更高的解决方案质量 [cite: 81]。
- 当任务接近资源预算上限时,“紧急因子”会使系统更侧重于选择低成本的快捷方式,以确保任务能够被及时完成 [cite: 82]。
-
应用快捷方式和强制终止
- 系统根据上述评估选择出最优的快捷方式,并将其应用于当前的推理链中,指导智能体生成下一个解决方案,从而加速整个开发进程 [cite: 26, 39]。
- 同时,系统还设有一个强制终止机制。一旦当前任务的交互轮次(即推理链的长度)达到了参考任务的长度,系统会强制终止任务,以防止资源被无休止地消耗 [cite: 121]。
8.MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems
MAS-GPT 的大型语言模型,旨在将构建多智能体系统(MAS)的过程简化为一次性的生成任务,从而解决现有方法适应性差和成本高的问题 [cite: 2, 14, 19, 21]。
其核心做法主要围绕以下两个方面:将多智能体系统(MAS)表示为可执行代码,以及构建一个高质量的“查询-MAS”配对数据集来进行模型训练 [cite: 4, 42]。
8.1. 将MAS统一表示为可执行代码
为了让语言模型能够生成可直接运行的MAS,研究者提出了一种统一的表示方法:
- 将MAS形式化为Python代码:整个MAS被封装在一个Python的
forward
函数中 [cite: 27, 74, 90]。这个函数接收用户查询作为输入,并返回最终答案 [cite: 90]。 - 代码内部结构:
- 智能体(Agents):每个智能体的提示词(prompt)被定义为代码中的变量 [cite: 27, 91]。
- 智能体推理:对LLM的调用被实现为函数调用,例如
call_llm()
[cite: 27, 91]。 - 智能体交互:智能体之间的协作和信息流动通过字符串拼接(string concatenation)来表示 [cite: 27, 91]。
通过这种方式,任何复杂的MAS都可以被转换成一段标准化的、可执行的代码,为后续的数据集构建和模型训练奠定了基础 [cite: 86, 87]。
8.2. 面向一致性的数据集构建与训练
由于LLM本身缺乏关于如何生成MAS的知识,构建一个高质量的训练数据集是整个方法的核心 [cite: 25, 26, 63, 77]。为此,研究者设计了一个面向一致性 (consistency-oriented) 的数据构建流程,包含四个关键步骤 [cite: 28, 78]:
-
构建查询池和MAS池 (Pool Construction):
- 查询池:从数学、编码、通用问答等多个领域的开源数据集中收集大量带有标准答案的用户查询 [cite: 83]。
- MAS池:首先,将现有的多种MAS方法(如多智能体辩论、自洽性等)统一为前述的可执行代码表示 [cite: 92]。其次,通过手动设计一些独特的MAS来增加多样性,最终构成一个包含超过40种基础MAS设计的池子 [cite: 93]。
-
配对与评估 (Pair Evaluation):
- 将查询池中的每个查询与MAS池中的每个MAS进行配对,并实际运行该MAS来处理查询 [cite: 97]。
- 通过将MAS生成的结果与标准答案进行比较,为每个“查询-MAS”对打分(1为正确,0为错误)[cite: 99]。
-
面向“互-一致性”的配对选择 (Inter-Consistency-Oriented Pair Selection):
- 为了解决“相似的查询可能对应多个不同MAS”的不一致问题,该方法首先将相似的查询聚类分组 [cite: 103, 106, 107]。
- 然后,在每个查询组内,选择在该组中表现最好(累积分数最高)的那个MAS,作为该组所有查询的统一配对MAS [cite: 108]。
- 这一步确保了相似的查询被映射到相似的高性能MAS上,帮助模型学习通用模式 [cite: 29, 109]。
-
面向“内-一致性”的配对精炼 (Intra-Consistency-Oriented Pair Refinement):
- 为了增强单个“查询-MAS”对内部的逻辑关联性,研究者使用一个先进的LLM(如Llama-3-70B)对MAS进行精炼 [cite: 112, 114, 116, 139]。
- 具体做法是:LLM会根据查询内容调整MAS中智能体的定义,使其更具针对性 [cite: 116]。同时,LLM还会生成一段“推理陈述”,解释为什么这个精炼后的MAS适合该查询,以加强两者的逻辑联系 [cite: 115, 117]。
- 精炼后的MAS只有在性能不差于原始MAS时才会被采纳 [cite: 120]。
8.3. MAS-GPT的训练与推理
- 训练:经过上述流程,最终得到一个由(查询,推理陈述,MAS代码)组成的高质量数据集 [cite: 122]。使用这个数据集,通过监督式微调(SFT)的方式在一个开源的代码大模型(Qwen2.5-Coder-32B-Instruct)上进行训练,最终得到MAS-GPT [cite: 31, 130]。
- 推理:在推理时,用户只需向MAS-GPT输入一个查询,模型便能通过单次推理,直接生成一个为该查询量身定制的、可执行的MAS代码 [cite: 5, 24, 34]。这个生成的MAS可以立即被用来处理原始查询并给出答案 [cite: 6, 35, 131]。
总而言之,MAS-GPT的核心做法是通过创新的数据驱动方法,将复杂的MAS设计过程重构为一个简单的生成任务,从而训练出一个能够“按需生成”定制化多智能体系统的语言模型,实现了高效率、高适应性和低成本。