Anthropic工程师亲授:多智能体研究系统构建秘籍,看这一篇就够了!

Anthropic 公司在 2025 年 6 月 13 日发表了一篇名为《如何构建多智能体研究系统》的文章。

Anthropic 的研究功能利用多个 Claude 智能体(Agent)更高效地探索复杂主题。本文将分享在构建这个系统过程中遇到的工程挑战以及所学到的经验。

Claude 现已具备研究能力,能够在网络、Google Workspace 及任何集成工具中进行搜索,以完成复杂的任务。

这个多智能体系统从原型到投入生产的整个过程,使团队学到了关于系统架构、工具设计和提示语工程(Prompt Engineering)的关键经验。一个多智能体系统由多个智能体(大型语言模型 LLM 自主地循环使用工具)协同工作组成。该研究功能包含一个智能体,它会根据用户查询规划研究流程,然后利用工具创建并行的智能体,同时进行信息搜索。这种多智能体系统在智能体协调、评估和可靠性方面带来了新的挑战。

本文将深入探讨那些被证明行之有效且富有成效的原则,希望这些经验对读者构建自己的多智能体系统时有所帮助。

多智能体系统的优势

研究工作通常涉及开放性问题,很难提前预测所需的具体步骤。探索复杂主题无法依赖预设的固定路径,因为研究过程本质上是动态且依赖于路径的。当人们进行研究时,他们会根据发现不断调整方法,跟随调查过程中出现的线索。这种不可预测性使得人工智能智能体(AI Agent)特别适合研究任务。研究要求在调查展开时,具备灵活调整方向或探索相关联信息的能力。模型必须独立运行多个回合,根据中间发现决定下一步的探索方向。线性、一次性的流水线(pipeline)无法处理这类任务。

搜索的本质是压缩:从海量语料库中提炼出有价值的洞察。子智能体(subagent)通过在各自的上下文窗口中并行操作,同时探索问题的不同方面,然后为主研究智能体提炼出最重要的信息,从而促进这种压缩。每个子智能体还实现了关注点分离——拥有不同的工具、提示语(prompts)和探索轨迹——这减少了路径依赖性,并支持彻底且独立的调查。

一旦智能达到一定阈值,多智能体系统就成为提升性能的关键途径。例如,尽管在过去 10 万年中,个体人类的智力有所提升,但由于集体智慧和协调能力,人类社会在信息时代的能力呈现出指数级增长。即使是具备通用智能的智能体在作为个体运行时也会面临局限;而智能体群组则能完成远超个体所能及的任务。

Anthropic 的内部评估显示,多智能体研究系统在需要同时进行多方面独立探索的广度优先查询(breadth-first queries)中表现尤为出色。评估发现,一个以 Claude Opus 4 为主智能体、Claude Sonnet 4 为子智能体的多智能体系统,在内部研究评估中比单智能体 Claude Opus 4 的性能高出90.2%。例如,当被要求识别信息技术标准普尔 500 指数中所有公司的董事会成员时,多智能体系统能够将此任务分解为多个子任务,并正确找到答案;而单智能体系统则通过缓慢的顺序搜索未能找到答案。

多智能体系统之所以有效,主要在于它们能够投入足够的 Token 来解决问题。在该团队的分析中,三个因素解释了 BrowseComp 评估(该评估测试浏览智能体定位难以找到信息的能力)中 95% 的性能差异。研究发现,Token 使用量本身解释了 80% 的差异,而工具调用次数和模型选择是另外两个解释性因素。这一发现验证了该架构,即通过将工作分散到具有独立上下文窗口的智能体中,以增加并行推理的能力。最新的 Claude 模型是 Token 使用效率的一大倍增器,因为升级到 Claude Sonnet 4 比将 Claude Sonnet 3.7 的 Token 预算增加一倍能带来更大的性能提升。对于超出单个智能体能力范围的任务,多智能体架构能够有效地扩展 Token 使用量。

当然,这种架构也有弊端:在实践中,它们会迅速消耗大量的 Token。在数据中显示,智能体通常比聊天交互多使用约 4 倍的 Token,而多智能体系统比聊天多使用约15 倍的 Token。从经济可行性的角度考虑,多智能体系统要求任务的价值足够高,以支付其所带来的性能提升成本。此外,一些需要所有智能体共享同一上下文,或涉及智能体之间大量依赖关系的多智能体系统,目前可能不太适用。例如,大多数编码任务中真正可并行化的任务比研究任务要少,而且大型语言模型智能体在实时协调和委托其他智能体方面尚未达到最佳水平。研究表明,多智能体系统在涉及大量并行化、信息超出单个上下文窗口限制,以及需要与众多复杂工具交互的这类高价值任务中表现出色。

Research架构概述

该研究系统采用了一种多智能体架构,其模式为"协调者-工作者"(orchestrator-worker),即主智能体协调整个过程,同时将任务委托给并行操作的专业子智能体。

多智能体架构的运作方式:用户查询流经主智能体,主智能体创建专门的子智能体以并行搜索不同方面的信息。

当用户提交查询时,主智能体对其进行分析,制定策略,并生成子智能体以同时探索问题的不同方面。如上图所示,子智能体充当智能过滤器,通过迭代使用搜索工具收集信息(在此例中是关于 2025年人工智能智能体公司),然后将公司列表返回给主智能体,以便主智能体整理出最终答案。

传统的检索增强生成(RAG)方法采用静态检索。也就是说,它们获取一组与输入查询最相似的块(chunks),并使用这些块来生成响应。相比之下,该架构使用多步骤搜索,动态地查找相关信息,适应新发现,并分析结果以形成高质量的答案。

此流程图展示了多智能体研究系统的完整工作流程。当用户提交查询时,系统会创建一个 LeadResearcher(主研究员)智能体,该智能体进入一个迭代研究过程。LeadResearcher 首先思考其方法,并将计划保存到 Memory(内存)以持久化上下文。因为如果上下文窗口(context window)超过 200,000 个 Token,将会被截断,而保留计划至关重要。然后,它创建具有特定研究任务的专业 Subagents(子智能体)(此处显示两个,但数量可任意)。每个 Subagent 独立执行网络搜索,使用**交错式思考(interleaved thinking)**评估工具结果,并将发现结果返回给 LeadResearcher。LeadResearcher综合这些结果,并决定是否需要更多研究——如果需要,它可以创建额外的子智能体或优化其策略。一旦收集到足够的信息,系统退出研究循环,并将所有发现传递给 CitationAgent(引用智能体), CitationAgent 处理文档和研究报告以识别具体的引用位置。这确保所有声明都正确归因于其来源。最终的研究结果,连同引用信息,将返回给用户。

研究智能体的提示语工程与评估

多智能体系统与单智能体系统有着关键区别,包括协调复杂性迅速增长。早期的智能体常常出现错误,例如:对于简单的查询,生成 50 个子智能体;无休止地在网络上搜索不存在的来源;或者通过过多的更新彼此干扰。由于每个智能体都由提示语引导,提示语工程就成了改进这些行为的主要手段。以下是从提示语智能体中学到的一些原则:

  1. 像智能体一样思考。 为了迭代提示语,必须理解它们的效果。为了帮助做到这一点,团队使用 Console 构建了模拟环境,其中包含系统中的确切提示语和工具,然后逐步观察智能体的工作。这立刻揭示了故障模式:智能体在已有足够结果时仍继续工作,使用过于冗长的搜索查询,或选择了不正确的工具。有效的提示语依赖于对智能体建立准确的心理模型,这可以使最具影响力的改变变得显而易见。
  2. 教会协调者如何委派任务。 在系统中,主智能体将查询分解为子任务,并将其描述给子智能体。每个子智能体都需要一个目标、输出格式、关于使用工具和来源的指导,以及明确的任务边界。如果没有详细的任务描述,智能体就会重复工作、留下空白,或者未能找到必要信息。最初让主智能体给出简单、简短的指令,例如"研究半导体短缺",但发现这些指令通常过于模糊,导致子智能体误解任务,或执行与其他智能体完全相同的搜索。例如,一个子智能体探索了 2021 年的汽车芯片危机,而另外两个子智能体则重复工作调查 2025 年当前的供应链,未能实现有效的分工。
  3. 根据查询复杂性调整投入。 智能体难以判断不同任务所需的适当投入,因此在提示语中嵌入了扩展规则。简单的事实查找只需要 1 个智能体进行 3-10 次工具调用;直接比较可能需要 2-4 个子智能体,每个进行 10-15 次调用;而复杂的调查研究可能需要 10 个以上的子智能体,并明确划分职责。这些明确的指导原则有助于主智能体高效地分配资源,并防止在简单查询上投入过多,这是早期版本中常见的故障模式。
  4. 工具设计和选择至关重要。 智能体与工具的接口和人机接口一样关键。正确使用工具效率很高,而且往往是必不可少的。例如,一个智能体在网络上搜索只存在于 Slack 中的上下文,从一开始就注定失败。有了 MCP 服务器,模型可以访问外部工具,这个问题就变得更加复杂,因为智能体会遇到描述质量差异很大的未知工具。团队给智能体提供了明确的启发式规则:例如,首先检查所有可用工具,将工具使用与用户意图匹配,搜索网络以进行广泛的外部探索,或者优先使用专用工具而非通用工具。糟糕的工具描述会使智能体走上完全错误的道路,因此每个工具都需要有独特的功能和清晰的描述。
  5. 让智能体自我提升。 研究发现 Claude 4 模型可以成为出色的提示语工程师。当给定一个提示语和一种失败模式时,它们能够诊断智能体失败的原因并提出改进建议。团队甚至创建了一个工具测试智能体——当给定一个有缺陷的 MCP 工具时,它会尝试使用该工具,然后重写工具描述以避免失败。通过对工具进行数十次测试,这个智能体发现了关键的细微之处和错误。这种改进工具人体工程学(ergonomics)的过程使得未来使用新描述的智能体完成任务的时间减少了 40%,因为它们能够避免大部分错误。
  6. 先广泛探索,再逐步收窄。 搜索策略应模仿人类专家研究:先探索整体,再深入细节。智能体常常默认使用过长、过于具体的查询,导致结果很少。通过提示智能体从简短、宽泛的查询开始,评估可用信息,然后逐步缩小范围来对抗这种倾向。
  7. 引导思考过程。****扩展思考模式(extended thinking mode),引导 Claude 在可见的思考过程中输出额外的 Token,可以作为可控的草稿本。主智能体利用思考来规划其方法,评估哪些工具适合任务,确定查询复杂度和子智能体数量,并定义每个子智能体的角色。测试表明,扩展思考模式改进了指令遵循、推理和效率。子智能体也进行规划,然后在使用工具结果后应用**交错式思考(interleaved thinking)**来评估质量、识别差距并优化其下一个查询。这使得子智能体在适应任何任务时更加高效。
  8. 并行工具调用显著提升速度和性能。 复杂的科研任务自然涉及探索多种来源。早期的智能体执行顺序搜索,速度慢得令人痛苦。为了提高速度,引入了两种并行化方式:(1)主智能体并行启动 3-5 个子智能体,而非串行;(2)子智能体并行使用 3 个以上的工具。这些更改使复杂查询的科研时间缩短了高达 90%,使研究工作能在几分钟内完成,而不是几小时,同时覆盖的信息量也超过了其他系统。

提示策略侧重于灌输良好的启发式方法,而非僵化的规则。团队研究了熟练的人类如何处理研究任务,并将这些策略编码到提示中——例如将难题分解为更小的任务、仔细评估来源质量、根据新信息调整搜索方法以及识别何时应专注于深度(详细调查一个主题)与广度(并行探索多个主题)。同时通过设置明确的护栏来主动缓解意外的副作用,以防止智能体失控。最后,专注于通过可观察性和测试用例实现快速迭代循环。

智能体的高效评估

良好的评估对于构建可靠的人工智能应用至关重要,智能体也不例外。然而,评估多智能体系统带来了独特的挑战。传统评估通常假设人工智能每次都遵循相同的步骤:给定输入 X,系统应遵循路径 Y 以产生输出 Z。但多智能体系统并非如此运作。即使起点完全相同,智能体也可能采取完全不同的有效路径来达到目标。一个智能体可能搜索三个来源,而另一个搜索十个,或者它们可能使用不同的工具找到相同的答案。由于并不总是知道正确的步骤是什么,通常不能仅仅检查智能体是否遵循了预先规定的"正确"步骤。相反,需要灵活的评估方法,以判断智能体是否达到了正确的结果,同时也遵循了合理的流程。

立即开始评估小样本。 在智能体开发的早期阶段,由于"低垂的果实"随处可见,因此改进往往会带来显著影响。一次提示语微调可能将成功率从 30% 提升到 80%。鉴于效果如此之大,只需几个测试用例即可发现变化。团队从一组约 20 个代表真实使用模式的查询开始。测试这些查询通常能清楚地看到变化的影响。经常听说 AI 开发团队推迟创建评估,因为他们认为只有包含数百个测试用例的大规模评估才有用。然而,最好立即从小规模测试开始,使用几个示例,而不是等到可以构建更全面的评估后再进行。

在妥善执行时,基于LLM 的评估可以实现规模化。 研究输出难以通过编程方式评估,因为它们是自由格式的文本,很少有唯一的正确答案。LLM(大型语言模型)非常适合对输出进行评分。团队使用了一个LLM 评估器,它根据评估标准(rubric)中的以下标准对每个输出进行评估:事实准确性(声明是否与来源匹配?)、引用准确性(引用的来源是否与声明匹配?)、完整性(是否涵盖了所有请求的方面?)、来源质量(是否使用了主要来源而非质量较低的次要来源?)以及工具效率(是否以合理的次数使用了正确的工具?)。尝试使用多个评估器来评估每个组件,但发现使用一个 LLM 调用、一个提示语(prompt),输出 0.0-1.0 的分数以及合格/不合格的评分是最一致且与人类判断相符的。当评估测试用例确实有明确答案时,这种方法尤其有效,可以简单地使用 LLM 评估器来检查答案是否正确(例如,它是否准确列出了研发预算前三名的制药公司?)。通过使用 LLM 作为评估器,能够可扩展地评估数百个输出。

人工评估能发现自动化遗漏的问题。 人工测试智能体能发现评估中遗漏的边缘情况,包括针对异常查询的幻觉(hallucinated)答案、系统故障或微妙的来源选择偏差。在案例中,人工测试人员注意到,早期的智能体总是倾向于选择那些经过 SEO 优化的内容农场,而不是权威但排名不高的来源,如学术 PDF 或个人博客。在提示语中添加了来源质量启发式规则,帮助解决了这个问题。即使在自动化评估盛行的世界里,人工测试仍然至关重要。

多智能体系统具有涌现行为,这些行为是在没有特定编程的情况下产生的。例如,主智能体的小改动可能会不可预测地改变子智能体的行为。成功需要理解交互模式,而不仅仅是单个智能体的行为。因此,这些智能体的最佳提示不仅仅是严格的指令,而是一个协作框架,定义了分工、问题解决方法和投入预算。要做到这一点,需要仔细的提示语和工具设计、可靠的启发式方法、可观察性以及紧密的反馈循环。要获取系统中的示例提示,请参阅 Cookbook 中的开源提示

生产可靠性与工程挑战

在传统软件中,一个 Bug 可能会破坏某个功能、降低性能或导致服务中断。而在智能体系统中,微小的变化可能会引发巨大的行为改变,这使得为必须在长时间运行过程中维护状态的复杂智能体编写代码变得异常困难。

智能体是有状态的,错误会累积。 智能体可以长时间运行,并在多次工具调用中保持状态。这意味着需要持久地执行代码,并在此过程中处理错误。如果没有有效的缓解措施,微小的系统故障对智能体来说可能是灾难性的。当错误发生时,不能仅仅从头开始重启:重启成本高昂,且会给用户带来挫败感。相反,构建了能够在错误发生时从智能体所在位置恢复的系统。同时利用模型的智能来优雅地处理问题:例如,让智能体知道某个工具何时出现故障,并让它自行调整,这种做法出人意料地有效。将基于 Claude 构建的 AI 智能体的适应性与重试逻辑(retry logic)和定期检查点(checkpoints)等确定性保障措施结合起来。

调试受益于新方法。 智能体会做出动态决策,并且即使在相同的提示语下,每次运行的结果也可能不确定。这使得调试更加困难。例如,用户可能会报告智能体"没有找到明显的信息",但却无法看到原因。智能体是否使用了糟糕的搜索查询?选择了劣质的来源?遇到了工具故障?添加完整的生产追踪(tracing)使团队能够诊断智能体失败的原因并系统地解决问题。除了标准的可观察性之外,还监控智能体的决策模式和交互结构——所有这些都在不监控个体对话内容的情况下进行,以维护用户隐私。这种高层次的可观察性帮助诊断根本原因、发现意外行为并修复常见故障。

部署需要谨慎协调。 智能体系统是由提示语、工具和执行逻辑组成的高度有状态的网络,几乎持续运行。这意味着无论何时部署更新,智能体都可能处于其过程中的任何阶段。因此,需要防止善意的代码更改破坏现有智能体。不能同时将所有智能体更新到新版本。相反,使用**彩虹部署(rainbow deployments)**来避免干扰正在运行的智能体,通过逐渐将流量从旧版本转移到新版本,同时保持两者并行运行。

同步执行会造成瓶颈。 目前,主智能体同步执行子智能体,等待每组子智能体完成才能继续。这简化了协调,但在智能体之间信息流中造成了瓶颈。例如,主智能体无法引导子智能体,子智能体之间无法协调,并且整个系统可能会在等待单个子智能体完成搜索时被阻塞。异步执行将实现额外的并行化:智能体并发工作并在需要时创建新的子智能体。但这种异步性带来了结果协调、状态一致性和跨子智能体错误传播方面的挑战。随着模型能够处理更长更复杂的研究任务,预期性能提升将证明这种复杂性是值得的。

结论

在构建人工智能智能体时,"最后一英里"的挑战往往占据了整个旅程的大部分。在开发人员机器上能运行的代码库,需要大量工程投入才能成为可靠的生产系统。智能体系统中由于错误复合而导致的特性,意味着对传统软件来说的小问题可能会彻底颠覆智能体。一个步骤的失败可能导致智能体探索完全不同的轨迹,从而产生不可预测的结果。出于本文所述的所有原因,原型和生产之间的差距往往比预期要大。

尽管面临这些挑战,多智能体系统在开放式研究任务中已证明其价值。用户表示,Claude 帮助他们发现了以前未曾考虑的商业机会,解决

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值