Claude：构建多智能体研究系统

date

Jun 15, 2025

slug

claude-built-multi-agent-research-system

status

Published

我们如何构建多智能体研究系统

https://www.anthropic.com/engineering/built-multi-agent-research-system

我们的研究功能使用多个 Claude 智能体来更有效地探索复杂主题。我们在此分享构建该系统时遇到的工程挑战和学到的经验教训。

Claude 现在具备了研究能力，可以在网络、Google Workspace 以及任何集成中进行搜索，以完成复杂的任务。

这个多智能体系统从原型到产品的历程，教会了我们在系统架构、工具设计和提示工程方面的关键经验。一个多智能体系统由多个协同工作的智能体（在循环中自主使用工具的 LLM）组成。我们的研究功能涉及一个智能体，它根据用户查询规划研究过程，然后使用工具创建并行的智能体，同时搜索信息。多智能体系统在智能体协调、评估和可靠性方面带来了新的挑战。

本文将分解对我们有效的设计原则——我们希望您在构建自己的多智能体系统时会发现它们很有用。

多智能体系统的好处

研究工作涉及开放式问题，很难提前预测所需的步骤。您无法为探索复杂主题硬编码一个固定的路径，因为这个过程本质上是动态且依赖于路径的。当人们进行研究时，他们倾向于根据发现不断更新自己的方法，沿着调查过程中出现的线索前进。

这种不可预测性使得人工智能智能体特别适合研究任务。研究要求在调查展开时能够灵活地调整方向或探索相关的分支。模型必须能够自主运行多个回合，根据中间发现决定追求哪个方向。线性的、一次性的流程无法处理这些任务。

搜索的本质是压缩：从庞大的语料库中提炼出见解。子智能体通过在各自的上下文中并行操作来促进压缩，同时探索问题的不同方面，然后将最重要的标记（token）浓缩给首席研究智能体。每个子智能体还提供了关注点分离——不同的工具、提示和探索轨迹——这减少了路径依赖性，并实现了彻底、独立的调查。

一旦智能达到一个阈值，多智能体系统就成为扩展性能的重要方式。例如，尽管在过去十万年里，个体人类变得更加聪明，但在信息时代，由于我们的集体智慧和协调能力，人类社会的能力呈指数级增长。即使是通用智能体在作为个体运作时也会面临限制；智能体群体可以完成更多的工作。

我们的内部评估显示，多智能体研究系统在涉及同时追求多个独立方向的广度优先查询中表现尤为出色。我们发现，在一个内部研究评估中，以 Claude Opus 4 为 Lead Agent 、Claude Sonnet 4 为子智能体的多智能体系统，其性能比单智能体的 Claude Opus 4 高出90.2%。例如，当被要求识别信息技术标准普尔500指数中所有公司的董事会成员时，多智能体系统通过将任务分解给子智能体找到了正确答案，而单智能体系统则因缓慢的顺序搜索而未能找到答案。

多智能体系统之所以有效，主要是因为它们有助于花费足够的 token 来解决问题。在我们的分析中，三个因素解释了 BrowseComp 评估中95%的性能差异（该评估测试了浏览智能体定位难以找到信息的能力）。我们发现，仅 token 使用量就解释了80%的差异，工具调用次数和模型选择是另外两个解释性因素。这一发现验证了我们的架构，该架构将工作分散到具有独立上下文窗口的智能体中，以增加并行推理的能力。最新的 Claude 模型在 token 使用上起到了巨大的效率倍增器作用，因为升级到 Claude Sonnet 4 带来的性能提升比在 Claude Sonnet 3.7 上将 token 预算翻倍还要大。多智能体架构有效地扩展了 token 使用量，以完成超出单个智能体限制的任务。

但也有一个缺点：在实践中，这些架构消耗 token 的速度很快。根据我们的数据，智能体通常比聊天互动多使用约4倍的 token，而多智能体系统比聊天多使用约15倍的 token。为了在经济上可行，多智能体系统需要用于那些任务价值足够高，能够支付得起性能提升带来的成本的场景。此外，一些需要所有智能体共享相同上下文或智能体之间存在许多依赖关系的领域，目前并不适合多智能体系统。例如，大多数编码任务比研究任务涉及的真正可并行化的任务要少，而且 LLM 智能体在实时协调和委派给其他智能体方面还不够出色。我们发现，多智能体系统在涉及大量并行化、信息量超出单个上下文窗口以及与众多复杂工具接口的有价值任务中表现出色。

研究功能的架构概述

我们的研究系统采用多智能体架构，具有协调者-工作者（orchestrator-worker）模式，其中一个 Lead Agent 协调整个过程，同时将任务委派给并行的专业子智能体。

当用户提交查询时， Lead Agent 分析查询，制定策略，并生成子智能体以同时探索不同方面。如上图所示，子智能体充当智能过滤器，通过迭代使用搜索工具收集信息（在本例中是关于2025年的人工智能智能体公司），然后将公司列表返回给 Lead Agent ，以便其汇编最终答案。

使用检索增强生成（RAG）的传统方法采用静态检索。也就是说，它们获取一组与输入查询最相似的文本块，并使用这些文本块生成响应。相比之下，我们的架构使用多步搜索，动态地查找相关信息，适应新的发现，并分析结果以形成高质量的答案。

流程图描述：当用户提交查询时，系统创建一个 LeadResearcher 智能体，进入一个迭代的研究过程。LeadResearcher 首先思考方法并将其计划保存到内存中以保持上下文，因为如果上下文窗口超过200,000个 token，它将被截断，保留计划非常重要。然后，它创建具有特定研究任务的专门子智能体（这里显示了两个，但可以是任意数量）。每个子智能体独立执行网络搜索，使用交错思考（interleaved thinking）评估工具结果，并将发现返回给 LeadResearcher。LeadResearcher 综合这些结果并决定是否需要更多研究——如果需要，它可以创建额外的子智能体或完善其策略。一旦收集到足够的信息，系统退出研究循环，并将所有发现传递给一个 CitationAgent，该智能体处理文档和研究报告以确定引用的具体位置。这确保了所有声明都正确归属于其来源。最终，带有引用的研究结果将返回给用户。

研究智能体的提示工程和评估

多智能体系统与单智能体系统有关键区别，其中包括协调复杂性的迅速增长。早期的智能体曾犯过这样的错误：为简单查询生成50个子智能体，无休止地在网络上搜索不存在的来源，以及通过过多的更新相互干扰。由于每个智能体都由提示引导，提示工程是我们改进这些行为的主要手段。以下是我们学到的一些提示智能体的原则：

像你的智能体一样思考。 要迭代提示，你必须理解其效果。为了帮助我们做到这一点，我们使用控制台（Console），通过我们系统中的确切提示和工具构建了模拟，然后逐步观察智能体的工作。这立即揭示了失败模式：智能体在已经有足够结果时仍继续工作，使用过于冗长的搜索查询，或选择不正确的工具。有效的提示依赖于建立一个准确的智能体心智模型，这可以使最有影响力的改变变得显而易见。

教协调者如何委派任务。 在我们的系统中， Lead Agent 将查询分解为子任务，并向子智能体描述它们。每个子智能体需要一个目标、一个输出格式、关于使用哪些工具和来源的指导，以及明确的任务边界。没有详细的任务描述，智能体会重复工作、留下空白或无法找到必要的信息。我们开始时允许 Lead Agent 给出简单、简短的指令，如“研究半导体短缺”，但发现这些指令常常含糊不清，以至于子智能体误解任务或执行与其他智能体完全相同的搜索。例如，一个子智能体探索了2021年的汽车芯片危机，而另外两个则重复调查了当前的2025年供应链，没有进行有效的分工。

根据查询复杂性调整投入。 智能体很难判断不同任务的适当投入，所以我们在提示中嵌入了扩展规则。简单的事实查找只需要1个智能体进行3-10次工具调用，直接比较可能需要2-4个子智能体，每个进行10-15次调用，而复杂的研究可能需要超过10个子智能体，并有明确分工。这些明确的指导方针帮助 Lead Agent 有效地分配资源，并防止在简单查询上过度投入，这是我们早期版本中常见的失败模式。

工具设计和选择至关重要。 智能体与工具的接口和人机接口一样关键。使用正确的工具是高效的——通常，这是绝对必要的。例如，一个在Slack中搜索只存在于网络上的上下文的智能体从一开始就注定要失败。通过让模型访问外部工具的MCP服务器，这个问题变得更加复杂，因为智能体会遇到描述质量参差不齐的未知工具。我们为智能体提供了明确的启发式方法：例如，首先检查所有可用工具，将工具使用与用户意图匹配，为广泛的外部探索搜索网络，或优先选择专业工具而非通用工具。糟糕的工具描述可能会让智能体走上完全错误的道路，因此每个工具都需要一个明确的目的和清晰的描述。

让智能体自我改进。 我们发现 Claude 4 模型可以成为出色的提示工程师。当给定一个提示和一种失败模式时，它们能够诊断出智能体失败的原因并提出改进建议。我们甚至创建了一个工具测试智能体——当给定一个有缺陷的MCP工具时，它会尝试使用该工具，然后重写工具描述以避免失败。通过数十次测试该工具，这个智能体发现了关键的细微差别和错误。这种改进工具人体工程学的过程，使得未来使用新描述的智能体完成任务的时间减少了40%，因为它们能够避免大多数错误。

先宽后窄。 搜索策略应模仿专家的人类研究：在深入研究具体细节之前先探索整体情况。智能体通常会默认使用过长、具体的查询，结果返回很少。我们通过提示智能体从简短、宽泛的查询开始，评估可用的信息，然后逐步缩小焦点来纠正这种倾向。

引导思考过程。 扩展思考模式（extended thinking mode）能引导 Claude 在一个可见的思考过程中输出额外的 token，可以作为一个可控的草稿纸。 Lead Agent 使用思考来规划其方法，评估哪些工具适合任务，确定查询复杂度和子智能体数量，并定义每个子智能体的角色。我们的测试表明，扩展思考改善了指令遵循、推理和效率。子智能体也会进行规划，然后在工具结果出来后使用交错思考来评估质量、识别差距并完善下一次查询。这使得子智能体在适应任何任务时都更有效。

并行工具调用改变了速度和性能。 复杂的研究任务自然涉及探索许多来源。我们早期的智能体执行顺序搜索，速度非常慢。为了提高速度，我们引入了两种并行化：（1） Lead Agent 并行启动3-5个子智能体，而不是串行启动；（2）子智能体并行使用3个以上的工具。这些变化使复杂查询的研究时间减少了高达90%，使得研究功能能够在几分钟内完成更多工作，而不是几小时，同时覆盖比其他系统更多的信息。

我们的提示策略侧重于灌输良好的启发式方法，而不是僵化的规则。我们研究了熟练的人类如何处理研究任务，并将这些策略编码到我们的提示中——比如将难题分解为更小的任务，仔细评估来源质量，根据新信息调整搜索方法，以及识别何时应专注于深度（详细调查一个主题）与广度（并行探索多个主题）。我们还通过设置明确的护栏来主动减轻意外的副作用，以防止智能体失控。最后，我们专注于一个具有可观察性和测试用例的快速迭代循环。

有效的智能体评估

良好的评估对于构建可靠的人工智能应用至关重要，智能体也不例外。然而，评估多智能体系统带来了独特的挑战。传统评估通常假设人工智能每次都遵循相同的步骤：给定输入X，系统应遵循路径Y以产生输出Z。但多智能体系统并非如此运作。即使起点相同，智能体也可能采取完全不同的有效路径来达到目标。一个智能体可能搜索三个来源，而另一个搜索十个，或者它们可能使用不同的工具找到相同的答案。因为我们并不总是知道正确的步骤是什么，所以我们通常不能仅仅检查智能体是否遵循了我们预先规定的“正确”步骤。相反，我们需要灵活的评估方法，既能判断智能体是否达到了正确的结果，又能判断其过程是否合理。

立即用小样本开始评估。 在智能体开发的早期阶段，变化往往会产生巨大影响，因为有大量唾手可得的改进空间。一个提示的微调可能会将成功率从30%提高到80%。在效果如此之大的情况下，只需几个测试用例就可以发现变化。我们从大约20个代表真实使用模式的查询集开始。测试这些查询通常能让我们清楚地看到变化的影响。我们经常听说人工智能开发团队推迟创建评估，因为他们认为只有包含数百个测试用例的大型评估才有用。然而，最好是立即用几个例子开始小规模测试，而不是等到能够构建更全面的评估时再进行。

LLM-as-judge（以LLM为裁判）的评估方法如果做得好，可以扩展。 研究输出很难以编程方式评估，因为它们是自由格式的文本，很少有唯一的正确答案。LLM是评分输出的天然选择。我们使用了一个LLM裁判，它根据一个评分标准来评估每个输出：事实准确性（声明是否与来源匹配？）、引用准确性（引用的来源是否与声明匹配？）、完整性（是否涵盖了所有被要求的内容？）、来源质量（它是否使用了主要来源而非质量较低的次要来源？），以及工具效率（它是否以合理的次数使用了正确的工具？）。我们尝试了多个裁判来评估每个组成部分，但发现使用单个LLM调用、单个提示输出0.0-1.0的分数和合格/不合格等级的方式最一致，并且与人类的判断最为吻合。当评估测试用例确实有明确答案时，这种方法尤其有效，我们可以使用LLM裁判简单地检查答案是否正确（例如，它是否准确列出了研发预算排名前三的制药公司？）。使用LLM作为裁判使我们能够可扩展地评估数百个输出。

人工评估能捕捉到自动化遗漏的问题。 人工测试智能体能发现评估遗漏的边缘案例。这些包括对不寻常查询的幻觉性答案、系统故障或微妙的来源选择偏见。在我们的案例中，人工测试人员注意到，我们早期的智能体总是选择经过SEO优化的内容农场，而不是权威性更高但排名较低的来源，如学术PDF或个人博客。在我们的提示中加入来源质量的启发式方法帮助解决了这个问题。即使在自动化评估的世界里，手动测试仍然至关重要。

多智能体系统具有涌现行为，这些行为是在没有特定编程的情况下产生的。例如，对 Lead Agent 的微小改动可能会不可预测地改变子智能体的行为。成功需要理解交互模式，而不仅仅是单个智能体的行为。因此，这些智能体的最佳提示不仅仅是严格的指令，而是定义了分工、解决问题的方法和投入预算的协作框架。要做到这一点，依赖于仔细的提示和工具设计、可靠的启发式方法、可观察性以及紧密的反馈循环。请参阅我们 Cookbook 中的开源提示，以获取我们系统中的示例提示。

生产可靠性和工程挑战

在传统软件中，一个错误可能会破坏一个功能、降低性能或导致服务中断。在智能体系统中，微小的变化会级联成巨大的行为变化，这使得为必须在长期运行过程中维持状态的复杂智能体编写代码变得异常困难。

智能体是有状态的，错误会累积。 智能体可以长时间运行，在多次工具调用中维持状态。这意味着我们需要持久地执行代码并在此过程中处理错误。没有有效的缓解措施，微小的系统故障对智能体来说可能是灾难性的。当错误发生时，我们不能简单地从头开始：重新启动对用户来说既昂贵又令人沮丧。相反，我们构建了能够从智能体发生错误的地方恢复的系统。我们还利用模型的智能来优雅地处理问题：例如，让智能体知道某个工具正在失败并让其适应，效果出奇地好。我们将基于 Claude 构建的 AI 智能体的适应性与重试逻辑和定期检查点等确定性保障措施相结合。

调试得益于新方法。 智能体做出动态决策，并且即使使用相同的提示，每次运行之间也是非确定性的。这使得调试更加困难。例如，用户会报告智能体“找不到明显的信息”，但我们看不出原因。是智能体使用了糟糕的搜索查询吗？选择了差的来源？还是遇到了工具故障？增加完整的生产追踪让我们能够诊断智能体失败的原因并系统地修复问题。除了标准的可观察性，我们还监控智能体的决策模式和交互结构——所有这些都在不监控单个对话内容的情况下进行，以维护用户隐私。这种高层次的可观察性帮助我们诊断根本原因，发现意外行为，并修复常见故障。

部署需要仔细协调。 智能体系统是由提示、工具和执行逻辑组成的高度有状态的网络，几乎连续运行。这意味着每当我们部署更新时，智能体可能处于其流程的任何位置。因此，我们需要防止我们出于好意的代码更改破坏现有的智能体。我们不能同时将所有智能体更新到新版本。相反，我们使用“彩虹部署”（rainbow deployments）来避免干扰正在运行的智能体，通过在保持新旧版本同时运行的情况下，逐渐将流量从旧版本转移到新版本。

同步执行会产生瓶颈。 目前，我们的 Lead Agent 同步执行子智能体，等待每组子智能体完成后再继续。这简化了协调，但在智能体之间的信息流中造成了瓶颈。例如， Lead Agent 无法引导子智能体，子智能体之间无法协调，整个系统可能会因为等待单个子智能体完成搜索而被阻塞。异步执行将实现额外的并行性：智能体可以并发工作，并在需要时创建新的子智能体。但这种异步性在结果协调、状态一致性和跨子智能体的错误传播方面增加了挑战。随着模型能够处理更长、更复杂的研究任务，我们预计性能的提升将证明这种复杂性是值得的。

结论

在构建人工智能智能体时，“最后一英里”往往成为整个旅程的大部分。在开发人员机器上能工作的代码库，需要大量的工程工作才能成为可靠的生产系统。智能体系统中错误的复合性意味着，对传统软件来说的小问题可能会让智能体完全脱轨。一个步骤的失败可能导致智能体探索完全不同的轨迹，从而产生不可预测的结果。由于本文中描述的所有原因，原型和生产之间的差距通常比预期的要大。

尽管存在这些挑战，多智能体系统已被证明对于开放式研究任务非常有价值。用户表示，Claude 帮助他们找到了他们未曾考虑过的商业机会，驾驭了复杂的医疗保健选项，解决了棘手的技术错误，并通过发现他们自己不会找到的研究联系，节省了多达数天的工作时间。通过精心的工程设计、全面的测试、注重细节的提示和工具设计、稳健的运营实践，以及对当前智能体能力有深刻理解的研究、产品和工程团队之间的紧密协作，多智能体研究系统可以在规模上可靠地运行。我们已经看到这些系统正在改变人们解决复杂问题的方式。

图表描述：排名前列的用例类别是：开发跨专业领域的软件系统（10%），开发和优化专业及技术内容（8%），制定业务增长和收入生成策略（8%），协助学术研究和教育材料开发（7%），以及研究和验证关于人物、地点或组织的信息（5%）。

致谢

由 Jeremy Hadfield、Barry Zhang、Kenneth Lien、Florian Scholz、Jeremy Fox 和 Daniel Ford 撰写。这项工作反映了 Anthropic 多个团队的集体努力，他们使研究功能成为可能。特别感谢 Anthropic 应用工程团队，他们的奉献精神将这个复杂的多智能体系统带到了生产环境。我们也非常感谢早期用户提供的宝贵反馈。

附录

以下是关于多智能体系统的一些额外杂项技巧。

对多回合改变状态的智能体进行终态评估。 评估在多回合对话中修改持久状态的智能体存在独特的挑战。与只读的研究任务不同，每个动作都可以改变后续步骤的环境， tạo ra các phụ thuộc mà các phương pháp đánh giá truyền thống khó xử lý。我们发现，专注于终态评估而不是逐回合分析是成功的关键。与其判断智能体是否遵循了特定的过程，不如评估它是否达到了正确的最终状态。这种方法承认智能体可能会找到通往同一目标的不同路径，同时仍确保它们交付预期的结果。对于复杂的工作流程，将评估分解为应发生特定状态变化的离散检查点，而不是试图验证每个中间步骤。

长程对话管理。 生产环境中的智能体通常会进行跨越数百回合的对话，需要仔细的上下文管理策略。随着对话的延长，标准的上下文窗口变得不足，需要智能的压缩和记忆机制。我们实现了一些模式，其中智能体在进入新任务之前，会总结已完成的工作阶段并将基本信息存储在外部存储器中。当接近上下文限制时，智能体可以生成具有干净上下文的新子智能体，同时通过仔细的交接保持连续性。此外，它们可以从内存中检索存储的上下文（如研究计划），而不是在达到上下文限制时丢失之前的工作。这种分布式方法可以防止上下文溢出，同时在扩展交互中保持对话的连贯性。

子智能体输出到文件系统以最小化“传话游戏”效应。 直接的子智能体输出可以绕过主协调器来处理某些类型的结果，从而提高保真度和性能。与其要求子智能体通过 Lead Agent 沟通所有内容，不如实现一个工件（artifact）系统，让专门的智能体可以创建独立持久的输出。子智能体调用工具将其工作存储在外部系统中，然后将轻量级的引用传回协调器。这可以防止在多阶段处理过程中的信息丢失，并减少因通过对话历史复制大量输出而产生的 token 开销。这种模式特别适用于结构化输出，如代码、报告或数据可视化，因为子智能体的专业化提示会比通过通用协调器过滤产生更好的结果。