Claude 官方发文分享多智能体研究系统的实践经验,值得收藏学习


最新,Claude 他们在官方博客上构建多智能体博客文章,介绍哪些方法有效、哪些方法无效以及过程中遇到的工程挑战。
Agent 今年比比皆是,看完文章之后,一些重要的关键信息汇总如下。
这篇文章真的分享了很多构建多智能体的实践经验
值得收藏学习

因为大家对智能体的概念认知不一
给出多智能体系统的概念
智能体是什么:LLMs 自动 循环使用工具
多智能体系统是什么:一个多智能体系统由多个智能体组成,智能体之间相互协同工作。
Claude 他们所研究的是基于用户查询规划研究过程的智能体,然后使用工具创建多个同时搜索信息的智能体。
多智能体的优点
不可预测性的研究任务使 AI Agent 特别适用
研究工作涉及开放性问题,提前预测所需步骤非常困难。无法预知。当人们进行研究时,往往会根据发现不断更新方法,跟随调查过程中出现的线索。
这种不可预测性使 AI 代理特别适合于研究任务。
研究要求在调查展开过程中具备灵活调整或探索相关联线索的能力。模型必须自主运行多轮次,根据中间结果来决定要探索的方向。
线性的、一次性的工作流程无法处理
搜索的本质是压缩
子智能体通过并行操作各自的上下文窗口,同时探索问题的不同方面,在汇总最重要的标记供主智能体使用之前进行探索。
每个子智能体还提供了职责分离——不同的工具、提示和探索路径,这减少了路径依赖性,使彻底且独立的研究成为可能。
一旦智能达到一定阈值,多智能体系统就成为提升性能的关键方式。
多智能体研究系统表现尤为出色
以 Claude Opus 4 为主智能体,Claude Sonnet 4 为子智能体的多智能体系统,在内部研究评估中比单智能体 Claude Opus 4 的性能高出 90.2%(单智能体系统则因缓慢的顺序搜索未能找到答案)。
三个因素解释了浏览竞赛评估(测试浏览智能体查找难以找到的信息的能力)中 95%的性能差异。
token 使用本身解释了 80%的差异,而工具调用的数量和模型选择是另外两个解释因素
这一发现验证了我们采用的架构,该架构通过为每个智能体分配单独的上下文窗口来分配工作,从而增加了并行推理的能力。最新的 Claude 模型在提高令牌使用效率方面起到了巨大的乘数作用,升级到 Claude Sonnet 4 相比将 Claude Sonnet 3.7 的令牌预算翻倍,性能提升更大。多智能体架构有效地为超出单个智能体限制的任务扩展了令牌使用。
多智能体的缺点
会快速消耗大量的 token
智能体通常使用的 token 量是聊天交互的 4 倍,而多智能体系统使用的 token 量则是聊天的 15 倍。
为了经济上的可行性,多代理系统需要任务的价值足够高,以支付增加的性能成本。
一些领域要求所有代理共享相同上下文或涉及代理间大量依赖关系,目前并不适合多智能体系统。
例如,大多数编程任务涉及的真正并行化任务比研究任务要少,而 LLM 智能体目前还不擅长实时协调和委派给其他智能体。多智能体系统在涉及大量并行化、超出单一上下文窗口的信息以及与众多复杂工具交互的任务中表现出色。
多智能体架构设计

多智能体架构:用户查询通过一个主智能体,该主智能体创建专门的子智能体并行搜索不同的方面。
当用户提交查询时,主智能体会分析查询,制定策略,并生成子智能体以同时探索不同方面。如上图所示,子智能体作为智能过滤器,通过迭代使用搜索工具收集信息(例如,2025 年的人工智能代理公司信息),然后将公司列表返回给主智能体,以便主智能体汇总最终答案。
传统的基于检索增强生成(RAG)的方法使用静态检索。也就是说,它们会获取与输入查询最相似的一些片段,并使用这些片段来生成响应。相比之下,该架构采用多步搜索,动态地查找相关信息,适应新的发现,并分析结果以形成高质量的答案。
智能体的提示词工程经验分享
1、像你的智能体一样思考
优化提示词的过程中,需要理解它们的效果,他们构建了一个模拟系统,然后逐步骤观察。
这能够立即揭示失败原因:在已有足够结果时继续工作、使用过于冗长的搜索查询,或选择错误的工具。有效的提示依赖于对智能体形成准确的心理模型,这可以使最有影响力的改变变得显而易见。
2、教会协调者如何分配任务
每个子智能体需要一个目标、输出格式、使用工具和来源的指导,以及明确的任务边界。
如果没有详细的任务描述,可能会重复工作、留下空白或无法找到所需信息。
比如最初允许主智能体给出简单的简短指令,如“研究半导体短缺”,但发现这些指令往往模糊不清,导致子智能体误解任务或进行与其他代理相同的搜索。
3、根据查询复杂度调整工作量
智能体难以判断不同任务所需的工作量,因此我们在提示中嵌入了缩放规则。
简单的事实查找只需 1 个代理和 3-10 次工具调用,直接比较可能需要 2-4 个子代理,每次调用 10-15 次
而复杂的科研工作可能需要超过 10 个子代理,且职责分明。
这些明确的指导方针有助于领头代理高效分配资源,并防止对简单查询过度投资,这是我们早期版本中常见的失败模式。
4、工具设计和选择至关重要
智能体与工具的接口与人机接口同样重要。
使用合适的工具可以提高效率——很多时候,这是必不可少的。
例如,一个智能体在搜索仅存在于 Slack 中的上下文信息,从一开始就是注定失败的。随着 MCP 服务器为模型提供访问外部工具的能力,这个问题会变得更加严重,因为智能体会遇到描述质量参差不齐的未知工具。
我们给智能体提供了明确的启发式规则:例如,首先检查所有可用的工具,将工具使用与用户意图匹配,通过网络搜索进行广泛的外部探索,或者优先使用专业工具而非通用工具。糟糕的工具描述可能会引导代理走完全错误的方向,因此每种工具都需要有明确的目的和清晰的描述。
5、自我提升
大模型本身可以成为优秀的提示工程师。当给定一个提示和一个失败模式时,它们能够诊断出代理失败的原因并提出改进建议。
6、先广泛搜索,再逐步聚焦
搜索策略应模仿专家人类研究的方式:先探索整体情况,再深入具体细节。智能体往往倾向于使用过长且具体的查询,这些查询返回的结果很少。我们通过提示智能体从简短而宽泛的查询开始,评估可用信息,然后逐步聚焦,来克服这种倾向。
7、引导思考过程
主导智能体使用扩展思考来规划其方法,评估哪些工具适合任务,确定查询复杂度和子代理数量,并定义每个子代理的角色。
测试显示,扩展思考提高了指令遵循、推理和效率。子智能体也会进行规划,并在工具结果之后交替使用思考来评估质量、识别缺口并完善其下一个查询。这使子智能体在适应任何任务时更加有效。
8、并行工具调用极大提升了速度和性能
复杂的科研任务自然涉及探索多种来源。
早期的代理执行顺序搜索,这非常缓慢。
为了提高速度,我们引入了两种并行化方式:
(1)主智能体会并行启动 3-5 个子智能体,而不是依次启动;
(2)子智能体会并行使用 3 个及以上工具。
这些改变将复杂查询的研究时间最多缩短了 90%,使得研究团队能够在几分钟内完成原本需要几小时的工作,同时覆盖的信息量超过其他系统
有效的智能体评估方法
传统的评估方法通常假设 AI 每次都会遵循相同的步骤:给定输入 X,系统应该遵循路径 Y 来生成输出 Z。
但多智能体系统并不如此运作。即使起点相同,智能体也可能采取完全不同的有效路径来达到目标。
一个智能体可能搜索三个来源,而另一个智能体搜索十个来源,或者它们可能使用不同的工具来找到相同答案。因为我们并不总是知道正确的步骤是什么,所以我们通常不能仅仅检查智能体是否遵循了我们事先规定的“正确”步骤。
相反,我们需要灵活的评估方法,既要判断智能体是否达到了正确的结果,也要评估它们是否遵循了一个合理的流程。
1、立即使用少量样本进行评估
早期一个提示的调整可能会将成功率从 30%提升到 80%。由于效果如此显著,只需少量测试案例即可观察到变化。我们从大约 20 个查询开始,这些查询代表了实际使用模式。
测试这些查询通常能使我们清楚地看到变化的影响。经常听到 AI 开发团队推迟创建评估的原因是他们认为只有包含数百个测试案例的大规模评估才是有用的。然而,最好从一开始就使用少量示例进行小规模测试,而不是等到可以构建更全面的评估时再开始。
2、LLM-as-judge
使用了一个 LLM 裁判,根据评分标准评估每个输出:
事实准确性(声明是否与来源相符?)、引文准确性(引用的来源是否与声明相符?)、完整性(是否涵盖了所有要求的方面?)、来源质量(是否使用了高质量的原始来源而非低质量的次级来源?)以及工具效率(是否合理地多次使用了正确的工具?)。
尝试多个裁判来评估每个组成部分,但发现使用单一 LLM 调用,通过单一提示输出 0.0-1.0 的分数和通过/未通过的成绩,是最一致且与人类判断一致的方法。
当评估测试案例有明确答案时,这种方法尤其有效
3、人工评估可以弥补自动化评估的不足
人们在测试时会发现自动化评估遗漏的边缘情况,包括对不寻常查询产生的幻觉答案、系统故障或细微的来源选择偏差。
即使在自动化评估的世界里,人工测试仍然是必不可少的。
4、多智能体系统具有涌现行为
主智能体的微小变化可能会不可预测地改变子智能体的行为。
成功的关键在于理解交互模式,而不仅仅是单个智能体的行为。
因此,这些智能体的最佳提示不仅是一系列严格指令,还应包括合作框架,定义劳动分工、问题解决方法和工作量。
正确实现这一点依赖于精心设计的提示和工具、稳健的启发式方法、可观测性以及紧密的反馈循环。
最后
这篇文章真的分享了很多构建多智能体的实践经验
值得收藏学习
原文:https://www.anthropic.com/engineering/built-multi-agent-research-system
我是大林,大模型搬砖攻城狮,持续关注 AI。
主页:https://www.dalinaip.com/about
评论