Agentic AI 基础设施实践经验系列(六):Agent 质量评估
1. Agent 评估简介
Agent 评估是指对 Agent 在执行任务、决策制定和用户交互方面的性能进行评估和理解的过程。由于 Agent 具有固有的自主性,对其进行评估对于确保其正常运行至关重要。
不包含工具调用的 Agent 通常采用文本到文本的评估方式,类似于标准的大语言模型基准测试。然而,现代 AI 智能体执行的操作更加广泛和复杂,包括多步推理、工具调用和与外部系统交互等,这需要更全面的评估方法。评估不能仅停留在表面的文本质量层面,还需要评估智能体的整体行为、任务成功率以及与用户意图的一致性。
除了衡量任务性能外,Agent 评估还必须优先考虑安全性、可信度、政策合规性和偏见缓解等关键维度。这些因素对于在现实世界的高风险环境中部署智能体至关重要。同时,为避免开发出高性能但资源密集型的智能体而限制其实际部署,成本和效率测量也必须纳入评估范围。
评估方法可以包括基准测试、人机协作评估、A/B 测试和真实世界模拟等。通过系统性地评估 Agent,优化自动化工作,提升业务功能,同时最大限度地降低与不安全、不可靠或有偏见的智能体 AI 相关的风险。
📢限时插播:无需管理基础设施,利用亚马逊技术与生态,快速集成与部署生成式 AI 模型能力。✨ 精心设计,旨在引导您深入探索 Amazon Bedrock 的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。⏩快快点击进入《多模一站通 —— Amazon Bedrock 上的基础模型初体验》实验构建无限, 探索启程!
1.1 Agent 评估的必要性
(1) 技术层面:Agent 具有自主决策能力,若决策存在偏差,可能导致任务失败。通过评估,可以及时发现 Agent 在自主决策过程中的问题,避免因错误决策造成损失。比如,在金融风控场景中,信贷审核 AI Agent 若存在决策偏差,可能会错误地批准高风险贷款申请,给金融机构带来巨大风险。
(2) 业务层面:Agent 的表现直接影响业务的开展和价值实现。评估能够验证 Agent 是否能够满足业务需求,提高业务效率,降低运营成本。以电商客服场景为例,智能客服 Agent 的任务完成率和用户满意度直接关系到客户留存和销售额。通过评估并优化 Agent,可以提高其服务质量,从而促进业务发展。
(3) 伦理与合规层面:在应用 Agent 的过程中,需遵守相关的伦理原则和法律法规,避免出现偏见、歧视以及数据隐私泄露等问题。评估可以有效排查 Agent 在伦理和合规方面的风险,确保其符合社会伦理和法律要求。例如,在招聘场景中,若招聘筛选 Agent 存在性别或年龄偏见,可能会违反公平就业的相关法律,通过评估可以及时发现并纠正此类问题。
(4) 迭代层面:评估结果能够为 Agent 的迭代优化提供明确的方向。通过分析评估数据,开发者可以了解 Agent 在哪些方面存在不足,从而有针对性地进行改进,不断提升 Agent 的性能和能力,推动 Agent 技术的持续发展。
1.2 评估的一般步骤
(1) 定义评估的目标和指标。需要结合 Agent 应用构建后实际应用的场景以及期望的输出来选择合适的指标。
(2) 收集数据并准备测试。为了有效的评估 Agent 应用,最好使用真实场景的数据进行测试数据集的构建;构建的测试数据根据实际处理任务以及任务复杂度进行构建,尤其对于复杂的多步骤任务,构建完整的推理步骤进行 Agent 应用的评估对于整体效果有着更好的保障。
(3) 执行并分析结果。一般来讲,最准确的评估结论是在制定好评估准则和指标后的人工评估。但是人工评估速度较慢且成本较高,选择一个能力最强的模型,使用 LLM as jugde 是一个更有效率更有性价比的方法。需要关注在应用是否选择了正确的工具/函数?是否在正确的上下文中传递了正确的信息?是否产生了事实准确的回应?
(4) 优化测试数据集,迭代评估。
1.3 常用评估指标介绍
Agent 评估指标非常多,可以分为业务类型指标、效率类型指标、安全类型指标等。同时也可以根据实际情况进行自定义指标设计。以下是一些常用指标的举例。
1.3.1 业务类型指标
(1) 任务完成率(Task Completion Rate, TCR)
其中,C 为成功完成的任务数,N 为总任务数
应用场景:
电商客服场景:智能客服 Agent 处理”退换货申请””物流查询”等任务时,成功解决用户问题的比例。例如,100 个退换货咨询中,85 个能通过 Agent 自主完成流程(无需转接人工),则任务完成率为 85%。
金融风控场景:信贷审核 Agent 对贷款申请的自动审批任务,符合预设规则且准确通过/拒绝的申请占比。若 1000 笔申请中,920 笔的审批结果与人工复核一致,则任务完成率为 92%。
(2) 决策准确率(Decision Accuracy)
应用场景:
医疗辅助场景:AI 诊断 Agent 分析患者病历、影像报告并给出初步诊断建议时,每个推理步骤(如症状匹配、疾病排除)的正确比例。例如,在 100 个诊断流程中,关键决策步骤的正确率为 90%,则决策准确率为 90%。
供应链调度场景:仓储调度 Agent 规划货物分拣路径时,每个调度步骤(如优先级排序、仓位分配)符合最优方案的比例。若 100 次调度中,88 次的路径规划无冗余步骤,则决策准确率为 88%。
(3) 工具调用正确率(Tool Call Accuracy)
应用场景:
企业 HR 场景:招聘 Agent 筛选简历时,调用 “学历验证接口”“工作经历核查工具” 的必要性比例。例如,100 次简历筛选中,90 次工具调用是为核实关键信息(非冗余调用),则准确率为 90%。
旅游服务场景:行程规划 Agent 为用户定制旅行方案时,调用 “机票比价工具”“酒店库存查询 API” 的合理性。若 100 次工具调用中,85 次能直接辅助生成符合用户需求的方案,则准确调率为 85%。
1.3.2 效率指标
(1) 平均任务耗时(Average Time)
其中,tend 为任务结束时间,tstart 为任务开始时间,N 为任务总数
应用场景:
银行柜台辅助场景:柜员辅助 Agent 处理 “开卡”“转账” 等业务时,从用户提交资料到完成操作的平均时间。例如,100 笔开卡业务总耗时 300 分钟,平均耗时 3 分钟 / 笔,需与人工办理效率对比评估。
(2) 平均交互轮数(Average steps)
其中,为第 steps_i 个任务的交互轮数,N 为任务总数
应用场景
零售客服场景:智能客服 Agent 处理”退换货””商品咨询””订单查询”等服务时,从客户发起咨询到问题解决所需的平均对话轮数。例如,200 个退换货咨询总共产生 1400 轮对话,平均交互轮数为 7 轮/次,可用于评估 Agent 的问题理解能力和解决效率。交互轮数越少,表示 Agent 能够快速准确理解客户需求并提供有效解决方案。
1.3.3 伦理与安全性指标
偏见发生率(Bias rate)
招聘场景:招聘筛选 Agent 对简历的评估是否存在性别 / 年龄偏见(如同等条件下优先排除女性候选人)。若 1000 份简历评估中,有 30 份因不合理偏见被错误筛选,则偏见率为 3%。
打车平台场景:网约车调度 Agent 是否对不同区域用户(如郊区 vs 市区)存在派单延迟偏见。若 1000 次郊区订单中,50 次因偏见导致派单慢于合理时间,则偏见率为 5%。
1.4 评估框架介绍
常见 Agent 评估框架举例如下表所示:
表 1 – 常见的 Agent 评估框架
1.4.1 AgentBoard
AgentBoard 是一款专为多轮交互、多任务环境设计的评估平台,旨在通过细粒度的能力拆解、轨迹回放和可视化分析,帮助开发者深入理解和优化 AI Agent 的行为表现。它旨在解决传统评估指标(如成功率)无法反映 Agent 内部决策过程、探索策略和计划执行一致性的问题。它通过过程能力拆解、多轮交互轨迹追踪和部分可观测环境模拟,实现对 Agent 全流程的细粒度评估。
(1)工作原理
多轮交互追踪:记录 Agent 在任务中的每一步操作、状态变化和工具调用,形成完整的交互轨迹。
能力拆解指标:引入“进度率”、“探索效率”、“计划一致性”等指标,量化 Agent 在任务推进、探索策略和执行遵循上的表现。
环境部分可观测:模拟真实环境中信息有限的场景,考察 Agent 在信息不足时的推理和探索能力。
可视化分析:通过轨迹回放、热力图、能力对比图,帮助开发者直观理解 Agent 行为瓶颈。
图 1 – AgentBoard 可视化呈现
表 2 – AgentBoard 核心组件
(2)评测指标
AgentBoard 提供了多维度、细粒度的评测指标,主要包括以下几类:
Success Rate(任务成功率):衡量 Agent 在规定最大交互步数内“完全达到”环境目标的比例
Progress Rate(进度率):衡量 Agent 在多步任务中已完成子目标的比例,反映累进式推进能力
Grounding Accuracy(落地准确率):衡量 Agent 在每步操作(如点击、API 调用)中生成“合法、可执行”动作的比例,用于评估动作的有效性及环境交互质量
维度能力评分
AgentBoard 进一步将 Agent 能力拆解为以下六大维度,并分别打分:
Memory(记忆):长程上下文信息的利用能力
Planning(规划):将整体目标分解为可执行子目标的能力
World Modeling(建模):推断并维护环境隐状态的能力
Retrospection(回顾):基于环境反馈自我反思并修正行为的能力
Grounding(落地):生成有效动作并成功执行的能力
Spatial Navigation(空间导航):在需要移动或定位的任务中,高效到达目标的能力
难度分层分析
Easy/Hard Breakdown:分别统计“易”“难”子集上的 Success Rate 与 Progress Rate,帮助识别在不同难度样本上的性能差异
长程交互趋势
Long-Range Interaction Curve:展示随着交互步数增加,Progress Rate 的变化趋势,用于评估 Agent 在“长对话”“长任务”中的持续推进能力
1.4.2 AgentBench
AgentBench 是目前应用最广泛的多环境、多任务评测基准,旨在全面衡量大语言模型(LLM)驱动的 Agent 在多场景下的泛化能力和实际表现。它通过统一的接口和标准化任务集,支持多样化环境(如文件系统、数据库、网页、游戏、机器人仿真等),实现对不同模型的横向对比和能力评估。
AgentBench 由清华大学等团队提出,旨在填补以往评测场景单一、评估维度有限的空白。其设计目标包括:
多场景覆盖:涵盖操作系统(OS)、数据库(DB)、知识图谱(KG)、数字卡牌游戏(DCG)、横向思维谜题(LTP)、家务任务(HH)、网页购物(WS)、网页浏览(WB)八个环境。
多维度评测:评估指令跟随、问题分解、代码执行、逻辑推理与常识推理等核心能力。
开源可扩展:提供 Dev/Test 划分、Docker 环境复现、标准化 API 接口,方便研究者添加新模型与任务。
环境封装:每个环境均以 Docker 容器形式封装,隔离依赖与数据,确保评测可复现(OS 使用 Ubuntu、DB 使用 MySQL 等)。
1.4.2.1 评价指标
表 3 – AgentBench 在 8 个环境中使用的评测指标
1.4.2.2 数据集与划分
AgentBench 为了支持模型开发与公平对比,将数据分为两个子集:
Dev 集:包含 4,000 多条多轮交互样本,主要用于内部调试和方法迭代。在这一部分,你可以多次试验、调整模型参数。
Test 集:包含 13,000 多条多轮交互样本,用于公开 leaderboard 排名和最终性能评估。这个集合不公开标签,保证各团队在同一标准下公平竞争。
27 款开源与 API-based 模型在 Test 划分上对比,揭示商用模型与 OSS 模型间显著差距。在 Test 集上,AgentBench 对比了 27 种不同类型的模型,包括:
开源模型(OSS):如 GPT-J、LLaMA 系列等需要自行部署的模型
API-based 商用模型:如 OpenAI GPT-4、Anthropic Claude 等通过云 API 调用的模型
1.4.3 τ-bench (Tau-bench)
TAU-bench 是一个评估 AI 智能体在真实世界环境中可靠性的基准测试。它评估智能体是否能够在动态的多轮对话中与用户进行交互,理解需求并完成任务。T-bench 测试流程包括:
智能体与模拟用户交互,通过多轮对话了解需求并收集信息
智能体使用特定领域的 API 工具(如预订航班、退货等)
智能体必须遵守提供的特定领域规则和限制
通过比较最终数据库状态来衡量成功与否
使用 pass^k 指标评估在多次(k)尝试中完成相同任务的可靠性
τ-bench 通过模拟“用户–Agent–工具”三方多轮交互,专门衡量 Agent 在真实业务场景中完成任务的可靠性、规则遵循和稳定性。其核心评测指标包括:
Task Success Rate (pass¹):Agent 在单次对话中,将数据库状态从初始状态变更到目标状态的比例(即一次性成功率)。举例,若在 100 次零售场景对话中,Agent 有 60 次能正确完成退货流程,则 pass¹= 60%。
Stability over Repeats (passᵏ):Agent 连续 k 次重复执行同一任务,全部成功的概率,衡量一致性和可靠性。举例,若 pass³ = 0.22,表示在 100 次任务中,仅有 22 次能连续三次都成功,反映 Agent 在多轮反复使用时性能会显著下降
Rule Compliance Rate:在任务过程中,Agent 是否严格遵循领域策略文档(Domain Policies,如“基础经济舱不可改签”)的比例。在 58 次成功的航旅改签对话中,若 58 次均按“退票再订票”规则执行,则规则合规率 = 100%
LLM as Judge:使用大语言模型来评估 Agent 输出质量的方法,通过让 LLM 扮演”评判者”角色,根据预定义的评估标准对 Agent 的表现进行打分和判断。:Agent 从收到用户第一条请求到任务完全完成(数据库状态更新到目标)所用的平均时间,衡量效率和用户体验。举例在 200 次电商场景对话中,若总耗时 640 秒,则平均延迟 = 3.2 秒/次
Session Length (会话长度):完成一次任务所需的平均对话轮数,反映 Agent 与用户交互的简洁性。若平均对话轮数为 6 轮,则表明 Agent 能在较少交互中完成任务。
Error Breakdown:统计失败对话的主要错误类型及占比,如“未询票号”“违规直改”“API 调用失败”等,帮助诊断弱点。
2. Agent 质量评估实践建议
2.1 如何构建一个通用 Agent 评估方案
2.1.1 评估数据的准备
通常情况建议从实际的业务数据任务里进行采集,做成标准的 Agent 测试集。
如果没有真实业务可采集 Agent 处理流数据,则可以通过人工创建一些示例数据,然后通过 self-instruct 方式生成一批测试数据集来进行冷启动。
2.1.2 评估指标
(1) Tool 调用准确率 :Tool 调用的准确率是 Agent 应用最基础的保障,决定了最终任务的失败,因此该指标作为 Agent 基础能力的体现,是必须要进行的一项评估,但是评估的方式可以实际选择:
细粒度检测:逐个工具调用的对比,以及调用工具对应参数提取正取率的对比,如下图所示:
图 2 – Tool 调用分析图
粗粒度检测:可以直接对比所有工具调用完成后任务环境的一致性,如 AgentBench 虚拟 docker 环境验证或 τ-bench 中的提到的数据状态变更的一致性检测。
(2) 总体任务完成率 :
总体的任务的完成度指标随着不同的 Agent 的应用场景指标也会有变化,部分场景甚至可能会跟前面提到的 Tool 调用准确率的粗粒度评估方式比较接近,直接查看最终应用调用完成后数据状态变更或者系统状态变更的一致性来进行检测。
另外对于一些有正确答案的数据集且内容详规固定,可以直接使用一些规则进行评估,例如 Rouge, Bleu,完全匹配率,编辑距离等
2.1.3 归因分析
在完成评估后,针对实际评估结果进行失败测试用例的原因分析,从而针对性的优化开发的 Agent 应用。当然归因分析也是既可以使用基于规则的方式,也可以使用 LLM as Judge 的方式,例如前面提到的 Tau-bench 。
2.1.4 其他建议
建议结合使用自动化和人工评估方法:自动化指标提供量化见解,而人工评估则对连贯性和相关性等因素提供定性评估,当然使用 LLM 替代人工进行一些总体评估也是一个在实际业务中常用到的方法。如借助 LLM as Judge 使用大语言模型来评估 Agent 输出质量的方法,通过让 LLM 扮演”评判者”角色,根据预定义的评估标准对 Agent 的表现进行打分和判断。同时从评估范围上既可以对 Agent 最终回答进行评估,也可以对中间推理过程进行打分,但需要注意对评估模型推理能力和上下文窗口的要求。
选择评估指标时考虑应用场景:不同的用例可能需要不同的评估方法。例如,聊天机器人大语言模型系统可能优先考虑参与度和连贯性,而翻译系统则会关注准确性和流畅性。
评估过程的监控:结合开源的 langfuse 等可观测性框架,在评估过程中进行观测以及监控 Agent 任务的完成成本以及推理时延。
2.2 例 1- 使用τ-bench 实现客服对话式 Agent 评估
参考 τ-bench 的评估方式和评 r 估思想,我们基于 Strands Agents + Langfuse 简单复现 τ-bench 中的零售 Agent(Retail Agent)。我们模拟这个 Agent 开发后的评估流程,通过 Langfuse 来观测和跟踪评估的中间结果以及对应的指标,方便进行后续的人工复查。同时,通过测试可以评估任务整体的性能和成本。在完成评估后,我们使用 LLM as Judge 的方式对失败任务进行归因分析。具体实现请参考示例代码。
2.2.1 测试数据准备
收集历史客服对话记录
准备标准问答对
包含常见问题、异常情况、多轮对话
注:在实际的应用中,可以参考 τ-bench 的思想来准备实际业务场景的数据集,对应的最终数据操控结果一致性检测替换成实践应用中的数据集,对应的数据库一致性校验可以替换成实际业务数据的一致性检测。
2.2.2 评估指标
准确率:回答正确的比例
响应速度:平均回答时间
解决率:一次性解决问题的比例
2.2.3 评估方法
自动对比标准答案
人工打分评估
2.2.4 评估流程
评估的主要交互流程为 Retail Agent-环境-用户通信流程(参考 τ-bench 交互流)
Retail Agent:通过调用工具或直接回应用户来执行操作
环境:完成所有交互,执行工具调用并传递消息
用户模拟:基于每个任务的 instruction 模拟生成真实的用户响应
工具:Retail Agent 可以调用的特定领域功能来完成任务
图 3 – Retail Agent 评估时序图
2.2.4 评估结果
我们以 τ-bench 提供的数据测试运行结果为例:
(1)Agent 执行以后的数据一致性来判断最终的任务完成率
图 4 – 评估任务执行输出结果
(2)LLM as Judge 进行失败任务的归因分析
图 5 – 失败任务归因分析
(3)使用 Langfuse 评估可观测性,对 Agent 每次任务完成时间、中间交互时间、任务 token 消耗等进行监控和管理。
图 6 – Langfuse 可观测性追踪
2.3 例 2 – 使用 AgentBoard 完成 Deep Research Agent 执行效果评估
参考 AgentBoard 的评估方式和评估思想,我们基于 AgentBoard 框架实现了天气报告助手 (Weather Report Assistant)Agent,模拟一个面向天气查询的智能助手工作和 Agent 评估流程,通过 SummaryLogger 来观测和跟踪评估的中间结果以及对应的关键指标,方便进行后续的人工复查,同时通过测试可以评估任务整体的执行效率和准确性。并在完成的最后使用评估指标分析对失败任务进行归因分析。具体实现请参考示例代码。
图 7 – Weather Report Assistant Agent 示例
Weather Assistant Agent 具备以下核心功能:
地理位置查询:能够获取全球各地的地理坐标信息。
当前天气查询:获取特定位置的当前温度、降雨量和降雪量。
历史天气查询:获取特定位置在过去日期的天气数据。
天气预报查询:获取特定位置未来几天的天气预报。
空气质量查询:获取特定位置的空气质量指数和等级。
地理信息查询:获取位置的海拔高度和地理距离计算。
生成天气报告:生成天气报告内容。包括城市名称、天气、温度、降水、生活小建议等信息内容。
AgentBoard 构建了一套相对完善的多维度智能体评估体系。通过成功率(Success Rate)关注最终结果满足用户期望、进度率(Progress Rate)提供细粒度的能力分析、基础准确率(Grounding Accuracy)评估执行层面的准确性、得分状态(Score State)记录学习曲线和进展模式,难度分层机制区分不同复杂度任务的表现,形成了相对完整的评估矩阵。
尽管 AgentBoard 评估体系具有诸多优点,但在工具选择评估、内容质量判断和用户体验考量等方面仍存在局限,限制了其对智能体能力的全面评估。例如 Grounding Accuracy 存在评估盲点。当前机制无法判断智能体是否选择了最优工具,只要执行不报错就被认为正确,这忽略了工具选择的合理性;缺乏对生成内容质量和准确性的评估、没有考虑响应时间、交互友好性等用户体验因素。这些局限都需要在后续优化中改进。
2.3.1 测试数据准备
收集优质研究报告作参考
准备不同难度的研究主题
涵盖多个行业领域
2.3.2 评估指标
准确性:事实和数据是否正确
完整性:内容是否全面
逻辑性:结构是否清晰合理
实用性:是否对决策有帮助
2.3.3 评估方法
专家评分(1-10 分)
与标准报告对比
成本效益分析
2.2.4 评估结果
(1)成功率(Success Rate)
定义:任务被成功完成的比例(即进度率达到 100% 的任务占比)。
作用:反映代理最终达成目标的能力,是传统评估中常用的指标。
计算: 成功完成的任务数 / 总任务数
单个任务的 Success Rate 只能是:0(未完全成功)或者 1(完全成功)
对于整个数据集
(2)进度率(Progress Rate)
定义:衡量代理在任务过程中的中间进展,取值范围为 [0,1]。
计算方式:子目标离散分数(完成的子目标数 / 总子目标数):适用于中间状态模糊的任务,将总目标分解为子目标,通过完成子目标的比例计算(如 “打开冰箱→取出鸡蛋→清洗鸡蛋”)。
作用:相比成功率,能更精细地区分模型表现。例如,两个成功率相近的模型(如 1% 和 3.9%),其进度率可能差异显著(18.9% 和 24.6%),反映实际能力差距。
(3)Grounding Accuracy (基础准确率)
定义:智能体执行的动作与预期动作的匹配程度。
计算方式:正确执行的关键步骤数 / 总步骤数。
作用:衡量智能体理解和执行具体操作的准确性。
判断标准:正确执行 = 动作执行后没有返回错误信息/错误执行 = 动作执行后返回以”ERROR |”开头的错误信息
(4)Score State (得分状态)
定义:记录智能体在任务执行过程中每个关键步骤的得分变化。
格式:元组列表 `[(step_id, score), …]。
作用:衡量智能体的学习曲线和进展模式。
(5)难度分层指标
Success Rate Hard: 困难任务的成功率
Success Rate Easy: 简单任务的成功率
Progress Rate Hard: 困难任务的进度率
Progress Rate Easy: 简单任务的进度率
Agent 评估的主要交互流程为 Weather Agent-环境–用户通信流程,涉及以下核心模块:
VanillaAgent:智能体核心实现,负责理解用户查询,选择合适的工具函数,并生成自然语言回复。它维护对话历史,构建提示,并通过 LLM 生成动作
WeatherEnv:环境模块,负责处理智能体的动作,调用相应的工具函数,维护环境状态,计算奖励和进度,判断任务是否完成
weather_toolkits:工具集实现,提供上述六大类天气查询功能,处理 API 调用的参数验证和错误处理,格式化 API 返回的结果
EvalTool:评估控制模块,负责初始化环境和智能体,跟踪任务进度和奖励变化,计算评估指标(成功率、进度率、接地精度等)
TaskLogger/SummaryLogger:日志记录模块,记录智能体的动作、环境的观察、奖励变化等,生成详细的日志文件,汇总评估结果
图 8 – Weather Assistant Agent 评估时序图
2.2.5 运行后结果分析
(1)Summary(以测试用例前 5 条为例):
Success Rate(总体成功率)和 Progress Rate(进度率)达到 100%,Grounding Accuracy(接地精度)为 84.07%,表明智能体能够准确理解用户查询并有效调用相应工具。所有简单难度样本都很好的完成。智能体通常需要 2-9 步完成任务,取决于查询复杂度。这些指标证明了 Weather 智能体在处理天气查询方面的高效性和准确性。Success_rate_easy(简单任务的成功率)为:100%,表明智能体执行简单任务全部成功
(2)Tool query Summary(以测试用例前 5 条为例):
以上是 Weather Assitant Agent 在 5 个不同测试样本上的表现,每个样本都成功完成了任务(Success_rate: True)且达到了完整的进度(Progress_rate: 1.0),但接地精度和完成步骤各不相同。样本 2 表现最佳,仅需 2 步即完成任务([score_state]: [(2, 1.0)])且接地精度达(Grounding Accuracy,100%),;而样本 1 和 4 的接地精度较低(Grounding Accuracy,71.43%),表明智能体有部分无效工具调用(Error);样本 3 需要 7 步([score_state]: [(7, 1.0)])完成历史天气查询,接地精度达 87.5%,反映历史数据查询的复杂性;样本 1 需要 9 步才能完成([score_state]: [(9, 1.0)]),说明该查询可能需要多次工具调用才能获取完整信息。总体而言,智能体在所有测试中都成功完成了任务,但在不同类型查询上的效率和精确度存在差异。
(3)输出细节(以测试用例第 1 条为例)
这个评估记录展示了 Weather Assistant Agent 处理”纽约今天天气如何”查询的完整交互过程。Agent 最终成功完成任务(is_done: true,Progress_rate: 1.0),但接地精度(Grounding Accuracy)仅为 71.43%,原因是在 7 次交互中有 2 次格式错误。
智能体首先获取当前日期,然后查询纽约的地理坐标,接着获取当前温度和降雨数据,最后生成完整回答。智能体在第 1 和第 5 轮交互中因响应格式不正确而出错,显示其对工具调用格式的掌握不完全稳定。尽管如此,智能体能够从错误中恢复并在第 6 轮交互中正确格式化请求,最终提供了准确的天气信息,包括温度范围(14.8°C 至 26.0°C)和降雨情况(无降雨)。这个案例说明智能体具有较强的任务完成能力和错误恢复能力,但在格式一致性方面仍有改进空间。
2.4 例 3 – 使用自定义的 TaskManager 对 AI 考题生成 Agent 执行评估
2.4.1 Agent 场景
AI 考题生成 Agent 可满足各类考题生成需求:
多题型支持涵盖单选题(每题一个正确答案)、多选题(每题多个正确答案)、填空题(需填写特定内容);难度级别调整分为简单(适合入门学习和基础知识检测)、中等(适合常规考核和能力评估)、困难(适合高阶思维和深度理解测试)。
在参考资料处理上,既支持 URL 作为参考(自动获取网页内容生成相关题目),也支持文本作为参考(用户直接提供文本材料作为出题依据)。
生成的考试内容会渲染为交互式 HTML 页面,支持选择、填空等交互操作,界面美观易用;还支持中英文双语界面,可生成不同语言的考题。
图 9 – 前端界面示例
图 10 – Agent 评估工作流与主流程的集成
考试生成流程和 TaskManager 任务监控管理流程紧密协同工作,形成一个完整的系统:
(1)初始化阶段协同:
考试生成流程创建工作流和步骤
TaskManager 记录工作流和步骤信息
回调机制建立连接
(2)执行阶段协同:
考试生成流程调用各种工具
回调机制捕获工具调用事件
TaskManager 记录工具调用信息
(3)完成阶段协同:
考试生成流程完成工作流
TaskManager 更新工作流状态
评估报告生成系统性能指标
(4)异常处理协同:
考试生成流程捕获异常
TaskManager 记录失败信息
回调机制处理未完成的工具调用
这种协同工作模式确保了系统的可靠性、可追踪性和可评估性。具体实现请参考示例代码。
2.4.2 评估结果分析
从以上评估报告中,我们可以得出结论:该工作流成功完成,总执行时间约为 57.7 秒,包含 1 个成功完成的步骤。在工具调用方面,共进行了 10 次全部成功的工具调用,平均执行时间约为 5.27 秒。从工具性能分析来看,validate_exam_format 工具执行时间最长(约 18.62 秒),构成主要性能瓶颈;而 generate_multiple_choice_question 工具执行时间最短(平均约 3.47 秒)。值得注意的是,各类题目生成工具(单选题、多选题、填空题)执行时间相近,都在 3.5 秒左右,而 extract_exam_metadata 和 plan_exam_content 执行时间则处于中等水平(约 4.5-4.9 秒)。针对性能优化,建议重点改进 validate_exam_format 工具(考虑增量验证或并行验证方式),进一步优化题目生成工具以提高缓存命中率,并考虑并行执行 extract_exam_metadata 和 plan_exam_content。
尽管在评估报告中,可以完成 Agent 在整体工作流每一步的工具调用、整体性能追踪和评估。但是在最终内容质量生成判断(有效性/合理性判断)和用户体验考量等方面仍存在局限,这些局限都需要在后续优化中持续改进。
总结
Agentic AI 评估是确保 AI 智能体安全可靠运行的关键环节。本文系统介绍了 Agent 评估的必要性、多维度指标体系(包括性能、效率、安全性等核心指标)以及三大主流评估框架的特点与适用场景:AgentBench 专注跨环境泛化能力测试,AgentBoard 提供决策过程的细粒度分析,τ-bench 评估真实业务场景下的可靠性。实践中应根据具体业务场景选择合适的评估方案,结合自动化评估与人工验证,构建覆盖常规、边缘和对抗性场景的测试集,并通过持续的”评估→优化→再评估”闭环来提升 Agent 性能。
本篇作者
参考资料
https://docs.aws.amazon.com/bedrock/latest/userguide/evaluation.html
https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails.html
关于 Agentic AI 基础设施的更多实践经验参考,欢迎点击:
Agentic AI基础设施实践经验系列(一):Agent应用开发与落地实践思考
Agentic AI基础设施实践经验系列(二):专用沙盒环境的必要性与实践方案
Agentic AI基础设施实践经验系列(三):Agent记忆模块的最佳实践
Agentic AI基础设施实践经验系列(四):MCP服务器从本地到云端的部署演进
Agentic AI基础设施实践经验系列(五):Agent应用系统中的身份认证与授权管理
Agentic AI基础设施实践经验系列(六):Agent质量评估
Agentic AI基础设施实践经验系列(七):可观测性在Agent应用的挑战与实践
Agentic AI基础设施实践经验系列(八):Agent应用的隐私和安全
*前述特定亚马逊云科技生成式人工智能相关的服务目前在亚马逊云科技海外区域可用。亚马逊云科技中国区域相关云服务由西云数据和光环新网运营,具体信息以中国区域官网为准。
本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》✨ 精心设计,旨在引导您深入探索 Amazon Bedrock 的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施,利用亚马逊技术与生态,快速集成与部署生成式 AI 模型能力。⏩️[点击进入实验] 即刻开启 AI 开发之旅构建无限, 探索启程!







评论