写点什么

聊点技术 | 大模型多 Agent 结合根因分析,能碰撞出什么火花?

作者:博睿数据
  • 2025-07-02
    北京
  • 本文字数:3635 字

    阅读完需:约 12 分钟

聊点技术 | 大模型多Agent结合根因分析,能碰撞出什么火花?

文章信息


作者:博睿数据数智能力中心 DRay


背 景


想象一下:凌晨三点,某电商平台突发大规模宕机。用户支付失败、页面卡死的投诉如潮水般涌进客服系统。运维总监李明盯着监控大屏:12 个微服务相互调用,每秒产生 5GB 日志,3000 余项性能指标疯狂报警。传统诊断工具在数据洪流中瘫痪,团队花了 2 小时才定位到数据库连接池泄漏——损失已超千万。这样的场景,正在被大模型(LLM)与多智能体(Agent) 组成的“AI 侦探团”彻底颠覆。


一、复杂系统的诊断困局:


为什么传统方法失灵?


现代 IT 系统犹如精密运转的“数字生命体”:云原生架构中数百个容器动态调度,微服务间调用链深达 10 层以上,物联网设备每秒上传万级数据点。当故障发生时,异常像多米诺骨牌在服务间传播。传统运维面临三重死结:


1.数据迷雾


日志(文本)、指标(数值)、调用链(图结构)、部署架构(图谱)格式割裂,内容分散。


某银行系统故障时需关联分析 200+服务器日志与 APM 数据,人工排障需 6 小时以上。


2.规则僵化


预置的“CPU>90%即告警”规则无法识别数据库死锁导致的连锁反应。


某电商大促期间因缓存雪崩崩溃,阈值规则误判为网络问题。


3.响应延迟


统计方法需积累 15 分钟数据才能分析,错过黄金 5 分钟止损期。


某电商系统崩溃 1 小时损失 8000 万,因传统工具未能实时定位某核心系统出现的链路故障。


二、大模型:给根因定位系统装上


“超级推理大脑”


随着最近两年大模型技术的快速发展,以 DeepSeek, Qwen, ChatGLM 等国产优秀大模型为代表,让机器首次具备人类级语义理解与逻辑推理能力。在根因分析中,LLM 展现出两大革命性特质。


  1. 跨模态数据翻译能力


在复杂系统的故障迷雾中,日志、指标、调用链、拓扑如同说着不同语言的线索——传统工具只能孤立解析,而大模型(LLM)扮演的“跨模态数据翻译官”正成为破译全局真相的核心引擎。


传统数据处理并进行根因分析的模式如下图所示:运维工程师们需在脑中完成数据关联,效率低下且易漏关键线索,且基于过往经验得到的排障结论经常相互矛盾。


LLM 对多模态数据的处理方案:所有类型数据都被映射到统一语义层,机器自动构建完整证据网,生成最终因果链。



LLM 跨模态数据翻译的场景示例:模糊日志的精准破译


传统方案:日志报错"Operation timed out"——可能是网络、数据库、下游服务或线程阻塞导致。


LLM 跨模态数据翻译方案:


关联指标:检测到目标服务端口响应时间=0ms → 推断网络层故障


关联调用链:上游服务同时报错 → 定位具体故障链路


输出:网关到库存服务的 443 端口 TCP 连接超时(持续 120s),可能因防火墙策略变更导致。


博睿数据在 LLM 跨模态数据整合方面,有着丰富的实战经验,凭借在各行各业的深入耕耘,博睿数据积累了多种不同场景的故障排查经验。博睿数据创新性地引入大语言模型(LLM)作为核心“翻译官”与“推理引擎”,为根因定位系统装上了强大的“超级推理大脑”,其核心优势在于构建了一套超越传统模式的智能化分析流程 OneFlow,整套流程将多种分析 Agent 有机的结合起来。


博睿数据在“经验知识库”方面也深耕多年,沉淀了运维排障的多种智慧。博睿数据构建了由大量先进故障分析经验组成的知识库。这个知识库不是静态的文档,而是被 LLM 深度学习和理解的结构化智慧。


它能持续吸收历史案例、最佳实践、根因模式,业务影响,处置建议,形成一个不断进化的“故障百科全书”。这使得系统在面对新问题时,能快速调用经过验证的集体智慧,避免工程师个人经验的片面性和遗忘,有效解决传统经验结论相互矛盾的问题。


  1. 隐性关联侦探能力


在故障诊断领域,隐性关联侦探是大模型(LLM)极具吸引力的能力之一——它能在看似无关的数据碎片间建立因果链,如同刑侦专家从指纹、鞋印、监控片段中还原完整犯罪过程。


传统的单一数据工具的“盲区”:仅能发现直接、同步、同域的关联。



LLM 隐性关联侦探能力:能发现间接、异步、跨域的深层因果。



LLM 隐性关联侦探能力的场景示例:电商大促支付失败故障的根因定位


故障现象:


支付服务超时率从 1%飙升至 32%


用户投诉“支付卡在最后一步”


传统分析结果:


日志分析结果:支付网关大量"504 Gateway Timeout"


指标分析结果:支付服务 CPU 使用率 95%


结论:“支付服务资源不足,建议扩容”


实际扩容后问题依旧存在!


LLM 隐性关联分析过程:


  1. 线索收集


日志 Agent:风控服务出现"RiskModel timeout: 5000ms"


指标 Agent:Redis 缓存命中率从 99%→65%


调用链 Agent:支付服务 → 风控服务 → 用户画像服务


关键时间差:缓存命中率下跌早于支付超时 15 分钟


  1. 建立隐性因果链


首先使用指标 Agent 搜集的线索:Redis 缓存命中率从 99%→65%, 可以推断出 Redis 缓存命中率暴跌。


通过调用链 Agent,可以得到结果:风控服务需查询用户画像。


通过日志 Agent 发现的信息,可以推断出:风控模型超时严重。


通过时间差信息,可以发现 Redis 缓存命中率暴跌早于支付服务异常,两者之间具有很强的时间关联性。


  1. 生成最终诊断报告



三、多 Agent 协作:


组建高精度“AI 侦探军团”


多智能体协作通过专业化分工+流水线协作攻克 LLM 单点根因分析的瓶颈,组建高精度 AI 侦探军团,将复杂的根因分析任务拆解给多个专业 Agent 任务,由大语言模型(LLM)担任指挥官,实现高效协同作战。


如下是多 Agent 侦察军团的角色及其核心技术:


多 Agent 协同作战进行根因分析的案例分享:


故障现象:服务 A 报警“数据库连接失败”,服务 B 响应时间飙升


  1. 数据整合


各 Agent 并行处理原始数据,得到各自的诊断结果如下:


  • 日志 Agent 提取关键错误:DB_CONN_ERROR

  • 指标 Agent 发现服务 B 的 RT(响应时间)从 50ms→2000ms

  • 调用链 Agent 确认 A→B 存在强依赖


  1. LLM 主控推理


LLM 主控 Agent 对上述数据进行整合,得到具体的每一步的排查结果,并总结为:


步骤 1:故障描述:12:00 服务 A 报错,服务 B 延迟激增


步骤 2:系统拓扑:服务 A → 服务 B


步骤 3:通过日志 Agent 分析发现:服务 A 报错 "DB_CONN_ERROR"


步骤 4:通过指标 Agent 发现:服务 B 的响应时间=2000ms(正常 50ms)


步骤 5:推断出根因结论:服务 A 的数据库连接池泄漏


步骤 6:给出影响范围:数据库连接池泄露 → 服务 A 功能异常 → 服务 B 延迟激增


步骤 7:给出处置建议:重启连接池+扩容数据库连接数


按照上述的 LLM+多 Agent 协作排障思路,博睿数据并非依赖单一数据来源,而是部署了多种专业化的分析 Agent。这些 Agent 各司其职:


日志分析 Agent: 精通自然语言理解,能快速从海量日志中提炼关键事件、异常模式和语义信息。


指标洞察 Agent: 擅长时序数据分析,精准捕捉性能拐点、异常波动和关联性变化。


调用链排查 Agent: 深入理解服务间依赖关系,高效定位延迟瓶颈和错误传播路径。


拓扑关联 Agent: 清晰掌握基础设施与应用服务的动态连接状态。


这相当于组建了一支由不同领域专家组成的“虚拟排障团队”,替代了传统模式下工程师孤军奋战、在脑海中费力整合不同维度数据的困境。


同时,博睿数据自研了 OneFlow 智能流程编排型排障方案,与上述多种专业化分析 Agent 有机协同作战:


博睿数据方案的核心在于其 OneFlow 故障分析流程引擎,它不仅仅是串联 Agent 的工具,更是一个智能化的“指挥中枢”。


OneFlow 能够根据当前故障场景和初步分析结果,动态编排、调度和组合上述多种 Agent 的工作流程。例如:


指标 Agent 发现 CPU 异常飙升 -> 触发拓扑 Agent 关联受影响节点 -> 调用链 Agent 定位到具体服务延迟 -> 日志 Agent 分析该服务日志找出错误堆栈 -> 知识库匹配历史相似案例给出根因建议。


这种有机的结合,确保了不同模态的数据分析不是孤立进行,而是在一个连贯、智能、可追溯的推理链条中被高效整合。LLM 在此过程中扮演关键角色,负责跨模态信息的翻译、对齐与上下文理解,将日志的文本、指标的数值、调用链的链路、拓扑的图结构统一转化为可被系统推理的“语言”。


四、博睿数据大模型多 Agent 根因分析案例


博睿数据的 LLM 跨模态数据整合方案,通过“多 Agent 专家团队 + 智能化知识库 + OneFlow 智能流程引擎”的三位一体架构,改变了传统的故障排查模式:


告别低效脑力整合: 工程师不再需要手动在不同数据源间切换、关联、翻译,LLM 自动完成跨模态信息融合。


杜绝关键线索遗漏: 多 Agent 协同覆盖所有数据维度,知识库提供历史经验支持,OneFlow 确保分析流程无死角。


化解经验矛盾困境: 基于统一知识库和智能推理流程得出的结论更客观、一致、可解释。


提升定位速度与精度: 将根因定位从依赖个人经验和运气的“艺术”,转变为可规模化、智能化执行的“科学”,显著缩短 MTTR(平均故障修复时间)。


如下是博睿数据 ONE 平台上使用多 Agent 专家团队 + 智能化知识库 + OneFlow 智能流程引擎方案进行故障根因分析的几种场景案例。


案例 1:某主机的内存使用率飙升,触发致命告警,博睿数据根因分析流程对其进行深入分析,关键环节包括有:告警关键信息提取,知识库历史排障经验检索,通过告警查询其上下游服务的关联事件,判断该告警或事件的影响范围,生成最终根因分析报告。




案例 2:某服务的接口在某时间内大量报错,错误次数飙升,通过调用链 Agent 分析,日志 Agent 等多个 Agent 关联分析,发现根因是上游服务故障导致该服务的的接口大量报错。通过 LLM+多 Agent 分析,提供了关联证据,故障推导过程,同时确定根因结果,给出后续建议措施。


用户头像

博睿数据

关注

国内IT运维监控和可观测性的领导者 2021-07-02 加入

申请免费试用:https://host.huiju.cool/p/e31b1

评论

发布
暂无评论
聊点技术 | 大模型多Agent结合根因分析,能碰撞出什么火花?_博睿数据_InfoQ写作社区