DataBuff 多模态 AI 在可观测平台上的应用实践(龙蜥系统运维联盟 Meetup 分享)

2025 年 6 月 6 日,以 “智算中心智能运维技术” 为主题的龙蜥社区系统运维联盟 Meetup 在 济南高新禧悦东方酒店 成功举办。围绕智算中心运维技术的前沿趋势与创新实践、AI 与运维技术的深度融合,现场来自 阿里云、浪潮信息、山东师范大学、杭州乘云数字 等产学研领域的技术专家为大家带来了精彩的主题演讲,分享了其各自领域的最新技术成果,并与现场 40 多位开发者进行了深入的技术交流,探索 AI 与运维深度融合的未来路径。

(图/现场嘉宾合照)
本次会议,杭州乘云数字技术有限公司联合创始人、产品副总张怀鹏进行了《多模态 AI 在可观测平台上的应用实践》的案例分享,介绍了乘云公司多模态 AI 在可观测平台上的应用和实践,强调其带来的主要价值是实现了预测、检测、诊断、建议等关键环节的自动化,大幅提高了故障治理效率。

(图/杭州乘云数字技术有限公司联合创始人、产品副总张怀鹏)
在 AI 引入之前,IT 工程师的排障流程基本依靠手工,存在着大量的痛点、难点:
指标孤岛问题: 系统产生的各类指标(Metrics)往往是相互独立的,缺乏有效的关联性分析,难以形成对系统整体状态的统一认知。
信息过载及洞察不足****: 用户面对海量的图表、数据仪表盘时,常常陷入“只见树木,不见森林”的困境。平台展示了很多数据,却未能直接提供清晰的分析结论、明确的答案或可执行的指导建议。
手动排查效率低下: 故障排查或根因分析(Root Cause Analysis, RCA)高度依赖人工操作。工程师需要在指标数据、调用链路(Traces)、日志(Logs)等不同维度的数据之间,以及不同的监控工具之间频繁切换、手动筛选、递归查询,过程繁琐且耗时。
工具链复杂难用: 构建和维护一套完整的可观测性体系涉及众多工具,这些工具在配置、集成和管理上往往存在困难,增加了使用门槛和运维负担。

乘云公司引入 多模态人工智能(Multimodal AI) 作为解决上述痛点的关键技术路径。
展示多模态 AI 带来的变革性应用:AI 驱动诊断。当系统发生异常或性能问题时,AI 可以自动触发深度分析。它能够自动关联受影响的上下游服务和组件,通过综合分析多维数据(指标、链路、日志等),快速、准确地找出问题的根本原因(Root Cause),显著提升诊断效率和准确性。
构建 “多模态 AI 在可观测领域的应用方案” 的架构蓝图。该方案强调利用多模态 AI 技术(如大型语言模型 LLM、知识图谱等),对可观测平台中异构、多源的数据(文本日志、时序指标、调用链路拓扑、事件等)进行深度融合与理解。通过多模态对齐(Alignment)技术,AI 能够像人类专家一样,综合解读不同模态数据背后的含义及其关联,实现从被动监控到主动分析、智能诊断、预测性维护的升级。该方案旨在构建一个能自动关联数据、理解上下文、给出分析结论和行动建议的智能化可观测平台。

杭州乘云提出的实践方案,旨在通过整合多模态 AI(特别是 LLM 和知识图谱),解决传统可观测平台在数据关联性、关键结论提炼、根因诊断效率和工具复杂性方面的核心挑战。其核心价值在于:
自动化关联分析: 打破指标孤岛,自动建立跨服务、跨数据源的关联。
智能化诊断与根因定位: 减少人工递归查找,提供快速、准确的根因分析。
提升数据价值: 将海量、分散的监控数据转化为可理解的分析结果和可执行的建议。
简化运维: 通过 AI 能力降低工具使用的复杂性和配置集成的难度。
结语
可观测性数据的价值不在于其数量,而在于能否让用户从中快速获取到有效信息。多模态 AI 技术的应用,正推动可观测性平台从“数据展示”走向“智能分析”,从“被动响应”走向“主动洞察”和“预测预防”。杭州乘云数字技术有限公司的实践表明,拥抱 AI 驱动的智能可观测,是企业提升运维效能、保障业务稳定运行的必然选择。
您是否也在为海量监控数据无从下手而烦恼?是否期待运维工作变得更加智能高效?欢迎关注我们,探讨多模态 AI 如何为您的可观测性平台注入智慧动能!
评论