写点什么

AIOps 故障诊断怎么做?3 个典型场景实践展示

作者:行云创新
  • 2025-09-01
    广东
  • 本文字数:972 字

    阅读完需:约 3 分钟

AIOps故障诊断怎么做?3个典型场景实践展示

前言


在之前的系列文章中,我们围绕软件工程与 AI 的融合展开了多维度探讨,内容多偏向宏观视角与理论层面。


今天为大家带来更轻量化、易理解的实战干货 —— 分享我们基于 AI 开展故障分析的多个实际案例及落地效果。


故障智能分析


以下将介绍 3 个典型场景案例,所有案例均基于行云创新旗下基础云原生应用平台 CloudOS 实现。


案例一:诊断数据库连接异常的场景


场景构造


1. 搭建 “Java + MySQL” 的简单应用场景,并在 Java 服务中配置健康探针。


2. 手动将 MySQL 的 Pod 副本数调整为 0。


案例效果


  1. 待 Java 组件出现故障后,点击 “故障诊断” 功能。

  2. 从下图效果可见,智能体可准确识别故障原因,并同步给出正确的处理建议。


案例二:诊断配额不足导致 Pod 调度失败的场景


场景构造


搭建 “Java + MySQL” 的简单应用场景,将 MySQL 的 CPU 请求(request)设置为超过单个节点的 CPU 核心数,并保存架构图。


案例效果


  1. 点击架构图右上角的「发布」按钮部署应用,进入应用管理页面查看发布进度,可发现 MySQL 发布失败;此时点击应用左上角的「智能诊断」功能,系统将自动分析失败原因并给出建议。

2. 从下图可见,系统已准确识别到故障的原因。


3. 同时也提供了对应的正确处理建议。


案例三:诊断镜像拉取失败导致 Pod 调度失败的场景


场景构造


搭建 “Java + MySQL” 的简单应用场景,修改 MySQL 的镜像为不存在或无法拉取的版本(本案例中使用不存在的镜像),并保存架构图。


案例效果


  1. 点击架构图右上角的「发布」按钮部署应用,进入应用管理页面查看发布进度,可发现 MySQL 发布失败;此时点击应用左上角的「智能诊断」功能,系统将自动分析失败原因并给出建议。


2. 从下图可见,智能体已准确识别故障原因 —— 镜像仓库中不存在该指定镜像。


3. 同时也提供了对应的正确处理建议。

结语


  1. CloudOS 平台的故障智能诊断能力,本质是调用底层智能体的 API 实现,而该智能体基于智能体平台通过可视化方式搭建。这种 “底层智能体支撑 + 上层业务调用” 的模式,正是各类业务系统实现智能化升级的典型路径。

  2. 若要进一步提升 AI 故障分析的精准度与智能性,需为 AI 补充更多关联数据,例如日志信息、告警记录、节点监控数据、K8s 集群信息、代码库提交的 diff 信息等。

  3. AI 故障分析要实现良好落地效果,必须深入实际业务场景:通过真实案例沉淀 “分析经验”,让智能体结合这些经验优化分析逻辑,最终提升故障诊断能力。


用户头像

行云创新

关注

全国领先的云原生数字化创新平台厂商。 2019-03-12 加入

行云创新(www.cloudtogo.cn) · 专业云原生数字化创新平台厂商,云原生领域佼佼者; · 上汽、格力、华为、中信银行等各行业头部企业信赖; · 阿里云云原生核心合作伙伴。

评论

发布
暂无评论
AIOps故障诊断怎么做?3个典型场景实践展示_AIOPS_行云创新_InfoQ写作社区