写点什么

从人工救火到 AI 自愈:嘉为蓝鲸 × 中大联手打造 k8s 对话智能体运维新范式

作者:嘉为蓝鲸
  • 2025-08-12
    广东
  • 本文字数:2759 字

    阅读完需:约 9 分钟

从人工救火到AI自愈:嘉为蓝鲸 × 中大联手打造k8s对话智能体运维新范式

官网原文(免费申请演示):【嘉为蓝鲸×中大】首篇实战:对话触发k8s智能体,高效自愈集群故障


随着云原生技术的普及,Kubernetes(k8s)已成为企业容器编排的核心引擎。然而,其多层次架构与动态特性使得故障定位与资源调度效率低下,传统人工运维模式难以应对高速迭代需求。

中山大学计算机系陈鹏飞教授科研团队(陈鹏飞 | 中山大学计算机学院)与嘉为蓝鲸 OpsPilot 智能运维平台强强联合,基于中大在分布式系统、智能运维等领域的学术积累,深度集成大模型和 K8s 工具链,以联合研发的对话式智能体重构集群管理流程 ,推动运维模式从“人工救火”迈向“AI 自愈”。


01.传统运维:深夜救火效率低下,人工排障错误频发

运维工程师小王深夜接到告警:“线上支付服务响应超时,请求成功率跌至 80%”。他立刻打开电脑,却陷入一连串麻烦:



传统 k8s 运维的核心痛点清晰可见:

  • 操作步骤繁琐——平均每次故障需执行 10+命令

  • 多工具切换耗时——需在 kubectl、监控平台、日志系统间反复跳转

  • 故障定位滞后——依赖人工经验排查

  • 资源调度被动——无法预判负载波动


02.K8s 智能体解决:故障诊断秒级闭环,集群运维对话达成

1)从自然语言理解到闭环执行的智能体架构革命

面对传统运维的痛点,OpsPilot 基于 LLM 大模型与 MCP 协议工具调度能力,重构了集群管理流程,实现从被动响应到主动治理的跨越式升级。k8s 智能体实现以下关键特性:

  • 智能诊断(LLM/GNN/eBPF 技术驱动):融合多维数据(Metric、Log、Trace),灵活调用工具集(如 tool A/B/C)实现故障秒级根因定位。突破传统操作固化模式,执行流程智能化、可定制。

  • 告警修复闭环(自动化执行逻辑):主动推送告警详情(含故障组件、状态、根因);经人工确认方案(明确操作指令)后,自动执行修复动作并反馈结果(如 Pod 状态、操作成效),构建 “告警触发-方案确认-执行反馈”一体化运维闭环 。



2)三种使用形态,让 k8s 故障自愈发挥最大价值

k8s 智能体主要有三种使用形态:对话式触发,定时触发,API 触发。所有形态均收敛至 K8s Virtual SRE,由它协调工具执行和决策。执行过程存在关键分叉路径 ——通知路径(企业微信/钉钉)支持人工介入场景,而操作路径(API 直连 Kubernetes)驱动自动化修复,最终形成从触发入口到反馈出口的闭环:事件经由 SRE 与工具协同处理,直达集群操作,实现对 Kubernetes 环境的秒级敏捷响应,贯穿"诊断-决策-执行"全链路。



  • 形态一:对话式触发

实现方式:用户通过自然语言输入(如聊天界面)提交 User Query,直接触发规划智能体进行任务分解,将对话需求转化为结构化任务计划(如"检查指标、分析调用链、查询错误日志"),后续阶段由决策/推理智能体协同执行诊断。

  • 形态二:定时触发

实现方式:由控制面的任务调度模块预设周期性任务(如"每日凌晨巡检状态"),自动生成标准化的 User Query 输入,智能体结合运维手册生成例行任务计划(如"全链路性能扫描"),后续流程与对话式触发一致,最终输出周期性报告或告警。

  • 形态三:API 触发

实现方式:外部系统通过 API 接口传入结构化指令(如 JSON 格式的故障参数),绕过自然语言解析,直接注入任务计划或指定决策阶段的子工具(如"调用链智能体分析 TraceID: XXX")。优先执行 API 指定的工具调用,数据面直接输出分析结果(如根因定位)至调用方,实现与其他运维系统的无缝集成。


3)对话触发:三个问题解锁零门槛集群掌控力

这次介绍第一种形态——对话触发,下文通过三个示例问题带您直观地感受对话触发可以怎么用以及对话触发的作用,解锁零门槛集群掌控力。

(1)示例问题 1:列出 namespaces、pods、deployments 、services 和 nodes



智能体响应流程如下,智能体根据预设规则自动执行以下操作:



通过此功能可快速实现:

  • 精准定位故障:秒级筛选异常 Pods,避免人工逐条检查

  • 降低操作门槛:无需记忆复杂 kubectl 命令语法

  • 提升处理效率:结构化返回结果+根因分析建议,缩短 MTTR(平均修复时间)

  • 沉淀运维经验:高频故障处理建议可存入知识库供后续调用


(2)示例问题 2:诊断处于 failed 或 pending 状态的 pods



智能体响应流程如下,智能体根据预设规则自动执行以下操作:



通过此功能可快速实现:

  • 精准定位能力提升,误报率下降(通过 field-selector 精确过滤)

  • 关键信息完整提取

  • 对高风险状态(如 ImagePullBackOff)添加标记


(3)示例问题 3:查看整个集群的近期 events



智能体响应流程如下,智能体根据预设规则自动执行以下操作:



通过此功能可快速实现:

  • 智能过滤机制:通过--field-selector 精确过滤事件类型(如 type=Warning)或对象状态(如 reason=ImagePullBackOff)。

  • 结构化输出核心字段:自动关联事件涉及的对象(Pod/Node)、原因(Reason)、状态详情(Message)及首次/末次出现时间戳,确保完整覆盖故障上下文。


4)重构小王们的运维日常:从“救火队员”到“AI 指挥官”

当小王们深陷多集群切换、日志碎片化、资源配额僵局时,OpsPilot K8s 智能体正以“自然语言驱动+AI 闭环执行”重新定义故障响应流程:

  • 集群混乱→对话直达:无需记忆 kubectl config use-context,一句“切换生产集群检查 pay-service”即可穿透多集群壁垒, 消除上下文切换错误 ,让深夜运维不再“输错 3 次才成功”。

  • 日志碎片→秒级根因:通过 eBPF 零侵入追踪+LLM 日志分析 ,自动聚合分散日志,30 秒定位 CrashLoopBackOff 根源(如内存泄漏),将 10 分钟手动下载压缩至一次点击。

  • 资源僵局→动态破壁:当扩容因配额受阻时,智能体自动调用 K8s API 调整资源限额, 无缝衔接“扩容-配额调整-验证”流程 ,避免人工跳转管理平台的被动响应。


03.中大技术领跑:技术实力支撑 k8s 智能体核心能力

中山大学计算机系陈鹏飞教授团队(广东省杰青、量子计算与软件研究所副所长)领衔团队聚焦云原生智能运维(AIOps) ,依托国家重点研发计划,深耕故障根因定位(LLM/GNN 驱动)、零侵入追踪(eBPF 技术)、日志优化及无服务器计算调度等关键技术,成果发表于 ICSE/FSE/TSE 等顶会顶刊,为运维自动化与系统稳定性提升提供核心学术支撑。

陈鹏飞 | 中山大学计算机学院

中山大学的云原生故障诊断算法 、零侵入追踪专利与智能调度模型注入 OpsPilot,k8s 运维正式迈入“技术自治”时代——学术精研与工程实践的共振,正让“AI 自愈运维”从实验室走向产业核心场景。


还在等什么呢?嘉为蓝鲸智能运维 OpsPilot 体验环境已开放!点击下方链接,即可免费体验环境https://bklite.canway.net/ops-console/home

加入社区,共创未来:深入了解实现细节参与项目共建?欢迎访问我们的 GitHub 开源项目,获取最新代码与技术文档:

https://github.com/TencentBlueKing/bk-lite/


04.嘉为蓝鲸 OpsPilot 智能运维支撑平台:更懂运维的 AI 平台

嘉为蓝鲸智能运维 OpsPilot 是集知识库管理、技能配置、机器人管理及工具管理于一体的智能运维支撑平台,深度融合 LLM 大模型的语义理解、知识增强与多模态处理能力,聚焦运维领域,突破单一 LLM 能力局限,成为更懂运维的智能 AI 平台。



用户头像

嘉为蓝鲸

关注

研运至简,无限可为 2020-08-13 加入

蓝鲸智云一级技术合作伙伴,中国领先的研发运营一体化解决方案提供商

评论

发布
暂无评论
从人工救火到AI自愈:嘉为蓝鲸 × 中大联手打造k8s对话智能体运维新范式_k8s_嘉为蓝鲸_InfoQ写作社区