写点什么

AI 智能体终结运维"狼来了"

作者:权说安全
  • 2025-06-09
    江苏
  • 本文字数:1688 字

    阅读完需:约 6 分钟

AI智能体终结运维"狼来了"

序言   “狼来了”

"叮咚!CPU 使用率超过 90%!"

"叮咚!内存占用达到 80%!"

"叮咚!连接池资源空闲数低于 5%!"

凌晨 3 点,我们的老演员,运维工程师小李,再次被钉钉机器人中监控的 Prometheus 的告警吵醒,他盯着手机屏幕,眼神呆滞,本着“小心驶得万年船,不可让一个故障漏网”的原则,他还是艰难地对抗了睡意,把所有系统健康指标进行逐一排查,如期所料,又是一起误报。

“悠悠苍天,何薄于我?这玩意监控了个寂寞呀。”


告警对于广大运维人员来说,真的是又爱又恨,不用长时间监控系统有异常之后通知运维人员,极大的节省了时间,但随着设备规模的大量增加,原本较少误报突然呈现了爆炸式的增长,从而使得“狼来了”式的告警逐渐降低了运维人员的警惕阈值,从而使得正真的故障狼来了之时,运维人员可能还蒙在鼓里,毫无反应。


前章   “AI 智能体”

AI 时代,是否有更好的解决方案?热烈欢迎本场的主角“AI 智能体”上线。

AI 智能体,通常是指能够感知环境、自主决策并执行动作以实现特定目标的一类人工智能系统。该系统结合了感知、推理、学习和行动能力,可以独立或在人工协同指导下完成任务。


那么如何通过构建 AI 智能体来处理 Prometheus 的告警呢?基本可以遵循如下的功能模块来处置。

▍一、感知模块

负责接收和处理来自环境的各类信息,为后续决策提供所需的数据支持。该部分的准确性和敏感度会直接影响到后续的处理。常见的感知模块一般可以使用如下方式:

文本感知:NLP 模型(BERT/GPT)

图像感知:CV 模型(YOLO/ResNet)

语音感知:ASR 系统


▍二、认知引擎

负责记录相关故障处置的上下文信息及对应处置经验。按照信息存活时间及相关信息的固化特征可以分为:

短期记忆:对话上下文管理(LSTM/Transformer)

长期记忆:一般使用知识图谱、向量数据库

在构建对应的认知记忆过程需要遵循严格的标准,比如在 AI 智能体在处理 Prometheus 告警时,需要考虑如下的因素:

历史性:异常指标是否在相同周期内出现

全局性:异常指标在集群架构下影响力

价值性:何种严重程度需要提示为告警,把小李从床上拉起来

基础信息:持续时间、严重程度

关联关系:服务组来源信息


同时对于告警的处置结果执行方式也分为三个星级:

一星告警:"嗯。"(记录日志完事)

二星告警:"嗯?"(发个 Slack 消息)

三星告警:"啊!"(打电话+发短信+在办公室拉防空警报)


▍三、决策中心

该模块通过综合考虑各种因素,运用逻辑推理和概率统计等方法,做出最优决策。在大模型逐渐成熟的当下,该部分主要由各大模型来扮演,如 DeepSeek、GPT 等,相关介绍材料很多,在此不再赘述。


▍四、执行模块

依据决策中心提供的处理意见完成对应处理工作,设计的核心是完成与相关业务系统的交互与联动,通常可以通过如下方式完成:

API 调用:OpenAPI 规范封装

RPA 操作:Playwright/Airflow 集成

执行模块是最终呈现处置的关键部分,最终来衡量 AI 智能体在过程中非人工介入程度,与工具的对接的丰富度及耦合度决定了执行的准确性。


▍五、反馈系统

实现系统的持续自我优化,通过计算关键指标(如任务完成率、耗时)来进行效果评估。常见的模型更新:

在线学习:Bandit 算法实时调整策略

离线训练:每周全量数据 retraining


终章   “不看广告,看疗效”

▍第一回合:CPU 使用率告警

Prometheus:"报!CPU 冲到 95%了!"

AI:"淡定,这是每日报表生成时间,你家 CPU 在 996 呢"

结果:标记为"预期波动",Slack 发个已处理消息


▍第二回合:磁盘空间不足

Prometheus:"急急急!/var 只剩 5%了!"

AI:"(查看历史记录)发现这个分区每周三都会这样...等等,日志轮转脚本又睡懒觉了?"

结果:自动触发日志清理脚本,并在 Jira 创建工单:"日志轮转脚本又双叒叕偷懒了"


▍第三回合:数据库连接池耗尽

Prometheus:"药丸!连接池 100%了!"

AI:"(0.1 秒内扫描全链路)前端流量激增→促销活动忘了限流→这不是故障,这是 KPI 在发光啊!"

结果:自动扩容数据库实例+@市场部:"亲,下次搞活动记得提前说哦~"


写在最后:AI 不是终点,而是起点

记住:

再智能的 AI 也干不过写 bug 的程序员

再精准的过滤也挡不住老板的突发奇想

最好的监控系统也永远有一个会骂“这什么破 AI”的幕后运维小李


在完成该文章的过程中,消耗了作者 4 杯咖啡和 12 次对 Prometheus 的告警的亲切问候。

用户头像

权说安全

关注

专注零信任、网络安全 2022-04-28 加入

公众号【江苏易安联】【易安联安全云】

评论

发布
暂无评论
AI智能体终结运维"狼来了"_AI_权说安全_InfoQ写作社区