AIOps 架构解析
本文深入探讨并建模 AIOps,探索完整的 AIOps 架构,揭示其七个层次如何将原始运维数据转化为智能主动操作的流程。原文:AIOps: The Complete Architecture Unpacked — From Raw Data to Intelligent Automation
在当今高度互联的数字环境中,IT 基础设施变得难以置信的复杂。云计算、微服务、容器化和分布式架构创造了生态系统,使得单一电商交易可能涉及多个数据中心的数十项服务。传统 IT 运维建立在手动监控、静态阈值和被动反应之上,根本跟不上变化。
这时,AIOps(Artificial Intelligence for IT Operations)出现了,这场范式转变正在改变组织管理技术栈的方式。下面的数字讲述了一个令人信服的故事:全球 AIOps 市场在 2024 年达到 18.7 亿美元,预计到 2032 年将爆发至 86.4 亿美元,复合年增长率为 21.4%。与此同时,实施 AIOps 的企业报告了运维的显著改进:平均检测时间(MTTD)缩短了 35%,平均解决时间(MTTR)缩短了 43%,部分组织的事件响应速度提升了 45%。
这不仅是渐进式改进,更是对 IT 运维的根本性重构。本文深入探讨通过 SBR(结构-行为-关系,Structure-Behavior-Relation)建模视角,探索完整的 AIOps 架构,揭示七个互联层次和统一平台如何将原始运维数据转化为智能自主的操作。
第一层:数据源层 —— 捕捉完整运维图景
AIOps 的生死取决于数据。如果没有来自基础设施各个角落的全面、准确、实时的信息,即使是最复杂的 AI 模型也将毫无用处。数据源层涵盖八个关键维度。
基础设施监测:基础
基础基础设施指标(CPU 利用率、内存消耗、磁盘 I/O、网络吞吐量)代表了系统的心跳。现代监控部署轻量级代理或利用无代理远程采集,捕捉每秒甚至毫秒级指标。这些细粒度数据成为了我们实现在用户察觉之前就检测到性能下降的基础。
应用性能监控:黑匣子内部
APM 工具深入分析应用行为,追踪响应时间、吞吐量、错误率和并发连接,但真正改变游戏规则的是分布式追踪。在微服务架构中,单个 API 调用可能通过十到十五个服务级联,分布式追踪记录完整的请求过程。当支付交易耗时八秒而非两秒时,分布式追踪能准确指出链中哪个服务是瓶颈。
日志数据:诊断金矿
日志依然是 IT 最有价值的诊断资源。应用日志记录业务逻辑执行,系统日志记录作系统事件,审计日志跟踪安全操作。一家中型互联网公司每天可以生成数 TB 的日志数据。挑战是日志格式大相径庭,包含大量噪声,需要复杂的解析技术才能提取有用信号。然而,当正确分析时,日志揭示了每个异常背后的原因。
事件告警:穿过噪音传递信号
传统基于阈值的告警会带来两个噩梦:告警风暴(成千上万个的告警让运维团队不堪重负)和告警疲劳(误报太多,导致真正的问题被忽视)。AIOps 通过关联相关告警、过滤噪声并识别真正的问题信号,将原始告警转化为可操作的情报。
变更记录:惯犯
行业数据显示,70% 或以上的故障源自变更:代码部署、配置更新、参数调整。将 CMDB 系统的变化事件与时间线关联起来,极大加快了根因识别。当数据库在配置推送后五分钟突然宕机,联系就相当明显了。
商业指标:真正重要的事
技术指标服务于业务目标。订单量、支付成功率、用户参与度、转化率 —— 这些关键业务绩效指标代表了最终的健康指标。AIOps 必须将技术异常与业务影响进行映射,量化缓慢的数据库查询如何造成收入损失。
拓扑与依赖关系:系统骨架
服务依赖图和资源拓扑描述了基础设施架构。在数百个服务相互调用的微服务环境中,理解这些关系对于影响分析和根因定位至关重要。图数据库在存储和查询这些复杂的依赖网络方面表现出色。
外部背景:机构知识
工单系统包含历史事件数据、知识库、专家解决方案文档,运维手册则规范了标准程序。这种非结构化知识通过知识图谱和自然语言处理整合,丰富了具有机构记忆的 AI 模型。
第二层:数据收集与集成 —— 构建数据高速公路
原始数据源使用不同语言,使用不兼容的格式,生成信息的速度也大不相同。收集和整合层需要从混沌中创造秩序。
数据收集者:现场代理
像 Telegraf 这样的基于代理的采集器(支持 200+ 数据源)会主动从系统中收集指标。无代理采集器使用 API 和远程协议在不安装本地软件的情况下拉取数据。Prometheus 凭借其基于拉取的模型和强大的多维数据结构,已成为云原生监控的事实标准。Filebeat 专注于日志收集,提供弹性传输、反压处理和检查点恢复。
数据集成总线:高速流水线
Apache Kafka 作为 AIOps 架构中的数据集成骨干占据主导地位,其高吞吐量、持久化、分区设计能够处理海量实时数据流,同时将生产者与消费者解耦。Kafka 使多个消费者能够并行处理,将大量原始运维信号转为可操作的洞察。像 Apache Pulsar 这样的替代解决方案则为分布式环境提供了增强的多租户和地理复制功能。
ETL 处理:大规模数据转换
提取-转换-加载(Extract-Transform-Load)流水线清理、标准化并丰富原始数据,包括个人数据掩蔽、缺失值插补、时间戳归一化和格式统一化。像 Apache Flink 和 Spark Streaming 这样的实时流处理引擎在传输中转换数据,降低端到端延迟。
数据标签:让 AI 看见
监督学习需要标注的训练数据。自动标记使用启发式和规则(从日志模式中提取严重程度等级,按服务名称分类指标)。运维专家通过人工标记为异常、根源和解决策略,创建高质量模型训练数据集。
数据质量监控:垃圾输入,垃圾输出
持续质量检查验证完整性(检测数据缺口)、准确性(识别异常值和不可能值)、及时性(测量摄取滞后)和一致性(调和来自多个来源的冲突信息)。数据质量差将会注定 AI 的结果很糟糕。
第三层:存储与分析 —— 大规模数据管理
数据收集完成后,必须高效存储并快速查询,不同数据类型需要专用的存储引擎。
时间序列数据库:专为度量而建
时间序列数据(带有时间戳并定期收集的指标)具有独特特性。InfluxDB 和 Prometheus TSDB 优化高写吞吐量、超过 10:1 的压缩比以及毫秒级查询,支持降采样(将高分辨率历史数据聚合为低分辨率摘要以平衡存储成本)。InfluxDB 的 InfluxQL 和 Prometheus 的 PromQL 为时间序列分析专门构建了查询语言。
日志存储引擎:大海捞针
Elasticsearch 通过倒置索引支持全文搜索,支持对数十亿条日志行进行复杂查询,其近实时索引和强大的聚合能力使其成为 ELK 栈的核心。Grafana Loki 采取不同方法,仅索引元数据标签而非完整日志内容,大幅降低存储成本。Loki 基于标签的过滤和并行日志扫描适合云原生环境,优先考虑成本效益而非穷尽搜索。
图数据库:依赖关系的自然归宿
服务关系本质上是图。Neo4j 及类似的图数据库原生存储节点(服务、主机、组件)和边(依赖、调用、关系),从而实现高效的图遍历。Cypher 查询可以快速执行路径分析(查找服务间的所有路由)、邻居发现(识别即时依赖)和社区检测(将紧耦合的服务分组)。为了进行根因分析,图查询通过依赖链从症状追溯到故障根源。
数据湖:长期归档
对象存储系统(HDFS、S3、Azure Blob)为海量历史数据集提供了经济高效的归档。虽然查询性能滞后于专业数据库,但数据湖保存了原始数据,可用于离线分析、机器学习模型训练、合规审计和监管报告。
实时计算引擎:动态数据处理
Apache Flink 和 Spark Streaming 支持流处理(窗口聚合、流表连接、复杂事件模式匹配),可处理传输中的数据。通过计算特征和检测数据流水线中的异常,显著降低模型推理延迟。
特征存储:连接数据与模型
特征工程平台为机器学习模型提取、转换和存储特征。离线功能支持模型训练,在线功能支持实时推理。特征存储确保训练-推理一致性,防止出现“训练-服务偏差”,并降低生产中的模型准确性。
统一查询接口:一个 API 统治所有接口
抽象层在异构存储系统之间提供一致的数据访问。支持 SQL、PromQL、GraphQL 及领域特定语言,使用户无需了解底层存储细节即可检索数据。
第四层:AI 引擎层 —— 智能核心
这正是 AIOps 真正变得智能的地方,先进 AI 技术将数据转化为洞察和预测。
大语言模型:游戏规则的改变者
GPT、Claude 及其他 LLM 的整合代表了 AIOps 最近最重要的演进,LLM 带来了前所未有的能力:
对非结构化日志的自然语言理解,提取超越关键词匹配的语义
查询翻译,将自然语言问题(“哪个服务响应最慢?”)转换为数据库查询
自动报告生成,生成人可读的事件摘要和解决方案建议
通过 ChatOps 接口进行对话互动,民主化运维专业知识
研究表明,Claude 3.5 Sonnet 和 GPT-4o 在 AIOps 环境中的简单推理任务中表现出色,而高级推理场景则受益于多工具编排。LLM 的少样本学习能力使其能够适应新的失败场景,而无需昂贵的重新训练。
异常检测:发现异常
多种方法应对异常检测:
像隔离森林(Isolation Forest)和单类 SVM(One-Class SVM)这样的无监督学习算法,能够在没有标记数据的情况下学习正常行为边界,从而标记偏差
LSTM(长短期记忆)神经网络捕捉非平稳时间序列中的复杂时间模式,检测传统方法忽略的微妙异常
结合隔离森林的全局异常值检测与 LSTM 的时间模式识别相结合的混合方法,取得更优异的结果
多维相关性识别出异常现象,单个指标看似正常,但合在一起能显示出问题(CPU 正常,内存正常,但响应时间激增)
根因分析:从症状到源头
识别异常只是开始,找到根本原因才能解决问题。高级 RCA 技术包括:
因果推理算法区分相关性与因果关系,避免错误归因
分布式追踪分析,沿请求路径识别第一个失败的服务
基于服务依赖图分析追踪故障传播的拓扑影响
图神经网络(GNN)能够学习图结构化数据中的模式,提高复杂微服务中的定位精度
知识图谱推理将当前失败与历史案例库匹配,提示可能的根本原因
预测与预报:预见未来
主动运维需要预测能力:
基于历史趋势和业务增长预测容量,指导基础设施规划,防止资源枯竭
故障预测分析领先指标(错误率上升、内存泄漏、磁盘健康恶化),在故障发生前予以警告
Prophet,ARIMA,周期性模式且季节性清晰
在复杂、不规则时间序列中捕捉长程依赖关系的 Transformer 模型
智能告警:信号胜过噪声
原始告警会制造混乱,智能告警系统适用:
去重和聚合,将冗余告警压缩为单一事件
分组与聚类,按服务、时间窗口或因果关系组织告警
动态阈值,根据历史基线和学习到的模式自动调整告警触发器
强化学习,通过运维人员的响应学习优化告警策略 —— 哪些告警会被执行,哪些会被忽略
知识图谱:图谱下的机构记忆
知识图谱将历史故障、症状、根本原因和解决方案结构化为相互关联的实体和关系。当新事件发生时,图推理会识别过去的类似案例,并推荐经过验证的解决方案。基于自然语言处理的知识提取自动挖掘工单和文档,持续丰富知识库。
第五层:分析与决策层 —— 从洞察到行动
AI 引擎提供原始智能,这一层将提供可执行的决策。
异常发现与优先级
系统汇总多个探测模型的输出,按严重程度、持续时间和影响范围对异常进行评分和排序。高优先级异常会立即出现,而细微偏差则保持抑制,防止运维人员过载。
故障定位与诊断
通过整合根因分析、痕迹分析和拓扑遍历,故障定位不仅识别根本原因,还识别爆炸半径 —— 即受影响的用户、服务和事务数量。这里的速度直接影响 MTTD,这是 AIOps 价值的关键指标。
趋势分析与预测
预测分析可视化未来资源消耗、性能轨迹和故障风险。容量预测防止资源短缺,避免过度配置浪费。风险警告为预防性措施提供缓冲时间,防止故障发生。
智能推荐
上下文感知的推荐引擎基于知识图谱和历史案例提出解决方案。建议包括逐步操作、预期结果和风险评估,加速运维决策。
容量规划与优化
在性能要求与成本约束之间取得平衡,容量规划算法确定了跨计算、存储和网络维度的最优资源配置。多时间尺度的规划(每日、每周、每月)涵盖了日常模式和特殊事件。
成本优化
云计算的按次付费模式使成本优化变得至关重要。分析识别闲置僵尸资源,调整过度配置基础设施的规模,并建议架构变更以减少支出,同时维护服务水平协议(SLA)。FinOps 实践将成本考虑融入每一个运维决策中。
第六层:自动化执行层 —— 将决策变为现实
没有行动的智慧仍停留在理论层面,自动化执行决策,闭合运维循环。
智能告警与路由
智能通知系统根据告警严重程度、影响和值班时间进行路由,确保合适的人获得相关背景信息(根本原因、建议的解决方案、历史案例),并通过多渠道推送(短信、电子邮件、Slack、PagerDuty)保证可见性。
自动工单
需要人工干预的事件会自动生成并预填诊断细节、影响评估和建议行动的工单。自动优先级排序和分配确保关键问题获得即时关注。
自我修复
AIOps 能力的巅峰 —— 无需人工干预即可自动恢复常见故障。预定义修复脚本可以重启崩溃的服务、清除缓存、释放连接池或重启行为异常的主机,操作在生产部署前会经过沙箱验证,成功的修复措施进一步丰富了知识库。
实施自我修复 AIOp 的金融机构实现了帮助台工单减少 62%,MTTR 降低 33%。
弹性缩放
自动扩展基于实时负载和预测调整资源分配。策略包括反应式缩放(响应当前指标)、主动缩放(基于预测的事先扩展)和定时缩放(针对已知时间模式的调整)。负载均衡器自动将流量分配到新实例。
配置管理
智能调优建议基于性能分析的最佳参数配置(线程池大小、超时值、缓存设置)。通过金丝雀部署和快速回滚功能逐步部署,可以降低风险。
流量规划与编排
多层流量管理提供了弹性:金丝雀发布控制暴露新版本,A/B 测试验证功能,故障切换路由在中断时重定向流量,流控保护核心服务。
人工确认
高风险操作(修改生产环境数据库、重启关键服务)需要人工确认。审批工作流程提供详细操作描述、风险分析和回滚计划,平衡自动化与安全。
第七层:反馈学习层 —— 持续演进
AIOps 不是静态的,而是通过反馈循环不断学习和改进。
性能评估
通过定量指标评估 AIOps 的有效性:准确性(正确识别异常)、召回率(实际检测异常)、精度(避免误报)、MTTD、MTTR、假阳性和假阴性率。指标跟踪整体性能和单个算法的比较。
人工反馈
运维专家提供关键反馈:标记误报、识别遗漏异常、纠正根本原因以及评估解决方案的有效性。轻量级反馈机制(简单点击、拖放标签)在生成高质量训练数据的同时,减轻了运维人员的负担。
持续模型训练
IT 环境不断演变 —— 新服务上线、架构变化、使用模式转变 —— 导致数据漂移。模型通过在线学习(对增量更新新数据)或定期重训(使用全面的历史数据集重建完整模型)来适应。
丰富知识库
每一次事件都成为学习的机会。知识提取通过挖掘工单、聊天日志和文档,获取结构化洞察,自动更新知识图谱。有生命的知识库会随着时间变得更丰富、更有价值。
策略优化
告警阈值、检测敏感性和触发自我修复 —— 所有策略参数均根据观察到的结果持续调整。技术涵盖网格搜索、贝叶斯优化到强化学习,后者会通过系统自主发现最优策略。
AIOps 统一平台 —— 将一切整合在一起
七层提供功能,统一平台提供体验。
智能可视化仪表盘
实时仪表盘呈现全局系统健康状况、告警趋势、容量利用率和业务指标。多维视图(按服务、地理、时间划分)并具备深入分析功能,使从整体情况到细节的探索成为可能。可视化不仅仅是展示,更是一种发现工具。
LLM 赋能的 ChatOps
对话式界面彻底革新了人机交互。自然语言查询(“哪个服务响应时间最长?”“上一次类似失败是怎么解决的?”“增加 10 台服务器的成本是多少?”)获得即时且具上下文感知的回复,而语音互动能进一步减少摩擦。
工作流编排
可视化工作流设计师会编写复杂的自动化流程,结合 API 调用、脚本执行、条件逻辑(if-else)、循环、并行执行、错误处理(try-catch)和人工审批步骤,端到端自动化解决多步骤的运维流程。
访问控制与审计
基于角色的访问控制(RBAC)将敏感操作限制在授权人员手中,全面的审计跟踪记录了谁在何时做了什么,支持故障排除和合规要求。
API 网关与生态系统集成
RESTful API 向外部系统开放平台功能,Webhook 支持事件驱动集成,主动通知其他系统重大事件。插件架构允许自定义扩展,确保平台适应独特需求。
多租户
共享基础设施并实现数据和资源隔离,使多个组织或业务单元能够共存。每租户资源配额防止过度消费,而独立计费支持基于使用量的计费模式,这对 SaaS AIOps 平台至关重要。
配置管理
集中化配置接口统一整个平台的参数管理,版本控制、渐进推送和动态更新支持安全的配置更改,配置即代码方法使配置可审计且可重复。
平台自我监控
AIOps 平台必须自我监控。自我监控跟踪平台性能(延迟、吞吐量)、资源使用(CPU、内存、存储)、组件健康(服务可用性)以及 SLA 合规(正常运行时间、数据准确性)。平台故障可能导致整个运维瘫痪,自我监控是最后的安全网。
闭环 —— 数据 <-> 价值
AIOps 的真正力量来自端到端集成和持续反馈:
燃料供应:数据来源多元,经过收集和整合到统一存储,再通过特征提取到 AI 模型。
价值传递:智能流从 AI 引擎生成洞察,到决策层制定计划,再到执行层执行行动。
运维结果:操作表现为告警、工单、修复、扩展和配置变更。
反馈循环:通过性能评估回归 AI 引擎(模型改进)、知识积累回归知识图谱(机构学习)、战略调整回归数据收集(监控优化)而闭合。
这些相互连接的循环创造了自我改进的系统,随着时间推移功能逐渐增强。
现实影响
转变不只是理论上,全面实施 AIOps 的组织能够实现:
MTTD 减少 35–45%,可在几秒内而非几分钟内检测问题
MTTR 减少 33-70%,事件解决速度快了几个数量级
告警噪声降低 40–60%,显著降低噪声
手动 IT 任务减少 40%,释放员工精力进行战略工作
事故响应速度提升 30–45%,提升服务可靠性
年均节省 480 万美元,结合停机时间的减少和运维成本的降低
截至 2024 年,全球超过 75% 的企业已部署或积极探索 AIOps,94% 的 IT 决策者认为其对管理现代基础设施至关重要或非常重要,AIOps 已从新兴技术跃升至运维必需。
回归现实 —— 务实路线图
AIOps 的转变不会立竿见影,成功需要优质的数据基础、向数据驱动运维的文化转变、运维与数据科学团队之间的深度协作,以及与适当人工监督的平衡自动化。
“小步快跑,快速迭代”的方法效果最佳:
构建全面监控,确保所有基础设施层的数据完整性和准确性
从有针对性的使用场景开始,比如告警降噪或容量预测,快速实现成果并积累动力
随着数据成熟度和组织信心的提升,扩展到包括根因分析和自我修复在内的高级能力
迭代实现涵盖整个运维生命周期的全栈智能
每个阶段都验证价值,积累经验,并让 AI 模型在真实环境中演进。
AIOps 的 LLM 革命
大语言模型从根本上扩展了 AIOps 的可能性。LLM 的自然语言理解能够解锁非结构化数据 —— 日志、工单、文档,生成能力能够生成可读的分析和建议,对话能力使 ChatOps 成为可能,任何具备领域知识的人都能有效与运维系统互动。
2024 年,亚太地区的 AIOps 应用覆盖了 30% 的企业,得益于数字化转型举措和 5G 基础设施的推广,该地区预计到 2030 年复合年增长率将达到 19.2%,成为全球最快增长引擎。北美市场份额占比 40.7%,超过 65% 的财富 500 强公司将 AIOps 整合进运维。
ChatOps 并不是取代专业运维人员,而是放大他们的能力,将运维从手工劳动转变为战略性问题解决。
前进之路
随着云原生架构、微服务和混合多云环境成为标准,IT 复杂性超越了人类认知的极限。AIOps 不是可选项,而是关乎生存。早期采用者在可靠性、效率和创新速度上将获得竞争优势,后来者会在复杂压力下困难重重。
未来属于掌握人机协作的组织。AIOps 增强了人类专业知识,而非取代,将运维从被动补救提升为主动优化和战略架构演进。
范式转变显而易见:
从被动响应到主动预防 —— 在用户影响发生前发现并缓解问题,将 MTTD 从几分钟缩短到几秒,MTTR 缩短 70% 以上。
从经验依赖到数据驱动 —— 将专业知识编码进模型和知识图谱,民主化卓越运维
从分散的工具到端到端到端集成 —— 将监控、分析、自动化和学习统一实现为无缝工作流程
我们正处于 IT 运维新时代的前夜,拥抱这一转型的组织 —— 构建坚实的数据基础、部署智能 AI 系统、促进人机协作以及营造持续学习文化 —— 将在智能运维时代蓬勃发展。
IT 运维的革命已经开始,问题不在于是否采用 AIOps,而在于能多快构建能力,在 AI 驱动的运维环境中竞争。
你好,我是俞凡,在 Motorola 做过研发,现在在 Mavenir 做技术工作,对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI 等技术始终保持着浓厚的兴趣,平时喜欢阅读、思考,相信持续学习、终身成长,欢迎一起交流学习。为了方便大家以后能第一时间看到文章,请朋友们关注公众号"DeepNoMind",并设个星标吧,如果能一键三连(转发、点赞、在看),则能给我带来更多的支持和动力,激励我持续写下去,和大家共同成长进步!
版权声明: 本文为 InfoQ 作者【俞凡】的原创文章。
原文链接:【http://xie.infoq.cn/article/8ad5146b3300e053eafbcb173】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。







评论