AIOps（智能运维）中的指标算法场景分享 | 内附视频 &ppt 资料

作者：云智慧AIOps社区

2022 年 4 月 02 日
本文字数：1733 字
阅读完需：约 6 分钟

本文转录自：北大博士后严川在云智慧 AIOps 社区举办的 Meetup 上进行的《AIOps 指标相关算法体系》分享。

直播回放：戳此查看在线回放

PPT 下载：戳此下载资料

智能运维算法场景概览

传统运维 VS 智能运维

传统运维：

特点：处理速度慢，人力需求大；在海量监控数据下，传统运维效率低下。

故障发现时间久
故障定位时间长
故障修复时间长

智能运维

特点：处理速度快、人力需求小；在海量监控数据下，智能运维效率高。

故障发现时间快
故障定位时间短
故障修复时间短

运维场景系统分析

智能运维场景系统分析

智能运维：运维场景+智能技术，其围绕着指标/日志/追踪/告警四要素及其转化的 AI 使能。

故障发现 VS 指标算法场景

指标异常检测场景

智能运维中指标异常检测的意义

在运维领域中，指标异常检测是其他智能运维场景建设的基础，异常检测的结果将为后续的告警压缩、故障定位、故障自愈等场景提供重要输入。

现有的监控告警系统大部分采用人工设定规则或阈值的方式来实现
中大型业务系统中会面临更多的 KPI 数量，更复杂的 KPI 间的关联关系，以及更多样性的 KPI 型态
运维领域中，人工设定规则或阈值的方法耗时且容易误报和漏报

智能运维中指标异常检测的应用场景

业务指标

接口访问量
用户数
响应时间

基础监控指标

主机系统指标：CPU 利用率、内存利用率、IO 利用率、温度、电压
数据库指标：慢 sql 数量、连接响应时长、缓冲区命中率、表空间使用率
中间件指标：socket 数量、服务器响应时间、线程池使用情况
存储设备指标：磁盘使用率、控制器信息、风扇信息

运营指标

银行跑批业务
乘车码主被扫业务

时序异常监测在运维领域落地的困难

海量监控指标

企业的设备数、系统数众多，运维系统需要对海量指标进行监控，以保证企业服务的稳定运行。

KPI 的多样性

有监督异常检测算法对海量监控指标的成本高，当前只能从无监督视角进行检测，这对异常检测的准确性带来了更大的挑战。

某气象相关数据

异常类型多

异常类型包括“点异常”、“上下文异常”、“群体异常”、“缺失值”等

某银行系统业务数据

异常标准不一致

不同指标、资源配置、运维人员，对同一模式，可能会有不同的判断标准、不同的 ground truth。算法需要适配不同的敏感度需求。

节假日活动管理

节假日和运营活动时，监控指标常会生成与常态不一致的模式，增加异常检测难度。

指标异常检测的挑战

单一算法难以适配多种数据类型

数据异常 vs 业务异常 vs 调参

单指标异常检测常见算法

简单统计类

时序分解类

指标分类与指标异常检测相结合

解决单一算法无法适配多种数据类型问题

指标分类

常见的数据类型

指标分类中周期性检验的重要性

周期性数据在所有数据中占比不高（25%），但通常具有较高价值

检测数据：

1 是否具有周期

2 具有多少周期

3 每个周期成分如何

对于简化时序异常检测问题至关重要

单指标异常检测在真实数据上的应用

内存使用率数据

交易量数据

指标预测场景

运维领域时序预测的意义

运维领域：

是其他智能运维场景建设的基础（容量规划、异常检测、告警压缩、故障定位、故障自愈等场景）

运营和网络安全： 关注增长和需求

运维领域预测典型的应用场景

基础监控指标

主机系统指标：CPU 利用率、内存利用率、IO 利用率、温度、电压
数据库指标：缓冲区命中率、表空间使用率
中间件指标：socket 数量、服务器响应时间、线程池使用情况
存储设备指标：磁盘使用率

运营指标

银行业务量
网络容量规划
乘车码主被扫业务

指标预测面临的挑战

单一算法难以适配多种数据类型

数据质量对预测结果的影响

常见的预测算法

统计类：

时序分解类：

指标预测分类的重要性

不同种类算法适用的数据类型不同，是否需要集成学习？

指标预测实例

磁盘占用率

系统 CPU 使用率

指标预测实际案例

某运营商运用实例

cpu 使用率预测

关于 Meetup

AIOps Developer Meetup 是由AIOps社区推出的，面向广大开发者的系列线上直播及线下分享活动，我们将汇聚 AIOps 社区专家团的力量给你提供优质的技术内容，无论是技术解读、开源治理、行业解决方案，相信广大 developers 总能在这里找到你想要的内容。

AIOps社区是由云智慧发起，针对运维业务场景，提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术，旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题、推动 AIOps 技术在企业中落地、建设健康共赢的 AIOps 开发者生态。

创作场景