写点什么

极智网络告警关联规则挖掘

用户头像
鲸品堂
关注
发布于: 2021 年 04 月 12 日
极智网络告警关联规则挖掘

在通信网络故障管理系统中,传统告警关联规则依靠人工分析,需要长时间的积累和调整,耗时长、经验有限、场景覆盖率有限。随着 5G 通信快速发展、网络大规模建设,告警量线性增长,依靠人工经验分析告警关联的传统方式显然难以满足新网络运维要求。


随着数据智能的发展,自动挖掘告警关联规则方式逐渐走进人们的视野。通过频繁项集算法,从海量历史告警数据中,分析告警隐藏的相关性,得到有价值的告警关联规则。但是,由于基本不结合网络拓扑结构关系(特别是新型网络拓扑架构,如 NFV 跨层新架构、跨专业设备告警关联复杂),挖掘效率不高,且规则精确率低。


为此,我们在常用的数据挖掘方法基础上,结合新型网络拓扑结构及网络特性,优化算法,建立新旧型网络兼容的规则挖掘方案——极智告警关联规则挖掘方案,高准确率输出关联规则,助力全网告警高效关联与压缩。


极智告警关联规则挖掘整体方案


极智告警关联规则挖掘是基于 FP-Growth 算法实现。首先对历史告警数据进行预处理,结合资源拓扑数据,同时设定时间窗、滑动步长对告警进行分类,形成告警事务集,再设置 FP-Growth 算法参数,即置信度、支持度,计算出频繁项集,初步提取生成关联规则入库。


在此处理过程中,我们对 FP-Growth 算法进行了优化,在下面的详细方案具体介绍。


初步生成告警规则后,需再取与训练数据相同时间范围、相同区域范围、相同设备的历史告警进行闭环验证,根据验证结果对算法参数调优,得到最终有效的告警关联规则,进行人工审核,发布到故障中心等应用系统。


告警数据预处理


为保障挖掘高准确性及高效性,我们对样本告警数据进行多维度预处理,包括告警去噪、关键信息抽取、告警字典整合、按拓扑分类,为挖掘做准备。


◉ 告警去噪

告警去噪指去掉噪声告警数据,保留对数据挖掘有效的数据。主要是去除冗余和无效告警,如工程告警、割接标识告警、关键字段缺失告警剔除。另一方面,若有相同告警名称与相同告警位置的告警,只保留一条。


◉ 关键信息抽取

数据抽取,指针对告警挖掘场景,只抽取告警数据中有用的字段,一般包含告警标题、设备类型、告警码、专业、告警对象、告警级别字段。


◉ 告警字典整合

数据加工指将告警字段联合,形成字典值,如“网元 ID+告警标题”三个字段串在一起,形成字典值,保证告警数据的唯一性。


◉ 按拓扑分类

第一步:根据告警对象拓扑关系,将具有上下游关系的设备告警先分类。判断具有上下游关系的依据在于资源中心提供的资源设备关系(资源设备关系包含同传输链路,同基站、同站点等)。

第二步:再通过设置时间窗和滑动步长,将离散的告警数据转换成告警数据事务集。经过分析,大部分告警序列同层发生在 30min 内,因此设置告警时间窗的长度为 30min。而滑动步长需小于告警时间窗的一半,因此滑动步长设为 10min,至此,完成数据的准备工作。


面向告警关联规则挖掘算法的调优


告警关联规则是基于 FP-Growth(Frequent-Pattern tree growth)算法进行挖掘。FP-Growth 是 2000 年提出的频繁模式增长算法,目前大范围用于各类数据挖掘应用中。


在告警关联规则挖掘实践中,我们对 FP-Growth 的使用进行了优化,并结合加权模型提升挖掘效率和规则准确性。在说明优化之前,我们先看 FP-Growth 的几个关键参数:


事务集:根据时间窗和滑动步长形成的一组告警集合称为一个事务组 T,而 N 组告警事务称为事务集。


事务项:一个事务组里的每类告警称为事务项。


支持度(s):一个频繁项集在所有告警事务组中同时出现的次数占总数之比。


置信度(c):形如告警 1->告警 2,置信度为 60%,告警 1 出现的同时,60%的概率也出现告警 2。


假设 N 组事务集中有告警 X 和告警 Y,X→Y 表示告警 X 导致告警 Y,那么支持度和置信度的公式如下:


公式一:

(X 与 Y 共同出现的次数除以事务组数)


公式二:

(X 与 Y 共同出现的次数除以 X 所在的总事务组数)


频繁项集:多个项形成项集,而一个项集的支持度超过自定义阈值,则该项集为频繁项集。


强关联规则:基于发现的频繁项集中提取的高置信度的关联规则,称为强关联规则。


告警关联规则挖掘算法步骤


❶ 自上而下构建告警频繁树


A)先遍历告警集合,根据设备类型、告警标题、告警码等字段分类,判断某类告警出现的频次。由高到低排序,并设置最小支持度,低于最小支持度的告警就摒弃,不作为频繁项集。


此步骤做了改进:对每个事务项的初始频次,增加权重系数,在于最小支持度对比,依据告警等级、重点设备等因子设置权重系数 w(重要程度越高的,权重系数值越大,人工设定)。此最小支持度为最小加权支持度,每个事务项的支持度乘以权重系数 w,再与最小加权支持度进行比对。


加权支持度(ws)计算公式:


B)根据第一步遍历的频繁项出现频次排序,剔除频次低于最小加权支持度的告警,重新根据出现频次再排序,生成频繁树 FP-tree。



上图为生成频繁项树 FP-tree 的全流程示例,以 T1 到 T5 唯一标识事务组 ID,A1 到 A7 标识告警数据项,先根据每类告警数据项出现在事务组的次数和权重系数,计算加权支持度。剔除小于最小加权支持度 0.3 的告警数据项 A2、A3 和 A6。保留的告警数据项按照加权支持度大小重新排序,自上而下遍历生成 FP-tree。FP-tree 中的根节点标识为 Root,告警项节点标识为{告警项:频次}如{A5:4}表示告警项 A5 共出现了 4 次,遍历过程中若有相同路径只需要增加节点频次。节点链记录每类告警数据项的链路路径,在下一步挖掘子节点条件 FP-tree 中,用来判断相似告警数据项。


❷ 自下而上挖掘子节点频繁项集


A)将频繁树 FP-tree 的每一个最底层子节点项向上遍历,获取每个子节点项的条件模式基。条件模式基由子节点向上遍历寻找上级节点,上级节点频次保持和子节点一致。如上一步示例中的 A4 节点的条件模式基只有(A5:3),表示只有一层上级节点 A5,可直接生成频繁项集(A5 A4:3),其出现支持度计数(出现频次)为 3。


B)根据条件模式基,自下而上遍历构建子节点项的条件 FP-tree,该子节点项作为后缀。如由上一步示例的频繁项树 FP-tree 的 A1 子节点,其挖掘出的条件 FP-tree 示例如下:


在此步骤中,对子节点向上遍历的执行策略进行改进:对已经遍历过的子节点路径添加已处理标注,避免重复遍历。


C) 如果子节点项的条件 FP-tree 是单路径,那么直接生成频繁项集,若有分支,再向上遍历,剔除小于加权最小支持度的项集,最后得到子节点项的频繁项集。



上表记录了由上一步示例的频繁项树 FP-tree,挖掘出的子节点频繁项集。只保留最小出现频次大于等于 2 的频繁项集。其中 A5 因为是最高阶项,所以不能挖掘频繁项,从其子节点遍历,生成频繁项集。


此步骤进行了改进:频繁项树 FP-tree 上具有相同支持度的相邻节点,不计入频繁项集中,避免频繁项集冗余。


❸ 计算加权置信度生成强关联规则


根据上步中得到的频繁项集,计算每一项告警的置信度。剔除小于最小置信度的频繁项,生成强关联规则。


此步骤进行了改进:根据告警设备关联、告警等级等因子,对每个频繁项集设置了权重系数 w(重要程度越高、资源关联度越强的频繁项集的权重系数值越大,人工设定),频繁项集的置信度乘以权重系数 w,为加权置信度,再与最小加权置信度做对比。


加权置信度(wc)计算公式:


同时根据频繁项集的加权置信度可以判断出根告警,如 wc(X→Y)<wc(Y→X)的置信度,则频繁项集 X、Y 的根告警为 Y。


告警关联规则挖掘算法调优小结


增加权重系数,提高准确度:由于传统的 FP-Growth 算法挖掘频繁项是建立每个告警数据都是平级的基础上,而实际网络告警之间有紧急、重要、次要等级之分,设备也有重要设备和一般设备之分,因此我们对算法参数做了权重系数改进。依据告警设备、告警等级、资源拓扑关系等因子,对支持度和置信度设置了权重系数,提高了告警关联规则的准确度。


执行策略改进,缩短计算时间:在实际操作过程中,子节点条件模式基如果有很多项时,则在遍历过程中大量消耗时间,若子节点向上遍历过程中遇到相同路径,会出现重复遍历。因此我们在此做了改进,对遍历过的子节点路径,会标注为已处理,不再重复遍历。原始 FP-Growth 算法挖掘 10 个小时没有结果,改进后能在几分钟内就挖掘到了关联规则。


支持度排序比对,剔除冗余数据:实践中我们还发现,若相邻的两个子节点支持度相同或者相近,则该子节点的支持度由高阶的频繁项影响,自身出现实际上并不频繁。为此,我们做了如下改进:在遍历子节点时,先对支持度排序,去除支持度相邻的项,再向上遍历。比方说告警事务集合 A-B-C 三项告警,共同出现了 N 次,而集合 AB 也出现了 N 次,那么集合 A-B,A-C 都是冗余频繁项,通过上述算法改进,对于每次都是 A-B-C 同时出现且支持度一样时,直接去除 A-B,A-C 情况。改进后,得到的挖掘结果中去除了 90%的冗余规则,极大地提高了挖掘效率,便于后续的验证。


特色挖掘场景分享


场景一:跨专业告警关联规则


◉ 跨专业告警关联规则特点及挖掘难点


跨专业告警关联是业界告警关联的难点,主要原因在于网络 IP 化后,网络结构、业务路由日趋复杂,但各专业的告警没有直接联系,故障设备的告警可能被淹没在大量的告警中,很难抓住关键某专业告警。生产中跨专业告警关联基于资源拓扑关系和人工经验进行关联。我们的跨专业告警关联规则挖掘方案,同样结合了各专业资源拓扑关系分析,提高规则准确率。


下面以无线专业的退服告警与动环告警、传输告警为例,对跨专业告警关联规则特点进行说明。


退服告警是网络故障中极为重要的告警类型,常由自身设备故障、动环网故障或传输链路故障引起,需要进行跨专业告警关联,分析出故障原因。


关联依据一:基站退服告警与动环告警中的“基站名称”或者“基站唯一标识”属性字段相同。即同基站的退服告警和动环告警具有关联性。


关联依据二:基站退服告警的“基站唯一标识”属性字段与传输告警的“传输端口”字段关联,通过“电路代号”字段属性进行关联。


挖掘的难点在于,如何将跨专业复杂的资源拓扑关系引入到挖掘流程中,提高跨专业告警关联规则挖掘的效率和准确度。


◉ 挖掘建模主要过程


针对跨专业告警挖掘难点,我们根据跨专业设备拓扑关系,对同基站设备进行分类,对不同基站设备级别设置不同的权重,保证告警关联规则挖掘的准确性,具体步骤如下:


Step1:选取固定时间和固定区域内生成的包含基站退服的告警数据源。

Step2:对告警数据源预处理,包含告警去噪、关键信息抽取、告警字典整合、按拓扑分类等处理,生成[网元 ID+告警标题]字典表。

Step3:加载基站设备与动环设备、传输设备间拓扑关系,根据同基站设备,进行跨专业硬化分执行告警分类。

Step4:设置 30min 时间窗和 10min 滑动步长,生成不同的事务集合。

Step5:使用 FP-Growth 算法时,设置告警设备加权系数,生成频繁项集。

Step6:依据频繁项集生成的关联规则进行验证审核。


◉ 数据处理关键点


字典表样例:



权重设置:


为不同级别的告警设置权重系数,系数越高,则表示重要程度越大,如下表所示:


为不同级别的基站设备设置权重系数,系数越高,则表示重要程度越大,如下表所示:



◉ 规则挖掘结果分析


对于同基站设备发生的告警,根据资源拓扑关系,将告警属性中基站 ID 相同的告警进行分类分析,设置时间窗和滑动步长得到告警事务集。最后再通过 FP-Growth 算法得到频繁项,根据加权支持度和加权置信度获得强关联规则。


从分析结果样例与加权置信度可得知,动环专业的直流低压告警状态告警会导致 NodeB 退服告警,而传输专业的 T_ALOS、TU_AIS、AU_AIS 告警,也会引发 NodeB 退服告警。



场景二:跨层告警关联规则


◉ 跨层告警关联规则特点及挖掘难点


跨层告警指基于 NFV 网络架构,分析具有跨层拓扑关联关系的设备告警。不同于传统设备软硬件一体化的特点,新网络架构将网元设备虚拟化、软硬件解耦,总共分为物理层、虚拟层、网元层三层。网络底层基础硬件设施具有共享性和网络连通性,若底层设施发生故障,可能会触发上层的故障。难点在于,一旦故障发生,无论是物理层、虚拟层、还是网元层都会发送告警,增加了告警关联分析的复杂度。这就需要结合资源三层拓扑结构,进行跨层纵向关联告警分析,挖掘出跨三层告警关联。


◉ 挖掘建模主要过程


针对跨层告警的特点和挖掘难点,我们根据三层承载设备拓扑关系,进行分类,并对不同层级设置不同的权重,保证告警关联规则挖掘的准确性,具体步骤如下:


Step1:选取固定时间和固定区域内生成的 NFV 架构的告警数据源。

Step2:将数据源进行预处理,包含告警去噪、关键信息抽取、告警字典整合、按拓扑分类处理,生成[网元 ID+告警标题]字典表。

Step3:查询物理层(PIM)-虚拟层(VIM)-应用层(VNF)承载关系,跨专业硬化分执行告警分类。

Step4:设置 30min 时间窗和 10min 滑动步长,生成不同的事务集合。

Step5:使用 FP-Growth 算法时,设置跨层告警设备加权系数,生成频繁项集。

Step6:依据频繁项集生成的关联规则进行验证审核。


◉ 数据处理关键点


字典表样例:



数值说明:其中告警设备 ID,物理机设备 ID 为 PIM_ID、虚拟机设备 ID 为 VIM_ID、网元为 VNF_ID。


权重设置:


不同级别的告警设置权重系数,系数越高,则表示重要程度越大,如下表所示:


不同层级设备设置权重系数,系数越高,则表示重要程度越大,如下表所示:


当告警项的权重值有重复时,取权重乘积。如某虚机不可用告警,为紧急告警,系数为 1.7,其属于虚拟层告警,权重系数为 1.3,则实际使用的权重系数取最大权重系数 2.21。


◉ 规则挖掘结果分析


跨层告警关联规则的挖掘,最关键的在于,对有跨层纵向关联关系的设备告警先分类,再通过设置时间窗和滑动步长生成告警事务集,最后通过 FP-Growth 算法得到频繁项集,根据加权支持度和加权置信度获得强关联规则。


从挖掘出的跨层关联规则结果与加权置信度分析,物理层的物理机根分区使用率超额告警会导致虚拟机磁盘写入滞后时间处于严重级别告警,且会导致上层业务层网元产生告警,如 AMF 模块 CPU 使用率超门限告警和 UDM-CPU1-Channel1 Dimm0 内存错误告警。



总体测试效果说明


在测试过程中,告警关联规则挖掘平台总共获取 30 万告警数据,生成 6933 个事务集,生成 191 条关联规则,其中设置的参数时间窗宽度为 30min,滑动步长为 10min,平均支持度为 0.12,平均置信度为 0.88。通过算法挖掘,结合人工分析提取有效的规则,解决了人工梳理告警关联规则成本高、效率底、场景低覆盖问题,为实现告警自动压缩、根告警定位提供技术了支撑,经过在故障中心系统测试,在告警压缩、根因分析处理方面有较大提升:


通过跨层、跨专业告警关联分析,告警数量压缩比大于 40%,减少重复派单处理。


提升网络故障定界定位/根因分析能力,缩短 MTTR 30%。


分析出的规则通过人工审核,告警在配置的时间窗内关联的准确率达到 98%。


如下图示,通过挖掘分析生成的规则,发布后,自动注入到故障管理系统关联规则库,根据规则关联类型分别应用于同网元、同站点、同专业、跨专业等类型的告警关联压缩。



未来展望


我们将数据挖掘技术应用于日益复杂、变化多端的新型网络运维中,通过智能告警关联规则,助力主故障点精确定位,促进故障快速排障。后续将在关联规则智能挖掘基础上,进一步结合 AIOPS,对告警根因智能定位、告警预测等课题进行研究,致力于对网络故障进行预判预警,使网络告警被扼杀在摇篮,保障网络稳定运行。


通信网络日新月异,我们始终努力站在时代潮流前端,将我们创新的网络运维理念及智能化举措融入到网络保障中,真正实现网络智慧运维。

发布于: 2021 年 04 月 12 日阅读数: 52
用户头像

鲸品堂

关注

全球领先的数字化转型专家 2021.03.16 加入

鲸品堂专栏,一方面将浩鲸精品产品背后的领先技术,进行总结沉淀,内外传播,用产品和技术助力通信行业的发展;另一方面发表浩鲸专家观点,品读行业、品读市场、品读趋势,脑力激荡,用远见和创新推动通信行业变革。

评论

发布
暂无评论
极智网络告警关联规则挖掘