资源不准下的网络故障定位探索
1 引 言
网络故障定位能力主要依赖于网络拓扑关系,通过判定故障是否同源来实现相关告警的压缩、过滤、关联分析,进而锁定根告警或缩小告警根因范围。这严重依赖于网络资源的准确性,在资源不准或不全情况下将难以通过网络资源拓扑关系定位故障原因。只能派发网络故障单,依靠人工业务、技术经验分析故障原因。甚至只能通过派单人工现场勘察定位,以致网络故障的定位效率低下,业务恢复时长不可控,容易造成客户投诉。
针对资源不准下网络故障定位的痛点、难点,我们尝试探索解决思路,通过引入文本相似度、光路占比计算等分析技术,针对常见资源不准场景给出解决方案,提高告警关联准确性,从而提升故障定位能力,减少无效的网络故障单派发。
2 故障场景聚焦
本文聚焦动环停电与传输光缆中断两种故障场景时资源不准情况下通过引入不同的故障告警关联分析手段,解决在资源不准情况下挖掘设备间潜在告警关联关系,并将该关联关系应用于后续实时告警分析过程,助力快速定位告警根源,反向实现资源数据初步较准,实现告警工单的合并派发,减少一线人员压力。
动环设备停电场景:基于告警特征的文本相似度挖掘机房与设备间潜在关联关系
从历史告警数据中抽取由于资源不准无法实现告警关联的告警数据,以该类告警为节点提取一定时间窗(如:30 分钟)期内告警数据,引入文本相似度算法对告警关键字文本进行智能分析,锁定与之相关的告警数据,并对告警所属设备进行标识。最后可持续通过大量样本数据的持续推演、验证两者间的关联关系。
传输光缆中断场景:基于光路占比计算挖掘光缆与传输设备间潜在的关联关系
通过定位各个设备及传输路由历史告警端口的光路,结合信号流溯源分析手段,以同一个路由复用段为范围,对单个或多个系统段的特定告警进行分析,追溯故障源头设备端口所在段落,进而定位出对应故障系统段。最后将分析判断出来的设备、端口、光路、光缆形成传输朔源关联库,用于后续实时的告警关联分析。
下面,针对上述两种故障场景进行详细解决方案探索。
3 基于文本相似度分析的故障定位
典型应用场景:动环停电告警下退服设备故障定位。
主要痛点分析:当机房出现停电故障,将产生机房停电以及大量受影响设备的退服告警,但由于资源不准或缺失,在故障管理系统中设备退服告警与机房停电告警未能进行自动关联,受影响的退服告警无法进行压缩、过滤,最终生成大量网络故障单派发一线人员处理,造成一线人员排查压力巨增。
关键解决举措:引入文本相似度算法,从历史告警数据中挖掘机房与相关设备间的潜在关联关系,补齐资源不准或缺失的不足,为后续实时告警关联分析提供参考依据。
按关联时间窗的设置,将停电相关的基站、设备(如 OLT)等退服告警进行关联。并增加文本相似度算法,将停电告警出现时 30 分钟时间范围的基站退服、设备(如 OLT)等退服等历史告警推演一并计算,判断资源的准确情况,并将可能存在资源不准的网络设备进行标识。
定位过程示例图如下:
离线告警建模分析:
建立告警离线分析模块,按时间、区域维度构建告警数据组,对历史告警进行分类、建模、存储。
Step1:离线告警数据抽取:
从大量历史告警数据中抽取未进行压缩、过滤、关联的设备退服分析样本数据。
Step2:离线告警数据汇聚:
以抽取数据为分析节点,设定一定的关联时间窗(如:以 30 分钟为一个时间分析维度),按当前节点告警数据归属区域范围,汇聚该时间范围的基站退服、OLT 退服、机房停电等历史告警数据,形成告警数据组。
告警特征关键字提取:
机房设备通常会按一定规则命名,如机房设备名称会包含机房名称的字眼,具备一定的机房名称特性,基于该基础条件的设定,在汇聚的离线告警数据组中对设备告警进行关键字提取,主要提取告警信息中的机房名称、网元名称、设备名称、端口、链路、告警标题等信息。
完成告警信息关键字提取之后,通过提取的告警关键字信息建立新的告警文本数据组。
余弦相似度特征分析:
利用关键特征权值库,匹配特征的价值权重,通过余弦相似度算法计算关键特征的相似度,挖掘与机房在同一区域的退服设备。
计算原理:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近 1,夹角趋于 0,表明两个向量越相似,余弦值接近于 0,夹角趋于 90 度,表明两个向量越不相似。
Step1:特征分词预处理
特征分词预处理主要对选定的告警特征关键字按词频进行分词处理,举例如下:
无线机房名称:上云县清水乡站点 1 楼无线机房
机房设备名称 1:清水无线机房_BBU03
分词方式如下:
T1={清,水,无线,机房,_,BBU,03}
T2= {上云市,清,水,乡,站点,1,楼,无线,机房}
Step2:特征分词归并
将多个分组向量的分司数据进行合并归一操作,整合成一个向量组。延续以上举例,执行结果如下:
T={上云市,清,水,乡,站点, 1,楼,无线,机房,_,BBU,03}
Step3:特征词频统计
计算归一的 T 向量组分词在原向量组 Ti 中出现频率次数并分别用 Si 标识,对集合里的每个词 Wi,如果 Wi 在 Ti 中出现记为 1,否则为 0,执行结果如下:
S1={0,1,1,0,0,0,0,1,1,1,1,1}
S2={1,1,1,1,1,1,1,1,1,0,0,0}
由此将两个告警关键字文本比较转换为计算 S1、S2 这两个向量的相似程度。
Step4:余弦相似度计算
参考余弦相似度计算原理,可将 S1、S2 两个向理分组折射成空间中的两条线段,均从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为 0 度,意味着方向相同、线段重合,这是表示两个向量代表的文本完全相等;如果夹角为 90 度,意味着形成直角,方向完全不相似;如果夹角为 180 度,意味着方向正好相反。因此,可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。
带入 S1、S2 分词参数数据,余弦相似度量计算公式如下:
=0.70846617
从计算结果看余弦夹角的余弦值为 0.70,接近于 1,可判定两个告警关键字文本特征相似。
为提高判定阀值的准确性,可根据不同区域、机房名称长度、同设备类型等因素,通过提取存在关联关系的机房名称、设备名称进行阀值训练,获得相对准确的阀值。
合并重复设备数:
对多次发生的动环停电告警的推演分析,合并比较每次机房停电后相同区域重复出现的设备,确定机房关联的设备,并建立相应的机房、设备关联库。
实时告警关联:
将基于离线告警数据的文本相似度分析挖掘出的机房与设备间的潜在关联关系配置成告警关联规则,在发生实时告警时,通过匹配告警关联规则来实现将新发生的机房停电故障与承载的基站、OLT 的退服告警相关联,对相关告警的关联、过滤、压缩等处理。
追加合并派单:
通过实时告警关联分析某设备退服是由于机房停电引起时,判断机房停电是否已派单,如未派单采取合并方式,将设备退服告警作为关联告警合并至机房停电告警;如已派单则采取追加方式,将分析出的设备退服告警作为关联告警追加派单到停电告警中。
4 基于光路占比分析的故障定位
典型应用场景:传输光缆中断下多专业设备告警故障定位。
主要痛点分析:传输专业包括传输内线与传输外线,由于涉及到外部的光缆、管道、人手井等空间物理资源,因长期缺乏有效管理,造成部分资源不准甚至缺失(如光路配错),导致同一光缆中断引起的设备告警、传输 LOS 不能有效关联,造成相关设备故障无法远程定位问题,只能耗费人力到现场逐一排查故障原因,影响设备故障恢复时间。
关键解决举措:通过各个设备、传输路由的告警端口,基于业务逻辑关系,定位端口归属相应的光路,对信号流进行溯源分析。计算各端口的光路的匹配程度,针对于同一复用段内一个或多个系统段(单、双向)的特定告警进行分析,确认各光缆段下归属告警光路数占比,从而追溯故障源头设备端口所在段落,进而定位出对应故障系统光缆段。
告警数据采集:
对接故障管理系统采集网络告警数据,或对接采集平台获取原始告警数据并对告警数据进行标准化处理,从中抽取传输光缆中断告警数据。
告警聚类分析:
以传输光缆中断告警数据为分析节点,设定分析时间窗来过滤圈定离线告警分析数据。由于光缆发生中断时,可能导致业务全阻,可以将特定时间范围同时出现的告警进行聚类分析,包括骨干设备脱网、MSE 设备脱网、BAS 脱网、PTN/IPRAN 设备脱网、基站退服告警,将特征告警按时间、类别进行分类汇聚。
资源属性填充:
基于资源或网管系统提供的设备资源数据,对各专业告警进行相应资源填充、补齐,涉及补充的资源信息包括:设备类型、板卡型号、端口、AZ 端信息等。
关键特征提取:
根据不同专业、设备类型告警的特性,提取其关键特征数据,关键数据应包括:发生时间、归属区域、端口信息等。
基站告警:提取发生时间、端口、基站名称、经纬度、 区域等信息。
OLT 告警:提取发生时间、端口、OLT 名称、 NE_IP、区域等信息。
传输告警:提取发生时间、端口、ONU 名称、OLT 名称、NE_IP、区域等信息。
BARS 告警:提取发生时间、端口、BARS 名称、NE_IP、区域等信息。
光路信号流向分析:
按区域划分区县、地市,根据端口、设备名称匹配光路、电路,分别分析 PTN、OTN、基站的设备脱网情况,定位每个设备信息走向的光路数情况。
具体包括以下各场景:
光缆影响 PTN 设备脱网:通过分析告警数据集中告警 PTN 设备的光路流向情况:
PTN 设备->A 或 Z 端设备->中继电路->光路->光路路由->纤芯->光缆段
PTN 设备->A 或 Z 端设备->中继电路->传输电路->系统段->光路->光路路由->纤芯->光缆段。
光缆影响传输(OTN/WDM/SDH)设备脱网:通过分析警数据集中告警 OTN/WDM/SDH 设备的光路流向情况:
OTN/WDM/SDH 设备->A 或 Z 端设备->系统段->光路->光路路由->纤芯->光缆段。
光缆影响 OLT 设备脱网:根据以下信令流程,确认告警 OLT 设备的光路数情况:
OLT 设备->A 或 Z 端设备->中继电路->光路->光路路由->纤芯->光缆段。
OLT 设备->A 或 Z 端设备->中继电路->传输电路->系统段->光路->光路路由->纤芯->光缆段。
OLT 设备->A 或 Z 端设备->交换机/BRAS 设备->中继电路->传输电路->系统段->光路->光路路由->纤芯->光缆段。
OLT 设备->A 或 Z 端设备->交换机/BRAS 设备->中继电路->传输电路->系统段->传输电路->系统段->光路->光路路由->纤芯->光缆段
光缆影响基站设备脱网:通过分析警数据集中无线基站设备的光路流向情况:
3G/4G 无线基站-> A 或 Z 端 PTN 设备->中继电路->光路->光路路由->纤芯->光缆段。
3G/4G 无线基站-> A 或 Z 端 BBU 设备->中继电路->光路->光路路由->纤芯->光缆段。
光路占比阈值判定:
基于光路的流向分析,计算各设备告警的端口匹配光路数,汇总每一段光缆的光路数情况,对比每一段光缆段的光路总数和占比,按占比排序,确定比例最大的光缆段,列为疑似故障光缆段。
告警关联派单:
将分析得出设备告警与光缆中段告警潜在的关联关系后,可将设备告警归于光缆中段告警中的子告警,两者进行关联,便于统一关联派单。
5 未来展望
随着云网业务推进,业务组网方式越来越复杂,业务融合场景越来越多,客户对网络要求也越来越高,网络故障的快速定位与处理能力将是运营商保持市场良好口碑的重要保障之一。在资源准确情况下的故障快速定位能力已趋于完善,但资源缺失、资源不准等问题仍是严重困扰运营商的问题,因而针对资源不准下的故障定位能力将是网络运维的强力手段。
本篇主要针对两种资源不准的场景阐述了解决方案,未来将持续对其它业务场景进行探索,持续完善资源不准下的故障定位手段,如:引入 AI 与大数据分析,实现 ODN 光路哑资源拓扑还原,通过让哑资源开口说话方式实现资源数据校准,促进故障定位能力提升。另外,如在光纤中植入有源光探针设备,通过接收探针数据实现光路数据采集、大数据关联聚合分析,更能准确还原光链路拓扑,对故障定位效果更佳。
版权声明: 本文为 InfoQ 作者【鲸品堂】的原创文章。
原文链接:【http://xie.infoq.cn/article/1a542698f7bcbfe4b537a7745】。文章转载请联系作者。
评论