传输线路动态巡检探索
传输线路巡检是运营商日常网络运维重要工作内容,是网络隐患发现及故障排除的主要手段。目前传输线路巡检模式基本是网络巡检管理人员把所有传输线路段按某种比例设为固定频次(如日、周、月、季、半年、年)进行定期巡检。这种巡检模式下,依赖人工经验判断,存在如下不足:
对线路质量好、无投诉传输线路段进行无实际意义的巡检,而存在隐患的线路段没有及时发现,不能进行精准巡检,不能主动采取针对性措施。
巡检周期固化,巡检任务内容缺乏针对性、巡检效果无法有效验证,同时无法对巡检真实性、完整性掌控,巡检管理成本高。
针对现巡检模式的不足,研究新型传输线路巡检动态调度机制,探索动态按需巡检模式是本文的主要思想。
01 动态巡检思路探索
建立传输线路动态按需巡检模式,对传输线路的性能、故障、隐患、资管、外部环境等全粒度信息采集,结合运维大数据分析建立巡检线路健康度评估模型,科学评估及设置巡检对象的级别、场景、段落等,并动态更新。基于健康度模型及时发现线路潜在问题,自主决策调整巡检周期,动态生成巡检计划,把每一次巡检任务分配给更加需要巡检的线路段。同时通过巡检后健康度的改善,反向闭环评估巡检工作成效,推进网络运维管理降本提效的目标。
02 动态巡检实现要点
线路全粒度信息采集
动态巡检的前置条件是获取可供大数据分析建立健康度模型所需的线路相关信息。本方案认为线路是否健康,受多方面因素的影响,包括:线路自身特性,故障情况,性能情况、外部环境变化情况、潜在隐患情况等。
对应动态采集(建议每天)以下信息:传输线路自身属性信息、传输线路故障信息、传输线路性能信息、传输线路隐患信息、网络外部环境变化信息等,作为线路健康分析的重要数据输入。
采集传输线路自身属性信息
传输线路基础信息(主要为光缆、空管道、空杆路)来自资源系统,同步过来后给巡检人员下发沿线地标采集任务,巡检人员在线路资源现场利用 App 采集线路资源点和地理坐标信息,最后地标信息与线路基本信息关联并入库。线路关键信息应包含:
-线路基本信息:线路名称、线路级别、服务年限、业务级别、敷设方式等。
-沿线地标信息:地标类型、地标名称、地标经度、地标纬度。
采集传输线路故障信息
采集因传输线路原因引起的故障告警(工单)信息。根据线路编号从资源系统关联该线路级别(一干、二干、接入网主干)、影响客户范围等,同时关联分析是否存在大面积故障、近期故障发生频次等信息。
采集传输线路性能信息
从线路段落的误码性能和性能告警两个维度采集线路性能信息。如针对于接入网性能数据,从 PON 网管采集相关性能数据,分析梳理各设备节点、线路性能情况,提取性能告警信息。
采集传输线路隐患信息
获取上报隐患信息,重点采集该线路某时间段内隐患修复时间间隔、隐患重复出现次数、隐患级别识别等情况。
采集外部环境变化信息
采集近期做过的工程割接、近期出现工程事故(施工、塌方)、即将开通的线路等信息。
03 线路健康度分析评估
基于全粒度信息采集,构建传输线路健康度评估模型,动态对反映线路健康情况的每项指标进行运算评估,计算出各项指标评分之和,即线路的总体健康得分,判断线路健康状态,进而输出巡检决策。
线路健康度评估模型:
Step1:线路健康评估指标定义
线路健康度评估过程中,需先定义反映线路状况的最大范围指标。
指标可以按线路自身特性、故障频发度、性能劣化度、线路隐患率、外部环境变化等进行分类。评估指标及权重得分建议:
Step2:线路健康得分运算
线路健康度运算是本方案与传统方案最大改进点之一。线路健康度的评估,结合传输线路自身的敷设方式、重要级别等相对静态特征,从健壮及承载重要性、故障频度、性能劣化度、线路隐患度、外部环境影响等 5 个动态维度共 18 个评估指标(上述指标列表)建立分析计算模型,计算过程:
1. 自身属性(健壮及承载重要性)计算逻辑
重点分析传输线路自身特征,从服务年限、敷设方式、业务等级、光缆级别等维度计算。设备服役年限长短,反馈传输线路性能的下降程度,敷设方式反映传输线路的被盗被损风险,业务等级反映线路承载业务的重要性,这些都需按实际客观情况加权或减权计算。
2. 故障频度计算逻辑
针对告警频次计算,从线路告警数据中,提取告警线路拓扑 A 端和拓扑 Z 端相关联,某时间段内 A 和 Z 端同时产生告警,认为此光缆中断一次,对相应的线路段落标记故障中断次数。
3. 性能劣化计算逻辑
针对性能告警的计算,可通过性能告警和拓扑关联进行分析,性能告警提取 R_LOF、和误码性能数据,当拓扑产生此类性能告警时,将此拓扑和光缆进行关联,算作一次劣化。
性能劣化的计算,可先使用聚类算法 K-means Weka,按照线路光信号衰耗减度分群测试,确定阈值范围,再结合性能指标劣化情况计算劣化得分。
4. 线路隐患计算逻辑
针对线路隐患的计算,重点分析该线路隐患修复时间间隔、隐患重复出现次数、隐患级别识别等情况,典型计数:
隐患重复出现次数:半年内重复出现 2 次及以上的得 0 分,0 次 5 分。
隐患级别识别:属于一干、二干级别的重大隐患得 0 分,无隐患得 5 分。
5. 外部环境计算逻辑
外部环境对线路巡检健康性的影响也较大,应着重关注线路相近位置是否存在工程施工、路面塌方、工程割接、网络重保等,有一项计数加 1,有多项累加。
Step3:线路健康度级别评估
通过上述线路健康度体系化指标计算,计算出线路的总体健康得分,进一步判断线路健康级别(健康状态),为后续采取针对性应对措施作准备。
线路健康级别可分为健康、亚健康、不健康、故障四个级别,根据线路健康得分与健康级,分别进行映射:
Step4:线路巡检频度决策
本方案建议每天对线路健康度得分进行计算,并进行健康状态评级。根据健康状态评级,建立“立即+动态”的巡检频度决策机制,即自动判断每日故障线路立即巡检,同时每周动态刷新线路的巡检周期,减少无效巡检次数,实现线路接维后巡检频次大幅降低情况下,隐患及时有效发现、巡检精准把控。
根据巡检决策机制,计算出每条线路的巡检频度建议,如下表示例:
04 巡检计划动态生成
巡检任务的生成必需三个关键参数,一是巡检周期(频率),二是巡检点(巡检具体位置或区域范围),三是巡检人员。
前述通过线路健康度动态评估,实现线路巡检周期的动态调整。针对巡检点的确定,传统方法是依据人工经验直接固化设置,缺乏准确性及动态性。
本节探索巡检点动态计算的方法。
巡检点动态计算
在健康度动态评估过程中,对不同事件场景发生的频次及地点进行分析,按照策略动态计算确定巡检点。巡检点动态计算策略,不同场景不尽相同。如:
1. 故障场景巡检点计算策略
分析历史故障数据,若同一故障在过去一个月内发生两次,则提取故障数据,分析该故障影响的设备及线路故障点,该设备或线路故障点为巡检计划需要巡检的点,则是待巡检点。
2. 性能场景巡检点计算策略
分析历史性能劣化数据,以光衰分析为例,若光衰超过 20DB,则定位该线路光衰影响区段,然后结合该线路预制的巡检点,进行距离就近分析,距离范围在 200 米内,则以预置的巡检点作为待巡检点,反之,则需巡检人员现场踩点,定位待巡检点。
3. 隐患场景巡检点计算策略
分析历史隐患数据,若隐患存在,则定位具体隐患线路,然后确定隐患发生位置,再将其与该线路预制的巡检点进行就近比较,距离最近的,则是待巡检的点。
4. 新线路场景巡检点随机计算
新敷设的传输线路,过去短期内未产生相应故障、性能、隐患、环境等事件,无特殊巡检点,此时可从线路的地标经/纬度中随机选择 N 个(N 可设置)巡检点:RANDBETWEEN (第一个巡检点,N,最后一个巡检点)。
巡检计划动态生成
巡检周期、巡检点动态计算出来后,载入巡检任务项、执行岗位、执行人员等静态参数,动态生成巡检计划。
核心逻辑:根据巡检周期决策,对线路自动生成立即巡检工单、每日巡检工单、每周巡检工单、每月巡检工单、每季巡检工单、每半年巡检工单、每年巡检工单等等,每张巡检工单包含多个巡检点,工单按派单规则自动派至巡检管理人或传输维护班。
巡检任务执行与评估
巡检任务调度执行:巡检任务生成后,自动派发相应巡检管理人,巡检管理人可根据实际情况选择接受或驳回巡检任务,最终巡检任务直接派发至一线巡检人员,完成现场巡检。
巡检效果精准评估:系统通过次日得分自动判断隐患处理效果,若巡检人员在规定时限内隐患处理完毕,则相应指标会恢复,不会重复触发巡检工单。若巡检人员在规定时限内未完成隐患处理,则系统评估健康度得分仍会较低,超过时限后会再次生成并派发巡检工单,实现对巡检任务执行效果的精准管控。
05 未来展望
本方案针对传输线路传统固化周期巡检模式下线路不能自动评估、潜在的问题难以及时发现、无法采取针对性措施等问题提出解决方案。通过载入与传输线路巡检相关的资源信息及故障、性能等数据,综合设计健康评估模型,实现故障线路段落立即巡检,重要线路高频巡检,隐患段落增加巡检,安全线路段落降频巡检的动态按需巡检的目标,能够在保障传输线路安全的同时节约线路巡检费用。
网络巡检主要分传输线路巡检、基站巡检两大类。本方案主要面向传输线路的动态巡检,未来可以扩展到无线基站的巡检。对基站的巡检,基站健康评估指标类型相应扩展,如增加在网设备数、基站供电状况(断电数、低电压次)、无线数据流量等指标的评估;健康度评估、巡检点计算可复用传输线路巡检的相关逻辑,理论上应当能有效降低基站障碍时长和频次,提高基站隐患整治的及时性,压降巡检成本。
版权声明: 本文为 InfoQ 作者【鲸品堂】的原创文章。
原文链接:【http://xie.infoq.cn/article/969e4120aee540e3a7954e761】。文章转载请联系作者。
评论