光传送网波分系统故障定位探索
WDM(波分复用)/OTN 光传送网在长途骨干网、城域网、本地网得到广泛运用,也是 5G 网络承载的最佳方式,是网络重点保障对象。
本文推出一种快速定位 WDM/OTN 传输故障的方法,通过光传送网管告警、网管系统拓扑以及主光路端口信号流告警溯源,对同一复用段内一个或多个系统段(单、双向)的特定告警进行分析,从而定位故障系统段。
WDM(波分复用)/OTN 光传送网提供大带宽、低时延、一跳直达的承载能力,同时具有透明传输等优点,在长途骨干网、城域网、本地网得到广泛运用,除了为固定宽带、云和政企专线等业务提供统一的综合承载服务,还是 5G 承载的最佳方式。
正是由于 WDM/OTN 传输系统业务容量大,网络地位极高,出现系统故障即为重大故障,将大面积影响业务,因此及时对其进行故障定位及处理成为网络运维工作的重点。
但当前对光传送网故障定位存在两大问题:
(一) 网络复杂,故障定位难
故障在网管中具有传递性,告警是故障在网络设备实体的反应,故障系统在搜集各个专业网管的告警时,由于网管能力的差异,具有一定的延时性,最早发生告警不一定及时获得采集。WDM/OTN 光传输网故障定位用传统方法耗时长效率低。
(二) 人工维护能力要求高
WDM/OTN 光传输网络设备种类多,对故障分析需要极丰富经验的通信专家和网络维护人员,但不是所有维护人员具有丰富经验,无疑影响故障定位的时限。
对此,针对 WDM/OTN 光传送网故障定位,我们研究出一些解决思路,结合告警、网管系统拓扑、信号源关系,应能快速定位到故障点。
实现方案
1 光传输故障定位整体思路
业界常用故障定位方法:传统上一般有这几种定位方法,告警性能分析法、环回法、替换法、仪表测试法、经验处理法等,但这些方法均存在较大缺点:
环回法:在系统出现误码的时候,有时无法通过告警或性能来分析。通过业务信号进行逐段回环,回环可用在 OTU 单板、本站、对端站回环。
缺点:需到站处理同时可能会中断业务。
替换法:用一个工作正常的物件去替换一个被怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。
缺点:替换法简单但对备件有需求,同时需要维护人员到站处理。
仪表测试法:测试仪表常用有光功率计、光谱分析仪和综合分析仪,仪表测试先对光功率测试再对误码特性测试。使用仪表测试法分析定位故障,说服力比较强,但对仪表有需求,同时对维护人员的要求比较高。
经验处理法:有经验的维护人员在一些特殊的情况下通过复位、插拔单板、单站掉电重启,重新下发配置等手段,有时能及时排除故障,恢复业务,但不能对故障彻底查清。
针对上述方法的不足,我们提出新的故障定位方法:告警+网管系统拓扑+信号溯源定位。
基于光传送网管告警并结合网管系统拓扑以及系统内主光路端口信号流告警进行溯源分析,针对同一复用段内一个或多个系统段(单、双向)的特定告警进行分析,追溯故障源头设备端口所在段落,进而定位出对应故障系统段。
整体思路如下图所示:
新法的关键六步:
WDM/OTN 告警预处理:系统从厂家网管或 OMC 采集上来的 WDM/OTN 原始告警进行设备站点、板卡型号、端口速率、波道等资源信息补充(这些信息对后面故障定位非常重要)以及标准化处理。
WDM/OTN 特征告警提取:从众多厂家设备告警中提取出光传输网的特征告警,重点包括信号丢失、帧丢失、信号劣化等特征。
WDM/OTN 信号溯源:根据特征告警的板卡型号、端口速率、波道结合网管拓扑并分析信号流向,通过信号溯源,将同一窗口时间内告警进行遍历式分析,判断出波分系统中断所发生的段落。
定位规则判断:根据不同特征告警和条件,将波分系统中断定位归纳为三大类规则:信号丢失段落定位、信号丢失直连段落定位、信号丢失上游段落定位即最靠近信号发送端所在段落定位。
规则处理:根据匹配到的定位规则,判断是否需要更新故障段落,最终定位出故障点。
衍生 WDM/OTN 系统中断告警:通过告警的相关性,将多个告警合并衍生成一条波分系统中断告警,将分析的特征告警添加到子告警列表里。
最终,通过合并告警衍生出一条波分系统中断告警,派单给运维人员处理。
2 光传输中断信号溯源过程
通过网管采集的配置数据还原系统网络拓扑,结合网管上报的信号(包括控制信号和业务信号)丢失类告警来分析故障所发生的段落。
分析如下:
光传送网波分系统中断示意图
当 B-C 间段落发生中断故障(可能光缆中断)导致业务全阻,系统上的 A、B、C、D、E、F、G 会出现各式信号告警和光功率告警,告警出现的出现的顺序如下:
1)当 B-C 段落发生故障,故障断路相邻点 B、C 会出现合路信号丢失告警、光监控信号丢失和单波道信号丢失告警。
2) C 存在光监控信号(OSC)丢失告警时,C 往 D 发送的业务信号功率大大降低,业务信号在由 C 传输到 D 时存在光信号衰减,导致 D 收到的光信号变弱而产生合波信号丢失告警。
3) 如果业务从 D 直通到节点 G,这时 F、G 点设备也会产生出合波信号丢失告警。
4) 信号从 B 传输到 A,D 传输到 E,同理也会产生合波信号丢失类告警。
总结:如果单纯从合波信号丢失类告警角度分析,将很难判断故障时发生 A-B、B-C、C-D、D-E、D-F、F-G 中的哪一段。B-C 虽然发生中断,单 B 往 A,C 网 D 发送的光监控信号(OSC)功率不会减弱,只是业务信号减弱,A,D 不会发生光监控信号告警。在此种情况下把光监控信号告警和合波信号告警结合在一起分析,才能准确的定位出故障发生的段落为节点 B,C 之间。
3 故障定位核心流程与逻辑
光传送网波分故障定位分两大步骤,一是根据活动告警判断故障定位适用哪一个定位规则,二是依据定位规则,进一步判断故障位置。
根据信号流在光传送网流向段落定位规则可分为三类:信号丢失所在段落定位、信号丢失直连段落定位、信号丢失上游段落定位。
步骤一:判定告警适用规则
1) 从 OMC 或 EMS 提取同时间窗内的信号丢失相关特征告警分析。
2) 对时间窗内的特征告警进行分析,判断是否有光监控信号丢失并分别处理,如果有光监控信号丢失匹配定位规则一。
3) 如果没有光监控信号丢失类告警,再进行判断此段的复用段是否存在未恢复光监控告警。
·判断有未恢复光监控信号丢失告警:直接更新故障为“波分系统中断”,将新告警添加到子告警列表并记录根子关系。
·如没有未恢复光监控信号丢失告警:获取此端口的对端端口是否存在中断告警,存在中断类告警匹配定位规则二。
4) 上游端口追溯:在没有光监控丢失类告警,对端口没有中断类告警需要,需记录端口所在段落以及此端口的上游端口,如果上游端口在相同复用段且端口有告警,再把此上游端口和段落放到步骤二进行执行判断,一直迭代上游端口,直到上游端口无特征告警就匹配定位规则三。
步骤二:根据定位规则,定位故障位置
定位规则一:信号丢失段落定位
信号丢失段落定位规则流程图
定位光监控信号丢失出现的段落为故障段落,判断此故障段落的复用段是否存在中断告警。
如果复用段存在中断故障,再根据是否存在非光监控信号丢失类告警,如果有更新故障段落,更新故障名称为“波分系统中断”,将新告警添加到子告警列表进行根子记录。如果没有非光监控信号丢失类告警,如果故障位置与故障原因一致不更新,否则更新故障段落。
如果复用段不存在中断故障,判断此复用段是否存在信号劣化故障,如果有劣化故障,如果故障段落不一致更新故障段落,更新故障名称为“波分系统中断”。如果不存在劣化故障则产生中断故障“波分系统中断”和派单告警。
定位规则二:信号丢失直连段落定位
信号丢失直连段落定位规则流程图
定位波分系统中断故障到直连段落的系统段。在分析此段落的复用段是否存在中断类故障,如果存在,就更新故障段落,将新告警添加到子告警列表,进行根子记录。如果不存在,再走复用段是否存在信号劣化故障逻辑。
定位规则三:信号丢失上游段落定位
信号丢失上游段落定位规则流程图
定位信号丢失上游段落为波分系统中断故障,在分析此段落的复用段是否存在中断类故障,如果存在,就更新故障段落,将新告警添加到子告警列表,进行根子记录。如果不存在,再走复用段是否存在信号劣化故障逻辑。
处理逻辑关键点总结
上述流程比较清晰,在具体实现上有两个关键点需要注意:
1、信号溯源:业务信号溯源基于系统网络拓扑和网元内部交叉,需要对网元拓扑+网元内部交叉进行循环迭代查找上游信号的端口是否同样的告警。
2、业务信号和监控信号结合分析:不同厂家的业务信号和监控信号有着不同的告警标题,前期需要对不同厂家的告警进行标准处理,波分系统中断时产生的业务信号告警和监控信号告警到达故障系统里有时间差,开始可能只能根据某一类信号进行故障分析定位判断,当另一信号告警上来时再对前期的判断结果正确性更新。
4 新方案应用示例
以某电信省烽火波分系统中断场景为例,对前述故障定位方法进行具体阐述。此场景是光传送网非常典型场景,具有影响的范围广、涉及上层专业网络多的特点,同时通常伴随中断上层 IP,IPRAN 网多个业务电路数据等问题。故障定位具体步骤:
告警采集:故障系统从 OMC 或 EMS 采集到各个网络的告警,包含光传送网、IP 数据网、PON、无线网络以及 IPRAN 网。
提取传输网特征告警:从光传送网上报的告警中提取 R_LOS,OLS 特征告警。
确定定位规则:R_LOS,OLS 信号告警不是光监控 OSC 告警,需要获取对端端口并判断是否有中断类告警,查询对端端口存在 OSC 告警,匹配到定位规则为直连段落定位。
定位规则处理:对定位直连段落的复用段是否存在信号劣化故障,如果存在劣化故障,需要判断劣化的故障断路与此次定位直连段落是否一致,不一致更新故障段落。
衍生出告警:波分系统中断告警,最终定位故障段落结果,进行派单,并将 RLOS,OLS 告警添加到子告警列表里。
上层网络告警关联:将上层网络业务电路数据已底层传送网系统段进行关联,当上层业务电路两端端口出现特征告警端口 down 时,将其添加到子告警列表里。
该场景告警衍生关联样例如下:
方案前景
未来 5G 的建设与应用,将部署大量的光传送网做为其承载,系统不断增加,设备不断的扩容,维护的工作量巨大,依靠人工无法快速定位众多波分系统故障段落,无法满足维护的需求。本方案基于传输网特征告警,结合拓扑进行光信号溯源综合分析,在故障系统上即可完成故障定位,无需要人工到站分段排查,将有力促进网络维护效率。
版权声明: 本文为 InfoQ 作者【鲸品堂】的原创文章。
原文链接:【http://xie.infoq.cn/article/3f8abf9d1a3fcba2a9b642461】。文章转载请联系作者。
评论