写点什么

浅谈网络性能管理智能化方案和实践

用户头像
鲸品堂
关注
发布于: 2021 年 04 月 07 日
浅谈网络性能管理智能化方案和实践

●网络性能管理现状和需求●

目前的电信运营商的网络性能管理遇到如下问题:


指标预测不准确


网络性能数据有明显的周期性。随着网络的变化发展,业务呈现除周期性的宏观发展趋势,并容易受到节假日、重大活动的影响。随着电信运营商 5G 网络部署,网络切片/SDN/NFV 等新技术大规模应用,网络资源分配更动态化,也导致网络性能比以往难以预测,无论是在线用户数预测、移动业务流量预测还是业务成功率预测,通常这类业务需求,运维人员通过与同期历史数简单对比进行线性预测,准确率较低,传统的普通预测算法难以满足需求。



性能告警误报漏报


通信网络发展呈现 ICT 融合趋势,新网络需要关注的性能指标呈指数级增长。传统网络性能告警基于固定阈值和同环比门限进行指标监控,配置告警阈值的工作量很大,且受到偶发态异常值、季节、周期等因素影响,容易导致误报漏报。如果指标阈值根据网络情况动态自动配置,能提高告警准确率,并降低大量监控指标阈值配置的工作量。


指标突变已发生故障但未超过阈值导致漏报


假日效应触发告警门限导致误报


故障无预警


对故障历史性能数据分析中发现当网络接连出现的设备及业务重大故障前,多数网元性能已逐渐劣化但并未触发显性告警阈值,如果能在故障发生前及时发现故障可能发生的隐患,预知未来可能发生故障,并及时进行干预才能避免故障发生或缩短故障修复时间,变被动的故障处理为主动的故障管理。


目前互联网行业已经在运维保障过程中普遍采用了 AIOps(智能运维)技术,将 AI 技术应用到运维保障中,可在业务飞速发展的同时提供高可靠性的服务。AIOps 在性能指标预测、异常检测告警有着成熟的技术和经验,可以为 ICT 融合网络的性能管理问题,提供解决思路。


01 性能管理智能化方案


方案概述


参考 AIOps 的性能指标监测经验,将成熟的时间序列算法模型应用到性能指标趋势预测中,提高指标趋势预测准确性;采用机器学习技术对历史性能数据进行分析,实现指标告警门限动态调节,减少传统静态门限性能告警的误报和漏报现象;最终结合指标趋势预测和动态阈值调节,实现隐患预警,主动进行故障干预。


利用浩鲸自研的 KDO 中心能够快速构建性能数据智能模型,降低机器学习开发难度,为业务系统快速提供指标趋势预测、指标动态阈值告警智能运维服务,并结合指标趋势预测和动态阈值,实现故障隐患预警。下面分别对指标趋势预测、指标动态阈值告警、隐患预警监控的实现方案进行详细说明。


采用时间序列算法模型提高指标趋势预测准确率


网络性能指标统计数据一般按 5 分钟、15 分钟、小时、天、周等时间粒度进行统计,存在明显的周期性变化规律;同时受到节假日、重要活动突发的影响;有些指标之间有相关性,如在线用户数、流量、业务成功率指标就存在显著的相关性,存在多指标联合预测需求。


KDO 内置了 Prophet 模型和 LSTM 模型供性能指标趋势预测模型,两种模型都是目前应用很广泛的时间序列预测模型,可以满足网络性能指标趋势预测需求。


◉ Prophet 时序分解算法模型


基于 facebook 开源的时间序列预测框架 Prophet 进行模型优化开发,只支持单维度预测。该框架是基于可分解模型的开源库,相比其他时序分解算法,它支持自定义季节、节假日等因素的影响。时序模型可分解为三个主要组成部分:趋势项、周期项和节假日项,其组合公式如下:

其中,各参数说明如下:

  • g(t):用于拟合时间序列中的分段线性增长或逻辑增长等非周期变化

逻辑增长模型:


分段线性模型:


  • s(t):周期变化(如:每周/每年的季节性)

  • h(t):非规律性的节假日效应




et:误差项,用来反映未在模型中体现的异常变动。


◉ LSTM 循环神经网络模型


循环神经网络时间序列模型依赖于事件发生的先后顺序,利用过去一段时间段内某事件时间的特征来预测未来一段时间内该事件的特征。LSTM(Long Short-Term Memory)时间序列模型可支持多维度联合预测,在陕西移动网络数据分析平台项目中,基于核心网网元重点指标最近三个月各维度 5 分钟粒度数据,对在线用户数、流量、TCP 建链成功率、HTTP 响应成功率等关键指标未来一段时间的上限值、下限值、预测值进行估算。



LSTM 是 RNN 循环神经网络的变型,在 RNN 结构基础上添加了各层级阀门节点。主要有 3 类阀门:遗忘阀门(forget gate)、输入阀门(input gate)和输出阀门(output gate)。这些阀门可以打开或关闭,用于判断模型网络的记忆态(之前网络的状态)在该层输出的结果是否达到阈值,从而加入到当前该层的计算中,相比 RNN 的计算量大为减少,缩短模型训练的时间。但是相比 Prophet 模型,在训练时间上存在较大的劣势,当 Prophet 几十秒能出结果,LSTM 往往需要 1 个半小时,且随着神经网络层数和特征数量的增加而指数上升。


◉ 两个模型比较


Prophet 模型比较灵活,支持自定义季节、节假日特殊模型场景,可解释性强,相比 LSTM 对计算资源需求小,但只支持单指标趋势预测。LSTM 模型可以通过深度学习能够逼近复杂的非线性关系,一般情况下预测准确性较高,且支持多指标趋势预测,但不支持季节、节假日特殊场景自定义。因此在大部分单指标趋势预测场景中可以采用代价更小 Prophet 模型,在需要多指标联合预测场景或者单指标 Prophet 模型预测效果不理想的情况下使用 LSTM 模型。


利用质量控制图工具,实现指标动态阈值告警,减少告警误报和漏报现象。


对大量性能指标分布区间进行统计,普遍呈现正态分布的特征:

  • 正态曲线的高峰位于正中央,即均数所在的位置;

  • 以均值为中心,中间高两头低左右对称,呈现钟型。



性能指标处于正常态时,指标值距离均值较近,处于正态分布中间部分;而处于异常态时,指标值距离均值较远,处于正态分布的两端。借鉴质量过程管理的思路,利用质量控制图工具进行网络质量管控,当某一个结果超出了正常的允许范围时,可以判断这个结果是异常的,触发告警。



不同于质量管理中均值固定的场景,性能指标呈现正常周期性波动,不宜使用固定均值作为控制图的中心线,因此采用指标趋势预测的指标值作为指标控制图的中心线,并对指标历史数据分布进行统计,根据正常态样本占比(如无历史告警数据,以 3σ标准差即正常态占 99.74%),制定合理的上下告警门限,并根据输出的性能告警确认结果进行自学习,不断调整指标的上下告警门限。由于有些指标具有方向性,呈现越大越好或越小越好的情况,这部分指标告警门限只有上门限或下门限,如掉线率指标,只有告警上门限,无告警下门限。



这样每个指标的告警门限可以根据指标变化趋势,并结合历史告警数据进行自动调节,指标告警门限动态化,并根据性能告警结果反馈结果自学习改进,从而提高性能告警的准确性。


结合指标趋势预测和动态阈值告警,对故障进行预警。


根据指标趋势预测产生的智能基线,结合指标动态门限,对指标当前值和未来一段时间预测值进行监控,输出未来一段时间可能触发故障告警门限而当前未触发故障告警门限的指标,输出可能发生故障的隐患预警。



02 实践案例


我司在陕西移动网络数据分析平台项目实施中,采用了性能管理智能化方案。系统汇聚 O 域各维度数据,基于 AI 大数据分析和机器学习算法,面向 4G 核心网/无线网的网元及业务进行关键指标监测、分析、预测、汇总、展示及异常定界,为应用提供智能服务的机器学习算法就是基于浩鲸科技自研的 KDO 平台进行开发而实现的。


支撑系统重点 AI 技术使用场景说明如下:


1)指标趋势预测


在 EPC 网元诊断预警专题 、手机上网质量监测、IPV6 指标监测 3 个专题中,采用 Prophet 模型提供指标趋势预测能力。



针对 2019/11/26 13:40~2019/12/5 17:00 历时 10 天的数据进行趋势预测统计分析,预测 1 小时内(5 分钟粒度)12 个周期的指标趋势预测平均准确率达到 93.96%,基本达到项目应用要求。


2)指标动态阈值告警


在手机上网质量监测、IPV6 指标监测 2 个专题中,实现了指标动态阈值告警监测,包括手机上网质量监测和 IPV6 指标监测的业务大类 12 类指标,以及 SGW 分协议类型(IPV6/IPV4)的 4 类指标动态阈值告警监测。


告警准确评估就是看指标是否异常的精确率(反映告警误报)、召回率(反映告警漏报)指标,由于没有相关完整可靠的性能告警数据,召回率指标暂时不好统计。针对 2019/11/26 13:40~2019/12/5 17:00 的告警精确率值达到 95.04%,基本可以满足用户的告警需求。


3)隐患预警监控


在 EPC 网元诊断预警专题中,实现了 MME 的 4 类指标和 SGW 的 9 类指标的隐患预警监控,总体网元隐患预警准确率达到 93%以上,降低了 MTTR30%。

发布于: 2021 年 04 月 07 日阅读数: 42
用户头像

鲸品堂

关注

全球领先的数字化转型专家 2021.03.16 加入

鲸品堂专栏,一方面将浩鲸精品产品背后的领先技术,进行总结沉淀,内外传播,用产品和技术助力通信行业的发展;另一方面发表浩鲸专家观点,品读行业、品读市场、品读趋势,脑力激荡,用远见和创新推动通信行业变革。

评论

发布
暂无评论
浅谈网络性能管理智能化方案和实践