写点什么

新一代运营保障体系探索

用户头像
鲸品堂
关注
发布于: 2 小时前
新一代运营保障体系探索

导读:


作为运营商生产活动的核心,运营保障体系的演进经历了哪几个阶段?传统的运营保障体系存在哪些问题和核心诉求?新一代运营保障体系的目标和愿景是什么?浩鲸科技如何构建新一代运营保障体系?传统网管该如何融入新一代生态?


本文我们将带来浩鲸科技全新的解决方案……


运营保障发展阶段划分


运营保障体系是运营商生产的核心,传统上一直是以网管的形式存在的,从网管体系的形态来看,它的发展大致可以划分为四个阶段,当前正开始第四阶段。



各个阶段运营保障体系的形态及特征不同,总结如下:

◉ 阶段一:厂家 EMS 阶段


早期,设备厂家提供网管,按照管理容量规模的不同,同地市同一张网络多套网管存在,厂家分立、用户体验不一、能力参差不齐。

◉ 阶段二:专业综合网管


以交换网管、无线网管、传输网管、IP 网管等形态存在,逐步建立起跨厂家的专业综合网管,提供专业统一的运维操控台,支撑起专业内部自己的生产运维流程。该阶段网管最大的特点是缺少跨专业的协同。

◉ 阶段三:集中故障、综合告警……


后来,为解决跨专业综合协同问题,出现了综合告警、集中故障、集中性能……基于人工经验梳理的静态规则,实现跨专业的告警关联分析。该阶段网管最大特点是基于静态规则运行,智能化程度不高,信息态势感知不够实时、不够全面,被动运维,缺乏综合实时的信息态势也让预测缺位,根因定界定位的准确性也难进一步提升。

◉ 阶段四:新一代运营保障


网络从简单到复杂,业务种类也越来越丰富,客户对感知体验的要求也越来越高,对应的网管体系也是从无到有,能力从弱到强,运营保障理念随之一代一代升级。尽管当前新一代运营保障体系面目还是模糊的,但对应的一些关键特征业界正在逐步形成共识,结合上一代网管体系存在的问题,新一代运营保障体系应该具备如下这些特征:


  • 全信息态势实时感知,拓扑、告警、性能 、流量、信令、MR、路测、拨测……“三屏”或“五屏”或“多屏”

  • 大数据和 AI 智能化应用,为传统无法解决的问题寻找智能化解决方案,如资源不准确下的告警关联、不可预知故障/失效诊断……

  • 全网一体高效集约的生产指挥调度体系,支撑云网、5G、切片、政企专线等全网性业务,更好支撑重保和应急场景支撑

  • 面向客户和业务的主动运维,先于用户发现问题,为政企客户经理、运维经理和各级管理提供支撑,提升客户感知


随着中国电信 O3 和中国移动 O4 的推进,随着人工智能技术成熟以及应用逐步丰富,新一代运营保障体系将逐步走入生产。


传统运营保障体系存在的问题及核心诉求


新专业/新网络运营就绪,网络监控、指挥调度、生产排障、以及面向客户和业务的运维是电信生产运维最典型、最核心的场景,我们从这些场景来看传统运营保障体系存在的问题及诉求。


◉ 云网运营就绪


5G、SDN&NFV、新型城域网、下一代光传输网络、物联网……网络技术升级迭代越来越快,新专业/新网络快速运营就绪是新业务快速加载上线的基础。当前,业务侧已经初步落地“新业务按天加载上线”,而配套的后端云网快速运营就绪机制尚未启动。传统的网管体系对新专业/新网络的运营就绪支撑是一个系统工程,涉及众多系统的开发、部署和调试,周期很长。


◉ 网络监控


日常监控、重点场景监控、应急监控,发现问题,对问题进行定界定位,并派发处理……当前存在的问题聚焦在针对前端特定场景定制耗时长,因数据分散导致问题发现不完整不及时、问题分析效率低,等待故障出现被动处理;核心的诉求是打通数据链,支持监控场景用户快速自定义,故障智能分析与处理,故障智能预测主动运维。


◉ 指挥调度


台风、泥石流等自然灾害、重大故障等突发事件发生时,以及重大活动等高价值事件保障期间,按照预案流程启动生产指挥调度,前后端协同工作。针对指挥调度,如下是普遍现象:


  • 只有 NOC 大屏提供通用信息,缺乏以应急事件为中心的专用大屏;

  • 信息孤岛,各专业信息没有打通,信息不及时不透明;

  • 线下联动占比高,协同效率低,指挥不畅,各单位各自为战;

  • 流程割裂,底层的数据和能力没有根据场景和预案整合,缺乏高效使用这些能力的手段,效率低、门槛高。


生产指挥未来诉求是要以作战中心模式集中调度,实时汇总信息反映重要态势,根据预案流程启动响应,衔接起前端的一线运维人员、中台的监控和管理人员、后台的专业人员,创建前后端高效协同工作模式,保障高价值事件的高效管控,提升运维生产效率。


◉ 生产排障


传统的生产排障,基于静态规则,强烈依赖资源拓扑的准确性,而规则的完备性和资源的准确性都是很难保证的,而这就导致了无效派单或重复派单,针对疑难故障更是只能通过人工分析方式解决。


未来生产排障的诉求是最大限度减少无效派单、重复派单,支持资源不准确下的告警关联、错配/漏配规则下的告警关联和未提前预知故障的疑似原因诊断,基于策略实现闭环自动化修障。

◉ 面向客户和业务的运维


2B 业务是运营商未来发展的战略高地,随着云网、切片、物联网和政企专线(金融专网、精品专线……)等全网性业务快速发展,运维工作从以往以网络为中心向以客户和业务为中心的主动运维方向转型刻不容缓。面向企业客户提供全网一体化业务运营服务,是运营商面向 2B 市场核心竞争力的重要组成部分,是新一代运营保障中心的核心任务之一。


新一代运营保障体系的目标和蓝图


呼应时代诉求,解决体系当前存在的问题,构建新一代运营保障体系的目标。包括:


  • 新专业/新网络快速运营就绪。支撑新专业/新网络生产运维流程及配套运维工具/能力快速开发及上线,支撑新的运维算法及应用实践快速落地,通过网络的快速运营就绪助力业务的快速加载运营。

  • 全网一体化运营。针对云网、切片、物联网和政企专线/专网等全网性业务,面向政企客户经理、运维经理或企业客户提供全网一体化运营视图和一站式服务体验。

  • 大数据和 AI 助力智慧运营和主动运维水平跨越式提升。基于底层系统提供的数据和能力,创新性运用大数据和 AI 技术,打造高阶智能应用,解决传统技术无法解决的生产运维难题,如资源不准确下的故障智能定位和故障预测等。

  • 运营流程升级变革。打通数据链,支撑监控场景快速自定义,促进日常、重保和应急等场景化、在线化和全自动,建设集中指挥调度体系,推动运营流程升级变革,大幅提升生产运维效率。

  • 新一代创新运营合作生态构建。众所周知,因互联互通需要,一代一代的网络技术都有比较强的“规范化”特征,集团或某些先行省份(运营商自研团队或设备厂商、网管厂商等合作伙伴)针对某种网络开发的创新性运维算法或应用,具备全网快速落地的条件,即“一点创新全网复制”。


可以总结, “集约”(快速运营就绪、全网一体化、一点创新全网复制)、“智能”(智能定位和故障预测等)和“生态”(省份创新全网复用、运营商/设备/网管生态合作)是新一代运营保障体系的 3 大“支柱”,结合底层提供的数据和能力基础,并以一条闭环自动化流程驱动(感知->识别->预测->决策->处置->闭环评估),构成了新一代运营保障体系的蓝图。



浩鲸科技新一代运营保障体系的构建思路和关键特征


大数据和 AI 驱动生产流程变革升级,以往生产运营很多不能解决的问题都将获得解决,新的科技会带来新的生产力。


为更好支撑新时代云网业务(5G、云网、切片、金融专网……)卓越运营(集约化、生态化和全网一体化运营),新一代运营保障体系核心是基于大数据和 AI 构建起来的,这是它区别上一代运营保障体系最显著的特征,它有一条清晰的主线,如下图。



基于上述思路构建,浩鲸科技新一代运营保障体系提供“运营保障全息图”、“场景设计和可视化”、“传统和智慧双擎设计”、“知识图谱辅助智能运维”、“运营快速就绪”、“全网一体化运营保障”和“全网运营保障生态体系建设”等 7 大特征或解决方案。


◉ 基于大数据技术构建运营保障全息图


当前最大问题是数据孤岛,数据分散在各专业网管、各业务系统中,信息冗余、不一致、缺乏关联、价值低。构建运营保障全息图,打通全网业务、资源、告警、性能、投诉、信令、拨测、路测等数据,是运营保障水平升级变革的基础,通过综合信息感知态势和辅助智能排障。


不同的业务、场景、故障或用户定制,对信息有不同要求,需要对信息灵活整合,对外提供专业化的信息服务。


全息图难以一步到位构建完成,可采用大数据建模、关联和服务开发技术,实现 One Data、One ID、One Service。



◉ 场景定制和可视化


不同的场景需要的信息不同,根据台风、亚运会、切片、金融专网、两会、领导视察、甚至不同客户等定制信息。为不同的用户开发不同的视图,以不同的方式呈现信息,聚焦核心内容。提供 SDC(包含拖拉拽大屏/页面设计器和信息联动低代码开发平台)开发套件支持场景开发,为运营监控和集中指挥调度提供实时的态势感知。



◉ 双擎设计,智能定界,主动运维


传统规则引擎+静态规则,总有告警无法关联,原因可能包括资源不准确、错配漏配规则、未可预知故障(特别是虚拟化 IT 层面的故障)、固定时间窗设置导致时间窗外延迟到达的告警……采用动态阀值进行性能告警、把所有的告警最大程度关联到根故障,能最大限度降低重复派单率和无效派单,可聚焦故障提升效率。采用双擎设计,传统规则引擎未关联上的“孤儿告警”(非根告警),可通过智能引擎(AIOPS)进行疑难故障定界定位。AIOPS 故障预测结合隐患管理,可有效提升主动运维能力。



◉ 知识图谱,能力工具化,AI 辅助智能运维


传统网管提供的能力采用知识图谱方式串起来,提供跨专业端到端的能力,故障和性能劣化事件可经由策略驱动,根据知识图谱提供的方案,实现闭环自动化。整合底层网管提供的能力,知识图谱可为重大故障处理、应急处理和日常运维提供丰富的工具、方案及流程。


智能运维门户使用统一入口,支持语音、自然语言和向导式富文本方式交互,AI 助手辅助运维,学习门槛低,运维效率能大幅提升。



◉ 新网络运营保障快速就绪,全网运营体系集约化水平提升


“新业务快速加载”,前提是新专业/新网络快速运营就绪,运营保障支撑基础要同步。网络技术按规范发展,集团或创新省份针对某种网络开发的运营保障技术,一点创新全网复制推广,能大幅提升新网络运营保障速度和水平(如迭代推出新算法)。


运营保障技术可大体包括运营保障信息实时、综合性能/质量/感知评估、告警/故障智能处理、运营流程闭环、面向客户一户一案/主动运维等,可设计为全网复用的专业保障包。通过设计态/运行态分离方式,某省针对 5G、云网、切片、新型城域网等开发的运营保障包或专业算法,可经由集团复制推广到其它省份,提升全网运营保障的集约化水平。



◉ 全网一体化,满足云网、切片和专线全网一站式服务


为企业客户提供一点接入全网一站式运营服务,企业客户有强烈需求,也是集团集约管理所需。

围绕资源树整合开放数据和能力服务,基于资源树调度所需的数据及能力,可方便快捷构建起全网一体化运营等综合应用。其中,跨省端到端资源树构建是基础。



◉ 全网运营保障体系生态化建设,省份创新可全网复用


制订或遵循一个开放的标准,引擎加载运行,即专业包可独立开发。专业包可为某个精品应用、针对某个网络运营优化的算法、省份(自研团队、设备厂家、网管厂家、其它合作伙伴...…)创新,集团采用,全网规模复制。


附带工具,允许省份加载专业包的时候,可适配或二次创新开发。



传统网管如何融入新一代运营保障生态体系


当前运营保障体系是以无线网管、核心网管、传输网管、集中故障(或综合告警)、集中性能等形态存在的,积累了众多的经验、规则、流程、工具和能力,它们即使到了新一代运营保障体系里也依然具有巨大价值,应该采取合适的方法把这些有价值的资产融入到新一代运营保障这个新的生态体系里面去,并且在新的体系里能够得到增强,发挥更大价值。


笔者建议采用“网管应用-能力解耦”、“新运营体系建设”和“重构”三部曲完成整个生态融入过程。具体如下:


◉ 网管应用-能力解耦

传统的网管应用和能力解耦。


◉ 新运营体系建设

传统网管解耦出来的能力层作为塔台底层能力,开放整合重用,应用能力可基于运营保障中心提供的综合信息和能力进行增强。

运营保障中心着眼提供跨专业跨域综合信息相关的服务及智能预测服务。


◉ 重构

采控平台逐步替换全专业采集与底层网元接入控制,逐步完成网管解耦重构,传统网管应用专注专业内的运维操控。



发布于: 2 小时前阅读数: 2
用户头像

鲸品堂

关注

全球领先的数字化转型专家 2021.03.16 加入

鲸品堂专栏,一方面将浩鲸精品产品背后的领先技术,进行总结沉淀,内外传播,用产品和技术助力通信行业的发展;另一方面发表浩鲸专家观点,品读行业、品读市场、品读趋势,脑力激荡,用远见和创新推动通信行业变革。

评论

发布
暂无评论
新一代运营保障体系探索