服务韧性工程(SRE)论坛演讲实录 | 浙江移动:运营商 ICT 项目 SRE 运维的探索与实践

2023 年 12 月 15 日,2023 首届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中国信息通信研究院·稳定性保障实验室、中国移动通信集团浙江有限公司联合主办,中关村人才协会、SRE 专委会、雅菲奥朗、广通优云承办。会议邀请了来自通信、金融、医疗、制造等行业 100 余位 SRE 领域专业人士,共同探讨服务韧性工程的最新发展趋势和创新实践。浙江移动网络部客户响应中心项目售后服务部负责人金振带来《运营商 ICT 项目 SRE 运维的探索与实践》主题演讲。

浙江移动网络部客户响应中心项目售后服务部负责人金振在这次分享中主要介绍了 SRE 在运营商 ICT 项目中的挑战与实践,并讲述了在运营商 ICT 项目环境中如何应对系统故障、提升服务可靠性。
以下为演讲实录:
数字经济为社会进步提供强大推动力,而运营商 ICT 项目是数字经济的重要组成部分和发展路径。截止 2023 年底,仅浙江移动就已部署 1.4 万个 ICT 项目,运维工作繁重。然而与传统的 3G/4G/5G、专线、IDC 和移动云业务相比,ICT 项目的运维面临诸多挑战。

困难举例(1):客户的网络存在“物理隔绝、数据隔绝”等问题,运行质量数据无法快速获取。

困难举例(2):客户的终端五花八门,且存在大量“哑设备”,无法与运营商 OMC 对接。

面临上述困难,我们贯彻“三步走”战略,实现从无到有,从有到优,从优到智的跨越。

Step 1:运维能力从无到有
构建完备的 ICT 项目 SRE 运维组件,包括“资源数据管理、运行质量纳管、运维流程管理、统一支撑门户”等四大能力。

资源数据管理能力:ICT 项目的资源数据管理,涉及“数据结构、数据获取、数据存储、数据稽核、数据分享”等关键能力的构建。

运行质量监控能力(1/4):为丰富 ICT 项目监控手段,建立了四种采集渠道和七类质量纳管手段,覆盖全省 3422 个项目,确保运行质量纳管率达 100%,设备在线率 99.8%。

运行质量监控能力(2/4):打造 ICT 项目的专属 OMC——DICT 工作台,面向 ICT 项目做集中运维支撑,实现性能告警统一采集,设备网络统一监控,运维生产统一支撑,保障项目端到端运行质量,提升运维效率和客户感知。

运行质量监控能力(3/4):浙江移动推出“DICT 轻量化保障系统”,为客户提供快速部署、即插即用的质量保障服务,支持自助运维,解决 DICT 项目组网和数据内网隔绝问题。该系统已在全省 11 个地市 35 个项目中成功应用。

运行质量监控能力(4/4):DICT 轻量化保障系统在台州 12345 政务平台应用,实现质量可视化、运维自动化和视频智能诊断,有效管理阿里云和华为云虚拟机及多种设备,显著缩短故障处理时间。

运维流程管理能力:构建 5 个标准化运维流程,实现故障处理、投诉处理、主动服务、数据稽核及质检考核流程线上化,运维流程可视可管可控。

统一运维支撑门户:打造政企业务运维支撑系统(简称“政企一体化平台”),面向政企业务运维提供统一门户接入、统一流程支撑、统一数据平台及统一底层能力。

运维能力从无到有的阶段效果:

Step 2:运维能力从有到优
从有到优的阶段,我司重点在四个环节进行了以下探索;

质量问题发现环节:运维过程中,运营商和客户对视频监控项目的关注点存在差异。为满足客户更细致的需求,我们推出基于 AI 的视频质量诊断,以解决人工巡检的局限性。

故障根因定位环节:在视频监控项目中,故障涉及终端、PON 网络、承载网络和业务平台。传统处理方式效率低下,影响客户体验并增加维护成本。因此,我们引入基于拓扑收敛的故障定界定位方法以优化故障处理。

客户投诉受理环节:政企客户更倾向于微信投诉,为提高处理效率,浙江移动打造了基于 AI 的自然语言对话机器人“浙移小 T”,实现自动问答、受理、生成工单等功能,提供主动关怀。

客户主动服务环节:ICT 项目数量多,维护人员投入有限,保障各类项目支撑需求和资源有效匹配,多维度分析项目数据,利用 AI 构建客户画像,生成客户专属服务方案,差异化分配服务资源。

运维能力从有到优的阶段效果:

Step3:运维能力从优到智|未来展望
作为 ICT 项目的运维方,核心的痛点在于,如何在有限的运维成本下,为客户提供良好的产品体验。我司选择的路线,是借助 AI,实现网络的“自智”。所谓网络自智,包括自监测、自优化、自愈合、自防护等四个维度的自动化和智能化运维。

总体来说,浙江移动在 ICT 项目中面临网络隔绝和终端多样性挑战。为应对挑战,实施三步走战略:建立完备运维组件,利用 AI 提升效率和客户满意度,实现网络自智以提升客户体验。
版权声明: 本文为 InfoQ 作者【雅菲奥朗】的原创文章。
原文链接:【http://xie.infoq.cn/article/536e62af5a1b85d704a8c7da5】。文章转载请联系作者。
评论