服务韧性工程(SRE)论坛演讲实录 | 浙江移动:云化网络可观测性的探索和实践
2023 年 12 月 15 日,2023 首届服务韧性工程(SRE)论坛在杭州成功举行,大会邀请了来自通信、金融、医疗、制造行业等 100 余位 SRE 领域专业人士参加,本次大会特别设立了主题为“SRE 的实践和应用”的分会场,分会场由中国移动通信集团浙江有限公司和 SRE 专委会联合出品。邀请来自通信、云计算、互联网、软件等行业的专家,就 SRE 实践与应用、智能运维建设、可观测性等热点内容的技术发展及应用实践展开讨论。浙江移动网管中心 NOC 高级架构师 王娜带来《云化网络可观测性的探索和实践》主题演讲。
浙江移动网管中心 NOC 高级架构师王娜,进行《云化网络可观测性的探索和实践》的分享,王娜为大家介绍了可观测定义、监控与可观测的区别,以及浙江移动在推动云化网络可观测性方面的实践与挑战。
王娜强调了在云化网络中实现高度可观测性的重要性,以及浙江移动在可观测领域,如数据接入和关系沉淀、端到端流程自闭环、自适应 AI、网络全程可视和智能交互等方面的重要突破,为与会者提供了丰富的可观测能力建设思路。
以下为演讲实录:
一、可观测业界的定义及影响
首先,分享了可观测业界的定义及影响。可观测性是衡量一个系统从其外部输出的知识中推断系统内部状态的一种度量,强调以更多的数据和数据关联分析支撑端到端决策闭环。可观测源于控制理论,近两年在 IT 运维领域特别是云化网络运维方面应用广泛。
二、可观测与监控的区别
其次,分享了可观测与监控的区别,剖析了可观测的第一性原理是数据和观测。可观测强化数据的全面性和可关联性,并基于数据洞察形成建议,最终引导人类做出管理决策。
三、可观测在浙江移动的落地实践
重点分享了可观测在浙江移动的落地实践,通过构建全栈、多维、智能、平台化的可观测能力,推动监控向可观测转型,实践大事件辅助决策、小事件自动驾驶的网络自智模式,支撑“15150”目标达成。
四、可观测的五个突破
在可观测实践方面,王娜重点分享了可观测相对传统监控带来的 5 个突破以及实践案例。根据前后对比直观的表达了可观测在 ICT 运维的实践收获。
(1)数据突破:首先引入更多类型的数据,除传统的告警、性能、拨测、投诉之外,还引入了日志、流程、资源、舆情多种维度的数据,另外是更细粒度的数据,如传统指标只有 5(粒度)+15(时延)或者 15+30,现在明确感知类指标要求 1+5,黄金指标 1+1,提升了感知的及时性。
(2)关系突破:传统的监控是单专业比较确定性的链接,而现在更强化做跨域跨层 fullmesh 的链接。传统监控单指标、单告警分析,而现在重点进行多指标的关联分析以及综合资源关系、告警、性能多个维度的分析,更能准确掌握网络的运行状态。
(3)自适应能力突破:一方面由传统的单域、离散的运维工具转变为故障流程端到端可编排的平台能力,另一方面基于传统专家经验+固定规则的监控模式引入通过 AI 挖掘构建故障传播图进行根因分析,解决复杂场景问题。
(4)可视化表达突破:可视化是人工智能和机器智能的结合,通过可视化的表达提高人类决策的能力,解决更多更复杂的问题。在可视化方面重点通过进行了网络的全程可视能力建设,即通过全程可视进行回溯和预测。
(5)交互能力突破:利用 chatops 和大模型,提升交互效率和质量。
版权声明: 本文为 InfoQ 作者【雅菲奥朗】的原创文章。
原文链接:【http://xie.infoq.cn/article/f2f3363ba0a44ae111bb77ff8】。文章转载请联系作者。
评论