写点什么

实现“无感知”的网络运维,新华社融媒体流量分析平台的创新之路

作者:智维数据
  • 2023-02-17
    北京
  • 本文字数:3068 字

    阅读完需:约 10 分钟

导 言


新华通讯社,简称新华社,是中国国家通讯社和世界性通讯社,在国内各省会城市和直辖市设有分社,在境外设有 180 多个分支机构。新华社建立了覆盖全球的新闻信息采集网络,由于新闻机构的业务特性对实时性的要求较高,网络保障的首要任务是不能让网络中断,因此统计网络带宽利用率和链路传输质量就显得尤为重要,可以对运维工作提供有力的数据支持和指导。过去网络技术部门在流量和业务分析方面还不太完善,存在一些监控盲区,无法追溯故障原因。现在,新华社通过建立流量监控平台,实现了链路监控视图和业务监控视图,支持故障根因分析及事前预警,提升了新华社的网络性能分析能力和重大报道任务的保障能力。


2022 年 3 月 13 日晚,举世瞩目的北京冬、残奥会正式落下帷幕。新华社全身心投入、全媒体呈现、全世界覆盖,持续向海内外推出一大批权威充分、形态多样、出新出彩的精品力作,圆满完成了北京冬、残奥会报道任务。本次我们采访了新华社网络技术部门流量监控项目的负责人(以下简称 PM),请他们介绍是如何通过流量分析提升日常运维效率以及支持重大事件报道任务的。


1

打造无感知的流畅网络体验

是新华社网络运维的目标


记者:网络运维对于国家级的宣传单位来说重要性主要体现在哪些方面?

PM:新华社在一些重大报道和应急报道时,对网络的搭建和运行会有很高的要求,无论是处于任何采访条件下,都要保证能够快速连接、传输信息。在网络运维的效果上,运维团队比较认同的观点是,无感知的网络才是运维的终极目标。而为了让用户感知不到网络,就需要在网络建设或者运维方面做更多地努力,保障它无缝衔接、平滑地运行。

记者:运维团队主要的工作难点是哪些?

PM:现阶段运维人员比较紧张,团队管理的业务系统又比较多,有园区网、城域网、广域网。另外,由于每张网承载的业务属性不一样,因此对网络运维的要求也不一样。这其中最关键的问题是网络不能中断。和有些企事业单位不同,部分企业希望定位故障之后再去解决网络问题,而我们要以恢复业务为优先。

记者:以前的网管平台的情况是怎样的?现在的流量监控平台可以解决哪些主要问题?

PM:以前的网管工具通常是网络设备自有的,对于运行状态、设备潜在风险具有一定的监控能力,但对于本身承载于设备之上的业务、流量以及跨系统的故障则无法进行有效分析。另外,在可视化方面能力不足,无法通过视图直观地展示监控情况。

而且,之前的网管工具数据是实时性质的,无法进行故障回溯,现在新搭建的流量分析平台通过结合智维数据 nCompass 的产品,可以进行故障追溯,查找过去某一个精确时间点的业务以及此刻的流量,支持关联分析和根因分析,能将现有隐患排除,避免之后的故障风险。


2

全流量智能分析、关键业务监控、

微探针分布式流量可视化

打造适合融媒体平台的流量分析解决方案


场景 1: 全流量智能分析+长时效历史回溯,为日常运维效率提升做支撑

记者:我们经常会遇到哪些类型的故障,流量分析平台在这其中起到了什么作用?

PM:一种是流量中断类故障,这类故障虽然影响会比较大,但是解决起来相对简单,用流量监控平台精准定位故障点,可快速解决故障并恢复业务;另一种是访问慢或者丢包类故障,这类故障需要逐一排除故障点,处理起来会比较耗时。之前处理这类问题会非常依赖人工,但由于部门日常任务比较繁重,一旦发生故障,运维团队会陷入超负荷地运转。现在,这类问题使用流量监控就能快速解决。先通过平台进行历史故障排查,再基于全流量采集对历史数据进行智能分析,可以准确判断过去在这个时间点里发生了什么问题。

【图一】 新华社国际宽带业务通信视图


例如,之前有用户反馈他在每次登录应用时会出现 10 秒左右延时才跳转到下一步。而原理上分析,简单的交互动作不应该花费这么多时间。当时运维人员用流量监控平台进行历史数据回溯,结果发现用户使用的某个插件访问了 DNS,而 DNS 解析这个域名因此导致了 10 秒延时。正常访问内网上设备是没有域名的,域名解析此时肯定是不必要的。在确认原因之后,运维人员建议用户进行插件修改,速度就回复正常了。

还有在安全方面,曾出现安全部门反馈给运维人员查到网络设备可能遭到攻击。运维人员需要知道攻击的来源以及发起攻击后是由哪里跳转的。因为攻击的过程不可复现,所以需要查看历史数据中的原有完整数据链。在这方面,结合平台的历史流量回溯能帮助运维人员找到相关线索。


场景 2:重大事件网络全局监控,为现场报道流畅输出提供保障

记者:流量监控是如何匹配重大事件报道任务需求的呢?

PM:新华社每年都会有一些重大事件的报道任务,也会派出大量人员参与报道,在新闻现场技术运维部门也会搭建技术平台保障现场报道。在整个报道任务期间网络会产生大量数据,运维人员可以使用流量分析平台进行网络全局监控。

以 2022 年冬奥会为例,冬奥会开幕式非常盛大,现场记者需要不间断地进行文字和图片类的取材报道。现场有多台高点固定和机器人相机,进行遥控拍摄后马上将海量图片传回新闻中心,因此通常会形成较大的流量流向是国家体育场到新闻中心方向。在此期间,新华社现场技术人员收到组委会运维团队的反馈,指出现场产生了长时间、大量的反方向流量,希望我方协助调查异常原因。

【图二】冬奥会运维监控视图


此时运维人员通过流量监控平台分析后发现,虽然记者们在使用高点固定和机器人相机拍摄完成后把照片传到了新闻中心,但同时由于记者需要在开幕式现场选片,所以需要再集中把照片从新闻中心拷回到体育场。这种情况如果没有流量分析平台,运维人员会难以判断是否真的出现了异常,而现在,通过分析视图不仅能够分析到原因,还能够查看到记者传输照片的连接数,能够大致判断记者传送了多少张照片。

除此之外,在奥运会报道期间,偶尔有记者反应上网慢,运维人员通过流量监控平台也能精准定位故障原因。比如某个用户由于业务应用把带宽给占满了导致网速变慢,此时运维人员就可以给业务部门一个合理的反馈和调整建议。


场景 3:微探针技术创新赋能设备轻量化,用户体验再获提升

记者:本次冬奥会报道的网络技术保障任务中哪类创新技术您认为是最有价值的?

PM:不同于常规数据中心的网络流量监测搭建,这次冬奥会报道技术保障任务中,网络部选用了智维数据 nCompass 的微探针技术。在未采用微探针技术之前,传统的流量分析产品几乎都要承载在服务器上,由于服务器本身的体积、重量都比较大,即使选择比较小的服务器,在遇到外出报道任务时,运维人员携带至报道现场也不方便。

【图三】 微探针部署示意图


这次网络部采用了微探针的数据采集技术,首先它体积小,运维人员有现场任务支持时可以一次携带多个微探针,符合对设备轻量化的要求。在之前的类似任务中,由于携带设备的限制,我们只能采集一个内网出口的流量,现在通过微探针的部署,就能实现同时采集多个端口的流量,在现场也能进行端到端的网络分析,为我社重大事件的技术保障提供了更全面的数据支撑。


4

展望

移动监测是未来实现更多分析场景的基础


记者:如何看待未来进一步加强移动监测能力?

PM:新华社因为其融媒体的业务特性以及对新闻时效性的要求,对移动监测的需求是比较迫切的。以冬奥会为例,之前流量采集只能部署在出口上,可以了解总社到前方新闻中心之间的流量。这次采用微探针采集方案,在场馆一侧的交换机上也做了镜像,运维人员就可以看到场馆方向的所有流量,以用于业务分析。未来如果增加更多微探针的部署,就能实现更多方面的业务分析,便于去提升业务端的各方面能力。

【图四】 护航新华社冬奥会技术保障


对于未来的流量分析场景上,不止网络数据,希望也能实现业务端到端的流量探查,展现在整个通信链条上的全部传输过程和细节数据,无论是大到一条完整的业务流程或者小到一个通讯对。这样对于运维团队的故障排查,数据可支持多场景的深入分析,实现真正的 AIOps 端到端的可视化智能运维。

发布于: 刚刚阅读数: 4
用户头像

智维数据

关注

还未添加个人签名 2022-11-01 加入

还未添加个人简介

评论

发布
暂无评论
实现“无感知”的网络运维,新华社融媒体流量分析平台的创新之路_大数据_智维数据_InfoQ写作社区