视镜：华为云媒体质量管理最新实践

2021 年 12 月 07 日
本文字数：7201 字
阅读完需：约 24 分钟

摘要：对全球不可靠的互联网络和大容量分布式系统的挑战，如何以用户为中心，从可用变得更好用，追求更流畅、更清晰、更快、更省的极致用户音视频体验？

本文分享自华为云社区《华为云媒体质量管理最新实践——“视镜”》，作者：音视频大管家。

对全球不可靠的互联网络和大容量分布式系统的挑战，如何以用户为中心，从可用变得更好用，追求更流畅、更清晰、更快、更省的极致用户音视频体验？2021LiveVideoStacCon 北京站邀请到华为云媒体服务资深研发专家—康永红，为大家分享华为云媒体服务在追求极致用户体验质量道路上的沉淀成果——“视镜”。

1、媒体质量新需求与新挑战

随着用户对音视频业务的体验要求越来越高，音视频体验整体表现特点是“二高二低”，超高质量、超高流畅、极低时延、低成本。超高质量：用户对于沉浸式的观感要求越来越高，视频码率也从 4K、8K 发展到更高；同时帧率也在向 120fps 发展。超高流畅：要求低于 0.3%的丢包率；极低时延：用户“天涯若比邻”的实时交互感要求低于 50ms 的极低时延；低成本：当前互联网流量中，音视频流量占比约 80%，算力消耗占比约 40%，60%的储存占比 60%。不同运营商的带宽成本不同，不同区域的计算算力价格也不同，要综合考虑成本最优。

另外，要支撑极致体验，还需要一张具备带宽、时延和可靠性三个核心特征的媒体网络。，具备感知 QoS 质量的 Fullmesh 化实时音视频网络。

这里提到三个关键词：无所不在的音视频联接、“资源共享”、“云原生”。

网络时代，人们白天使用云桌面办公，进行视频会议，晚上看直播或和朋友视频聊天等，用户随时随地在消费音视频业务，音视频联接无处不在，多种业务跑在音视频媒体网络上，从成本和质量上要求资源共享复用，资源复用模式也在不断演进，从 CDN 共栈模式，向共网络、共算力、共实例的 OneMedia 的趋势发展。而且未来随着高清晰度、高流畅度、强交互感的元宇宙在驱动算力重构，向边缘计算快速演进，高计算处理能力放置在更靠近用户和设备的位置，内容就近计算储存，边缘计算可节省高达 35%的资源。

以上是新需求，再来看一下音视频媒体业务面临的质量挑战。众所周知，体验质量对业务至关重要：体验质量每提升 1 个点，受益预估可以增加 20%，而且成本会下降 30%。从直播来看吗，如果我们能将直播卡顿率降低 20%，整个直播播放时长，能增加 30%以上。但体验质量优化提升面临的挑战也非常大，以直播业务媒体网络结构为例，从推流、拉流、传输、到分发，任何一个环节出现不稳定的情况，都会导致终端播放体验变差。总体而言，目前音视频业务普遍面临着以下四大挑战：

1、用户体验优化手段少，目前主要是局部调优或人工调优，效率较低，效果较差。

2、终端硬件种类多，有低端、中端、高端、操作系统也分为 Android、Windows 等。不同终端、不同操作系统上跑的业务也不同，比如直播、实时音视频互动、视频会议，每个场景对体验的要求各不相同，比如直播更关注清晰度，会议通话更关注流畅度。如何适应不同终端的不同业务场景，也是一个挑战。

3、成本优化难：多样性体验成本诉求以及资源建设周期成本都需要优化。

4、查问题定位难，运维效率低。

以上四个挑战可以综合为一个问题：如何实现多业务多客户多目标质量最优？

如何做到多业务多客户多目标的综合质量最优，接来下从体系和能力建设视角分享下我们的优化之道。去年也做了关于体验优化这个问题的分享，但当时只分享了两部分，体验诊断及体验提升。但在实际业务中，这两点根本无法达到预期。经过摸索总结，我们认为局部优化在业务量比较小的阶段作用很明显，但进入到几百 T 的大业务量阶段时其作用就不明显。体验质量贯穿媒体业务的设计-研发-运维全生命周期，就要求建立端到端的质量管理过程，音视频媒体网络是基于不可靠组件和不可靠互联网络，在全球范围构建大容量分布式系统，在设计阶段，考虑跨国跨区域跨运营商的网络的不可靠性，要具备面向不同业务场景定义体验质量体系标准和网络设计能力，来保障用户确定的实时音视频互动体验需求。在研发环节要具备音视频体验质量的测试服务能力，在运维阶段，整个闭环中的每一环节都需要进行从监控到诊断智能的体验提升。最后是专业的运维保障能力，对重大的运维事件及场景进行保障。

接来下分别针对各个环节分享华为云的实践。

2、华为云音视频媒体体验质量体系

首先分享下华为云音视频媒体体验质量体系，华为云以用户为中心，从用户使用不同音视频业务的生命周期体验历程去看体验质量。入房请求阶段，用户关注的是快速看到内容，这一阶段的核心关注项是拉流成功率、首帧时长、时延等指标。播放环节用户关注的是播放是否清晰流畅以及端到端到时延。

音视频媒体网络是基于不可靠组件和不可靠互联网络，在全球范围构建大容量分布式系统，来保障用户确定的实时音视频互动体验需求。为解决音视频体验质量无章可循、不可衡量、无保障的痛点，基于用户体验历程，从保障的维度范围我们综合端、网络，从传输层、媒体层、信令层定义了一套华为云音视频全网络体验规范框架 ELA，各个音视频业务都可以参照这个框架来定义体验质量。

我们认为“质量”的边界绝不会仅止于此，一切皆为“序章。

区别于直播体系只关注 QoS 或 QoE 环节，我们基于体验框架 ELA 以用户体验为中心的宗旨设计了一套 4 层 SLA-QoS-QoE-ELA 的音视频体验指标金字塔体系，每层都包含对应体验框架定义的传输、媒体、信令三种类型，从低向上逐层支撑用户体验。每个音视频业务都可以参照这个金字塔体系定义业务指标。 SLA 层定义系统的高可用性（节点可用度、实例可用度、API 可用度），将“可用”转为“好用”的过程需要 QoS 层和 QoE 层来保障，ELA 层是我们向客户提供音视频服务的体验承诺，是非常严谨的指标，只有达到这个指标，服务才是好用的。从网络端环节和终端环节的每一层打开都包含网络层、媒体层和管理层，对每一层进行相应的质量评估。以终端媒体层为例，在 QoS 层，会监控媒体的卡顿率、帧率、码率，在 QoE 层，会监控流畅度、清晰度。在 ELA 层，会监控卡顿达标情况等业务综合性指标。

以 SparkRTC 业务为例，基于 ELA 体系，SparkRTC 发布了视镜服务，可以通过 9 个维度方面的指标实时监控和洞察分析业务质量情况和发展情况，例如通话监控观测实时通信指标、体验监控分析体验质量、规模监控观测用量规模、网络监控实时情况、设备监控判断内存、CPU 情况、异常诊断（基于 ELA 体系及时发现问题在终端或是网络）、质量评测。

视镜服务依赖于网络和端的监控数据，由用户行为数据、网络传输面及媒体面数据等综合分析计算而成。

有了体验质量框架和指标体系，还需要质量管理过程和技术平台保障，从技术架构上，支持媒体体验质量工作涉及音视频测试技术、云网络设计、全链路监控与分析、智能决策和调度、智能 A/B 实验平台、音视频专业的运维能力等 6 方面的核心技术。

下面针对这 6 个核心能力展开介绍我们做的一些实践

3、华为云媒体质量优化实践

之前在研发环节没有对音视频体验质量进行充分测试，导致版本上线后出现了体验质量问题，有用户反映出现黑屏、卡顿，经过复盘及思考整个研发环节的短板后，我们构建了专业的音视频测试服务，具体包括：

现网环境的无参考自动对比测试，替换传统的手工拨测方式，提高拨测效率。

实验室环境的体验全参考评测，基于网络模型+全参考，全覆盖测试现网真实场景的体验质量，解决路测的短板，因为路测无法覆盖测试现网所有的网络弱网场景，而有了全参考的环境评测机制，基本能够模拟现网 90%的场景，而且全参考测试出的质量更接近用户主观感受。

在测试流程中，我们针对两个短板设计了解决方案。

自动化持续检测视频画面质量测试：解决了以往在会议场景下只能抽取某一时间点观察画质情况的问题，弥补单点抽测质量覆盖不完整的短板。

音视频质量测试集成研发流水线：• 音视频质量测试集成研发流水线---增加了体验质量的流水线门禁，通过和上个版本测试结果对比自动验证体验质量通过。

产品上线，进入运维周期，首先要具备全链路质量监控与分析，对于了解网络状况、体验优化、容量规划、故障排除等十分重要。全链路检测和分析面临着四方面挑战：准确性（监控指标是否完整，定义指标是否合理）、可扩展性（对于监控上千个节点的大容量网络时，需要具备实时伸缩性）、速度（达到实时监控）、完备性（监控需要覆盖端到端，从推流到拉流）。

我们设计了三条优化实践之路：

1、基于云原生大数据湖构建了亿级规模音视频质量监控数据服务价值链体系，支撑几十 T 业务监控。另外数据湖基于流式计算，能做到毫秒级、秒级、分钟级的实时监控，解决了可扩展性及速度问题。

2、基于“人、站、流”三维度空间实时监控百万级对象各项指标，将系统分为人、站、流后基本能够详细定义指标。

3、基于端（一方端+三方端）和网数数据进行全链路的网络实时监控与分析，解决完备性问题。下面 2 个案例分别是直播业务和 SparkRTC 二个业务的全链路监控和分析，直播全链路分析场景下，端的数据是结合客户的三方端数据和我们的一方端网络数据构建而来，可以监控从主播到观众到网络的整个链路。

右侧的 SparkRTC 是基于一方端的数据和一方网络数据做的全链路网络质量监控，每个节点的 QoE、QoS 指标都可以进行对比，还可以分析用户操作，监控网络的质量。

下面我们从监控的三个维度，用户、站、流分析打开看一些具体实践。

首先是用户体验监控和分析。在通话过程中，由于用户、网络、设备等限制，用户可能会遇到卡顿、延时、黑屏等问题，此类问题统称为体验异常，解决体验异常之前先要定义体验指标，不同业务的体验指标不同，以 SparkRTC 为例，对进房慢的用户（5s 内入房失败）、音频卡顿用户（音频卡顿率≥3%）、视频卡顿用户（视频卡顿率≥5%），进行实时指标监控，检测到指标异常会触发告警、同时实时自动诊断技术能够检测卡顿原因在于主播端网络、传输网络还是接收端网络，如果原因在于端网络，后续还要对其进行网络调度及解决。

其次从网络质量监控分享一些实践。音视频媒体网络是基于不可靠互联网络，在网络优化实践中，我们遇到了三个困境：

1、研发测试基本是路测，带着手机去地铁站、机场等场所，无法覆盖真实、全量的网络场景。

2、现网监控缺少基于网络 QoS 对卡顿等用户体验质量的预测。

3、现网会针对弱网、编解码做优化算法，但目前优化算法较单一，缺少对真实网络各种场景的针对性优化。

基于这些困境，我们思考构建网络模型学习系统，学习现网所有发送端及接收端的 QoS 数据，之后用于研发的音视频测试服务、在线体验自动诊断和在线体验调控优化。在线体验自动诊断是在测试某个网络模型时，这个网络模型会告知此模型中机场或办公室场景的大致卡顿率或其它质量指标，此时如果现网来了一段类似的网络 QoS 时序，那么就会匹配到此网络模型上，我们就可以大概知道可能会出现何种体验问题。在线体验调控优化是在发现某位用户端的网络特别差时，我们会为他选择弱网场景的优化参数（流控参数或降码参数）进行适配。

技术上采用基于网络 QoS 时序聚类智能学习业务场景网络模型，先时序特征聚类，后形状聚类。这里面临的两个挑战，1、每天需要学习现网几十甚至上百 T 的 QoS 数据，通过结合特征聚类和形状聚类的方式能够解决此问题。2、每天要学习现网前一天的全量模型，这里有一个增量策略。

从实际使用情况来看，有以下两个观点适用于所有业务：1、聚类模型数量呈现显著长尾效应，针对少量场景模型优化可覆盖大部分场景（前 100 个模型能覆盖 95%+场景），2、QoS 模型数量呈现亚线性增长，不会新增过多模型，针对已有场景模型优化可覆盖后续大部分场景。

最后是媒体流内容质量评估的实践。媒体流在现网传输、分发过程中可能出现损伤，引起画质变差。一般帧率、码率能侧面反映视频质量，但不等同于用户的主观质量评价。目前如 PSNR、SSIM 以及比较火的 VMF 视频质量评估主要是有参考的，我们需要有效的、实时的、无参考的客观视频质量评估模型以解决四个方面的问题：质量评估，对视频质量做出客观评估，保证最终用户视觉体验；编码优化，评估、优化编码器质量；质量提升，前处理、后处理、画质增强对清晰度的影响；成本优化，调节最优的清晰度、节省码率以及带宽成本。构建自动化极致体验优化系统，提升终端用户体验。

为此，华为自研构建视频在线媒体质量评估能力 HVQA。HVQA 是基于深度网络学习模型的无参考视频质量评估，主要解决两个问题：1、能够检测异常内容，比如黑屏、花屏，目前能满足 1080p，30 帧的检测能力。2、能对画质进行评估，比如清晰度等客观指标。HVQA 已应用在两个场景中：1、端侧视频质量评估。2、服务侧视频质量评估：在服务端对转码视频流进行视频内容质量评估。

实际测试效果显示，异常内容检测方面，在实际业务测试集上对黑屏、花屏的检测准确率达 100%，召回率达 60%，对视频画质，如清晰度的测试情况为 SROCC=0.8283，PLCC=0.7886，CPU 占用增加 1.9%，内存占用增加 1%。

目前华为云的会议系统已在逐步应用 HVQA。

大家平时在体检时会按照体检的大致框架一步步进行，框架中包括体检的指标，也就是系统的组成。我们将体检思路运用到媒体质量诊断，在诊断网络之前要先理解网络，主要做法是基于时空理解网络，包括理解系统、理解用户、理解内容，从影响音视频卡顿的因素看，包括系统（站点之间的网络时好时坏，边缘站点有水位，资源有瓶颈）、用户（接入网络 wifi/4G、本区域和跨区域接入影响）和内容（冷热流影响，主播端产生内容质量差）等各方面。

基于时空体验诊断能力，我们构建了一个整个网络时空孪生世界。主要解决了运维面临的问题如查找难、定位难、优化难，解决之道是基于数据和算法重新定义媒体网络运维，首先要感知网络中的业务类型，业务内容，用户内容，感知之后基于“人、站、流”构建数字世界。系统站方面主要感知时延、带宽、丢包、抖动、负荷等参数；视频流内容方面主要感知质量；用户人方面主要感知行为、QoE。

数字世界中已有百万级对象、千万级关系、亿级时序线。

诊断模型的构建策略是分三层来构建整体的能力，最基础的能力就是构建 L0 全链路网络拓扑基础能力，其次是基于 L0 能力构建基于时空质量因素自动诊断全网体验问题，最上层是业务分析能力层，支撑体验指标与业务规模的多维分析，如果上层业务体验指标发生了变化，通过业务模型、诊断能力，全链路能够快速找到影响因素并进行优化。

接下来介绍在体验提升方面的一些实践，实践包括业务层的全域调度及传输层的全链路加速。现网存在的很多问题是无法使用单一方法解决，这里有四个问题：多 SLA 保障问题，成本高昂问题、资源诉求剧增、业务场景融合，这些问题往往都是多业务，多目标的综合性问题，需要一个数据驱动的云原生媒体网络决策系统来解决，决策系统需要具备的核心能力是智能画像（能够进行 QoS 预测、带宽预测、用户数预测、算力消耗预测），流量调度、算力调度、商业助手（因为所有业务都跑在一张网络上，涉及到资源复用，需要知道下一位用户第二天的复用情况。需要从回源率、成本、复用比三个维度进行预测）。

解密多业务多目标全域决策的实施流程，首先从四个维度感知各个音视频业务，包括健康特征、容量特征、成本特征，质量特征。接着建立特征画像库，包括用户画像库、站点画像库、网络画像库。综合以上画像结合调度算法（接入调度算法、回源调度算法、Full Mesh 调度算法、转码算力调度算法）支撑用户体验的提升及降成本。

通过多目标、多业务的调度技术实践，在回源率降低 20%的情况下，首帧时延还能优化 8%，转码算力成本降低 50%。

下面分享传输层全链路加速服务。

传统 Internet 通过 OSPF、BGP 等标准路由协议 Underlay 传输，它不感知时延、丢包等 QoS 故障，导致无法满足上层业务应用 QoS 质量诉求。Internet 长距离传输无法满足普通 TCP 类业务 QoS 要求，因为跨国端的时延基本大于 300ms，丢包率超过 20%。

我们针对以上问题自研了全链路网络加速服务，在 Internet Underlay 网络上叠加 Overlay 网络，实时感知每条链路的 QoS（时延、丢包率），选择最佳 Overlay 路径流量转发，从而提供相应的 QoS 承诺。

基于全链路传输加速服务，应用于国内 RTC 加速场景，从测量数据上看，ADN 选择的路径时延要小于级联架构组网下 RTC 的时延，在极端情况下对比更明显。部分路径优势非常明显，如郑州到济南，从 50ms 提升至 10ms 以内。应用于海外加速效果，时延加速在 Internet 传输的几百毫秒的基础上平均提升 20%，全球时延在 200ms 以内，消除了 90%的丢包场景。

最后分享我们在重大事件运维保障的一些实践，如保障国家级重大会议或直播赛事，保障挑战很大，包括时间紧，任务重，保障方案复杂，保障压力大，还要做到零事故、零中断、零卡顿，零花屏。通过上百个项目的沉淀，我们将保障实践总结为一个高可用平台加 6 个保障 DNA，高可用平台是基于云原生基础设施提出一个高可用架构，同时建造稳定的音视频网络系统及丰富的故障管理能力。DNA 主要覆盖需求交付、整体协调、全球覆盖、系统高可靠、立体演练。系统高可靠包括双平面保底方案，确保极限场景下可用；媒体资源 VIP 保障，资源隔离，专属使用；关键风险识别、应急预案制定并演练。立体演练包括全流程演练，问题日清日结；同声传译、主会场屏幕显示、掌声等关键场景多场次演练并优化方案；数字化远程运维平台，演练及时监控，效果和问题分析。