2021 技术展望 | 2021,5G 将会倒逼传输协议、算法做出更多改进
线上会议、在线教育、电商直播等多个场景的兴起,也使得实时互动技术从幕后走到台前,得到了更多人的关注。编解码、网络传输、计算机视觉等 RTE 相关的一系列技术也正焕发出更强的生命力。2021 年,在深度学习、5G 等技术的加持下,RTE 会进一步催生哪些可能?声网 Agora 开发者社区联合 InfoQ 共同策划,邀请了声网 Agora 开发者社区中的多位技术专家,从视频传输、计算机视觉、编解码标准发展、WebRTC、机器学习、音频技术等角度,共同撰写「2021 实时互动技术展望系列」,一窥技术新趋势。本文源于对北京大学王选计算机研究所的张行功教授的采访。本系列内容由声网 Agora 开发者社区 与 InfoQ 联合策划,并由 InfoQ 审校,首发于 InfoQ。
在 RTC 技术领域,如何兼顾实时视频传输的低延时和视频质量,以及如何评定视频传输质量,始终都是备受关注的话题。随着 5G 的商用,视频传输在协议层、应用层又面临着一些急需解决的变革。尽管不少 AI 模型在编解码、传输层已经开始落地应用,但其实 AI 模型还有很大的提升空间。我们邀请了北京大学王选计算机研究所的张行功教授,聊聊 2021 年视频传输技术、VR 视频以及 AI 模型在 RTC 领域应用,将会发生哪些改进与革新。
实时网络拥塞控制
声网开发者社区:您曾经在演讲中分享过实时网络拥塞控制的研究思路。有提到数据驱动的网络模型,用于预测网络状况,您还引入了神经网络。您认为目前网络拥塞控制算法的瓶颈是什么?引入神经网络带来哪些改变?
张行功:我们先看一下网络拥塞控制的目标是什么,尤其在实时音视频传输方面。第一个目标就是要求公平,其次就是低延时,最后是带宽使用率。
实现上述三个目标,最大的问题是无法预测其他用户行为方式,互联网是一个开放共享的网络。
另一个瓶颈就是由于存在网络延迟,无法获得最新的网络状态。
所以这些障碍会限制我们的决策,即决定应该发多少数据量,才能保证低延迟、高带宽,尤其在物理链路波动剧烈的 4G/5G 移动网络。
在一个不清楚网络状态和动态变化的网络环境下,要实现上述三个目标,那么这就是拥塞控制面临的最大挑战。传统上有很多种方法对网络带宽或者网络延时进行探测、建模,例如 AIMD、delay-based 等方法。但是由于互联网太过于复杂,尤其是互联网用户的行为不可预测,传统上用数学模型的方法来描述网络状态是已被证明不够准确的了。
基于上述原因,我们引入了神经网络和机器学习方法,进行拥塞控制研究。主要包括两部分,一部分是公平性目标,可采用数学模型,这是针对网络模型中可以抽象出来的,而且并且可以去验证和重现的特征,进行数学建模。另一部分是网络状态,尤其像现在的互联网状态,它缺乏比较明确的数学模型,那么采用统计和机器学习就是一个比较好的方法。
声网开发者社区:神经网络、深度学习,被当做工具应用到了很多 RTC 技术环节中,比如网络传输、编解码。仅视频网络传输层面,您认为 AI 模型这个工具是否已经被物尽其用了?还有哪些可以改进或发挥的空间?
张行功:在我看来,现在机器学习在网络中的使用,还处于一个非常初级的阶段。它的潜力还没有被充分挖掘出来,目前大家只是尝试用它解决一些简单问题,但有时效果并不好。
这里涉及到一个问题,什么地方适合用机器学习或 AI 模型,什么时候不适用?
其实并不是所有的问题,只要把数据给机器学习的模型,它都能处理。因为这也违背了人类对智能的定义。智能本来就分成演绎推理部分和归纳推理部分。AI 模型只能代表归纳部分,演绎推理的职能它还承担不了。
所以从这个角度来讲,我觉得机器学习的潜力远远的没有被发挥出来,尤其在网络领域,还有很多新的技术没有被发掘。
一个可能的改进方向,从目前来看,不管在网络传输还在编码部分的应用上,AI 模型一般都对数据有依赖,那么一旦换了一个数据集或换了一个场景,它的性能表现就会变差。
这其实证明了现在的机器学习算法有很大的局限性,其中最重要的一个问题就是模型在设计时,并没有针对于数据集的通用性和局限性,设计出一个泛化性能更好的,适用于不同场景的积极学习的模型。
所以,我觉得未来机器学习的发展,更会从一种模型复用和小样本学习的角度去设计,而不仅仅在神经网络本身去做优化。举个例子,我们在做传输的时候经常讲预测带宽。我们可以根据历史的数据,去预测未来的网络带宽。但是训练出来的模型,一旦换了一个网络环境,比如从 4G 到 5G,这时训练后的模型到新的环境下,泛化性就特别差。这也就是为什么一些新的机器学习的方法,会从架构上来改进。
声网开发者社区:目前大家普遍都是在 4G 网络下进行实验和应用落地。不过大家也在关注 5G。您认为 5G 商用后,视频传输相关的技术,比如从协议层面、算法层面,会需要作出哪些改进来适应这样的网络变化?
张行功:5G 出现后,会对传输层协议的要求更高,这里面主要有几个原因:首先是由于 5G 的带宽更大了,然后是由于 5G 的抖动,不管是延迟抖动还是带宽波动都会更大,已经远远超出了 4G 范畴。
这里先解释一下,为什么 5G 网络抖动会更大?通过测量发现,5G 是通过时间片方式调度频谱资源,这意味着将某个时间片分配给一个用户时,它带宽资源是独占的,但在其他时刻是得不到网络资源的。因此,如果我们从非常细的粒度,比如从某一个数据包的角度来看,它的延时波动以及数据包之间的带宽波动都会非常剧烈。5G 的理论带宽是 1GB/s,所以一旦出现某个时间片未将资源分配你的时候,那么你的带宽波动会非常大。
除了以上两点,5G 会带来边缘计算的普及,未来很多数据和服务都会放在一些边缘服务器上。边缘计算加上 5G 的整个物理带宽和延时的提升,会倒逼传输层协议的改进。不管是传统的 TCP 还是这些年大家比较关注的像 QUIC、BBR,以及一些私有协议。现在的传输层协议已经存在 40 年了,存在较大变革的需求。
另外从应用层的角度讲,比如说我们说的 ABR 或其它业务层相关的算法,随着 5G 商用后,都会在边缘节点发挥作用。因此,内容缓存算法、动态自适应、分布式视频编码和处理等,都会迁移到边缘节点上,而且对这些算法的性能和交互能力提出更高的要求。
5G 会推动 VR、AR、云游戏等实时视频应用场景的发展。从应用层的算法,包括刚刚提到的海量节点、小存储,到实时交互、边缘节点的业务层算法等都会得到改进。
VR 视频相关技术
声网开发者社区:您的研究中也有涉及到 VR 领域。您认为目前 VR 视频类应用,最急需解决的技术问题有哪些?分别有什么解决思路?
张行功:从广义来讲,VR 视频包含全景视频、AR、云游戏,因为现在很多云游戏也是基于视频的实时交互。所以这些都是属于 VR 视频的应用的体现形式。实际上其中最核心的问题有三个:
第一个问题就是它是一种实时交互式的视频。交互式视频就存在一个延时的问题,不管是我们看视频,还是去打云游戏,只要用户做一动作,或头部移动一个角度,画面就需要在 20ms 之内做出相应的反馈。否则,人的体验就会下降。
这对网络传输就提出了很高的要求。因为我们知道 20ms 是一个端到端的延时,而且是一个 round trip time,这里包含了网络、编解码、服务器处理、客户端渲染的延时。即使是未来实现边缘计算,想实现 20ms 的端到端往返延时也绝非易事。
第二个核心的问题就是人的运动预测。例如,我们看 VR 视频的时候会有头部的运动。未来会有 6DoF 的视频,我们不仅会有头部运动,还会在虚拟场景中运动。在这种情况下,我们如何去预测人的运动是一个非常重要且急需解决的问题。
运动预测主要是解决第一个延迟问题,从物理角度来讲,20ms 是一个难以达到的延时。现在业界提出的解决方案是通过预测人的运动,然后预加载数据。相当于在用户没有看到这一部分的视频画面的时候,我就把这个数据下载到本地。当用户移动到某个位置时,实际上就是从本地来获取这个画面,延时就小很多了。
但是,人的行为是有很大的随机性,所以随之而来的问题是如何去预测人的行为?比如我们观看 VR 视频时,每个人感兴趣的内容和位置可能都不一样。这是目前急需解决的一个难题。
第三个问题就是高通量数据。我们现在看到的这些 VR 视频可能还只是 4K、8K 分辨率的,它的码率大约在 100MB 级别。但是未来可能会有 16K,甚至 24K 的视频。16K 是什么概念呢?相当于我们在电视上看的 720P 平面视频。我们在电脑显示器上可观看的视角大约 30 度。如果将 720P 的视频延展为 360 度,这时候的数据量就相当于一个 16K 视频。未来如果加入 6DoF 视频,支持用户在 VR 视频场景中自由活动,则会有更大的数据量。另外,AR、云游戏等场景也会产生越来越多的数据。
我们看到,硬件在不断发展。苹果已经可以实现单眼 8K 的 VR 终端了。但网络的发展实际上还没能跟上硬件的步伐。如此来看,很长时间以内,网络传输的瓶颈会始终存在。
在这方面,我们做了几个探索,一个是 QoE 驱动的视点传输。我们根据用户看的区域,传输对应的数据。这是一个比较有效的手段,已经在很多地方应用。
另一方面的研究是针对云游戏的。云游戏属于 VR 视频的一个分支,对延迟更加敏感,数据量也很大,同时用户交互行为更加复杂,很难进行动作预测。所以我们探索一种零延迟的画面预测方法,在一定程度上来解决交互延迟的问题。
声网开发者社区:一直以来,您都在研究事视频通信、网络传输相关的课题。从您的角度来看,您认为 2020 年这些方向出现了哪些值得一提的研究进展?您认为 2021 年最重要的技术趋势是什么?
张行功:从视频通信、网络传输方面,在 2020 年出现了一些比较新的场景,例如云游戏和云桌面。其本质上就是实时视频,但是技术挑战会比传统的视频更大。因为就像之前分析的,它的延时要求很苛刻,人的行为很难预测。2020 年有一些技术尝试,但是效果不是很理想。所以在 2021 年,业界还会有更多新角度的尝试来解决这些问题。
第二个就是面向 5G 以及卫星网络的研究和应用。5G 网络已经开始商用,卫星网络方面,我们已经可以看到 Elon Musk 的 StarLink 也开始提供测试服务了。所以面向新型网络的低延时传输研究也会是 2021 的热点之一。
视频传输方面。在 2020 年,机器学习、强化学习等方法更多地被用在了网络领域,包括传输层、应用层的视频通信。在 2021 年将会有更多这方面的研究,提供它的实用性和泛化能力。
最后,视频传输质量评价也是 2020 年重要的热点之一。由于现在网络视频的种类很多,包括实时视频、直播、短视频、VR 视频等,但传统上视频质量评价都是面向编码,但对传输的评价一直没有一个很好的框架。视频传输质量的监控和评价是业务的核心,包括由数据监测、质量评价到故障报警、修复的一套闭环的质量体系,将会是 2021 年被持续关注的热点之一。
版权声明: 本文为 InfoQ 作者【声网Agora】的原创文章。
原文链接:【http://xie.infoq.cn/article/63aa8ef535a035bc83b1cacbb】。文章转载请联系作者。
评论