写点什么

【音视频】弱网下的音视频通讯

用户头像
Bob
关注
发布于: 2021 年 05 月 02 日
【音视频】弱网下的音视频通讯

总体框架:

1.弱网下极限视频通信是什么?

2.极限通信的架构设计和优势

3.智能视频编码

4.网络自适应传输

5.个人思考

一.弱网下极限视频通信是什么?


说到弱网,简单理解就是网络环境很差,身为一位技术人,我们不能仅仅只是知道网络环境很差。说到互联网,我们身处于一个互联网盛行的时代,我们知 WIFI 道网络的形态除了有线连接,还有 3G/4G 以及正在到来的 5G、WIFI 等多种网络连接方式。他们也依托于不同的网络协议,同样也有不同的制式、不同的速率等等,正是这些网络连接方式使得我们的应用场景更加广泛。但是,我们平常也会遇到网络延迟非常高的情况,比如在很多人堆积在一起以及进地铁时等等,那么这时候对弱网进行测试或者处理就显得尤为重要,毕竟当网络延迟很高时用户的体验非常不好,针对这些情况,国内也有专业团队展开了研究。


那么为什么要花大力气研究弱网呢?当我们出现一些特殊场景如应急救灾、远洋海事、边防监控、无人图传时,这些场景往往关乎国家的安全以及人民的生命安全,其中的价值也因此体现出来。


现在常规的互联网已经相当不错了,比如现在年轻人经常用到的点播、直播。实际上无论是从信号,压缩、网络的角度来看,我们的网络基站架设也已基本完善了,网络的这些基础设施也能够满足高清、超高清等视频的传输;但还有我们前面提到的情况,比如:应急救灾、远洋海事、边防监控、无人图传,这些场景的通信手段经常会受到限制,又比如出现泥石流、地震这些自然灾害之后,基站也很容易遭受摧毁,那么这时候的网络通信就会很困难。这时候对于弱网的研究也就非常有必要了。


二.极限视频通信架构和优势


在观看 info Q 南大教授的直播时将极限视频通信的架构和优势包括为三个方面:


1.首先是 Rules to Data,从大家的经验来说,对于极限视频通信的研究我们是希望从工程设计角度的出发,真正走向数据驱动。也说明了从原来的 rules 驱动到数据驱动是可行的。比如 AlphaGo 在围棋中使用的强化学习,我们通过把强化学习运用到网络带宽,让网络带宽去控制复制的音视频编码器这些参数,比如网络型参数和编解码参数都是数十或者数百,但如果我们从以往经验的角度去设计,就会知道它总是会有一个瓶颈。


2.对于网络带宽,我们希望通过应用型的设计、数据型驱动,然后能够真正的走向智能化 ,这就和标题 From AIphaGo to AIphaZero(自己从最初始的状态然后慢慢去学习)相呼应。所以,我们也提出了端到端的极限视频通讯也能 Online learning。因为当你无法预计你进入这样的网络会发生什么变化,也甚至无法预计你进行视频会是什么样的一个分发存在,最后我们也希望能通过在线学习能够学到整个网络互联中它的一个不同状态,然后提供在线学习的模型、策略、决策,能够实现单一用户这样一个 characterization 个性化。


第三个就是大部分视频通讯还是以数据通信的形式(就好比我的交换机或网络不知道数据到底是视频、图像还是数据)为主。所以我们希望结合视频内容或图像内容它本身的用户理解上或者我们也叫语义层这样的一个内容上真正从数据层走向人工智能,所以我们也叫 Advancing to Human Perception。

我们在这个用户的感知当中,比如视频丢帧、图像丢失了一些像素、我们也可以通过一些普通的方法将它取回来,这个在不同的方向也有各自的验证方式。


三.智能视频编码


从最开始的 1993 年,到现在这么多年来视频的压缩率基本上提升了 16 倍(广播质量)。而这些提升主要来自于算法的提升,很多算法在之前很早就提出来了,只是迫于当时的硬件跟不上,导致很多高效算法被搁置。当然近些年硬件其实发展得也还不错,之前的算法在现在也能用上。当然现在的视频编码也出现了相关的瓶颈,这个瓶颈来自于 2015 年,我们发现随着工艺流程的越来越高级,比如我们现在的工艺到了 5nm 以及 3nm,制程工艺上也出现相对论的存在,即光速的变形,我们最高的速度也只能到光速。这个情况下,我们的 camputational 到底能不能再提高,当然我们也可以牺牲我们的功耗来实现,但这样的代价实际上有点大。


其实现在世界顶级科学家也提出可能这也是一个转折点,或许我们需要新的架构、理论来实现。比如 2015 年 Google 在开始研发它的 GPU 和 NPU,其实现在的手机 oppo、苹果、华为等都有很高算力的 GPU,到现在其实 GPU 还在研发,我想以后它的普及率以及接口率会更加广泛。


在直播中教授也提到过我们人眼在感知图像的时候, 处理速度大概是 100B/s, 然后我们通过视网膜上的细胞进行分离之后, 大概压缩了 100 倍, 然后经过一系列的处理, 最后有大约 40b/s, 而且我们人眼关注的区域分辨率实际上相对高一点, 人眼不关注的区域相对分辨率就低一点. 并且人眼对于某些区域, 某些颜色特别的敏感, 叫做注意力机制。


当我们把视频给机器或者给人用时,它其实都是去理解视频图像的内容,然后去做决策。


四.网络自适应传输


问题描述及难点

网络的时延抖动会造成可用带宽的实时变化,现有算法主要为 VoD 场景、启发式设计,实时场景中无法获得未来视频信息且不容忍较大缓冲。


解决思路

高效的码率自适应算法预测带宽并动态调整视频编码和发送码率。

实时码率自适应策略系统架构,通过历史的视频化经验自动学习实时码率自适应算法。


五.个人思考


最后,对于弱网下的音视频通讯,我想在这方面我们科研团队应该是做了很多努力的,毕竟我国地域广大,需要应急处理的事务也有很多,伴随着弱网出现的场景也是非常多的。作为一名开发者,之前对于弱网的了解可谓是微乎其微,但今天了解后,我想我们在开发时,是否也要想到当我们处于一个弱网环境下时,如何尽可能少的减少我们的丢包。


在这样一个环境下,我想当我们将机器学习也和网络结合起来会不会有更大的发现呢?

发布于: 2021 年 05 月 02 日阅读数: 100
用户头像

Bob

关注

潜心修炼~ 2021.03.22 加入

大二计科在读,忠于热爱~

评论

发布
暂无评论
【音视频】弱网下的音视频通讯