写点什么

对话大咖 | 人工智能 + 视频编解码能带来新的变革吗

  • 2023-04-17
    上海
  • 本文字数:5358 字

    阅读完需:约 18 分钟

对话大咖 | 人工智能+视频编解码能带来新的变革吗


在如今的视频编码技术的迭代发展中,无论是变换量化、预测、熵编码、或是环路滤波,我们都在以复杂的技术换取压缩性能的提升。未来视频产业的应用前景依然很值得期待,因此我们需要去探究更高效、更智能的编码方法,来促进编码性能发生根本性的改变。


深度学习能颠覆视频编解码吗?在此前的“REDtech 来了”系列技术分享直播中,我们邀请到了 2020 年度国家技术发明一等奖获得者、北京大学副研究员王苫社老师。小红书音视频架构团队负责人陈靖作为主持人,与王老师就音视频编解码技术的挑战、创新实践与发展探索展开了探讨。


王苫社老师是数字视频编解码技术国家工程实验室工作室成员,曾主持“面向 8K 超高清视频应用的高效编码标准及编解码器”等多个国家重点研发计划。


陈靖曾担任 51Talk 首席音视频科学家、Google Chrome Media 视频组工程师、Mindspeed 视频部高级 DSP 工程师、华为中央研发部视频组工程师,曾出版著作《深入理解视频编解码技术》及翻译著作《计算机视觉算法:基于 OpenCV 的计算机应用开发》。


在这场直播后,我们也收到了不少观众反馈,希望能回顾直播中嘉宾的技术观点。秉承开放分享的精神,我们特此整理了直播中二位嘉宾的对谈讨论。


想要做变革性的视频编码框架有没有可能?


人工智能技术日益成熟


音视频技术的未来将如何发展?


......


问答细节都在这里!


Q&A


1. 传统的编码都是基于经典的率失真理论,基于深度学习的智能编码是否存在类似的理论基础?

王苫社:是的,传统编码都是基于概率的方式,但深度学习的理论基础目前在任何一个领域当中都是难题。深度学习或者神经网络在不同应用领域中,解释起来总是要增加很多的约束,很难统一表达。就我目前在学术范围里面所看到的一些成果,大家还没有找到特别完整的理论基础,大多情况下,都是在一定约束下给出一些近似解,在一些特定场景里取得一定的效果。这就需要一些数学基础特别好的人,比如韦神,如果他们能够沉下心来研究这个问题,或许可以提供一些类似于经典的香农信息论这样的模型,如果有了这样的模型作为指导,我们有可能在诸多深度学习的任务里获取到非常好的效果。如果真正发展到人工智能比较高级的阶段,它的理论特性和传统特性有一些方向是趋同的,但它目前是一个非常开放性的问题,还不存在特别确定性的理论基础。


2. 现在学术界对于智能编码的研究现状如何?数学界有没有关注这个理论基础?

王苫社:数学界还是有不少人在做对于神经网络,尤其是人工智能层面上的理论研究,但大多都是在某些约束条件下找到近似解,且仅限于特定任务当中。

从编码的角度来讲,深度学习最开始在机器视觉领域产生很好的效果,比如人脸识别或者其他目标追踪的时候,视频编码似乎在学术界已经引起了一些躁动。大概三四年前,有几十篇学术论文在某些编码框架的模块里做了深度试验,也得到了一些性能提升,甚至有时可以达到惊人的 10% 以上。但因为网络结构太复杂,且不方便硬件实现,这种情况下应用空间就受到了极大的限制。所以,目前学术界并没有一种易于硬件实现的视频智能编码方案,同时对产业界来说是革命性的学术成果。但是我们能够通过对搜集到的数百篇学术论文中做一些深度研读,看看是否能够找到一些通用的解决方式,现状大概如此。


3. 深度学习和传统压缩框架结合的方法与端到端的方法相比各有什么利弊?

王苫社:从实现的方式来讲,他们的区别非常大。深度学习和传统压缩框架结合的方法仅从硬件实现的角度来说,需要消耗的资源包括硬件的设计架构等,都要完全推翻,需要付出的代价是非常大的。这里面需要出现两种不同编码模式的数据传输,这在硬件设计里面是特别具有挑战的,需要去评估两种计算方式、平衡计算时间、以及设计流水等等。

但全神经网络的结构有一点好处就是,网络结构确定以后,无非就是去定义这里面有关参数之间的计算方法。我们做过一点评估,希望把深度学习的滤波放在 FPGA 上做。在 CPU 上做深度学习的东西,速度显然是很差的,放在 GPU 效率也不怎么高,而用 FPGA 是一个可能的方案。但我们发现倒腾数据很费劲,因为需要来回做数据的传输,导致整个框架实现时无法做到实时处理。也有可能我们设计的框架不够好,所以效率不是很高。

在做完了全神经网络的编码方案以后,我们也做了 FPGA 上的实现,这应该是我们能看到的第一个基于 FPGA 实现的全神经网络编码。这个网络结构设计,尤其硬件实现,相比前者更容易一些,我们还可以把它做成实时的(目前能够做到 4K 实时的编码系统)。往芯片这个角度去做,兴许可以找得到,目前从 AI 的角度来说,应该已经找到了较多方便深度学习的网络硬件实践的方式。

但是传统加上深度学习的方式,最早是在学术论文中使用的,业界对此兴趣并不太大。最近,我发现 AVS 和 H.266 这两个标准组织中有很多人热衷于用这个方式去做,如果不同算力之间的架构能够实现高效通用,这也可能会是一个比较合适的方案。总之,我自己在这个方向不是很看好,我更看好全神经网络的结构。


4. 智能编码标准未来有没有可能制定?国内外是否有正在进行当中的标准制定工作?

王苫社:这是一个非常开放的问题。传统编码标准非常明确,每个语法元素需要用什么样的方式进行表达,传输过程中怎样正确的解析,这些规则都是非常清楚的。但是在智能编码方向,我们不知道标准化什么,比如网络结构要标准化还是编码参数需要标准化。这件事起初引起过一些争议,但是标准化的工作还是有人在做的。目前国内有一个组织在做关于神经网络模型的压缩,这也给大家提供了一个方向,假如我们真的要做一个确定性的网络结构,它已经学会了非常高效的视频压缩,这种情况下,我们当然可以通过对神经网络模型进行标准化,使整个产业都适用。但这件事情我觉得变数是比较大的,关于要标准化的东西究竟是什么,大家可以做更开放的讨论。

关于标准制定,还有很长一段路要走,我相信最终也能够找到一些比较好的标准化的方式,使得编码本身有归属。但这确实需要一个强大的网络结构来覆盖所有可能的情况,并在保持高压缩效率的同时达到硬件的实现。


5. 深度学习是概率模型,它会引起模糊或者不稳定吗?

王苫社:这要看网络结构对应的训练数据。我们现在所用的编码工具再复杂都是有限的,比如说划分,无论怎么着都是一个大块分来分去,但是如果放到神经网络里面,我们要解决的第一个问题就是训练数据能否覆盖所有不同的类型。

当视频来自不同品牌的相机,不同的拍摄方式,且拍摄出的素材并不是直接应用而是需要再制作,制作的方式和手段也不一样时,给到神经网络去学习的东西,实际上是不能确定涵盖全集的。想让一个神经网络能够学习到其中所有的特点,需要训练数据足够大,大到可以把全世界的视频全部拿过来学习。就像 AlphaGo,在学习过所有的棋谱后,它自然会有一些自己的处理技巧,因为这里面所有组合的可能都被它学习到了。如果网络足够大,数据量足够多,结果就会足够诱人,但是谁又能够把几十亿条视频送给一个神经网络或者几十亿层的神经网络去学习呢?这是我的一些基本看法。


6. H.266 和 AV1 哪一个前景更好?

王苫社:二者都有各自的问题和优势。H.266 受限于其知识产权政策并不清晰,产业界虽然对它的压缩性能比较满意,但使用时面临的商业风险也越来越大。尤其在移动终端应用上,我们目前还是喜欢用稳定且比较成熟的版本,我猜 H.266 还需要三到五年去做市场的培养,至于是不是能够打得过 AV1,要看生态组织的负责人怎么推广这件事情。至于最终谁会赢,这里我不发表对某一个标准的看法,如果非要让我说的话,可以推广一下 AVS。


7. 面向人眼的编码和面向机器的编码都有什么区别呢?

王苫社:二者区别非常大,我们把人眼理解为是被动接收视频信号,像看电视一样,电视放什么,我们就看什么。而机器是有目的性的,这和人眼被动接收信息不同,机器可能最开始在接收视频信号时就被赋予了某一个任务目标,所以它会忽略其他的事情,它对于视频的理解也很简单,就是要追踪目标对应的特征,这更多的是一种计算。而人眼更多是接受内容本身带来的视觉响应——所看到的内容到底美不美,是不是能够引起感官上的享受。这是很不一样的,如果要从真正编码的需求上去说,那差异就更大了。


8. 未来的视频编码会不会考虑兼容三维特性?

王苫社:这是一个不争的事实。如果元宇宙这个概念不会死掉,这件事可能很快就会到来,一定会兼容。实际上在比较早的时候,这件事已经在标准里有所体现,只不过当时没有找到特别好的应用场景。我相信接下来随着元宇宙概念不断深入,这件事会很快被提上日程。


9. 视频编码当中的衡量指标是不是就能反映你的编码质量?新的质量评估技术能否促进编解码压缩标准的发展?

王苫社:在传统标准制定过程中总是用 PSNR 这样的客观指标做评估,有时也会用 SSIM,最常见的还是 PSNR,因为这是最直观且最容易使大家产生一个好坏比较的方式。目前也会有一些基于 AI 的方式去做质量评价,并且把它嵌在传统的框架中做性能提升,但在大多数场景下,人眼主观才是最终的评价标准。比如我们现在衡量一代视频编码标准的性能提升是否达到要求,所看的并不是客观性能 BD-rate 的数据是否超过 50%,而是看同等主观质量下的码率节省是否达到 50%。例如,H.265 相比 H.264 以 PSNR 作为失真指标时客观性能 BD-rate 只提升了 38%,但是经过人眼的主观测试以后,你会发现同等主观质量下平均码率节省已经超过了 50%,所以我们认为它已经完成了一代标准的指标。

目前,终极评价方式还是人眼。类似 PSNR 的客观指标计算总是有其局限性,假如谁要是哪天提出一个和人眼完全契合的主观质量评价方式,一定会极大程度改善我们编码标准的性能,但遗憾的是目前我们还没有找到这种评价方式。虽然有一些指标确实在特定应用场景里面发挥了比较重要的作用,但还不能够达到通用,而这也是很多学术工作者将视频质量评价作为自己毕生研究方向的原因。


10. 传统视频编码的码率控制可以用 QP,在深度学习编码压缩框架下,怎么做码率控制?

王苫社:早先在 H.266 的制定过程中,专家组是专门做基于 Deep Learning 的编码工具。大家在做性能优化的时候,往往是一个 QP 对应一个网络,最后发现这件事实际上意义不太大,因为你需要对应特定 QP 去训练网络模型。后来有人说既然 QP 本来就是一个输入,干脆做一个输入,把 QP 的 Map 作为其中的 import 就可以了,后来变成了这个形态。

其中依然有一个特别有挑战性的问题:假如给定一个码率 R,我们知道在传统视频编码里这个码率跟 QP 之间会有 R-QP 模型,虽然不同标准里这个模型可能有一些变化,但它们总归有关系,你可以根据量化参数 QP 去调整码率的大小,但神经网络就没办法这样做。另外,前段时间我们把整个码率数据当成是输入参数,同时在网络结构里设置了一个名叫 lambda 的参数,从测试数据结果来看,的确能够在一定程度上起到控制码率的作用。


11. 什么时候视频网站可以解锁 60fps,帧率达到 60fps 以上对于我们现在的视频网站真的这么重要吗?

王苫社:高帧率在传统大屏上是挺重要的。北京冬奥会的时候,我们做了一大批高帧率的素材,最高到了 60fps,发现观看 60fps 的体育赛事和原先看 25fps 的体育赛事,它的连续性以及视觉上的感受还是有差距的。记得之前李安导演尝试过一个高帧率的电影《双子煞星》,这部电影号称有 120fps,并且是 3D 的,从视觉效果方面看,它确实要比我们以往看到的很多电影在视觉冲击上确实有很大的改观,如果能把《流浪地球》做成 120fps 3D 版,那一定很震撼。


12. 假如智能编码要在小红书这个场景里面落地应用,小红书团队会用它吗?

陈靖:从我的角度讲,我很关注它落地后对解码复杂度的影响。对于编码复杂度的提升,我们有一定的容忍度,比如编码端复杂度高十倍,如果它带来的编码压缩率提升很大,同时解码端带来的额外复杂度很小,那这个方案在服务端落地是没有问题的。


13. 未来智能编码的应用,在芯片这一块有很大的投入的话,是不是就能解决落地问题?

王苫社:现在我们移动终端也好,某一些已经发行的芯片也好,都已经有了很强的 AI 算力,这部分 AI 算力如果应用的比较好,对于整个编解码会有两个方面的促进:第一,我们可以把智能编码全部放到计算模块里面,兴许能跑得动,但这个希望不是很大。第二,我们可以用一些基于 AI 预分析的手段指导传统编码框架,比如通过 AI 的简单网络结构,识别一些感兴趣的区域,或者是有噪声的区域,识别出来以后,经过一些比较简单的处理,来支撑视频编码的性能提升,这是没有什么问题的。


14. 小红书的编码有没有硬件加速?

陈靖:我理解的这个硬件加速是指专用 VPU,小红书在服务端做压缩的时候,在 CPU 或者 GPU 上会有一些优化工作。但是专门的硬件加速现在还没有,而且现在的 VPU 方案和软件编码方案相比,压缩性能要差不少。


王苫社:硬件加速这件事,早先我听说过谁家开发了一款硬件的加速法,基于 FPGA 做了一些事情,这件事情在内容生产端是可以的,但是没有办法放在移动终端。从小红书的业务需求来讲,当然可以考虑用手机终端 AI 的计算资源做一件事情,但是各家的芯片不一样,需要适配的类型太多,这是个问题。我猜这个方案没有被大家广泛使用的原因在于,我不用它,我依然可以有那么多用户,我用它其实提升也不多,假如我用它可以节省大量的资金,同时可以吸引大量的用户,我肯定愿意做这件事情,但目前评估下来不是这样的。


(感谢小红书音视频架构团队残剑、地瓜、怀德、杜预对本文的修订)

用户头像

2亿人生活方式分享背后的多模态学习 2022-04-11 加入

小红书技术团队官方账号,小红书技术创新与问题解读的分享平台,与你共前进。

评论

发布
暂无评论
对话大咖 | 人工智能+视频编解码能带来新的变革吗_人工智能_小红书技术REDtech_InfoQ写作社区