写点什么

华为云媒体査勇:华为云在视频 AI 转码领域的技术实践

  • 2022 年 4 月 22 日
  • 本文字数:6609 字

    阅读完需:约 22 分钟

随着 5G 的落地和消费终端的不断升级,消费环节对视频画质的要求也越来越高,为了给消费者带来更清晰、更逼真和更具沉浸感的观感体验,对云端视频处理技术也提出了更高的要求。在 2022 LiveVideoStack 线上公开课中,华为云媒体处理服务研发负责人查勇,结合华为云在超高清视频转码领域的实践经验,详细介绍了云上使用 AI 技术提升视频视听体验的关键技术,以及如何助力行业实现音视频体验升级。

01/超高清视频行业发展的趋势

在大视频时代,随着 5G、AI 以及云技术的发展,超高清视频行业迎来了一个高速发展期。我们可以看到,在生产端,4K/8K 超高清制播平台正在加快建设中,超高清电视的制播模式也在不断创新,当前超高清内容的生产能力得到了极大提升。在消费端,随着芯片技术的发展,4K/8K 电视和沉浸式终端的逐渐普及,消费端体验超高清内容的媒介也在不断丰富。


在传输环节,5G 高带宽、低时延的特点,使得超高清内容更容易获取,互动性场景的体验也越来越好。在处理环节,借助云端的强大算力和 AI 技术,我们可以实现超高清内容的极致压缩和画质增强,在提升播放体验的同时,可以极大地降低分发和制作的成本。另外借助边缘云计算的技术和能力也可以进一步地降低超高清视频的制作和分发成本。


在应用场景上,我们可以看到超高清视频也逐步地在向直播、VR、多视角、自由视角等领域发展,应用范围正在逐步扩展。


总的来说,超高清视频行业的基础设施正在逐步完善,应用场景也在逐步走向成熟。

大家都知道一个产业的快速发展,是和生态建设的成熟度息息相关的。下面我们一起看一下超高清视频产业在标准生态建设以及政策方面的情况。


首先在组织层面,中国已经成立了超高清产业联盟。在标准方面,超高清视频产业发展的白皮书和与之关联的软硬件诸多协议也都相继出台,这些都进一步促进了超高清视频产业的健康有序发展。在政策方面,14 省市发布了超高清视频产业发展的行动计划,为超高清产业消费体验升级,行业创新提供指导意见。


在生态和政策的双重驱动下,当前多地已经启动了超高清项目实验基地,如成都的超高清基地、青岛高清视频基地、广州花果山基地以及马栏山内容基地等,超高清产业实现进一步向纵深发展。


根据权威机构预测,2022 年中国超高清视频产业总值将达到 4 万亿元,超高清用户总数也将达到 2 亿。我们可以看到,当前 4K/8K 电视已经成为电视机厂商的旗舰标配,消费者对视频画质的关注度也越来越高,HDR、高帧率、宽色域、高色深,这些指标都成为终端性能的一个新卖点。


另外随着芯片技术的发展,沉浸式终端的种类也越来越多,消费者越来越追求高逼真、更加接近现实的视频体验,我们正面临一个视频消费体验升级的时代。

超高清行业的高速发展以及消费体验的升级,为云端视频处理也带来了更多的机会点:一是当前超高清内容的供给跟不上硬件发展的速度,为了让市场上非超高清视频内容带来超高清的体验,我们可以使用云端视频处理的技术来解决;二是视频在采集、制作和压缩环节都会引入噪声或者失真,我们可以借助云端视频处理的能力来降低引入专业设备和人工处理的成本。


但很多时候机遇与挑战是并存的,通过云端视频处理来提升音视频体验,也面临着几方面的挑战:一方面,市场上存量的视频内容,例如老旧影片和电视剧,局限于当时的采集设备和制作技术,画质是参差不齐的,涉及画质修复的种类和场景非常多;另一方面,影响视频体验的客观指标非常多,例如低分辨率、噪声、模糊、低帧率、色彩灰暗、暗亮斑等等,当前无法使用单一技术来完成所有场景的体验提升,这对技术的积累要求非常高。

02/云转码打造视频超高清体验的关键技术点

那么云端视频处理需要具备哪些关键技术点来提升视频的画质呢?要具备超高清视频的体验,从一些低质量视频的表现出发我们可以总结出影响体验的一些关键特征,比如低分辨率、噪声、模糊、划痕、闪烁、低帧率、色彩灰暗等等。对应的我们在云端转码的系统,就可以针对这些低质视频的特征,使用相应的技术来改善低质视频的画质,主要技术包括超分、降噪、修复、插帧、SDR2HDR。

2.1 超分算法

首先来看一下超分,也叫空间分辨率增强。超分本质上是指在单位空间内生成更多的像素,增大像素的密度,来增强图像细节,提高视频的清晰度。


在深度学习网络应用于超分之前,提升分辨率大多使用传统的插值算法。如比较常用的双线性插值,双三次插值,lanczos 插值等算法,我们在转码系统中经常会用到这些算法做下采样。如上图(左)是一个双三次插值的示例,该算法利用的是待采样点周围 16 个点的灰度值做三次差值,再通过选取适当的插值基函数来拟合数据。


从算法的描述上我们能看出,传统的插值算法一般是要预定义一个插值基函数,也叫映射函数,考虑到计算量,我们的映射函数一般不会太复杂,因此传统算法在这种场景的泛化能力是比较差的。另外因为大多是帧内插值,我们插入的值与前后帧是无时间关联性的,与邻近像素点空间关联性也相对较少,因此效果一般不会太好。


当前要追求超分的效果,大家越来越倾向于选择基于深度学习的超分算法。如图(右)是一个简单的超分网络 — SRCNN,大家都很熟悉这个网络模型。随着 SRCNN 的出现,我们真正地进入到了深度学习的超分时代,基本上每年都有一些新的研究方向出现,超分神经网络也变得越来越强大。相比于传统的超分算法,基于神经网络的超分映射函数是多层非线性且可以学习的,插入的值在时间和空间维度能够关联更多的周边像素,细节上的体现更加精确,在超高清领域应用也越来越广泛。

2.2 视频插帧

除了空间分辨率会影响画质,时间分辨率也就是帧率对人的主观体验影响也很大。我们知道现在终端设备更新换代的速度很快,支持的分辨率从 480p、720p 到 1080p,再到现在的 4K 和 8K。同样的,终端支持的帧率也从 25fps 到 60fps 再到 120fps 甚至更高,高刷新率现在也是终端的一个重要卖点。


除了依赖采集的硬件来提高帧率,目前使用软件的方法也逐步得到应用。大家都体验过, 在一些剧烈的运动场景下,低帧率会带来明显的卡顿感,影响人的视觉感受。视频插帧算法,就是在原始的视频帧之间合成不存在的帧来提高画面的流畅度,简单来说就是提高帧率。基于插帧算法的研究非常多,例如传统的基于光流的插帧算法。


传统算法有什么缺点呢,现实画面中存在一些大的物体快速运动或者遮挡的场景,基于传统的光流插帧难以解决这种场景带来的问题,因此插帧的质量在这些场景无法得到改善。想要提升效果的话,我们就回归到了基于 AI 的思路上面。


目前 AI 插帧的思路方法一般都是预训练生成光流估计模型,算法实现上首先输入两帧,计算帧间的光流和提取特征金字塔,然后把 warpping 之后的图、特征金字塔和原始图像一起送入图像合成网络,生成插帧之后的图像。目前这个方向上相关的论文也非常多,大家感兴趣的可以去研究一下。

2.3 视频降噪技术

接下来我们看一下视频降噪技术,大家应该都体验过视频中的噪声,我们经常看的一些老片中的雪花噪声和闪烁噪声是很明显的,给人带来的画质体验是非常差的。我们知道在视频采集到送显的一个完整的周期内,涉及到的各个阶段都会引入不同种类的噪声,最终都会反馈到消费环节的播放体验中。正因为噪声引入的来源是多样且广泛的,所以视频降噪是非常必要的。


通过降噪技术,我们可以在保持原始信息完整性的同时,又能够去除无用的一些信息。当前各种图像降噪算法非常多,比如基于空域像素特征去噪和变换域去噪的传统降噪算法。传统的降噪算法在降噪的同时往往会丢失图像的一些细节或者边缘信息,而且一般来说我们需要设置降噪参数,效果受参数的影响也比较大,因此在通用场景上难以广泛应用。


另一个快速发展的方向是基于神经网络的自适应降噪算法,算法可以根据输入图像噪声的级别,自适应地调节降噪的强度,图像的细节或边缘信息损失也会相对较小,能够最大程度的保留原始信息。


基于神经网络的自适应降噪算法,同样也有自身的缺点。比如由于训练的素材有限,场景无法全覆盖,一些场景会超出网络的学习能力,当然这也是采用深度学习算法遇到的普遍问题。因为噪声来源的场景会更广泛,所以对算法的考验也更大。

2.4 视频修复技术


视频修复分为狭义的修复和广义的修复,狭义的修复是指针对视频中存在的一些问题,比如划痕、暗亮斑、闪烁等问题的针对性修复。广义的修复是在修复视频瑕疵的同时,对原视频做一些增强。广义的修复应用范围会更广一些,主要应用在老旧影片、老旧电视剧、一些低质的 UGC 视频等。


在 AI 智能修复老片技术出现以前,经典老片修复通常是由人工逐帧修复的,效率低,许多大片修复的时间以年为单位。如果使用 AI 的智能修复技术框架,就可以基于海量的样本去训练和自动学习,可以大幅的提升老片修复的质量和效率。人工无法做到的修复效果,借助当前的 AI 技术都可以轻松完成。


尽管目前可以使用 AI 技术修复老片,但修复经典老片仍然不是一件容易的事情,最大的难度是在保留老片的艺术风格和美感的同时还要处理不同的问题和瑕疵。

2.5 SDR2HDR


另外一个关键技术点,我们看一下近几年发展较快的一项技术,SDR 2HDR 。HDR 由于其相比 SDR 具有更高的亮度范围、更广的色彩范围和更深的位深而被大家所熟知,对应带来的是视频具有更丰富的细节,更宽广的色域和更自然的色彩过渡。我们可以看到上图中 SDR 和 HDR 的对比,在亮度、色彩饱和度以及对比度上,能明显地感受到 HDR 的图片带来的视觉效果更好一些。另外,当前 HDR 领域也出现了不同的标准,从图表中可以看到这些标准在不同维度的差异。

03 华为云在视频 AI 转码领域的技术实践

下面我们一起来看一下,在超高清视频时代,华为云是如何使用 AI 技术来提升视频画质并改善播放体验的。

针对视频体验提升,华为云推出了智享超清技术,它是一套完整的视频增强和修复的解决方案,主要的技术包括我们上文提到的超分、倍帧,SDR2HDR、HDRVivid、2D 转 3D 以及画质修复等。华为云智享超清技术是完全基于华为自研 AI 算法,采用多任务 AI 增强方式,通过智能修复和智能增强技术来打造视频的超高清体验,能够更好地服务直播、点播和互动文娱等场景。

3.1 华为云智享超清技术总体架构

上图是华为云智享超清技术的总体架构:基于 AI Deep Learning 的一个多任务画质增强。前面讲到单一任务是很难解决画质的所有问题的,我们综合分析后采用了图中的 pipeline 架构,每一个增强模块相当于一个算法插件,可以自由组合,使用起来也相对灵活。在处理之前我们会做一些基本的预分析,比如说噪声强度分析、画面亮度分析、ROI 区域检测等等,这些分析结果会用于指导后续模块的智能化处理。


从图中可以看出,画质增强的整体解决方案主要包括:基础层的修复,时域、空域的清晰度增强,亮度和颜色增强,3D 增强等。在实际的处理中也可以做一些选择性的修复,选择性修复主要包括去划痕、去亮斑、去闪烁等。在算法设计上我们会更强调自适应能力,也就是在面对不同场景的画质损失时,视频增强技术在盲修复时要有很强的泛化能力。


在实际应用过程中,这些模块并不都是顺序处理的,因为这样时间花费很大,为了提高效率,我们也会将多个视频增强的任务进行联合优化处理。

3.2 面向混合失真的 AI 画质修复


众所周知,真实的视频源会包含多种混合失真,比如说噪声、压缩失真、模糊等等,并且这些失真程度会差异很大。如果仅考虑分辨率因素,假设我们对一个视频进行超分,超分之后可能反而会引起瑕疵的放大,难以带来显著的视觉效果改善。


华为云智享超清技术通过构建多任务的混合失真修复网络,来实现更优的主观效果。我们使用了很多的步骤来模拟失真的视频,通过多种途径构建生成更多用于画质修复的样本,比如加上高斯噪声,随机加上一些运动模糊,加上一些彩色噪声,降采样来降低分辨率,压缩时使用很高的压缩率来产生压缩噪声等。构建了这样的一种数据集之后,我们通过混合失真的多任务视频增强算法,自适应地去估计各种失真,这样就可以增强算法对不同质量视频的泛化能力。


当然这里也会面临许多挑战,比如在失真估计模块中如何估计噪声强度,因为不同图像的噪声不同,同一图像的不同区域噪声也不同。我们提出了 AI 自适应的降噪算法,对图片不同区域主观视觉的噪声差异进行评估。首先会对噪声明显区域进行精准的定位,然后综合考虑时域和空域的噪声强度差异,进行不同区域的噪声强度估计。


还有一个很大的挑战就是噪声的模拟,上面提到的方法模拟出的噪声与真实噪声还是有差异的。我们使用了 AI 网络例如 CycleGAN 来模拟真实的噪声,这样训练后我们就可以在画面自然度和清晰度等维度实现一个更优的主观效果。

3.3 基于语义特征的视频超分


我们再来看一下华为基于语义特征的视频超分技术。对于画质的空间分辨率增强,我们提出了基于语义特征的视频超分,即先根据语义对图像进行分割,然后分区域进行处理,最后再对增强后的结果进行融合。例如针对大部分电影、电视剧中人眼关注较强的一些区域,像字幕、人脸、纹理等,基于人眼主观的特点,使用单独的算法模块对这些关注区域进行重点处理,确保人眼关注区域可以达到比较好的增强效果,从多个局部最优解获得全局最优解。


这种基于语义特征的视频超分,一般可以获得比盲超分更好的增强效果,因为它们具有较强的先验,比如字幕增强,字幕和每个字大概是什么样子是确定的;人脸增强,人脸都包含眼睛、嘴、鼻子、耳朵。我们可以收集很多字幕、纹理的数据库,有了这种先验,增强的效果会得到很大的提升。

3.4 基于耦合光流网络的视频插帧


大家应该都有过这种体验,普通 20fps 或者 30fps 的视频在手机上看很流畅,一旦放到大屏上,运动被放大,卡顿就会比较明显,所以我们需要对时域进行增强,提高视频的帧率。


针对视频插帧的任务,华为云提出了一种耦合光流网络模型,这种光流网络模型可以准确地估计出前后两帧之间的光流,在一些困难的场景,比如说小物体快速运动、遮挡等场景,光流估计都比较准确。如图是一个例子,左边是目前比较先进的视频插帧算法 RIFE 估计的光流,右边是华为云自研算法估计的光流。大家可以不关注这些颜色代表的含义,仅从形状上来看,可以看出右边的光流模型估计出的光流会更细腻一些,细节会更丰富一些。

3.5 基于场景自适应的 SDR2HDR 技术


大家都清楚从 SDR 到 HDR 转换的时候会面临许多挑战,比如亮场景和暗场景,我们要使用不同的方案来实现场景的自适应,实现最佳的亮度动态扩展;再比如说 SDR 中的绿色在转换成 HDR 时,有时会出现绿色失真的问题;人脸的颜色可能因为背景色导致转换后偏红,这种情况需要做到色彩扩展的场景自适应,在扩展色彩时控制色偏;再比如有些噪声或者失真,在转换成 HDR 时被放大了,或者更容易被感知到了,这种情况下,我们就应该控制亮度提升导致的噪声和失真。


华为云 SDR2HDR 的方案是基于 AI 技术来实现场景自适应的转换,举个例子:对于一个待处理的原视频,首先会进行一个场景识别,分类出比如人脸、风景等类别,进行场景分类后,就可以实现自适应场景的亮度扩展和自适应场景的色彩扩展,对转制过程中各场景的 Tone Mapping 算法进行优化,来抑制 8 比特扩展到 10 比特后出现的失真。


在实际应用时,我们会对大量转换后的视频进行主观评测,会针对不同场景转换后视频出现的一些问题做针对性调优,这样做之后,算法当前在影视剧和电视剧场景都有非常好的效果。

3.6 基于 CUVA HDR 标准的场景自适应 SDR2HDR 技术

上面我们提到的华为云 SDR2HDR 技术转换的是 HDR10,前面的介绍中也列举了 HDR 技术的不同标准。华为公司作为主要贡献方深度参与了 CUVA HDR 技术标准的制定。HDR10 采用的是静态的色调映射,会有显示设备兼容性的问题,比如原场景的亮度是 1000nit,大于显示屏 500nit 的最大亮度值,使用静态的映射曲线映射后,视频在 500nit 显示屏上显示时就容易出现过曝的问题,很多细节就消失了。


华为云当前基于 CUVA HDR 标准的 SDR2HDR 技术采用的是动态元数据方案,会适应不同的亮度屏幕来达到最佳的显示效果,能够确保同一内容在不同亮度屏上实现最优的体验,避免产生色彩变暗、过曝等问题。我们前面提到的场景自适应技术同样也适用在 CUVA HDR 转换中,这种多技术结合的方案,能够带来更好的设备兼容性和场景适应性。

04 总结

以上就是华为云媒体处理服务打造视频超高清体验的几个关键技术。影响视频体验的指标是很多的,但提升体验的方向是基本明确的,虽然这里面有很多的困难和技术层面的挑战,但相信我们技术人能够直面挑战,用技术上的创新给用户带来极致的体验。超高清视频的时代已然到来,要打造极致的体验,云上技术创新只是其中重要的一环,唯有端管云协同服务、协同创新,才能给消费者带来更真实的视频感官享受。


点击关注,第一时间了解华为云新鲜技术~

发布于: 3 小时前阅读数: 9
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
华为云媒体査勇:华为云在视频AI转码领域的技术实践_音视频_华为云开发者社区_InfoQ写作社区