“智感超清”之 HDR 技术落地实践

本文由百度智能云-视频云音视频处理技术架构师——邢怀飞,在百度开发者沙龙线上分享的演讲内容整理而成。
内容从百度智能视频云的核心竞争力:“智感超清”出发,梳理了智能视频云相关的产品概念和技术。在详细介绍了 HDR 技术的概念基础上,结合相关“智感超清”能力,重点分享了 HDR 技术的应用实践。
文/ 邢怀飞
整理/ 百度开发者中心
视频回放:https://developer.baidu.com/live.html?id=7
本次分享的主题是:智感超清之 HDR 应用实践。内容主要分为以下三个部分:
智能视频云 3.0 & 智感超清介绍
HDR 技术概念解析
“智感超清” HDR 技术应用实践
01 百度智能视频云 3.0&智感超清介绍
百度智能视频云 3.0 介绍

上图就是百度智能视频云 3.0 的全景图。可以用三句话概括:
第一,云智一体化
即百度目前所有的视频云产品都实现了智能化。可以看到,图中标注的部分,“智感超清视频处理”的核心能力就包括了:智能编码、智能处理、智能抽帧、版权保护。其中,“智感超清”是视频处理产品的一个核心竞争力品牌。
第二,服务平台化
结合底层的云智一体的能力,我们搭建了两个平台:视频创作分发平台,视联网感知平台。
其中,创作分发平台面向泛媒体和泛互联网场景,可以提供端到端一站式的视频服务。而视联网感知平台,面向传统监控产业,对视频端设备和泛视频数据流进行统一接入、分析和管理。
第三,应用场景化
结合具体的应用场景,百度智能视频云在泛互联网、泛媒体和泛产业方向提供了定制化的智能视频方案覆盖互动娱乐、内容生产、智能分析、远程实时通讯、生产管理、安全管理等场景。
“智感超清”MCP 视频处理产品

以上是智感超清 MCP 视频处理产品的一个功能框架图。下面简单介绍一下每一层的结构与内容。
接入层:与其他云上产品类似,MCP 视频处理产品提供两个主要入口:Console、API&SDK。
用户可以通过控制台(Console)进入并进行相应的配置。而对于 B 端的客户,更可以灵活地采用 API/SDK 的方式对产品进行访问。
基本功能层:包括基础的云上转码的功能,也包括基本的视频剪辑/拼接/截图/字幕叠加等附件的功能。
云上转码可以把用户上传的视频进行一个全格式、全协议的转换,以满足于不同客户场景下、不同网络情况、不同终端的适配,并可以灵活的做多码流切换。
智能视频处理层:这部分是“智感超清”整个产品核心打造的能力。抽象出以下三个层面介绍:
第一:智能画质提升
通过 AI 的手段或其他传统的手段对输入的视频进行预处理,然后再进行转码处理,会带来比远视频更好的视觉体验。其中,智能 HDR 转换,也是和今天分享强相关的技术。
第二: 智能老片修复
之所以把这个门类单独出来,是因为针对这些老片,我们需要有特定的技术进行修复,以达到升级的用户体验。具体功能包括:划痕去除,噪点去除和智能上色。
第三: 智能视频编辑
这一部分是基本的视频编辑能力。包括智能字幕、智能去黑边、智能去抖动等。
以上三个功能模块构成了智能视频处理的核心能力。
智能视频编码:这一层是比较底层的视频编码能力介绍 。
主要包括:内容指定编码、ROI 编码、4k/8k 编码 、还包括百度自研的 BD265 编码器等。
介绍完产品框架图,我们再介绍一下智感超清的核心竞争力在技术上如何实现。
第一部分是智能视频处理。

智能视频处理的核心目标是提升画质 。它能够通过视频预处理的方式使得在视频的分辨率、帧率、色深、色域等各个方面都能有一个较大提升。
其中比较核心的能力包括:SDR2HDR、超分、插帧。
在超分和插帧上都是基于 AI 模型。目前,在超分模型上,已经研发了视频级别的一个超分模型;在开源数据集上,已经达到了 SOTA;在插帧的算法上,也有自研的算法,可以实现任意帧的一个插帧。
在智能老片修复上,百度也和其他的单位合作,构建了一个完整的数据集。比较典型的场景如:胶片上老片的物理损伤,包括其它磁带的一些损伤,“智感超清”产品通过对图像画质进行多维处理,能够在不增加视频带宽成本的情况下,实现画面质量的大幅提升,打造视频的“极质”体验。
第二部分是智能视频编码。

智能视频编码方面,已经研发上线了 AI 驱动自适应的编码。该模型可以根据视频本身内容分析,预测出最优的视频码率与分辨率,并能够与 ABR 协议结合,生成一组最优的编码配置。与此同时,构建了一个数百万场景级别的数据集,将 VMAF 当成视频质量评分的一个指标。
不仅如此,百度还自研了 BD265 编码器,开发了 60 多种算法,并考虑主观驱动的算法去提升视频的画质并节省码率。
对比开源编码器,BD265 编码器提升了 30%的码率,速度上也提升了 2~4 倍。该编码器参加了去年的 MSU 大赛,在 VMAF 上也达到了 top2 的水平。这个是我们前面对智能视频处理和编码的一个简单介绍。
通过前面的简单介绍,相信大家对智能视频云有一个基本的认识,并对“智感超清”产品有一个初步的了解。在下一章节,将给大家重点介绍 HDR 相关的技术。
02 HDR 技术概念解析
什么是 HDR

HDR 的特点可以用三个“更”字概括。
更高的亮度范围
相对于 SDR 来说,HDR 可以达到 10000nits 的最高亮度。这使得它能够更好地展示明暗对比,在亮度方面,更加贴近人眼的对物理世界的感官认知。(可以参考上图 HDR 和 SDR 的效果对比)
更广的色彩范围
上图左下角示例,是一个 CIE 1931 色彩空间的表达。传统的 709 领域(即:高清),能够覆盖 35.9%的色彩范围,而到了 2020 领域(即:超高清),已经能够覆盖 75.8%的色彩范围。
那么,如何去表达这种更宽的色彩范围呢?需要我们更高的比特也就是更高的位深去表示。
这也对应了 HDR 的第三个特性:
更深的色深(位深)
基本上 hdr 都是在 10 比特,更高的要达到 12 比特才能达到。以上是我们对 HDR 效果的一个简单介绍。
HDR 端到端系统流程
之所以想介绍这个流程,是因为 HDR 它不是一个单点的技术概念,它涵盖了从视频的拍摄、制作 、视频编码、解码、播放、传输等一系列流程。需要整个 HDR 技术生态上的企业相互配合,才能完成整个 HDR 端到端的系统。下图形象的展示了整个系统流程:

视频录制(光电转换)→后期加工(产生元数据)→获取 HDR 视频及相关的内容元数据→压缩传输→解码→显示器显示播放(电光转换)
HDR 技术相关概念
1. 光电/电光传输曲线
将自然界中真实场景转换为屏幕上显示出来的图像,需要经过两个主要步骤:
1. 通过摄影设备,将外界光信息转换为图像信息存储。本质上存储为数字信号。
2. 通过显示设备,将图像信息转换为屏幕输出的光信息。
整个过程中,信息流要经过两个重要的非线性映射,才能形成我们在显示设备上看到的图像。这两个重要的非线性映射过程,我们又称光电/电光传输曲线。

下面介绍三种常见的光电/电光传输曲线
Gamma 曲线
是一种在传统的 SDR 显示设备上被广泛使用的转换曲线。
对应的标准是:BT.1886,峰值亮度仅为 100nits。
随着显示设备亮度范围的提升、图像编码 bit depth 的提升,使得传统 Gamma 校正不再适用 HDR 的光电转换过程。
PQ 曲线
由杜比实验室根据 Barten 的人眼模型提出的电光转换曲线。峰值亮度可以达到:10000nits。
优点:能够提供更高的亮度范围。
HLG 曲线
由 BBC 和 NHK 联合提出的光电转换曲线。
优点:兼容 SDR 的显示和播放。在广电领域被广泛应用。
2. HDR 元数据
定义:描述视频或图像处理过程中的关键信息/特征。产生于视频的制作阶段,主要包含色彩和亮度两大方面信息。
分类:按构成结构上分类,可分为静态元数据和动态元数据。
静态元数据:视频中采用单一的元数据去控制每一帧的色彩和细节,元数据并不会发生变化。易造成某些大动态场景的画面暗部或者高亮细节丢失。
动态元数据:视频中的采用变化的元数据去控制每一帧的色彩和细节。通过动态元数据,我们还可以根据用户的显示情况,利用 tone-mapping (色调映射)的算法进行更多的适配。
3. HDR 常见格式

前面也提到,HDR 不是一个单点的技术概念,而是一个端到端的生态。从上述图中也可以看到,HDR 的格式生态十分的复杂,正是由于此,HDR 的标准有些割裂,并不像视频编码一样那么清晰。若按照光电/电光传输曲线的种类来划分,可以分为以下几个大的标准类型:
HDR10:由美国 CT 组织牵头的一个开放标准。完全开源免费。
HLG:是由 BBC 和 NHK 联合开发的高动态范围 HDR 的一个标准。HLG 不需要元数据,能后向兼容 SDR。
HDR10+:为抗衡 DolbyVision, 由三星推出的一个部分免费的标准。采用的是动态元数据。
DolbyVision:Dolby Vision 使用基本层+增强层来实现向下的兼容性。并使用动态元数据来描述所有场景。但它是一个收费标准,授权体系较为复杂。
HDR Vivid:是国产的一个标准。在现有传输曲线和色彩空间标准的基础上,增加动态元数据的描述,开源免费且兼容性好。
03 “智感超清”HDR 技术应用实践
典型超高清 HDR 应用需求

随着 5G 通信的发展,给视频行业带来全新的变革,对应的终端能力也越来越强,互联网超高清应用空前爆发,这对超高清视频的要求也越来越高。通常,我们所说的超高清视频包括以下六要素:
高分辨率
高帧率
色深解析
宽色域
高动态范围
全景声音频
这其中,4K、HDR 等技术贯穿整个从采集、制作、呈现等整个端到端的流程。
下面看一下需要如何的技术储备,才能实现如此端到端的流程?
HDR 处理流程与需求分析

内容生产:
用户拍摄 HDR 视频上传到云端。在这一阶段,平台需要具备以下 HDR 的处理能力:
HDR 视频云端编辑能力
SDR 素材适配
HDR 中间层(Mezz)文件的编码
元数据的生成
元数据的透传
存储(压缩)/处理(传输)阶段
在 HDR 视频编码和处理阶段,需要以下过程:
HDR 转 SDR。 这涉及到重要的色调映射过程。
多种输入格式自动适配。
SDR 转 HDR。 可以通过 AI 的方式,将 SDR 转换为 HDR。
HDR 格式互转能力。HDR 的格式多样,能够支持各种 HDR 格式互转十分重要,如 HDR10 转 HLG。
HDR 元数据的写入、透传。在原始 HDR 视频基础上,能否在码率压缩后写入,这也对云端能力提出了要求。
HDR 显示:
在视频播放阶段,需要一定的策略在端上做相应的适配。具体来说,需要实现:
HDR 终端视频播放
SDR 终端视频播放
端上自动适配
在接下来的章节,会详细分析各项技术的实现过程。
HDR 转 SDR

HDR 转 SDR 的过程实际上是一个色调映射的过程。(Tone Mapping Operator)
HDR 和 SDR 视频的亮度空间和色彩范围都差别很大,这其中的转换过程较为复杂。通俗理解,色调映射就是一个将 HDR 的图像或者视频,转换为 SDR 的图像,并在 SDR 显示设备正确显示的技术。
以下是典型色调映射处理的流程:
1. 预处理
通过预处理,将图像的亮度信息转换为 log 域。
2. 图像分解
通过图像的保边滤波器,将图像分解成基础层和细节层。
3. 亮度信息提取
将提取出的基础层亮度信息通过不同的色调曲线进行压缩,并将压缩后的亮度信息加在细节层上。
4. 后置处理
通过后置处理,进行颜色校正,得到 SDR 图像。
在色调映射过程中,最重要的是如何选择不同的实现算法。这需要结合实际的应用场景。
SDR 转 HDR
SDR 转 HDR 也是一个十分复杂的过程,不仅仅是变换颜色空间和动态范围,更需要考虑暗部细节增强与过曝细节的修复、对比度的提升、色调保持不变、色彩增强处理以达到 HDR 的要求以及通过算法实现对噪声的控制。
在亮度方面:希望通过 SDR 视频中残留的,过度曝光和曝光不足区域的信息,尽可能地恢复这些区域内丢失的细节。
在色彩方面:通过 SDR 视频中受限的色彩,估计出原始场景的色彩,让恢复出的 HDR 视频的色彩尽可能地接近原始场景中丰富而真实的色彩。

上图可以看到传统方法对 SDR 转 HDR 的过程,主要是通过线性转化的方式,对过曝/欠曝的区域进行重建。
目前 AI 的方法,在超分和增强领域用的非常多,由于它使用的是非线性的表达,一般认为通过 AI 的方法可以实现 SDR 转 HDR 的更好效果。
基于 AI 的端到端 SDR 转 HDR 方案

特点:
采用全局/局部信息融合的方式。
采用 Residual Connection 残差学习。
Squeeze-Excitation,channer 维度自注意力算法加持。
超高清预测分辨的速度快。
以下是基于 AI 的 SDR 到 HDR 的效果展示:

可以看到,基于 AI 的 SDR 到 HDR 的转换,在提升动态范围的同时,还补充了曝光不足区域(阴影)的部分细节。整个画面细节更丰富,层次更分明,整体的色彩饱和度上也有明显的提升。
在 AI 模型的训练过程中,数据的积累十分重要。这也是该方案在后续需要优化的地方。
HDR 格式之间的转换
HDR 的格式多样,所以能够支持 HDR 格式之间相互转换十分必要。与转码类似,HDR 格式上也需要做一个统一分发。
要理解 HDR 格式相互转换的这个过程,需要对 PQ 系统模型和 HLG 系统模型有一个深刻的理解。
1. PQ 系统模型

环境光经过光光转换曲线、逆电光转换曲线,变换成 PQ 的电信号。在显示阶段,经过电光转换曲线,变成显示光。
2. HLG 系统模型

环境光经过电光转换曲线,变换成 hlg 的电信号。在显示阶段,通过逆电光转换曲线、光光转换曲线,变成显示光。
HLG 系统模型从流程上看,基本与 PQ 系统模型是相反的。
HEVC HDR 支持
这部分以 HEVC 为例,重点介绍编码在 HDR 上是如何承载的。
HEVC 对元数据的承载包含两个部分的重要信息。
VUI 信息
VUI 是在 H.264/AVC 和 H.265/HEVC 序列参数集中携带的元数据元素的集合,它们共同描述了实际视频信号如何在样本流内存储和映射,包括编码信号的参数或属性、色彩空间、传输曲线等。
SEI 信息
SEI 是用来保证 SDR 与 HDR 之间的互用性的机制的方法,用于实现在接收器或者播放器中实现直接显示或转换显示的过程。
它主要包含制作的描述性信息(或色彩容积转换)、Tone mapping 信息、Color remapping 信息、Knee function 信息。
对 HDR 元数据的解析也是非常重要的能力。只有将原视频的 HDR 元数据保存并解析下来,才能将处理完的元数据写入以保持 HDR 的效果。

“智感超清”HDR 客户落地案例
“智感超清”HDR 目前已经服务各行业的客户,满足用户需求。

在广电领域行业,能够满足用户标清、高清到 4k 转换的需求。
在电影行业,通过 AI 技术对老片进行修复,做超高清处理,提升整个在处理过程中的效率,降低成本消耗,同时让老旧片子真正重新焕发生命力。
在新媒体行业,依托百度智感超清的诸多能力优化视频体验,也增加了很多视频编辑能力,包括非线编能力,极大的提升编辑在创作内容过程中的效果。
在互联网领域,服务于互联网视频用户,一方面提升了视频质量,另一方面降低了带宽成本 解决 UGC 场景下视频质量较差的问题。
以上是老师的全部分享内容。如有任何疑问,可以在留言区提出。

版权声明: 本文为 InfoQ 作者【百度开发者中心】的原创文章。
原文链接:【http://xie.infoq.cn/article/7f362dffbece97640e26b6caa】。文章转载请联系作者。
评论