即时通讯音视频开发（二十）：一文读懂视频的颜色模型转换和色域转换

2023-10-12
江苏
本文字数：4981 字
阅读完需：约 16 分钟

本文由百度技术王伟分享，原题“视频中为什么需要这么多的颜色空间？”，本文收录时有修订和改动。

1、引言

在视频处理中，我们经常会用到不同的色彩空间：非线性 RGB，线性 RGB，YUV，XYZ……为什么需要这么多的色彩空间呢？为什么在 FFMpeg 中会有 color_space，color_transfer，color_primaries 等一系列的颜色属性呢？这些术语之间究竟隐藏着什么秘密？

本文将以通俗易懂的文字，引导你理解视频是如何从采集开始，历经各种步骤，最终通过颜色模型转换和不同的色域转换，让你看到赏心悦目的视频结果的。

技术交流：

- 移动端 IM 开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源 IM 框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4467-1-1.html）

2、系列文章

本文是系列文章中的第 20 篇，本系列文章的大纲如下：

《即时通讯音视频开发（一）：视频编解码之理论概述》

《即时通讯音视频开发（二）：视频编解码之数字视频介绍》

《即时通讯音视频开发（三）：视频编解码之编码基础》

《即时通讯音视频开发（四）：视频编解码之预测技术介绍》

《即时通讯音视频开发（五）：认识主流视频编码技术H.264》

《即时通讯音视频开发（六）：如何开始音频编解码技术的学习》

《即时通讯音视频开发（七）：音频基础及编码原理入门》

《即时通讯音视频开发（八）：常见的实时语音通讯编码标准》

《即时通讯音视频开发（九）：实时语音通讯的回音及回音消除概述》

《即时通讯音视频开发（十）：实时语音通讯的回音消除技术详解》

《即时通讯音视频开发（十一）：实时语音通讯丢包补偿技术详解》

《即时通讯音视频开发（十二）：多人实时音视频聊天架构探讨》

《即时通讯音视频开发（十三）：实时视频编码H.264的特点与优势》

《即时通讯音视频开发（十四）：实时音视频数据传输协议介绍》

《即时通讯音视频开发（十五）：聊聊P2P与实时音视频的应用情况》

《即时通讯音视频开发（十六）：移动端实时音视频开发的几个建议》

《即时通讯音视频开发（十七）：视频编码H.264、V8的前世今生》

《即时通讯音视频开发（十八）：详解音频编解码的原理、演进和应用选型》

《即时通讯音视频开发（十九）：零基础，史上最通俗视频编码技术入门》

《即时通讯音视频开发（二十）：一文读懂视频的颜色模型转换和色域转换》（* 本文）

3、视频采集

如上图所示，在相机系统中，外部世界的光信息（光子，photons）通过透镜或其他光学器件聚焦之后达到相机的图像传感器（CCD 或者 CMOS）。

过程是这样的：

1）图像传感器可以将一个入射光子（photon）转换为对应的一个电子（electron）；
2）在曝光时间内，图像传感器对转换的电子进行电荷积累；
3）然后，图像传感器会将积累的电荷信号转换成对应的电压信号；
4）最后，利用 ADC 把电信号转换成数字信号，而转换后的数字信号则为某个范围内的整数值。

ADC 数字信号的取值范围：

[pquote]ADC 转换之后的数字信号的取值范围受限于 ADC 设备。对于 8-bits 的 ADC 而言，数字信号的取值范围为 [0, 2^8-1]，因此，对于每一个像素而言，会用 [0, 255] 之间的整数来进行编码。[/pquote]

ADC 转换的数字信号的数值是一个线性编码的过程，这意味着如果将图像传感器上的光量增加 1 倍，则 ADC 转换之后对应的数值也会增加 1 倍。

这是一个非常有用的特性：无论是增加物理世界的光量，还是增加 ADC 转换之后的数值，对图片而言，都会带来相同的效果。线性编码意味着我们所处理的数据和光发射的强度成正比关系。

由数码相机中的 CMOS 传感器产生并写入原始文件（Raw File）的数据是线性的。与普通照片相比，线性数据通常看起来非常暗且对比度较低。

在 iPhone 手机中，可以通过设置相机来拍摄 Apple ProRAW 格式的照片。

4、探索视频伽马校正

研究表明：人类视觉系统是以对数函数的方式来感知光亮度。这意味着：人眼会提高暗部的敏感度，降低高光部分的敏感度。

从数学角度看，感知光强度和测量光强度之间存在一个*似的*方关系，具体如下式所示。

由于人类视觉感知系统不是以线性方式工作的，因此必须使用非线性曲线来对 ADC 生成的的线性数据进行变换，从而使得拍摄的图像色调与我们的视觉系统的工作方式相匹配。这个过程也就是我们所说的伽马校正。

因此：在从线性 RGB 空间转换到非线性 RGB 空间时，需要 γ 作为转换参数。相机中的 ISP 模块负责对图像传感器的线性 RGB 进行伽马校正进而产生对应的符合人眼感知的非线性 RGB 数据。

RGB 的设备依赖性：

不同显示设备支持的色域空间不同，因此对于不同的显示设备而言，伽马校正之后的 RGB 数值也不同。从这个角度讲，RGB 是设备依赖型的色彩空间。

5、视频压缩

根据如上的信息，我们知道：相机系统经过 ISP 处理之后，最终会得到非线性的 RGB 信息。对于视频而言，如果以 RGB 存储每帧的信息，则需要消耗大量的存储空间。

人类视觉系统对颜色信息的敏感度要弱于亮度信息。利用这一特点，通常相机会将捕获的 RGB 信息转换为 YUV 格式，然后对 YUV 格式进行色度信息采样（例如，YUV420）以便压缩图像空间。

RGB->YUV，不同标准有不同要求，一般常用的标准有：

1）BT. 601(SD: Standard-Definition)；
2）BT. 709(HD: High-Definition)；
3）BT. 2020(UHD: Ultra-High-Definition)。

注意：

标准中，不但会规定 RGB->YUV 的转换系数，同时还会规定从线性 RGB 到非线性 RGB 转换的 gamma 系数。

将 RGB 颜色模型，转换成 YUV 模型后，接下来会采用某种视频编解码算法（例如，H265, VP9）对获取的数据进行视频编码，最终得到视频文件（此处忽略了音频的采集编码以及合流的操作）。

6、视频转码

出于各种原因，例如：

1）终端用户的带宽受限；
2）终端用户支持的视频编解码算法和相机压缩视频的编解码算法不一致；
3）……

一般不会直接把相机产出的视频文件分发给用户去消费。媒体服务商会对相机生成的视频文件进行转码，然后选择合适的转码后的视频分发给终端消费用户。

在视频转码阶段，如果我们希望对原视频进行色域的变换，例如从 BT. 601 转码为 BT. 709，则需要在不同色域的 RGB 数值之间进行转换。

在不同的色域空间进行 RGB 数据的转换，这也就是我们所说的色彩管理。色彩管理会对图像进行色彩管理以适配当前环境下的颜色效果，从而保证同一张图片在不同输入、输出上都呈现出最好的颜色。

色彩转换需要在某个线性空间下进行操作，并且操作过程需要保持设备的独立性。因此，不同的 RGB 色域空间是不能直接进行转换的，需要一个设备无关、线性的颜色模型作为中转才能实现其转换。

而 XYZ（CIE 1931 XYZ color space）具备设备无关、线性操作的特性。

在 FFMpeg 中，主要使用 colorspace 滤镜来完成不同色域空间的转换。

根据 colorspace 的实现可知，在 FFMpeg 中，BT. 601->BT. 709 的转换过程如下所示：

在如上的变换中，涉及到 3 个颜色空间的转换，分别是：

1）YUV 和 RGB 之间的转换；
2）线性 RGB 和非线性 RGB 之间的转换；
3）线性 RGB 和 XYZ 之间的转换。

在 FFMpeg 中，所有的这些转换参数都保存在 AVFrame 结构中：

1）AVFrame->colorspace 中保存了 YUV/RGB 的转换矩阵；
2）AVFrame->color_trc 中保存了线性 RGB 和非线性 RGB 之间的转换函数（transformation characteristics）；
3）AVFrame->color_primaries 中保存了 RGB/XYZ 的转换矩阵；

如果用 ffprobe 命令解析视频文件，则：

1）color_space 字段对应 YUV/RGB 的转换矩阵；
2）color_transfer 字段对应线性 RGB 和非线性 RGB 之间的转换函数；
3）color_primaries 字段对应 RGB/XYZ 的转换矩阵。

$ ffprobe -select_streams v:0 -show_entries stream=color_space,color_transfer,color_primaries test.mp4

[STREAM]
color_space=bt2020nc
color_transfer=arib-std-b67
color_primaries=bt2020
[/STREAM]

在如上的例子中，arib-std-b67 也就是我们所熟悉的 HLG。

在 MediaInfo 中：

1）Matrix coefficients 字段对应 YUV/RGB 的转换矩阵；
2）Transfer characteristic 字段对应线性 RGB 和非线性 RGB 之间的转换函数；
3）Color primaries 字段对应 RGB/XYZ 的转换矩阵。

除了如上的参数外，AVFrame->range 还用来存储视频中对应像素的每个分量的取值范围。

在 vf_setparams.c 中也作了相关的定义说明：

{"limited", NULL, 0, AV_OPT_TYPE_CONST, {.i64=AVCOL_RANGE_MPEG}, 0, 0, FLAGS, "range"},
{"tv",      NULL, 0, AV_OPT_TYPE_CONST, {.i64=AVCOL_RANGE_MPEG}, 0, 0, FLAGS, "range"},
{"mpeg",    NULL, 0, AV_OPT_TYPE_CONST, {.i64=AVCOL_RANGE_MPEG}, 0, 0, FLAGS, "range"},
{"full",    NULL, 0, AV_OPT_TYPE_CONST, {.i64=AVCOL_RANGE_JPEG}, 0, 0, FLAGS, "range"},
{"pc",      NULL, 0, AV_OPT_TYPE_CONST, {.i64=AVCOL_RANGE_JPEG}, 0, 0, FLAGS, "range"},
{"jpeg",    NULL, 0, AV_OPT_TYPE_CONST, {.i64=AVCOL_RANGE_JPEG}, 0, 0, FLAGS, "range"},