ffplay 视频播放原理分析
作者 | 赵家祝
FFmpeg 框架由命令行工具和函数库组成, ffplay 是其中的一种命令行工具,提供了播放音视频文件的功能,不仅可以播放本地多媒体文件,还可以播放网络流媒体文件。本文从 ffplay 的整体播放流程出发,借鉴其设计思路,学习如何设计一款简易的播放器。
一、播放器工作流程
在学习 ffplay 源码之前,为了方便理解,我们先宏观了解一下播放器在播放媒体文件时的工作流程。
解协议:媒体文件在网络上传输时,需要经过流媒体协议将媒体数据分段成若干个数据包,这样就可以满足用户一边下载一边观看的需求,而不需要等整个媒体文件都下载完成才能观看。常见的流媒体协议有 RTMP、HTTP、HLS、MPEG-DASH、MSS、HDS 等。由于流媒体协议中不仅仅包含媒体数据,还包含控制播放的信令数据。因此,解协议是移除协议中的信令数据,输出音视频封装格式数据。
解封装:封装格式也叫容器,就是将已经编码压缩好的视频流和音频流按照一定的格式放到一个文件中,常见的封装格式有 MP4、FLV、MPEG2-TS、AVI、MKV、MOV 等。解封装是将封装格式数据中的音频流压缩编码数据和视频流压缩编码数据分离,方便在解码阶段使用不同的解码器解码。
解码:压缩编码数据是在原始数据基础上采用不同的编码压缩得到的数据,而解码阶段就是编码的逆向操作。常见的视频压缩编码标准有 H.264/H.265 、MPEG-2 、AV1 、V8/9 等,音频压缩编码标准有 AAC 、MP3 等。解压后得到的视频图像数据是 YUV 或 RGB ,音频采样数据是 PCM 。
音视频同步:解码后的视频数据和音频数据是独立的,在送给显卡和声卡播放前,需要将视频和音频同步,避免播放进度不一致。
二、main 函数
ffplay 的使用非常简单,以 ffplay -i input.mp4 -loop 2 为例,表示使用 ffplay 播放器循环播放 input.mp4 文件两遍。执行该命令时,对应的源码在 fftools/ffplay.c 中,程序入口函数是 main 函数 。
注:本文 ffplay 源码基于 ffmpeg 4.4。
2.1 环境初始化
初始化部分主要调用以下函数:
init_dynload:调用 SetDllDirectory("")删除 动态链接库(DLL)搜索路径中的当前工作目录,是 Windows 平台下的一种安全预防措施。
av_log_set_flag:设置 log 打印的标记为 AV_LOG_SKIP_REPEATED,即跳过重复消息。
parse_loglevel:解析 log 的级别,会匹配命令中的-loglevel 字段。如果命令中添加-report,会将播放日志输出成文件。
avdevice_register_all:注册特殊设备的封装库。
avformat_network_init:初始化网络资源,可以从网络中拉流。
parse_options:解析命令行参数,示例中的-i input.mp4 和-loop 2 就是通过这个函数解析的,支持的选项定义在 options 静态数组中。解析得到的文件名、文件格式分别保存在全局变量 input_filename 和 file_iformat 中。
2.2 SDL 初始化
SDL 的全称是 Simple DirectMedia Layer,是一个跨平台的多媒体开发库,支持 Linux、Windows、Mac OS 等多个平台,实际上是对 DirectX、OpenGL、Xlib 再封装,在不同操作系统上提供了相同的函数。ffplay 的播放显示是通过 SDL 实现的。
main 函数中主要调用了以下三个 SDL 函数:
SDL_Init:初始化 SDL 库,传入的参数 flags,默认支持视频、音频和定时器,如果命令中配置了-an 则禁用音频,配置了-vn 则禁用视频。
SDL_CreateWindow:创建播放视频的窗口,该函数可以指定窗口的位置、大小,默认是 640*480 大小。
SDL_CreateRenderer:为指定的窗口创建渲染器上下文,对应的结构体是 SDL_Render 。我们既可以使用渲染器创建纹理,也可以渲染视图。
2.3 解析媒体流
stream_open 函数是 ffplay 开始播放流程的起点,该函数传入两个参数,分别是文件名 input_filename 和文件格式 file_iformat。下面是函数内部的处理流程:
(1) 初始化 VideoState:VideoState 是 ffplay 中最大的结构体,所有的视频信息都定义在其中。初始化 VideoState 时,先定义 VideoState 结构体指针类型的局部变量 is,分配堆内存。然后初始化结构体中的变量,例如视频流、音频流、字幕流的索引,并赋值函数入参 filename 和 iformat。
(2)初始化 FrameQueue:FrameQueue 是解码后的 Frame 队列, Frame 是解码后的数据,例如视频解码后是 YUV 或 RGB 数据,音频解码后是 PCM 数据。初始化 FrameQueue 时,会对 VideoState 中的 pictq(视频帧队列)、subpq(字幕帧队列)、sampq(音频帧队列)依次调用 frame_queue_init 函数进行初始化。FrameQueue 内部是通过数组实现了一个先进先出的环形缓冲区,windex 是写指针,被解码线程使用;rindex 是读指针,被播放线程使用。使用环形缓冲区的好处是,缓冲区内的元素被移除后,其它元素不需要移动位置,适用于事先知道缓冲区最大容量的场景。
(3)初始化 PacketQueue:PacketQueue 是解码前的 Packet 队列,用于保存解封装后的数据。初始化 PacketQueue 时,会对 VideoState 中的 videoq(视频包队列)、audio(音频包队列)、subtitleq(字幕包队列)依次调用 packet_queue_init 函数进行初始化。不同于 FrameQueue , PacketQueue 采用链表的方式实现队列。由于解码前的包大小不可控,无法明确缓冲区的最大容量,如果使用环形缓冲区,容易触发缓冲区扩容,需要移动缓冲区内的数据。因此,使用链表实现队列更加合适。
(4)初始化 Clock:Clock 是时钟,在音视频同步阶段,有三种同步方法:视频同步到音频,音频同步到视频,以及音频和视频同步到外部时钟。初始化 Clock 时,会对 VideoState 中的 vidclk(视频时钟)、audclk(音频时钟)、extclk(外部时钟)依次调用 init_clock 函数进行初始化。
(5)限制音量范围:先限制音量范围在 0~100 之间,然后再根据 SDL 的音量范围作进一步限制。
(6)设置音视频同步方式:ffplay 默认采用 AV_SYNC_AUDIO_MASTER,即视频同步到音频。
(7)创建读线程:调用 SDL_CreateThread 创建读线程,同时设置了线程创建成功的回调 read_thread 函数以及接收参数 is( stream_open 函数最开始创建的 VideoState 指针类型的局部变量)。如果线程创建失败,则调用 stream_close 做销毁逻辑。
(8)返回值:将局部变量 is 作为函数返回值返回,用于处理下面的各种 SDL 事件。
2.4 SDL 事件处理
event_loop 函数内部是一个 for 循环,使用 SDL 监听用户的键盘按键事件、鼠标点击事件、窗口事件、退出事件等。
三、read_thread 函数
read_thread 函数的作用是从磁盘或者网络中获取流,包括音频流、视频流和字幕流,然后根据可用性创建对应流的解码线程。因此 read_thread 所在的线程实际上起到了解协议/解封装的作用。核心处理流程可以分为以下步骤:
3.1 创建 AVFormatContext
AVFormatContext 是封装上下文,描述了媒体文件或媒体流的构成和基本信息。avformat_alloc_context 函数用于分配内存创建 AVFormatContext 对象 ic。
拿到 AVFormatContext 对象后,在调用 avformat_open_input 函数打开文件前,需要设置中断回调函数,用于检查是否应该中断 IO 操作。
decode_interrupt_cb 内部返回了一个 VideoState 的 abort_request 变量,该变量在调用 stream_close 函数关闭流时会被置为 1。
3.2 打开输入文件
在准备好前面的一些赋值操作后,就可以开始根据 filename 打开文件了。avformat_open_input 函数用于打开一个文件,并对文件进行解析。如果文件是一个网络链接,则发起网络请求,在网络数据返回后解析音频流、视频流相关的数据。
3.3 搜索流信息
搜索流信息使用 avformat_find_stream_info 函数,该从媒体文件中读取若干个包,然后从其中搜索流相关的信息,最后将搜索到的流信息放到 ic->streams 指针数组中,数组的大小为 ic->nb_streams。
由于在实际播放过程中,用户可以指定是否禁用音频流、视频流、字幕流。因此在解码要处理的流之前,会判断对应的流是否处于不可用状态,如果是可用状态则调用 av_find_best_stream 函数查找对应流的索引,并保存在 st_index 数组中。
3.4 设置窗口大小
如果找到了视频流的索引,则需要渲染视频画面。由于窗体的大小一般使用默认值 640*480 ,这个值和视频帧真正的大小可能是不相等的。为了正确显示承载视频画面的窗体,需要计算视频帧的宽高比。调用 av_guess_sample_aspect_ration 函数猜测帧样本的宽高比,调用 set_default_window_size 函数重新设置显示窗口的大小和宽高比。
3.5 创建解码线程
根据 st_index 判断音频流、视频流、字幕流的索引是否找到,如果找到了就依次调用 stream_component_open 创建对应流的解码线程。
3.6 解封装处理
接下来是一个 for(;;) 循环:
(1)响应中断停止、暂停/继续、Seek 操作;
(2)判断 PacketQueue 队列是否满了,如果满了就休眠 10ms,继续循环;
(3)调用 av_read_frame 从码流中读取若干个音频帧或一个视频帧;
(4)从输入文件中读取一个 AVPacket ,判断当前 AVPacket 是否在播放时间范围内,如果是则调用 packet_queue_put 函数,根据类型将其放在音频/视频/字幕的 PacketQueue 中。
四、stream_component_open 函数
3.5 小节讲到,stream_component_open 函数负责创建不同流的解码线程。那么它是如何创建解码线程的呢?
4.1 创建 AVCodecContext
AVCodecContext 是编解码器上下文,保存音视频编解码相关的信息。使用 avcodec_alloc_context3 函数分配空间 ,使用 avcodec_free_context 函数释放空间。
4.2 查找解码器
根据解码器的 id ,调用 avcodec_find_decoder 函数,查找对应的解码器。与之类似的一个函数是 avcodec_find_encoder,用于查找 FFmpeg 的编码器。两个函数返回的结构体都是 AVCodec 。
如果指定了解码器名称,则需要调用 avcodec_find_decoder_by_name 函数查找解码器。
不管是哪种方式查找解码器,如果没有找到解码器,都会抛异常退出流程。
4.3 解码器初始化
找到解码器后,需要打开解码器,并对解码器初始化,对应的函数是 avcodec_open2,该函数也支持编码器的初始化。
4.4 创建解码线程
判断解码类型,创建不同的解码线程。
线程创建在 decoder_start 函数中,依然使用 SDL 创建线程的方式,调用 SDL_CreateThread 函数。
五、video_thread 函数
视频解码线程从视频的 PacketQueue 中不断读取 AVPacket ,解码完成后将 AVFrame 放入视频 FrameQueue 。音频的解码实现和视频类似,这里仅介绍视频的解码过程。
5.1 创建 AVFrame
AVFrame 描述解码后的原始音频数据或视频数据,通过 av_frame_alloc 函数分配内存,通过 av_frame_free 函数释放内存。
5.2 视频解码
开启 for(;;) 循环,不断调用 get_video_frame 函数解码一个视频帧。该函数主要调用了 decoder_decode_frame 函数解码,decoder_decode_frame 函数对音频、视频、字幕都进行了处理,主要依靠 FFmpeg 的 avcodec_receive_frame 函数获取解码器解码输出的数据。
拿到解码后的视频帧后,会根据音视频同步的方式和命令行的-framedrop 选项,判断是否需要丢弃失去同步的视频帧。
命令行带-framedrop 选项,无论哪种音视频同步机制,都会丢弃失去同步的视频帧。
命令行带-noframedrop 选项,无论哪种音视频同步机制,都不会丢弃失去同步的视频帧。
命令行不带-framedrop 或-noframedrop 选项,若音视频同步机制为同步到视频,则不丢弃失去同步的视频帧,否则会丢弃失去同步的视频帧。
5.3 放入 FrameQueue
调用 queue_picture 函数,将 AVFrame 放入 FrameQueue 。该函数内部调用了 frame_queue_push 函数,采用了环形缓冲区的处理方式,对写指针 windex 累加。
六、音视频同步
ffplay 默认采用将视频同步到音频的方式,分以下三种情况:
如果视频和音频进度一致,不需要同步;
如果视频落后音频,则丢弃当前帧直接播放下一帧,人眼感觉跳帧了;
如果视频超前音频,则重复显示上一帧,等待音频,人眼感觉视频画面停止了,但是有声音在播放;
ffplay 视频同步到音频的逻辑在视频播放函数 video_refresh 中实现。该函数的调用链是:main()->event_loop()->refresh_loop_wait_event()->video_refresh。
6.1 判断播放完成
调用 frame_queue_nb_remaing 函数计算剩余没有显示的帧数是否等于 0,如果是,则不需要走剩下的步骤。计算过程比较简单,用 FrameQueue 的 size - rindex_shown , size 是 FrameQueue 的大小, rindex_shown 表示 rindex 指向的节点是否已经显示,如果已经显示则为 1,否则为 0。
6.2 播放序列匹配
分别调用 frame_queue_peek_last 和 frame_queue_peek 函数从 FrameQueue 中获取上一帧和当前帧,上一帧是上次已经显示的帧,当前帧是当前待显示的帧。
(1)比较当前帧和当前 PacketQueue 的播放序列 serial 是否相等:
如果不等,重试视频播放的逻辑;
如果相等,则进入(2)流程判断;
注:
serial
是用来区分是不是连续的数据,如果发生了 seek ,会开始一个新的播放序列,
(2)比较上一帧和当前帧的播放序列 serial 是否相等:
如果不相等,则将 frame_timer 更新为当前时间;
如果相等,不处理并进入下一流程
6.3 判断是否重复上一帧
(1)将上一帧 lastvp 和当前帧 vp 传入 vp_duration 函数,通过 vp->pts - lastvp->pts 计算上一帧的播放时长。
注:
pts
全称是 Presentation Time Stamp ,显示时间戳,表示解码后得到的帧的显示时间。
(2)在 compute_target_delay 函数中,调用 get_clock 函数获取视频时钟,调用 get_master_clock 函数获取同步时钟,计算两个时钟的差值,根据差值计算需要 delay 的时间。
(3)如果当前帧播放时刻(is->frame_timer + delay)大于当前时刻(time),表示当前帧的播放时间还没有到,相当于当前视频超前音频了,则需要将上一帧再播放一遍。
6.4 判断是否丢弃未播放的帧
如果当前队列中的帧数大于 1,则需要考虑丢帧,只有一帧的时候不考虑丢帧。
(1)调用 frame_queue_peek_next 函数获取下一帧(下一个待显示的帧),根据当前帧和下一帧计算当前帧的播放时长,计算过程和 6.3 相同。
(2)满足以下条件时,开始丢帧:
当前播放模式不是步进模式;
丢帧策略生效:framedrop>0,或者当前音视频同步策略不是音频到视频。
当前帧 vp 还没有来得及播放,但是下一帧的播放时刻(is->frame_timer + duration)已经小于当前系统时刻(time)了。
(3)丢帧时,将 is->frame_drops_late++,并调用 frame_queue_next 函数将上一帧删除,更新 FrameQueue 的读指针 rindex 和 size 。
七、渲染
ffplay 最终的图像渲染是由 SDL 完成的,在 video_display 中调用了 SDL_RenderPresent(render) 函数,其中 render 参数是最开始在 main 函数中创建的。在渲染之前,需要将解码得到的视频帧数据转换为 SDL 支持的图像格式。转换过程在 upload_texture 函数中实现,细节不在此处分析。
音频类似,如果解码得到的音频不能被 SDL 支持,需要对音频进行重采样,将音频帧格式转换为 SDL 支持的格式。
八、小结
本文从整体播放流程出发,介绍了 ffplay 播放器播放媒体文件的主要流程,不深陷于代码细节。同时,对 FFmpeg 的一些常用函数有了一些了解,对我们自己手写一个简单的播放器有很大的帮助。
---------- END ----------
推荐阅读【技术加油站】系列:
版权声明: 本文为 InfoQ 作者【百度Geek说】的原创文章。
原文链接:【http://xie.infoq.cn/article/6e2c7e13db8d1d3f68db70ce0】。文章转载请联系作者。
评论