写点什么

结合微帧编码引擎,从视频编解码角度对 Sora 浅析

  • 2024-03-15
    北京
  • 本文字数:1600 字

    阅读完需:约 5 分钟

结合微帧编码引擎,从视频编解码角度对Sora浅析

要问 2024 开年什么东西最火,那一定是 OpenAI 发布的轰动全球的视频生成模型——Sora,与之前的视频生成模型相比,Sora 的特点是能够生成长达 1 分钟的视频,同时保持高视觉质量和视觉一致性,这无疑是生成式 AI 的一项重大突破,OpenAI 亦表示,Sora 是能够理解和模拟现实世界的模型的基础,这一能力将是实现 AGI(通用人工智能)的重要里程碑。

随着以 Sora 为代表的视频生成模型的快速发展,它们在不同领域的应用也正在加速,如降低电影行业制造成本及门槛、为教育行业提供更具吸引力的视频讲解内容等等......可以预见,未来的视频量级将会呈指数型增长。


视频编解码作为视频底层核心技术之一,发挥着至关重要的作用,视频编码算法直接影响到视频的生产、传输、质量、成本等。微帧作为视频编码行业的领军企业,非常关注 AIGC 的行业动态,Sora 发布后,微帧产研团队从编解码角度对 Sora 样例视频做了一系列的分析.


·Sora 采用的编码器:开源软编 x264、硬编


首先我们查看了所有视频的信息,发现均为 H.264/AVC 编码标准、帧率为 30fps、分辨率最高为 1080P 的视频,且所用编码器输入的都是 8bit YUV420 格式。其中部分视频所采用的编码器为开源软编 x264,另一部分未显示编码器信息,且这部分视频码率偏高,这里我们猜测可能使用的是硬编。



我们挑选了一组视频进行帧类型对比【x264 编码的视频 Tokyo-walkVS 未显示编码信息的视频 Flower- blooming】,发现 Flower-blooming 视频并没有设置 B 帧,而无 B 帧这个特点也呈现了“未标注编码器信息的视频为硬件编码”的较大可能性。

· 对比 x264,微帧编码引擎可节省 45%~65%码率

Sora 这次公开的经典视频 Tokyo-walk 采用的就是开源 x264 软件编码器,分辨率为 1080P,码率为 6459kbps,体积大小为 46.1MB。

我们将此视频分别用微帧编码引擎 WZ264、WZ265 进行了编码压缩处理,WZ264 编码后的视频码率节省了 45.3%(降低到 3532kbps),WZ265 编码后的视频码率节省了 64.7%(降低到 2281kbps),下面我们来看看对比效果。


从远景上看,无论是人眼感兴趣区域的人物主体,还是背景灯光、建筑物、虚化的人群,WZ264 与 WZ265 编码压缩后的每一帧都与源视频无异。

再看细节,皮肤纹理、发丝、痘印瑕疵、眼镜反射物等,也基本与源视频一致。


此经典视频的整体画面较为复杂,编码过程中需要处理的信息较多,如果是更简单的画面,微帧编码引擎的压缩率是否会更高?如果是硬编处理(未显示编码器信息)的源视频,压缩率又是如何?


· 对比硬编,微帧编码引擎可节省 60%~90%码率


我们挑取 10 组画面相对简单、硬编处理的源视频,看看 WZ264 及 WZ265 的处理结果,可以发现,WZ264 能够减小 70%左右的码率,WZ265 压缩率则更高,能够减小 80%左右的码率。


其中,压缩率最高的视频为 Flower-blooming,源视频码率为 12049kbps,经 WZ264 编码后的视频码率节省了 79.37%(降低到 2487kpbs),WZ265 编码后的视频码率节省了 88.92%(降低到 1335kbps),以下是与源视频的画面对比效果,可见在压缩率如此之高的情况下,画面质量依然保持每一帧都与源视频几乎无差异。


·缘于编码技术,微帧与 OpenAI 建立联系


Sora 目前对外展示的视频均为 H.264 标准视频,原因不言而喻,因其兼容性更高,能向所有用户展示研发成果。但更新一代的视频编码标准 H.265 及 AV1 的压缩率更高,待 Sora 向大众开放使用后,是否会考虑到视频体积问题而加入“可支持输出视频编码标准为 H.265、AV1”的选择项,目前还未知,但值得期待。


再者,如果以 Sora 为代表的视频内容生成端,选择采用像微帧编码引擎这样的更高效率的编码器,为用户输出更高质量、更小体积的视频,也能为后续的视频传播分发带来极大价值。


基于以上分析,微帧海外团队联系了 VP of Research at OpenAl 。OpenAI 表示,在目前 Sora 的初始阶段,主要精力投入在大模型优化改善上,视频编解码并非高优任务,也期望未来与微帧进行详细的技术交流和合作探讨。同样微帧也非常期待,当“AI 生成”与“视频传播”深度链接以后,能够与 OpenAI 共同探讨 AI 与视频编码的结合,一起探索创新。

用户头像

让全球视频用户享用最大可能的极致视频体验 2021-09-01 加入

微帧科技是全球领先的视频AI与超高清解决方案提供商。专注于融合视频编码、人工智能、图像处理等技术,为企业提供低成本、超高清、智能化的视频服务。目前已服务Google、虎牙、小红书、网易等众多视频领域标杆企业。

评论

发布
暂无评论
结合微帧编码引擎,从视频编解码角度对Sora浅析_微帧Visionular_InfoQ写作社区