结合微帧编码引擎，从视频编解码角度对 Sora 浅析

2024-03-15
北京
本文字数：1600 字
阅读完需：约 5 分钟

要问 2024 开年什么东西最火，那一定是 OpenAI 发布的轰动全球的视频生成模型——Sora，与之前的视频生成模型相比，Sora 的特点是能够生成长达 1 分钟的视频，同时保持高视觉质量和视觉一致性，这无疑是生成式 AI 的一项重大突破，OpenAI 亦表示，Sora 是能够理解和模拟现实世界的模型的基础，这一能力将是实现 AGI（通用人工智能）的重要里程碑。

随着以 Sora 为代表的视频生成模型的快速发展，它们在不同领域的应用也正在加速，如降低电影行业制造成本及门槛、为教育行业提供更具吸引力的视频讲解内容等等......可以预见，未来的视频量级将会呈指数型增长。

视频编解码作为视频底层核心技术之一，发挥着至关重要的作用，视频编码算法直接影响到视频的生产、传输、质量、成本等。微帧作为视频编码行业的领军企业，非常关注 AIGC 的行业动态，Sora 发布后，微帧产研团队从编解码角度对 Sora 样例视频做了一系列的分析.

·Sora 采用的编码器：开源软编 x264、硬编

首先我们查看了所有视频的信息，发现均为 H.264/AVC 编码标准、帧率为 30fps、分辨率最高为 1080P 的视频，且所用编码器输入的都是 8bit YUV420 格式。其中部分视频所采用的编码器为开源软编 x264，另一部分未显示编码器信息，且这部分视频码率偏高，这里我们猜测可能使用的是硬编。

我们挑选了一组视频进行帧类型对比【x264 编码的视频 Tokyo-walkVS 未显示编码信息的视频 Flower- blooming】，发现 Flower-blooming 视频并没有设置 B 帧，而无 B 帧这个特点也呈现了“未标注编码器信息的视频为硬件编码”的较大可能性。

· 对比 x264，微帧编码引擎可节省 45%~65%码率

Sora 这次公开的经典视频 Tokyo-walk 采用的就是开源 x264 软件编码器，分辨率为 1080P，码率为 6459kbps，体积大小为 46.1MB。

我们将此视频分别用微帧编码引擎 WZ264、WZ265 进行了编码压缩处理，WZ264 编码后的视频码率节省了 45.3%（降低到 3532kbps），WZ265 编码后的视频码率节省了 64.7%（降低到 2281kbps），下面我们来看看对比效果。

从远景上看，无论是人眼感兴趣区域的人物主体，还是背景灯光、建筑物、虚化的人群，WZ264 与 WZ265 编码压缩后的每一帧都与源视频无异。

再看细节，皮肤纹理、发丝、痘印瑕疵、眼镜反射物等，也基本与源视频一致。

此经典视频的整体画面较为复杂，编码过程中需要处理的信息较多，如果是更简单的画面，微帧编码引擎的压缩率是否会更高？如果是硬编处理（未显示编码器信息）的源视频，压缩率又是如何？

· 对比硬编，微帧编码引擎可节省 60%~90%码率

我们挑取 10 组画面相对简单、硬编处理的源视频，看看 WZ264 及 WZ265 的处理结果，可以发现，WZ264 能够减小 70%左右的码率，WZ265 压缩率则更高，能够减小 80%左右的码率。

其中，压缩率最高的视频为 Flower-blooming，源视频码率为 12049kbps，经 WZ264 编码后的视频码率节省了 79.37%（降低到 2487kpbs），WZ265 编码后的视频码率节省了 88.92%（降低到 1335kbps），以下是与源视频的画面对比效果，可见在压缩率如此之高的情况下，画面质量依然保持每一帧都与源视频几乎无差异。

·缘于编码技术，微帧与 OpenAI 建立联系

Sora 目前对外展示的视频均为 H.264 标准视频，原因不言而喻，因其兼容性更高，能向所有用户展示研发成果。但更新一代的视频编码标准 H.265 及 AV1 的压缩率更高，待 Sora 向大众开放使用后，是否会考虑到视频体积问题而加入“可支持输出视频编码标准为 H.265、AV1”的选择项，目前还未知，但值得期待。

再者，如果以 Sora 为代表的视频内容生成端，选择采用像微帧编码引擎这样的更高效率的编码器，为用户输出更高质量、更小体积的视频，也能为后续的视频传播分发带来极大价值。

基于以上分析，微帧海外团队联系了 VP of Research at OpenAl 。OpenAI 表示，在目前 Sora 的初始阶段，主要精力投入在大模型优化改善上，视频编解码并非高优任务，也期望未来与微帧进行详细的技术交流和合作探讨。同样微帧也非常期待，当“AI 生成”与“视频传播”深度链接以后，能够与 OpenAI 共同探讨 AI 与视频编码的结合，一起探索创新。

发布于: 22 分钟前阅读数: 6

微帧Visionular

关注

让全球视频用户享用最大可能的极致视频体验 2021-09-01 加入

微帧科技是全球领先的视频AI与超高清解决方案提供商。专注于融合视频编码、人工智能、图像处理等技术，为企业提供低成本、超高清、智能化的视频服务。目前已服务Google、虎牙、小红书、网易等众多视频领域标杆企业。

发布

暂无评论

创作场景

结合微帧编码引擎，从视频编解码角度对 Sora 浅析

微帧Visionular

评论