Sora,数据驱动的物理引擎
文生视频技术
Text-to-Video
近日,Open AI 发布文生视频模型 Sora,能够生成一分钟高保真视频。人们惊呼:“真实世界将不再存在。”
Open AI 自称 Sora 是“世界模拟器”,让“一句话生成视频”的 AI 技术向上突破了一大截,引发了业界对于生成式 AI 技术方向的广泛热议。
今天我们就来聊一聊 Open AI 首款文生视频模型 Sora 的技术魅力。
虚拟世界 or 真实世界?
Sora 一石激起千层浪
从 ChatGPT 开启生成式 AI 时代距今,也仅仅一年时间。当我们还在学习如何更好地书写 ChatGPT 指令,Sora 的出现又让所有人开始怀疑真实世界和虚拟世界的界限。
让我们来感受一下 Sora 带来的魅力。
「“由玻璃制成的乌龟,日落时分在沙滩上爬行。”」
「“好朋友小熊猫和巨嘴鸟在蔚蓝时分的圣托里尼漫步。”」
戴着贝雷帽、穿着黑色高领毛衣的绅士小狗“动起来了”:
释放想象力,云彩也可以很酷炫:
在 Sora 之前,Text-to-Video 领域已经有了不少引发关注的视频生成模型。与它们相比,Sora 长达 1 分钟的连续视频生成、特定主题的复杂场景、高度逼真的运镜和细节呈现能力等优势,让它无论是从效果还是理念上,都更具划时代的意义。
数据驱动的物理引擎
Sora 成功的关键因素
英伟达 AI 科学家 Jim Fan 认为:“Sora 是一个数据驱动的物理引擎,它是对现实或幻想世界的模拟,通过一些去噪、梯度下降的方式去学习复杂渲染、‘直觉’物理、长镜头推理和语义基础等。”
OpenAI 探索了视频数据生成模型的大规模训练。具体来说,研究人员在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散模型。
研究表明,时空补片(Patches)是一种高效的视觉数据表现形式,它们能极大地提升生成模型处理多样化视频和图像数据的能力。Sora 引入了时空补片技术,通过先将视频数据压缩到低维度潜在空间,再将其分解成时空补片,从而实现视频到补片的转化。
Sora 的整个生成过程,是扩散模型和 Transformer 的结合。扩散模型负责生成效果的部分,增加 Transformer 的注意力机制后,就多了对生成的预测和推理能力。
纽约大学助理教授、扩散-Tranformer 技术的提出者谢赛宁指出,数据很可能是 Sora 成功的最关键因素:“对于 Sora 这样的复杂系统而言,人才第一、数据第二、算力第三,其他都没有什么是不可替代的”。
专业的数据伙伴
澳鹏提供高质量训练数据
在文生视频的训练过程中,训练数据的质量至关重要。传统的视频模型,是在限制性更强的数据集、更短的长度和更窄的目标上进行训练的;而 Sora 则利用了更庞大而多样的数据集:包括不同持续时间、分辨率和长宽比的视频和图像数据等等。
只有进行了这样广泛的数据训练,Sora 才能够理解复杂的动态,并生成足够多样化、高质量的内容。澳鹏提供多场景、多类型的视频数据采集和标注服务,快速响应各种复杂的数据训练需求:
在 Sora 训练文生视频功能的过程中,视频描述数据(Video Caption)至关重要。澳鹏生成式 AI 数据服务平台提供专业的视频+文本多模态训练数据生产能力。通过澳鹏专业的视频标注工具,我们可以对视频数据进行片段切分,并且生成切分片段的描述。
描述的内容除了根据视频帧准确描述场景和关键物体之外,同时通过大模型提升场景细节描述的丰富度,包括物体的颜色、形状、周边环境的表达、物体之间的位置和交互关系等。极大地提高了数据的精细程度和质量,为文生视频模型训练更加精致的画面提供了数据保障。
在文生视频领域,高质量的文本-视频对非常稀缺。Sora 需要大量数据来学习字幕相关性、帧照片写实感和时间动态等,而视频的合理性及连贯性可以体现模型的架构能力、创造力、理解能力。
澳鹏提供 50 亿对大规模的图文数据,适用类型包括但不限于:多模态或图像模型训练、大模型预训练、图文匹配、图像生成(图像或视频的修复/编辑等)和文本生成(图像或视频生成文本、VQA 等)等任务。
在新的技术趋势背景下,开发者们在思考如何在这个快速变化的环境中保持创新,通过技术来解决实际的市场需求,为终端用户创造更加智能、个性化的科技体验。
新的技术方向也意味着更优质的数据准备需求。澳鹏正在与国内头部前沿企业合作开启新一轮大模型研发的打磨和实践,助力更多大模型领域的前沿先锋构建更优质的人工智能。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/a515c154a227cdf454a1f68e7】。文章转载请联系作者。
评论