怎么用 OpenAI Sora?最全分析 - 新手小白必看
说明
2024/02/15,农历正月初六,OpenAI 发布了王炸级别 Sora,https://openai.com/sora
Sora 可以根据文字描述生成长达 60s 的视频,画面非常流畅,真实度很高。一下子在国内互联网炸开了锅,得到了广泛的传播。目前 Sora 生成视频的质量基本上秒杀了市面上所有的文字生成视频的产品。对比其他产品,Pika 是 3 秒,Runway 是 4 秒,Sora 生成的视频是 60 秒,简直就是秒杀,而且生成的分辨率也非常高,几乎可以做到以假乱真。Sora 注定会像 ChatGPT 一样,成为一个颠覆很多行业的产品。
PS:目前 Sora 还没有开放使用。不过按照以往的惯例,一般新功能都会优先开放给 ChatGPT Plus 用户使用。需要注册或者是升级 ChatGPT Plus 的用户可以参考 升级ChatGPT Plus保姆级教程这个教程,一分钟完成升级。
Sora 原理
Sora 是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩展模型,同时采用了 Transformer 架构,也就是一种扩散型 Transformer。
简单来说,Soar 整合了自家的 GPT 和 DALL-E 模型。其中,GPT-4 就是基于 Transformer 架构的大型神经网络,目前是最强大的大预言模型。而最新的 DALL-E3 是基于文本提示生成图像的图像生成模型。
关于具体技术细节,官方报告简单提出了以下 6 点:
视觉数据的补片化
在具体操作中,模型先将视频压缩到低维潜空间中,然后将它们表示分解为时空补片,从而将视频转换为补片。
视频压缩网络技术
降低视觉数据维度,输入视频,输出时空上压缩的潜表示。OpenAI 为此训练了一个专门的解码器。
时空补片技术
给定一个压缩的输入视频,模型提取一系列时空补片,充当 Transformer 的 token。基于补片的表示,Sora 就够对不同分辨率、持续时间和长宽比的视频和图像进行训练。这种技术就类似于目前很多手机看视频都在使用的动态插帧技术一样。
扩展 Transformer
OpenAI 发现,扩散型 Transformer 不仅可以用在 ChatGPT 的文本生成领域,同样能在视频模型领域中完成高效扩展。
下面将分别说明针对每个视频展示提示词,官方目前给出的 u 全部都是英文提示词,为了便于大家学习和理解。我也会同步给出相对应的中文提示词。
视频多样化
相比较其他的文字生成视频技术,OpenAI 是在直接视频数据的原始尺寸上进行了训练。所以 Sora 就可以不同分辨率、时长、宽高比的视频,这一点也是其他的产品无法比拟的。
语言理解
毋庸置疑,ChatGPT Plus 是目前市面上最为强大的大预言模型。OpenAI 也用 GPT 来将用户简短的提示转换为更长的详细说明,然后发送给 Sora。Sora 的文字理解能力也表现得非常出色。
关于技术的介绍报告只提了这么多,剩下的大篇幅都是围绕 Sora 的一系列效果展示,包括文转视频、视频转视频,以及图片生成。限免就具体看看 Sora 官网上给出的生成的视频,感受下视觉震撼。
Sora 视频案例
共选择了 10 个经典的视频供大家欣赏和学习。
场景一
原始提示词
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
中文提示词
一位时髦的女士穿行在东京的街头,街道两旁是温暖闪烁的霓虹灯和充满活力的城市标志。她身着黑色皮夹克,长款红裙和黑色靴子,手提一只黑色手袋。她佩戴着太阳镜和红色口红。她走路充满自信又随意。街道潮湿且具有反射效果,彩色的灯光在地面上创造出镜面效果。许多行人在街上来往穿梭。
对应效果是
场景二
原始提示词
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
中文提示词
一位时髦的女士穿行在东京的街头,街道两旁是温暖闪烁的霓虹灯和充满活力的城市标志。她身着黑色皮夹克,长款红裙和黑色靴子,手提一只黑色手袋。她佩戴着太阳镜和红色口红。她走路充满自信又随意。街道潮湿且具有反射效果,彩色的灯光在地面上创造出镜面效果。许多行人在街上来往穿梭。
场景三
原始提示词
A Chinese Lunar New Year celebration video with Chinese Dragon
中文提示词
中国农历新年庆祝视频与中国龙
对应效果是
场景四
原始提示词
A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer
中文提示词
一只猫叫醒了正在睡觉的主人,要求吃早饭。主人试图忽略猫,但猫尝试了新的策略,最后主人从枕头下拿出了一个秘密的零食,让猫多待一会儿
对应效果是
场景五
原始提示词
A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in
中文提示词
一窝金毛猎犬小狗在雪地里玩耍。他们的头从雪中探出头来,身上覆盖着
对应效果是
场景六
原始提示词
A Samoyed and a Golden Retriever dog are playfully romping through a futuristic neon city at night. The neon lights emitted from the nearby buildings glistens off of their fur
中文提示词
一只萨摩耶犬和一只金毛猎犬在夜晚的霓虹灯城市里嬉戏。附近建筑物发出的霓虹灯在它们的皮毛上闪闪发光
对应效果是
场景七
原始提示词
A white and orange tabby cat is seen happily darting through a dense garden, as if chasing something. Its eyes are wide and happy as it jogs forward, scanning the branches, flowers, and leaves as it walks. The path is narrow as it makes its way between all the plants. the scene is captured from a ground-level angle, following the cat closely, giving a low and intimate perspective. The image is cinematic with warm tones and a grainy texture. The scattered daylight between the leaves and plants above creates a warm contrast, accentuating the cat’s orange fur. The shot is clear and sharp, with a shallow depth of field
中文提示词
一只白橙相间的虎斑猫欢快地在茂密的花园里窜来窜去,好像在追逐什么东西。它的眼睛睁得大大的,欢快地向前跑着,一边走一边扫视着树枝、花朵和树叶。这条小路很窄,因为它在所有的植物之间穿行。这个场景是从地面的角度拍摄的,紧跟在猫后面,给人一个低而亲密的视角。图像是电影般的暖色调和颗粒纹理。树叶和植物之间分散的日光形成了温暖的对比,突出了猫的橙色皮毛。这张照片清晰锐利,景深浅
对应效果是
场景八
原始提示词
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes
中文提示词
美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。绚丽的樱花花瓣随着雪花在风中飞舞
对应效果是
场景九
原始提示词
Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee
中文提示词
两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频
对应效果是
场景十
原始提示词
A young man at his 20s is sitting on a piece of cloud in the sky, reading a book
中文提示词
一个 20 多岁的年轻人坐在天空的一片云上读书
对应效果是
Sora 的视频特点
高质量的视觉呈现
Sora 模型升级和训练解决了很大一部分物理逻辑问题,能够理解和模拟现实中的运动。Sora 生成的视频不仅完整清晰,更不会给人以现实的突兀感,几乎可以和专业人士花费大量时间制作的专业视频相媲美了。
下面展示的就是不同的文生视频产品的对比图。可以看到 Sora 生成的视频角度是最好的。
时长一分钟
其他 AI 视频工具像 Runway、Pika、Domo AI 生成的视频时长很短,只有 5 秒左右,给人的感觉其实就是一个 GIF 的动图。而 Sora 生成的视频是 60 秒。其中的视频画面是一直保持动态,并且有交互过程。这些是其他的视频工具无论是时长还是质量上都无法超越的。
下图就是展示 Sora 和 Runway 的视频对比图,没有对比就没有差距。当你体验过好的产品之后,就再也不用了之前的。
多角度视觉呈现
通过前面的示例视频也可以发现 Sora 可以生成多种角度的视频,包括特写、远景、航拍、拉远、推进等等角度。
就算是旋转镜头,也能保持视觉主体的稳定与清晰,完全可以和高质量的 CG 作品比拼了。
真实的画面感
其他 AI 视频工具像 Runway、Pika、Domo AI 生成的视频很容易辨别出来时 AI 画作的,无论是镜头语言还是整个画面的色彩丰富度基本上都是保持不变的,这也就是我们常说的 AI 味。Sora 模拟呈现的镜头感非常真实,并不会随着元素的运动而混乱或丢失。在某些情况下甚至可以达到以假乱真的地步。
精准的文本理解
Sora 使用了 DALL·E 3 中的重新标注技术,准备了大量带有文本标题的视频数据,通过训练一个高度描述性的标题模型,为所有视频生成文本标题,来提高文本准确性,改善了视频质量。同时,Sora 利用 GPT 将用户简短的提示转化为更长、更详细的标题,指导视频的生成过程,从而使 Sora 能够生成高质量的视频,并准确地遵循用户的指示。
其他模型在这块做得不够好,所以是通过图片合成视频。并且其他的模型也没有 OpenAI 在 ChatGPT 的大预言模型方便的强大的技术实力,所以如果需要生成令人满意的视频,需要花费大量的时间和精力去矫正。
Sora 如何使用
需要说明的是,截止到本篇文章发布时间,Sora 仅仅只是对极少数用户开放了。不过按照以往的惯例,一般新功能都会优先开放给 ChatGPT Plus 用户使用。需要注册或者是升级 ChatGPT Plus 的用户可以参考 升级ChatGPT Plus保姆级教程这个教程,一分钟完成升级。后续等到 Sora 开放之后,就可以立马使用体验。
使用准备
Sora 的使用前准备和 ChatGPT Plus 的要求一样,首先需要升级至 ChatGPT Plus 账号,找到后续对应的 Sora 开放入口,申请好 Sora 的权限。然后准备好对应需生成的视频文本描述语言。
输入提示词
和这篇文章说过样,需要通过一个提示词描述你想要生成的视频的场景。越详细越具体越好,这样生成的视频就会越精确。该如何编写需要的视频提示词,可以参考上一章节中的 Sora 视频案例,每一个视频都给出了相应的提示词。首先可以从模仿开始,然后写出自己想要的视频的提示词。
等待视频生成
输入了提示词之后,需要等待 Sora 按照你的提示词生成对应的视频。根据提示词描述的视频的复杂程度,Sora 生成视频的时间长度不等。一般情况下,如果你的提示词描述的视频内容越清楚、也具体,那么生成视频的速度也就越快。
优化提示词
肯定你第一次通过提示词生成的视频无法达到你的要求,此时你就需要需要不断优化你的提示词,针对不满足条件的地方进一步细化,给出更加具体的描述,然后继续生成视频,不断地完善这个过程,直到生成你满意的视频为止。
Sora 提示词
对于一个精良的视频来说,对应的好的提示词也是必不可少的。如果我们给出的提示词对于视频的描述越精确,那么生成的视频就能够更加符合我们的要求。通过分析 OpenAI 给出的视频对应的提示词,我归纳出了对于一个好的提示词来说,应该具体的以下特点。
时间描述
黄昏、黎明、早晨、中午、下午、夜幕降临
位置描述
办公室、卧室、餐厅、酒吧、公园、街道
天气情况
晴天、阴天、雨/雪、有雾、有风
视觉风格
魔幻现实主义:如拉美魔幻现实主义电影
印象派:追求零碎的印象,柔和的意象
表现主义:表达主观情感,夸张的意象
德国表现主义:鲜明的对比、扭曲的取景、夸张的表演、深刻的主题
粗犷风格:粗犷、自然的风景和剪辑
立体主义:强烈的 3D 感觉,明显的布景设计
未来主义:夸张、未来主义的布景设计
情绪风格:抽象、梦幻般的情绪
色调
冷色、暖色、高对比度、低对比度、饱和度、去饱和度、单色、鲜明色块、钢蓝、黄金时段、复古、黑色等不同色彩效果
OpenAI Sora 常见问题
OpenAI Sora 申请
截止到本篇文章发布时间,Sora 仅仅只是对极少数用户开放了。不过按照以往的惯例,一般新功能都会优先开放给 ChatGPT Plus 用户使用。需要注册或者是升级 ChatGPT Plus 的用户可以参考 升级ChatGPT Plus保姆级教程这个教程,一分钟完成升级。后续等到 Sora 开放之后,就可以立马使用体验。
OpenAI Sora 优势
目前 Sora 生成视频的质量基本上秒杀了市面上所有的文字生成视频的产品,无论是时长还是视频质量。Sora 的视频主要有以下优势:
高质量的视觉呈现。Sora 生成的视频不仅完整清晰,更不会给人以现实的突兀感
1 分钟的视频。其他 AI 视频工具像 Runway、Pika、Domo AI 生成的视频时长很短,只有 5 秒左右。
多角度视觉呈现。Sora 可以生成多种角度的视频,包括特写、远景、航拍、拉远、推进等等角度。
真实画面感。Sora 模拟呈现的镜头感非常真实,并不会随着元素的运动而混乱或丢失。在某些情况下甚至可以达到以假乱真的地步。
精准的文本理解。Sora 使用了 DALL·E 3 中的重新标注技术,准备了大量带有文本标题的视频数据,使得 Sora 生成的视频更加符合提示词的描述。
OpenAI Sora 适用领域
因为 Sora 主要是生成视频工具,所以凡是和视频相关的了领域,Sora 都有可能应用到该领域。目前看来,Sora 有可能在以下领域等到广泛应用。
视频创作:使用 Sora 可以轻松生成各种类型的视频片段,包括电影、动画、广告等。
社交媒体推广:Sora 可以帮助用户创建有趣、引人注目的视频内容,提升社交媒体的曝光度。
游戏开发:开发者可以利用 Sora 制作游戏中的角色动画和场景效果,为游戏增加交互性和趣味性。
无论是影视创作、广告宣传还是游戏开发,OpenAI Sora 都能为用户带来更高效、创意丰富的视频制作体验。
如果你是以上行业的从业者,不妨趁早注册使用起来。
目前 Sora 还没有开放使用。不过按照以往的惯例,一般新功能都会优先开放给 ChatGPT Plus 用户使用。需要注册升级用户参考 升级ChatGPT Plus保姆级教程这个教程,一分钟完成注册升级。
评论