写点什么

十个小白问题,帮你快速了解 Sora

作者:蓉蓉
  • 2024-04-14
    湖南
  • 本文字数:4140 字

    阅读完需:约 14 分钟

OpenAI 作为目前当前最强大,技术最先进的 AI 视频产品,一经推出立马碾压其他所有的 AI 视频生成的产品。Sora 可以根据文字提示生成 60 秒的视频,其他文生视频大模型仅能生成 3 至 4 秒的视频。不仅如此。Sora 生成的视频能实现多镜头切换,场景也非常逼真,分辨率也非常高。Sora 能够完全碾压其他的工具,背后必然是 OpenAI 强大的技术实力。

对于大部分普通人来说,我们更加关心的是 Sora 的各种玩法,了解 Sora 到底是个什么。

PS:目前 Sora 还没有开放。但是按照 OpenAI 风格,Sora 必然是 ChatGPT Plus 账户才可以使用的高级功能。按照ChatGPT Plus升级教程可以快速升级。

Sora 是什么含义

Sora 在日语中的含义是天空,引申含义是自由。OpenAI 官方对 Sora 的解释是:

We chose the name Sora because it means “sky” in Japanese. The sky is vast and limitless, and we believe that Sora has the potential to create a new world of creative expression.

翻译成为中文就是:

我们选择“Sora”作为名字,因为它在日语中意味着“天空”。天空是广阔无垠的,我们相信 Sora 有潜力创造出一个新的创意表达世界。

并且 OpenAI Sora 的官方页面,你可以看到无数的纸飞机在自由翱翔。

这些纸飞机自由自在,无拘无束。这也是表明了 OpenAI 对于 Sora 的技术的态度。希望大家可以凭借 Sora 技术,可以将自己想象无限制的释放出来。

OpenAI 作为目前当前最强大,技术最先进的 AI 视频产品,一经推出立马碾压其他所有的 AI 视频生成的产品。大规模开放之后毕竟会影响包括电影,动画,短视频等很多艺术创造行业。

可以输出三国演义视频吗?

如果我讲《三国演义》、《水浒传》等小说喂给 Sora,可以生成对应的视频吗?答案是不可以。

首先,目前就 Sora 所呈现的,虽然有多机位效果,但都是单一情节单一镜头。

其次,像《三国演义》、《水浒传》等小说人物复杂,角色众多,场景切换频繁,其中还涉及到人物复杂的心理活动。这个 Sora 目前无法做到的。Sora 目前更多是用在 demo 制作、概念设计、分镜编排等环节。

Sora 为何反响如此巨大

只要给出一段描述提示词,Sora 就可以根据你的描述词生成视频。首先是这个使用门槛非常低,只要你会打字就可以了。

其次,Sora 生成视频的质量非常高,效果非常炸裂。画质清晰、场景逼真、细节到位、人物表情和呈现角度逼近真实专业的拍摄水平,几乎达到了以假乱真的程度。

最后,Sora 生成质量远超于其他公司/产品生成的视频质量。Sora 生成的视频时长长达 60 秒,相比之下。Runway 只有 4 秒,Pika 只有 3 秒。可以通过可以感受下差距。

通过相同的提示词,使用不同的视频工具生成视频。

下面是描述的是。几只巨大的长毛猛犸象穿过一片白雪覆盖的草地。可以看到 Sora 生成的视频明显更加逼真。其他 Pika 和 runway 生成的视频更像是图片。

下面的视频描述的是,无人机视角下的一对情侣穿梭于繁华的城市街道,美丽的樱花花瓣伴随着雪花在空中翩翩起舞。同样,Sora 生成的雪景和色调也更加符合实际场景,视角也是无人机的视角。其他的视频工具就要差很多。

不仅时长方面碾压,视频质量也达到了以假乱真的程度,使用门槛也极低。

通过图表也能够感受到 SORA 和其他的视频工具(Runway,Pika,Stable Video)之间存在的巨大技术差距。

从这个表单可以看出,不论是基本的视频生成能力(时长、长宽比),还是更强的视频连续性、真实世界模拟等,OpenAI Sora 都有无可比拟的优势。其中,视频清晰度,OpenAI Sora 默认是 1080P,而且其它平台大多数默认的清晰度也都是 1080P 以下。

这也就是为什么 Sora 发布之后就会引起如此的震撼的原因了。

Sora 的逆天玩法

Sora 既然能够生产如此震撼的视频,那么对应的也就存在各种各样的玩法,这样才能满足视频生成的各种需求。

多机位

OpenAI 研究科学家比尔・皮布尔斯 (Bill Peebles) 在 X 上晒图,并表示“这是 Sora 一次性生成的视频样本,并不是我们把 5 个视频拼接在一起。Sora 决定同时拥有五个不同的视角!”

令人惊叹的是,这组图片展示了人们在下雪天漫步、玩雪的多个角度,并且均由 Sora 一次完成。这意味着该模型支持一次性生成多机位视频,短视频、电影行业或许会受到不小冲击。

视频融合

OpenAI Sora 可以将这两个视频揉在一起,生成一个新的毫无违和感的视频。例如,给一个无人机穿越古罗马建筑的视频,再给一个蝴蝶在海底珊瑚飞行的视频,Sora 可以生成一个新的视频,让无人机变成蝴蝶,古罗马建筑变成珊瑚风格。

上图是两个例子,左右两边是原来的 2 个视频,中间是基于这原有的 2 个视频连接后生成的新的视频。第一个就是刚才的蝴蝶与无人机的案例。第二个是圣诞节雪景和真实拍照的建筑视频的融合。

模拟真实世界

OpenAI Sora 可以生成更加真实的物理世界的视频。例如东京街头逛街的时尚女模、登山运动员等。但是,与其它平台的真实物理世界视频生成不同的是,OpenAI Sora 可以以运动相机拍摄的方式来展示视频,包括运动相机的转换、旋转等。而这里最大的特点是运动相机拍摄的结果通常要与物理世界的三位空间一致,因此非常困难。但是 Sora 可以生成非常逼真的运动相机拍摄的视频结果。

Sora 的安全性问题

既然 Sora 可以生成视频,那么是不是就会存在滥用的可能性呢?比如生成某些低俗视频,或者是生成一些可以以假乱真的视频。在某种程度是可以的。

但是之前 OpenAI 正在大力招聘红队测试人员,即网络安全专家帮助其针对 Sora 的各种安全性问题进行测试。如果有相关经验,就可以尝试申请,可以优先获得 Sora 的使用。

所以在 OpenAI 确认测试完毕 Sora 的安全性问题,确保 Sora 不会被滥用并且没有安全漏洞的情况下,后面才会大面积开放给公众。不出意外,Sora 一定是仅开放给 ChatGPT Plus 用户访问。按照,几分钟内即可升级成功。

Sora 如何收费

目前 OpenAI 暂时没有针对 Sora 的收费有任何的说明。但是按照之前的惯例,OpenAI 之前开放的插件系统,GTP Store 商店,多模态的图片生成功能都是仅供 ChatGPT Plus 用户访问的。目前 ChatGPT Plus 是每个月 20 美刀的订阅费用。

不出意外,本次的 Sora 功能后面也是 ChatGPT Plus 专享的高级功能。前期可能会像早期的 Plus 一样,限制使用次数。

所以,如果想要后续第一时间体验到 Sora 的能力,可以提前升级至 ChatGPT Plus 账户。按照 升级ChatGPT Plus教程 快速完成升级。

Sora 可能会改变的行业

很明显,OpenAI Sora 冲击最大的莫过于短视频行业,比如剪辑师、动画制作、广告宣传、视频剪辑工具。另外,电影、电视剧行业也会受到冲击。

具体来说,Sora 可能会对以下三个大行业有冲击。

广告行业

在 Sora 的到来颠覆广告片和 TVC 创作之后,广告主会以更严格的眼光来审视现在的广告制作模式和成本。尤其是在现在降本增效的大环境下,品牌方拿出几十万预算给广告公司,不仅要考虑投入产出比还需要得到比 AI 生成视频更优秀的结果。

创意小团队兴起

在 Sora 等 AI 工具将各家广告媒体公司的视频质量逐渐对齐之后,视频制作能力的门槛将极大程度地降低,创意和想象力会成为影响广告视频优劣的重要甚至是唯一差异点。

创意大于一切的未来,大的广告公司在小公司面前并非一定有胜算,未来有可能会出现一批性价比较高的、以 AI 工具为主要生产力的小型或单人创意团队。

品牌内部团队的兴起趋势

随着人工智能技术的发展,品牌内部团队的影响力和受欢迎程度预计将增强。这主要是因为,在人工智能的帮助下,这些团队的创作能力得到了显著提升。品牌内部制作的内容不仅能够更加灵活地满足个性化需求,而且还能帮助品牌节省成本。

Sora 的原理

Sora 是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩展模型,同时采用了 Transformer 架构,也就是一种扩散型 Transformer。

简单来说,Soar 整合了自家的 GPT 和 DALL-E 模型。其中,GPT-4 就是基于 Transformer 架构的大型神经网络,目前是最强大的大预言模型。而最新的 DALL-E3 是基于文本提示生成图像的图像生成模型。

根据其官方报告,主要是用到了以下六种技术:

  • 视觉数据的补片化

  • 视频压缩网络技术

  • 时空补片技术

  • 扩展 Transformer

  • 视频多样化

  • 语言理解

更多关于 Sora 技术原理的介绍和分析,可以看 怎么用OpenAI Sora?最全分析-新手小白必看。对于 Sora 能有一个清晰全面的认识。

Sora 如何使用

目前 OpenAI Sora 还没有公开使用。目前只向一少部分艺术家、设计师和电影制作人开放了 Sora。显然,大部分人是无法获得这个条件的。但是 OpenAI CEO Sam Altman 也表示,成为 OpenAI 的红队测试人员就可以有 Sora 的使用权限了。红队测试人员,简单理解就是网络安全专家。

如果有相关的经验,根据 手把手带你申请Sora内测资格 ,可以尝试申请。申请通过之后就可以使用 Sora 了。

参考 OpenAI 开放的多模态的使用,只有 ChatGPT Plus 用户才可以使用文生图的功能。同样,无论 Sora 什么时候开放使用,一定是 ChatGPT Plus 用户才能享用的高级功能。升级ChatGPT Plus 可以快速升级到 ChatGPT Plus 账户。

Sora 视频的优缺点

不论是基本的视频生成能力(时长、长宽比),还是更强的视频连续性、真实世界模拟等,OpenAI Sora 都有无可比拟的优势。上述视频生成能力项中,视频连接、数字世界模拟、影响世界状态(世界交互)、运动相机模拟等都是此前视频平台或者工具中缺乏的。

但是 Sora 目前也存在一些不足的地方。在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面都存在一些不足。

Sora 模型在模拟基本物理交互,如玻璃破碎等方面,不够精确。

在模拟如吃食物这类涉及对象状态显著变化的交互时,Sora 可能无法始终正确反映出变化。

在生成长时间的视频样本时,Sora 可能会产生不连贯的情节或细节。比如长视频中突然出现之前不曾出现的物体的情况。

虽然 Sora 存在不足,但是 Sora 的优点相比其他的视频工具具有非常大的优势,仍然是目前最为强大的视频生成工具,并且其强大的技术实力远超于其他的视频生成工具。

总结

通过以上十个问题的探讨,我们希望为初学者提供了一个关于 Sora 的基础了解。我们坚信,随着 Sora 的正式发布,它将会像 ChatGPT 一样,在多个行业引发革命性的变革,并深刻地影响人们的日常生活。让我们共同期待 Sora 带来的新奇和变化,探索它如何重新定义我们对技术的认识和使用。

最后需要说明的是,按照 OpenAI 一贯作风,Sora 这种逆天的功能一定是先向部分 ChatGPT Plus 用户开放,然后再向全部的 ChatGPT Plus 用户开放。即 Sora 一定是 Plus 用户专属的功能。升级ChatGPT Plus 就可以快速升级到 Plus 账户,后面就等到 Sora 开放之后就可以立马开始使用了。

用户头像

蓉蓉

关注

还未添加个人签名 2023-10-17 加入

还未添加个人简介

评论

发布
暂无评论
十个小白问题,帮你快速了解Sora_openai_蓉蓉_InfoQ写作社区