Sora 小白教程一文通,如何使用 Sora?
什么是 Sora
Sora 是 OpenAI 于 2024 年 2 月 18 日凌晨发布的新的文生视频大模型,名为 “ Sora ”。从 OpenAI 在官网展示的 Sora 生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!
特别是可以生成最长 1 分钟的视频!生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。超过 Gen-2、SVD-XT、Pika 等主流产品,一出手就是王炸。
Sora 能做什么?
使用 Sora 非常简单,只需在提示框中输入单词、短语或句子,Sora 就会根据这些信息自动生成场景。它目前可以达到这些效果:
能够生成长达一分钟的视频,同时保持视觉质量和对用户提示的忠实度。
能够生成包含多个角色、特定类型的运动和背景的精确细节的复杂场景。
模型不仅理解用户在提示中要求的内容,还理解这些内容在物理世界中的存在方式。
OpenAI 表示,Sora 可以生成包含几个角色、特定类型的动作以及详细的主题和背景的复杂场景。模型“不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中是如何存在的”。
Sora 有多准确?
根据 OpenAI 在 twitter 上发布的初始示例和创作者在社交媒体平台上的建议,Sora 能够根据提示准确地创建视频。
但 openai 也承认,当前的 Sora 模型存在不足之处。即“它可能在准确模拟复杂场景的物理特性方面存在困难,可能不理解特定的因果关系实例。”
Sora 最大的技术突破是什么?
目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。
Sora 最大技术突破是,可以在保持质量的前提下,生成 1 分钟的视频,在业内非常罕见。这也再次展示了 OpenAI 在大模型领域超强的技术研发能力。
Sora 原理概述
Sora 是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。
Sora 与 ChatGPT 一样采用的是 Transformer 架构,并使用了 DALL-E 3 中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora 在生成视频过程中精准还原用户的文本提示语义。
Sora 引发全球的关注
Sora 的横空出世引发了全球的关注,网民纷纷惊叹于人工智能的高速发展,一众大 V 也发表观点。
360 创始人周鸿祎对 Sora 给予了极高的评价,他认为,Sora 的诞生意味着 AGI(通用人工智能)实现可能从 10 年缩短至一两年。
周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说 Sora 的效果吊打 Pika 和 Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI 以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”
他还提到,尽管国内大模型发展水平表面看已经接近 GPT-3.5,但实际上跟 4.0 比还有一年半的差距。OpenAl 手里应该还有一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。
Sora 发布后数小时,马斯克在社交媒体上回复了“gg humans”,gg 为 Good Games 缩写,代指“打得好,我认输” 。之后马斯克还称,通过 AI 增强的人类将在未来几年创造出最好的作品。
Sora 是否向公众开放,是否免费?
OpenAI 表示,目前 Sora 向“红队成员”开放,即能够评估风险并识别潜在问题(如错误信息、偏见和仇恨内容)的专家。他们将“对抗性”地测试模型。
Sora 还将对一些视觉艺术家、设计师和电影制作人开放——根据 OpenAI 首席执行官 Sam Altman 的说法,这是“有限数量的创作者”,以获取反馈,以改进平台,使其对创意专业人士更有用。
目前,对这些用户而言,Sora 是免费的,他们将获得模型的早期访问权限。
然而,目前尚不清楚一旦 Sora 向公众开放,OpenAI 是否会收取费用。OpenAI 已经推出了 ChatGPT 和其图像创建工具 Dall-E 的付费模型。
Sora 是否安全?
就像任何其他 AI 平台一样,对 Sora 可以生成的内容存在担忧。OpenAI 表示,它正在努力解决这些问题。
除了与红队成员合作外,OpenAI 表示,它还在构建工具来帮助检测误导性内容,包括一个可以识别视频是否由 Sora 生成的“检测分类器”。
OpenAI 的文本分类器将“检查并拒绝违反我们使用政策的文本输入提示”,例如当用户请求与极端暴力、色情内容、仇恨图像、名人肖像或他人的知识产权相关的内容时。
OpenAI 还表示,它将与全世界的政策制定者、教育工作者和艺术家合作,“了解他们的担忧,并识别这项新技术的积极用例”。
Sora 对未来影响几何?哪些人会因此失业
不可否认,技术的变革是把双刃剑,在关注应用前景的同时也有不少人担忧会被 AI 抢了饭碗。
目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位,视频模型 Sora 能够自动或半自动地生成视频,这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节,这些工作也可以通过 AI 技术进行自动化或半自动化处理。
但是,Sora 的出现让世界看到了人工智能的无限可能。2024 年第一块坚实的里程碑落下了,带给人类的依旧是希望大于绝望。因此不一定会造成失业潮。相反,它可能促使视频行业朝着更高端、更创新的方向发展。
当前如何使用 Sora ?
目前,Sora 仅向特定的用户群体开放,包括能够评估风险并识别潜在问题(如错误信息、偏见和仇恨内容)的专家,他们被称为“红队成员”。
此外,Sora 也向一些视觉艺术家、设计师和电影制作人开放,这是为了获得反馈,以改进平台,使其对创意专业人士更有用。这些用户将获得模型的早期访问权限,并且目前对这些用户而言,Sora 是免费的。
对于普通用户来说,由于 OpenAI 尚未公布 Sora 对公众的开放计划和具体使用细节,因此当前普通用户无法直接使用 Sora 生成视频。
对于希望使用 Sora 的用户,建议关注 OpenAI 的官方公告和社交媒体更新,以获取最新的使用信息和可能的公共访问安排。
评论