写点什么

火出圈的 Sora 到底是什么?5000 字长文带你彻底了解 Sora!

作者:蓉蓉
  • 2024-03-30
    湖南
  • 本文字数:4887 字

    阅读完需:约 16 分钟

火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!

基本概念

OpenAI 是一家致力于人工智能研究和推广的领先机构,自 2015 年成立以来,不断在深度学习、自然语言处理等领域取得突破。

通过 GPT-4 等模型,OpenAI 巩固了其在人工智能技术创新和应用开发领域的领导地位,致力于推动 AI 技术的安全和伦理发展,以造福全人类。

(PS:如果你需要开通 ChatGPT-4.0 的话,请查看:(订阅GPT4保姆级教程

OpenAI 的最新成果 Sora,一个先进的文生视频大模型,于 2024 年 2 月 18 日发布,标志着 OpenAI 在视频生成技术方面的重大进步。Sora 的发布展现了 OpenAI 在生成视频质量、分辨率、文本语义还原等方面的卓越能力。

什么是 Sora

Sora 是 OpenAI 于 2024 年 2 月 18 日凌晨发布的新的文生视频大模型,名为 “ Sora ”。从 OpenAI 在官网展示的 Sora 生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!

特别是可以生成最长 1 分钟的视频!生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。超过 Gen-2、SVD-XT、Pika 等主流产品,一出手就是王炸。

Sora 引发全球的关注

Sora 的横空出世引发了全球的关注,网民纷纷惊叹于人工智能的高速发展,一众大 V 也发表观点。

360 创始人周鸿祎对 Sora 给予了极高的评价,他认为,Sora 的诞生意味着 AGI(通用人工智能)实现可能从 10 年缩短至一两年。

周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说 Sora 的效果吊打 Pika 和 Runway。这很正常,和创业者团队比,OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI 以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

他还提到,尽管国内大模型发展水平表面看已经接近 GPT-3.5,但实际上跟 4.0 比还有一年半的差距。OpenAl 手里应该还有一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。

Sora 发布后数小时,马斯克在社交媒体上回复了“gg humans”,gg 为 Good Games 缩写,代指“打得好,我认输” 。之后马斯克还称,通过 AI 增强的人类将在未来几年创造出最好的作品。

GPT 商店中有 Sora GPT 吗?

目前没有任何 GPT 可以使用 Sora AI。有些可能使用“Sora”这个关键词来吸引注意,但实际上是不可用的。

Sora 的能力

只需在提示框中输入单词、短语或句子,Sora 就会根据这些信息自动生成场景。它目前可以达到这些效果:

  • 生成具有多个角色和特定动作的复杂场景。

  • 根据用户提示准确详细描述主题和背景。

  • 理解在生成的场景中请求元素的物理存在。

OpenAI 表示,Sora 可以生成包含几个角色、特定类型的动作以及详细的主题和背景的复杂场景。模型“不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中是如何存在的”。

OpenAI 的 Sora 有替代品吗?

目前没有。它在视频质量方面超越了其他产品,如 Runway、Pika、Stable video。

Sora 有多厉害?

根据 OpenAI 在 twitter 上发布的初始示例和创作者在社交媒体平台上的建议,Sora 能够根据提示准确地创建视频。

但 openai 也承认,当前的 Sora 模型存在不足之处。即“它可能在准确模拟复杂场景的物理特性方面存在困难,可能不理解特定的因果关系实例。”

我可以在 ChatGPT 上使用 Sora AI 吗?

Sora 目前还不能在 ChatGPT 系统或其他 OpenAI 产品中使用。由于访问权限仍然限于选定的测试组,因此尚未启用与公共工具如 ChatGPT 的集成。

Sora 的当前限制

  • 在准确模拟复杂物理过程方面存在困难。

  • 有时会误解空间细节和特定事件序列。

  • 在创建合理的运动和准确建模对象与角色之间的交互方面存在问题。

Sora 对未来影响几何?哪些人会因此失业

不可否认,技术的变革是把双刃剑,在关注应用前景的同时也有不少人担忧会被 AI 抢了饭碗。

目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位,视频模型 Sora 能够自动或半自动地生成视频,这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节,这些工作也可以通过 AI 技术进行自动化或半自动化处理。

但是,Sora 的出现让世界看到了人工智能的无限可能。2024 年第一块坚实的里程碑落下了,带给人类的依旧是希望大于绝望。因此不一定会造成失业潮。相反,它可能促使视频行业朝着更高端、更创新的方向发展。

如何使用 Sora

Sora 是否向公众开放,是否免费?

OpenAI 表示,目前 Sora 向“红队成员”开放,即能够评估风险并识别潜在问题(如错误信息、偏见和仇恨内容)的专家。他们将“对抗性”地测试模型。

Sora 还将对一些视觉艺术家、设计师和电影制作人开放——根据 OpenAI 首席执行官 Sam Altman 的说法,这是“有限数量的创作者”,以获取反馈,以改进平台,使其对创意专业人士更有用。

目前,对这些用户而言,Sora 是免费的,他们将获得模型的早期访问权限。

然而,目前尚不清楚一旦 Sora 向公众开放,OpenAI 是否会收取费用。OpenAI 已经推出了 ChatGPT 和其图像创建工具 Dall-E 的付费模型。

如何获取 Sora 的访问权限并使用 Sora?

您现在还无法登录使用 Sora AI。目前还没有请求访问的方式。

Sora 的访问权限目前仅限于一小部分测试者。OpenAI 已授权给红队研究员、视觉艺术家、设计师和电影制作人,以评估潜在的危害、收集创意反馈,并推进 Sora 模型的能力。

然而,目前还没有公共 API 或更广泛的可用性。

OpenAI 网站上展示的能力展示了这种文本到视频生成模型的潜力,但实际的手动访问权限仍限于内部测试和某些外部试点组。

OpenAI 指出,他们可能会在将来将 Sora 集成到商业产品中时考虑更广泛的访问权限,但任何公共访问的时间表仍然未定义。

目前,创新的 Sora 模型仅对 OpenAI 之外的一小组测试用户启用。更广泛的公共访问可能取决于 OpenAI 自己的使用政策和风险容忍度,因为这项技术继续发展。

Sora 的安全性

Sora 是否安全?

就像任何其他 AI 平台一样,对 Sora 可以生成的内容存在担忧。OpenAI 表示,它正在努力解决这些问题。

除了与红队成员合作外,OpenAI 表示,它还在构建工具来帮助检测误导性内容,包括一个可以识别视频是否由 Sora 生成的“检测分类器”。

OpenAI 的文本分类器将“检查并拒绝违反我们使用政策的文本输入提示”,例如当用户请求与极端暴力、色情内容、仇恨图像、名人肖像或他人的知识产权相关的内容时。

OpenAI 还表示,它将与全世界的政策制定者、教育工作者和艺术家合作,“了解他们的担忧,并识别这项新技术的积极用例”。

Sora 的内容限制

Sora 遵循伦理指南和安全协议,限制推广暴力、侵犯版权或被认为有害的内容。它鼓励在一个安全、尊重的框架内创造力。

安全措施

  • 与红队合作评估潜在危害或风险。

  • 开发用于检测误导内容的工具。

  • 应用来自 DALL·E 3 的现有安全方法,包括文本和图像分类器,以确保遵守使用政策。

Sora API 相关

OpenAI Sora API

根据 OpenAI 介绍 Sora 的博客文章,Sora 模型目前没有公开的 API 可用。

这意味着目前 Sora 的访问权限仅限于特定的测试用户,并未向公众开放。这主要是考虑到潜在的风险。

该帖子还提到了将来可能在 OpenAI 的产品中部署 Sora 的计划。这表明从长远来看,OpenAI 可能会为用户通过商业产品开放 Sora 的访问权限,但目前还没有公开的 API 或其他访问渠道。

总之,Sora 模型目前没有启用任何形式的公开 API,仅限于内部测试和选定用户。OpenAI 是否决定开放 API 访问可能取决于他们的未来商业计划。如果需要对这个英文解释进行任何额外的澄清,请让我知道!

Sora 定价及 Sora API 的定价

Sora AI 是否免费使用?我不这么认为,因为生成视频需要 GPU。

围绕 OpenAI 将对公开发布的 Sora 模型收取多少费用有很多好奇心。在回顾了 OpenAI 发布的有关 Sora 能力的研究之后,我预测他们将采取基于输出分辨率等因素的分层定价方法。对于需要最多计算资源的全高清质量视频,价格可能从每分钟生成 10$起;更高的价格也不会令人意外。我的感觉是,初始需求将最强烈地来自电影、流媒体节目和游戏开发等娱乐领域,这些领域可以充分利用视频 AI 助手。但成本将决定除这些行业之外的专业创作者能多广泛地利用 Sora。

随着我们等待 OpenAI 正式的定价公告,围绕这个开创性但昂贵的模型可能对多个领域产生的影响有很多猜测。

Sora 和其他工具的比较

Sora VS Diffusion

Sora 与以前的扩散模型相比,在长达 1 分钟的视频中展现出了令人印象深刻的连贯性。DALL-E 专注于图像,而 Sora 展示了将书面提示不

仅转化为独立场景,而且平滑过渡、多视角视频序列的能力。

这代表了从静态图像扩散技术向前的重大飞跃。通过在帧之间保持时间连贯性,Sora 解决了其他生成视频方法所面临的核心挑战——在动态上下文中保持身份和物理可能性。

研究团队归功于变压器架构的使用,使得在空间和时间上更好地整合,以及新颖的基于补丁的训练方法,为解锁 Sora 的强大视频能力打开了大门。

虽然图像质量和保真度继续迅速进步,但 Sora 在连贯、连续生成视频方面取得了进展,这是其他扩散实现所缺乏的。其运动建模和物理意识显示了对长形式视频应用的独特前景。

展望未来,Sora 似乎为进一步探索扩散方法在复制我们周围可见世界的核心原则方面的能力设定了基准。

Sora VS Midjourney

尽管 Sora 和 Midjourney 都展示了引人注目的文本到图像/视频生成能力,但他们的方法目前不允许直接比较。

Midjourney 专注于使广泛的公众能够访问其图像扩散模型,在此过程中建立了一个强大的艺术社区。

然而,Sora 的访问仍然受到严格限制,仅限于内部测试,限制了对其方法论强弱点的可见性。我们还没有观察到 Midjourney 为每个用户在提示和风格方面赋予的细微控制和定制程度。

而且,视频本身就比单个图像复杂。也就是说,Sora 在连贯的长形视频平滑和视角方面的明显专业性似乎与 Midjourney 的核心竞争力不同。

最终,缺乏公共 Sora 访问意味着与 Midjourney 等创意平台的强健基准测试还不可行。

评估 Sora 的技术在多大程度上可能增强、扩展或取代像 Midjourney 这样的解决方案,将不得不等到 OpenAI 开放正式访问或提供更多透明度。

目前,两者都指向 AI 创造力的未来,但比较输出将需要 Sora 首先提供更多的公开可用性。

Sora VS DALL·E 3

Sora 是 OpenAI 能够生成长达一分钟的高保真视频的最大模型。它是一个生成模型,经过训练,可以处理不同持续时间、分辨率和宽高比的视频和图像数据,使用基于变换器的架构,操作视频和图像潜在代码的时空补丁。Sora 的开发是扩大视频生成模型规模努力的一部分,这被视为构建物理世界通用模拟器的有希望的路径。

Sora 和 DALL-E 3 之间的关系主要在于它们对生成建模的共享方法以及它们在模拟物理世界方面的使用。

DALL-E 3 以根据文本描述生成图像而闻名,使用了与 Sora 类似的方法来利用大规模生成模型。

Sora 将这一能力扩展到视频生成,允许创建动态视觉内容。两个模型都展示了使用生成模型创建多样化和复杂的媒体输出的

潜力,为 AI 驱动的内容创建做出了贡献。

Sora VS Pika, Runway, Stable Video Diffusion

不同点

  • OpenAI Sora 是最强大的文本到视频生成模型,但它仍在开发中,可能难以使用。

  • Pika 是 Sora 的一个更用户友好的替代品,可用于生成具有多种风格和效果的视频。

  • Runway 和 Stable Video Diffusion 是视频编辑平台,提供创建和编辑视频的多种工具,包括文本到视频生成。

Sora 技术相关

Sora 最大的技术突破是什么?

目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。

Sora 最大技术突破是,可以在保持质量的前提下,生成 1 分钟的视频,在业内非常罕见。这也再次展示了 OpenAI 在大模型领域超强的技术研发能力。

Sora 原理概述

此前,openai 发布了 Sora 技术报告,我也为大家准备了一份技术报告的思维导图分析。需要的话请查看:Sora原理?Sora技术报告解读(思维导图版)

Sora 是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。

Sora 与 ChatGPT 一样采用的是 Transformer 架构,并使用了 DALL-E 3 中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora 在生成视频过程中精准还原用户的文本提示语义。


Sora 未来发展

未来计划

  • 让红队、视觉艺术家、设计师和电影制作人访问 Sora,以获取反馈。

  • 计划在未来部署中加入 C2PA 元数据。

  • 与全球的政策制定者、教育工作者和艺术家合作,了解潜在的积极用例和关切。

用户头像

蓉蓉

关注

还未添加个人签名 2023-10-17 加入

还未添加个人简介

评论

发布
暂无评论
火出圈的Sora到底是什么?5000字长文带你彻底了解Sora!_openai_蓉蓉_InfoQ写作社区