AI 视频生成工具 Sora 横空出世!一文带你了解 Sora:简介|主要功能|使用场景|平替工具等!
要说最近一周的头条热搜,非 Sora 莫属!Sora 的诞生,再一次引发了人们对 AI 人工智能以及 AIGC 的关注。
对第一次听说 Sora 的人,可能会好奇,大家都在说的 Sora 是什么?
Sora 是什么软件?
Sora,是 OpenAI 继 ChatGPT 之后,推出的又一重磅力作,它是一个文本到视频模型(即文本生成视频),可以根据用户输入的描述性提示快速生成视频,并及时向前或向后扩展现有视频。
Sora 的核心功能在于其能够理解并转化文本指令为动态视频内容。用户只需提供简单的文本描述,Sora 就能生成具有丰富细节和连贯性的视频。这一过程涉及到复杂的图像生成和视频编辑技术,Sora 能够在几秒钟内完成,支持生成长达一分钟的视频内容。
Sora 的出现,不仅展示了 AI 在内容创作领域的新可能性,也为视频制作、广告、教育和娱乐产业带来了革命性的变化。
Sora 主要功能
从现有的资料可以看到,Sora 具备如下功能——
文本到视频的转化:Sora 能够将用户的文本描述(prompts)转化为动态的视觉内容,极大地降低了视频制作的门槛。
角色和场景生成:模型能够根据描述生成具有多个角色和复杂背景的视频场景。
物理模拟:Sora 在生成视频时,会尝试模拟现实世界的物理规则,尽管在某些情况下可能不够完美。
视频编辑和扩展:Sora 不仅能够从头开始生成视频,还能够对现有视频进行编辑和扩展,填补缺失的帧或增加新的内容。
当然也不排除 Sora 后期正式上线时,会额外推出新的功能。
Sora 发展历程
在 Sora 之前,市面上已有多个文本到视频生成模型,包括 Meta 的 Make-A-Video、Runway 的 Gen-2 和 Google 的 Lumiere,不过最后一个截止目前也仍处在研究阶段,这次 OpenAI 抢在 Google 之前,提前发布了重磅产品 Sora,自此 OpenAI 在 AIGC 内容生成领域,打造了 3 大堪称王炸的产品矩阵——
AI 生成文本:ChatGPT
AI 生成图像:DALL-E 3
AI 生成视频:Sora
开发 Sora 的团队以日语中天空的意思来命名它,象征着它“无限的创造潜力”。在正式发布的当日,Sora 官网展示了多段使用 Sora 生成的视频片段,其中包括一位时尚女性漫步在东京街头、一辆 SUV 行驶在山路上、旁边有一个“短毛怪”的动画一根蜡烛、两个人在雪地里走过东京,以及加州淘金热的虚假历史镜头。
Sora 国内能用吗?
目前 Sora 官网仅展示了一些基于 Sora 生成的、且未经过编辑的视频片段,但暂未给出使用 Sora 的入口或方法。从外媒的报道中得知,目前只有安全测试人员、少数视频制作者和艺术家可用上 Sora,余下的人暂时无法使用,唯一可以期待的是,OpenAI 计划在未来某个时候推出 Sora。
Sora 怎么用?
想用上 Sora,首要的是关注 Sora 官网的最新动态,截止笔者撰写本文时,Sora 官网还没有提供 Sora 的使用说明,仅提及对多位视觉艺术家、设计师和电影制作人提供访问权限,以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。
Sora 替代软件:AI 生成视频工具
在 Sora 推出之前,市场上已有不少基于文本自动生成视频的 AI 工具,不过这些 AI 工具生成的视频时长大多局限在 4 秒,而 Sora 支持生成长达 1 分钟的时间,这种视频时长的差异,让现有的诸多 AI 生成视频软件黯然失色。
但考虑到 Sora 暂未开放给公众使用,现阶段仍可以使用已有的 AI 文生视频工具,来辅助自己创作视频,下面就给各位介绍 3 款好用的 AI 生成视频工具。
① Pictory
Pictory 是一个 AI 视频生成器,可以轻松创建和编辑高质量视频。这个工具最好的一点是你不需要任何视频编辑或设计经验。
你可以通过提供脚本或文章开始,这将成为你的视频内容的基础。例如,Pictory 可以将你的博客文章转化为引人入胜的视频,用于社交媒体或你的网站。对于个人博主和希望提高参与度和质量的公司来说,这是一个很棒的功能。由于它基于云端,它可以在任何计算机上使用。
Pictory 还允许你使用文本轻松编辑视频,非常适合编辑网络研讨会、播客、Zoom 录音等。它使用简单,仅需几分钟即可呈现专业结果,帮助你扩大受众群体并建立品牌。
② Synthesia
Synthesia 是一个 AI 视频生成平台,可以让你快速使用 AI 头像创建视频。该平台包括超过 60 种语言和各种模板、屏幕录制、媒体库等等。Synthesia 被一些世界知名品牌如谷歌、耐克、路透社和 BBC 所使用。
使用 Synthesia,你无需复杂的视频设备或拍摄地点。你可以从超过 70 种不同的 AI 头像中选择,甚至为你的品牌获得独家的 AI 头像。除了预设的头像,你还可以创建自己的头像。
这个 AI 语音生成平台使得获得一致且专业的配音变得非常容易,可以通过点击按钮轻松编辑。这些配音还包括隐藏字幕。一旦你有了头像和配音,你可以在几分钟内使用 50 多个预设计模板制作高质量视频。你可以上传自己的品牌标识资产并获得定制模板。
③ Pika
Pika,是海外流行的 AI 视频生成软件,用户可以上传自己的创意想法,Pika 会自动生成相关的视频,极大地降低了制作视频的门槛。
Pika-功能特点
自动化视频制作:用户可以通过输入脚本或描述,AI 软件自动生成视频内容。
模板选择:提供多种预设的视频模板,用户可以根据自己的需求选择合适的模板进行视频创作。
图像和视频编辑:支持对图片和视频素材进行裁剪、调整和优化,以适应视频内容。
文本和字幕:支持文本输入和字幕生成,可以自动同步视频中的对话和说明。
动画和特效:提供动画和特效选项,增强视频的视觉吸引力。
导出和分享:支持多种视频格式的导出,方便用户在不同平台分享和发布视频。
用户友好界面:直观的操作界面,使得视频制作过程简单易学,无需专业视频编辑技能。
除了上面提及的 AI 生成视频工具,在 AI 生成文本(AI 对话/AI 聊天机器人/AI 写作)、AI 生成图片(AI 绘画)这两个领域,也有诸多好用的 AI 工具可供选择,下面一并为大家介绍和推荐相应的 AI 工具软件!
AI 生成文本工具推荐(AI 对话/AI 聊天机器人/AI 写作)
① boardmix AI
boardmix AI,是一个在线的智能 AI 对话 App,打开浏览器即可在线使用,支持 AI 多轮连续对话,提供 AI 角色切换、AI 多语言翻译、一键唤出、可视化表达及多人协作功能。
boardmix AI 预置了多个不同的 AI 角色,包括面试官、职业顾问、人事主管、情感专家、关系专家、辩论选手、辩论专家、解梦师、工程师、UX/UI 设计师等,进行对话之前可从预设的角色库中选择所需的角色,这样在进行 AI 对话时生成的内容更有针对性,省去前期调教 AI 机器人的时间。
使用 boardmix AI 进行 AI 对话的步骤如下:
在浏览器打开 boardmix AI 的首页,如下图所示,下方的「对话类型」列出了 boardmix AI 内置的所有 AI 角色,将鼠标指针移动到任意一个角色上方,会弹出「开始对话」的按钮,点击即可开始对话。
进入到 AI 对话的界面,AI 机器人会自动弹出一句提示语,可以给我们输入的内容提供一些方向,譬如当我们选择「职业顾问」,职业顾问机器人会弹出下方的提示语——
你好,我是职业顾问专家,请问你可以告诉我一些信息吗?例如年龄、学历、兴趣爱好等个人信息,我会结合就业市场趋势给你一些建议
我们可以在底部的输入框输入我们想了解的各种问题,输入后按下回车键 Enter 发送给 AI 对话机器人,它就会像现实中的聊天一样,根据我们发送的内容,自动返回相应的信息。
输入框左下角会显示我们当前选用的 AI 角色,点击角色名称,可一键更改当前所使用的 AI 角色。
点击 AI 角色名称后,会弹出下图的面板,可重新选择要进行对话的角色——
AI 对话:AI 对话机器人、倾听者、情感专家、关系专家、解梦师
思维发散:脑暴创意点、苏格拉底、辩论选手、辩论专家
求职助手:面试官、职业顾问、人事主管
编程助手:IT 编程问题、前端:UX/UI 界面、代码释义器
从中选择一个新的 AI 对话角色,会新建一个对话窗口,与原先选择的 AI 角色区分开,前后对话产生的内容也不会混在一起。
与 AI 对话的过程中,如果 AI 生成了你满意的内容,可以右击对应的内容,boardmix 提供了多个选项——
复制
多选:进入多选的状态,可同时选中多条内容
添加到个人素材库:将内容暂存到 boardmix 素材库中
添加到画布:将内容添加到 boardmix 白板画布中,支持在线编辑 AI 生成的内容
如果你想对 AI 对话生成的内容进行编辑或整合,建议选择最后一个选项「添加到画布」,boardmix 会自动创建一个白板画布,将内容添加到白板中。
下方即为 boardmix 创建的白板文件,前面 AI 对话生成的内容,会以「文本框」的形式置于白板画布中。对于白板上的文本框,我们可以再次使用 boardmix AI,对整个文本框或是其中的部分内容进行处理,譬如在选中整个文本框的情况下,点击工具栏最左侧的「AI 助手」,它提供了多个基于 AI 生成内容的选项——
AI 智能问答(再次进行 AI 对话)
AI 提炼生成:生成思维导图、生成代码、生成任务清单、生成演示文稿
帮我思考:头脑风暴、解释说明、SWOT 分析
帮我翻译:翻译为英文、翻译为日语、翻译为俄语、翻译为法语、翻译为德语、翻译为中文
帮我创作:提升写作水平、修复拼写/语法、总结归纳、文章续写
这些都是 AI 对话或 AI 文本生成中常用的 AI 指令,可根据内容处理的需要灵活选择,让 AI 生成我们想要的内容。
另外值得一提的是,boardmix 拥有强大的可视化表达能力,提供了诸如便签、图形、画笔、看板、文档、表格、PPT 等丰富的创作工具和模板资源,可用来承载「美化」我们基于 AI 生成的内容,轻松提升内容的视觉表现力,让内容脱颖而出。
看到这里的朋友,如果你也想使用当下流行的 AI 对话应用,不妨在浏览器打开 boardmix AI 的首页,亲自体验这款拥有良好口碑的一站式 AIGC 创作神器。
② Claude
Claude,是由 GPT 前员工打造的 AI 对话写作机器人,被看作 GPT 最有力的竞争对手。Claude 这款 AI 对话写作机器人可处理的任务包括——
进行自然的对话:Claude 可以在对话中扮演多种角色,提供有关该角色的详细信息以及常见问题的常见问题解答,Claude 将进行相关的、自然的来回对话。
处理堆积如山的文本:无论你是在处理文档、电子邮件、常见问题解答、聊天记录、记录还是其他内容,Claude 都会为你提供帮助。Claude 可以编辑、重写、总结、分类、提取结构化数据、根据内容进行问答等等。
获取答案:Claude 拥有从其庞大的训练语料库中磨练出来的广泛的常识,以及技术、科学和文化知识的详细背景。Claude 会说多种通用语言以及编程语言。
自动化工作流程:Claude 可以处理各种基本指令和逻辑场景,包括根据需要格式化输出、遵循 if-then 语句以及在单个提示中进行一系列逻辑评估。
Claude 目前提供两个版本,分别为 Claude 和 Claude Instant,前者采用 Claude 最强大的模型,擅长执行各种任务,从复杂的对话和创意内容生成到详细的指令遵循,后者则使用一种更快、更便宜但仍然非常强大的模型,可以处理一系列任务,包括随意对话、文本分析、摘要和文档问答。
③ Poe
Poe,是国外问答网站鼻祖 Quora 推出的 AI 对话写作机器人。Poe 中集成了多个 AI 机器人,在提问的时候可以切换使用不同的机器人,包括:Sage、GPT-4、Claude+、Claude-instant、GPT-3.5、Dragonfly 等,还支持自建机器人。
AI 对话写作机器人 Poe 最初只有网页版,后来推出了可在电脑上使用的客户端,支持 Windows 和 macOS 系统,有需要的朋友可从 Poe 官网下载对应的客户端。
AI 生成图片工具推荐(AI 绘画)
① Pixso AI
Pixso AI,是在线设计工具 Pixso 推出的 AI 绘画功能,它内置了多种基础 AI 绘画模型,包含 2.5D 渲染、二次元、产品设计、人物拟真、照片写实、建筑设计等,可生成 3D 电商设计图、3D 立体图标、工业产品白模渲染图、卡通头像、漫画风格图片、室内设计效果图等等,基本能满足绝大部分用户的 AI 绘图需求。
此外,在选定一个基础模型的情况下,还可以搭配使用不同的风格模型,得到千变万化的视觉图片。
下面列出了 Pixso AI 内置的部分 AI 绘画模型,最左侧的是基础模型,冒号右侧的是基础模型下可搭配使用的风格模型——
2.5D 渲染:玻璃质感图标、大头娃娃模型、国风娃娃模型、Q 版娃娃模型、儿童 3D 插画、3D 写实渲染、3D 卡通渲染、3D 香水瓶渲染、白模渲染(产品渲染图)
二次元:黑白漫画线条、多视图、新中式群饰、80 年代、光线艺术、璀璨星空、逆光、极简、剪纸背景、糖水风格、光与影、机甲、御水、油画、治愈系插画、华丽裙饰
人物拟真:相机胶片、黑白漫画线条、多视图、新中式群饰、逆光、剪纸背景、拍立得、机甲、御水、油画、华丽裙饰
Pixso AI 绘画的使用步骤:以电商产品渲染图为例
随着 AI 绘画工具在设计行业普及开来,不少设计师也开始在自己的工作流中加入了 AI 绘画工具,让 AI 工具来承担一部分原本需要自己亲力亲为的工作。
下面以电商产品渲染图为例,与各位分享使用 Pixso AI 绘画生成渲染图的步骤:
首先更改 AI 绘画所使用的基础模型,点击面板右侧的「照片写实」,在弹出的浮窗,选择「2.5D 渲染」模型。
选好基础模型后,我们可以点击下方的「添加风格模型」,配置风格模型,让两个模型共同作用,影响最终生成的图片。
下图右侧是 Pixso AI 绘画功能内置的多款风格模型,其中与电商产品渲染图相关的模型为 3D 香水瓶渲染、白模渲染。如果要生成与前面类似的渲染图,这里可以选择「白模渲染」。
在面板的右下角,我们还可以从电脑本地上传图片,或是从内置的图库中选择一张图片,作为 AI 绘画的参考图。
参考图库提供了 3 种类别的图片,每种类别内部又进行了细分——
产品设计:小家电、沙发椅子、鞋子
人物姿势:站姿、蹲姿坐姿
服装设计:上身装、下身装、全身装
从图库中选取了一张「耳机」图片作为参考图,同时将参考方式更改为「线稿转化」,并在左侧底部的输入框中输入「创意描述」,即 AI 绘画提示词,点击下方的「立即生成」,即可轻松生成一张电商产品的渲染图。
② Stable Diffusion
如果有一个文本转图像模型可以与 Midjourney 相媲美,那么就是 Stable Diffusion。与 Midjourney 不同的是,Stable Diffusion 是一个免费的开源模型。此外,它可以安装在至少拥有 8GB VRAM 的本地个人电脑上。Stable Diffusion 已经被许多网站和应用程序用于从文本输入快速生成图像。
Stable Diffusion 基于 Latent Diffusion Models、Eleuther AI、LAION、OpenCLIP、OpenAI 的 ADM 代码库、CompVis 等开发。该公司已在公开发布了 Stable Diffusion 2.1 版本,并最近还宣布了 Stable Diffusion XL 的 Beta 版本。
尽管 Stable Diffusion 生成的图像质量仍然不及 Midjourney,但最新的 SDXL 测试版正试图使其达到 Midjourney 的水平。Stable Diffusion 的一个关键问题是无法正确呈现眼睛、手和手指,以至于在人像中看起来不够自然。
值得一提的是,Stable Diffusion 网页版提供了一定的免费额度,用完之后想继续用它来生成新的图片,就得自行在电脑本地部署 Stable Diffusion 的模型,这对非技术从业者来说比较困难。
③ Bing Image Creator
Bing Image Creator,是微软推出的 AI 绘画工具,它不仅上线了一个独立的站点,还将 AI 绘画功能集成到了 new Bing 中。你现在可以在 new Bing 界面中通过 prompts 生成图像。
但是,你必须使用“创意”模式来触发 Bing AI Image Creator。它由 OpenAI 的 DALL·E 模型提供支持,在 new Bing 上创建图像目前没有限制。因此,它可以视为必应搜索中的一项免费服务存在。
Bing Image Creator 不擅长生成人脸,而且质量比 Midjourney 低一个档次,但总的来说瑕不掩瑜,即使是在理解抽象概念上,它依旧拥有非常不错的表现。
Sora 使用案例
虽然目前大部分人都无法用上 Sora,但我们可以从 Sora 官网或者社交媒体上,在线查看使用 Sora 生成的视频片段——
Prompt:美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。
Prompt:动画场景的特写是一个毛茸茸的小怪物跪在融化的红色蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。
Prompt:两只金毛在山顶上录制播客。
Sora 工作原理
与 DALL-E 3、StableDiffusion 和 Midjourney 等文本到图像生成 AI 模型一样,Sora 是一种扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始,并使用机器学习逐渐将图像转换为类似于提示中的描述的内容。Sora 生成视频最长可达 60 秒。
解决时间一致性的问题
Sora 的一个创新领域是它同时考虑多个视频帧,这解决了物体移入和移出视野时保持物体一致的问题。譬如在下面的视频中,袋鼠的手多次移出镜头,当它返回时,手看起来与之前相同。
结合扩散模型和 Transformer 模型
Sora 将扩散模型与 GPT 所使用的 Transformer 架构相结合。
在结合这两种模型类型时,Jack Qiao 指出“扩散模型非常擅长生成低级纹理,但在全局合成方面较差,而 Transformer 则存在相反的问题。”也就是说,你需要一个类似 GPT 的 Transformer 模型来确定视频帧的高级布局,并需要一个扩散模型来创建细节。
在一篇有关 Sora 实现的技术文章中,OpenAI 提供了有关此模型组合如何工作的描述。在扩散模型中,图像被分解为更小的矩形“块”。对于视频来说,这些补丁是三维的,因为它们会随着时间的推移而持续存在。补丁可以被认为相当于大型语言模型中的“tokens”:它们不是句子的组成部分,而是一组图像的组成部分。模型的 Transformer 部分组织补丁,模型的扩散部分生成每个补丁的内容。
这种混合架构的另一是,为了使视频生成在计算上可行,创建补丁的过程使用降维步骤,这样就不需要对每个帧的每个像素进行计算。
通过重述提高视频保真度
为了更好地理解用户输入的描述性提示,Sora 使用了 DALL-E 3 正在使用的重述技术。这意味着在创建任何视频之前,GPT 用于重写用户提示以包含更多细节。本质上,它是自动提示工程的一种形式。
Sora 应用场景
Sora 可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中丢失的帧。
就像 AI 绘画工具使无需图像编辑专业知识的图像创建变得更加容易一样,Sora 承诺使无需图像编辑经验的视频创建变得更加容易。以下是未来使用 Sora 的一些场景,分享出来供各位参考:
社交媒体
Sora 可用于创建发布在短视频、长视频平台的视频内容。难以拍摄或无法拍摄的内容尤其适合。例如,拍摄 2056 年的拉各斯场景在技术上很难实现,但使用 Sora 就可以轻松创建。
广告与营销
传统上,制作广告、宣传视频和产品演示的成本很高。像 Sora 这样的文本转视频人工智能工具有望使这一过程变得更加便宜。在下面的视频示例中,想要宣传加利福尼亚州大苏尔地区的旅游局可以租用一架无人机来拍摄该地点的航拍镜头,或者他们可以使用 Sora 直接生成,从而节省时间和金钱。
原型设计和概念可视化(生成 demo)
即使最终产品中未使用人工智能视频,它也有助于快速展示想法。电影制作人可以在拍摄前使用人工智能来制作场景模型,设计师可以在构建产品之前创建产品视频。在下面的示例中,玩具公司可以先生成新海盗船玩具的 AI 模型,然后再大规模创建它们。
以上就是对 AI 文本生成视频模型 Sora 的详细介绍,如果你还有任何想了解的内容,欢迎在下方的评论区留言~看到定会回复哒!
如果觉得这篇文章帮到了你,也欢迎点赞、关注、或是转发给你身边的朋友,一起了解最新的 AI 科技动态,新年一起进步往前冲!
版权声明: 本文为 InfoQ 作者【彭宏豪95】的原创文章。
原文链接:【http://xie.infoq.cn/article/69ae4149968680cd362f2b4cb】。文章转载请联系作者。
评论