写点什么

​​给「大模型视频生成」创业者的论文、开源项目和商业化实践案例

作者:奇绩创坛
  • 2024-06-27
    北京
  • 本文字数:5409 字

    阅读完需:约 18 分钟

​​给「大模型视频生成」创业者的论文、开源项目和商业化实践案例

奇绩创坛关注最前沿的大模型技术趋势和商业化落地实践,我们定期整理不同赛道最前沿论文、开源项目和商业化案例综述,这里可以查看所有分类和链接:《大模型创业资料集:2023-2024 大模型日报精华盘点》


本期我们整理了大模型日报中与大模型视频生成有关的内容,并邀请奇绩校友极佳科技共创了大模型视频生成资料集,内容包括:

- 大模型视频生成商业化实践案例

- 大模型视频生成开源项目

- 大模型视频生成精选论文


此外,我们还定期邀请 GenAI 时代冲得最快的一批创业者 / 科研学者 ,来【奇绩潜空间】分享产品探索和商业化落地实践。(下一期潜空间嘉宾,潞晨科技创始人兼董事长尤洋,👉🏻活动报名 | 开源视频生成模型 Open-Sora 的深度解读与思考【奇绩潜空间Ⅱ】 。活动时间,本周五(6 月 28 日) 19:00-20:30) 


每场活动,我们会邀请该领域最前沿的探索者来到奇绩现场,他们既有目前在大厂从事大模型产品开发的产品经理、开发者、算法工程师等,也有早期创业者。欢迎报名来现场交流。


一、大模型视频生成商业化实践案例

奇绩校友项目


极佳科技——视界一粟 YiSu

极佳科技围绕视频生成和世界模型,致力于打造通用智能的新一代数据引擎,现已推出视频生成基础模型视界一粟 YiSu ,可生成 16s 时长视频并支持拓展至 1 分钟以上。极佳科技目前的商业化探索主要聚焦 B 端,其基于基础模型开发的通用世界模型 World dreamer 、自动驾驶世界模型 Driving dreamer 已分别在通用机器人、自动驾驶场景中应用落地,为企业用户提供训练数据生成服务,同时赋能企业优化闭环仿真能力。未来极佳科技也将持续推进模型的端侧部署以及 C 端通用场景的商业化探索。

(产品介绍文章《重磅|中国首个超长时长、高性价比、端侧可用的Sora级视频生成大模型,「视界一粟 YiSu」来了!》)


右脑科技 RightBrain AI——Video Studio

右脑科技旨在用人工智能赋能视觉创作,打造基于 AIGC 技术的平台和新型创作生态,现已推出图像创作平台 VegaAI ,视频创作平台 Video Studio 。右脑科技目前商业化探索主要聚焦 C 端,同时支持视频模型定制,应用案例覆盖广告营销、设计、特效、动画制作等场景。用户可通过 Video Studio 视频创作平台使用文本和图像生成时长为 4s 的视频。平台支持一键视频风格切换、特效生成、拖拽式视频创作。


国内其他项目


生数科技——Vidu

生数科技已发布视频生成大模型——Vidu,采用 Diffusion 与 Transformer 融合的自研架构 U-ViT,支持生成时长 16 秒、分辨率达 1080P 的视频。生数科技目前商业化探索同时聚焦 C 端和 B 端通用场景,覆盖游戏、文旅、影视、内容社交等领域,面向 C 端推出了视觉创意设计平台 PixWeaver 和 3D 资产创建工具 VoxCraft ,同时面向 B 端提供 MaaS 服务。


爱诗科技——PixVerse

PixVerse 模型架构基于 DiT,同时探索 Auto aggressive 路线。目前聚焦 C 端场景,支持文字生成视频、图片生成视频两类方式,生成视频时长 4s,可将视频提升至 4K 分辨率。5 月上线运动笔刷 Magic Brush 功能,用户可在使用图生视频过程中,通过涂抹区域、绘制轨迹,控制视频元素的动效。


字节跳动——即梦 Dreamina

Dreamina 是由字节跳动基于多模态大模型云雀大模型推出的 AI 创作平台。Dreamina 应用场景聚焦 C 端,支持用户生成 3 至 6 秒时长视频,同时提供视频编辑工具,允许用户对生成内容进行个性化调整。


快手——可灵 Kling

可灵采用类 Sora 的技术路线并结合自研技术。Kling 应用场景聚焦 C 端,支持输出 2 分钟时长,1080p 分辨率的视频。


美图——MOKI

MOKI 由美图基于奇想大模型(MiracleVision)开发,目前尚未正式上线。应用场景聚焦 C 端,辅助创业者打造动画短片、网文短剧、故事绘本和 MV 。在脚本、视觉风格、角色等前期设定完成后,自动生成分镜图并转为视频素材,通过智能剪辑、AI 配乐、AI 音效、自动字幕等功能串联素材并实现成片。


海外项目


Runway——Gen-3 Alpha

Gen-3 Alpha 是 Runway 最新公开的视频生成模型,目前尚未发布相应产品。相较 Gen-2,Gen-3 Alpha 在保真度、一致性和运动性等方面进行了改进,同时支持的视频生成时长有所延长。Runway 此前已发布包含 Gen-2(Text to Video),Gen-1(Video to Video),以及图片生成、处理和视频语音处理等多个产品在内的 AI 工具库,并推出了全球首个图片转视频动态笔刷功能 Motion Brush 。公司目前的商业化探索在聚焦 C 端的同时,支持面向企业提供定制服务。


Synthesia

Synthesia AI video generator 支持基于文本生成配备语音的 3D 数字人视频,画外音可覆盖 130 余种语言。用户可在提供的模板中选择特定数字人或生成自有数字人形象。Synthesia 目前的商业化实践主要聚焦 B 端,面向企业客户提供数字人 speaker 视频生成服务,应用案例覆盖营销、客服、教育、员工培训等多类场景,同时也面向 C 端用户提供订阅服务。


Pika labs——Pika

Pika 当前推出的 Pika1.0 版本支持基于文本和图片的视频生成,时长为 3 秒,同时提供视频时长拓展、视频生成风格一键切换等视频编辑功能。目前 Pika 的商业化探索主要聚焦 C 端,面向用户提供视频生成订阅服务,同时考虑尝试提供 API 服务。

Luma AI——Dream Machine

Luma Al 开发的视频生成模型 Dream Machine 已面向公众开放测试。该模型支持基于文本和图像,在 120 秒内生成 120 帧的视频(单个视频时长达 5 秒)。

二、大模型视频生成开源项目


Stable Video Diffusion

Stable Video Diffusion 是 Stability AI 发布并开源的视频生成模型,建立在其著名文生图模型 Stable Diffusion 之上。

https://github.com/Stability-AI/generative-models


Open-Sora

OpenSora 是由潞晨科技旗下 Colossal-AI 团队推出的全球首个开源的类 Sora 视频生成模型,采用主流 DiT 架构,并使用文本转图像模型 PixArt-α 作为模型的初始化。OpenSora 引入了创新的视频压缩网络(VAE),旨在解决视频模型训练算力资源消耗大和模型输出质量不高两大挑战。同时,团队基于目前最新的扩散模型 SD3 的研究成果,提供了整套模型训练解决方案。

https://github.com/hpcaitech/Open-Sora


AnimateDiff

AnimateDiff 是由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员推出的一款将个性化的文本到图像模型扩展为动画生成器的框架。其核心在于它能够利用从大规模视频数据集中学习到的运动先验知识,作为 Stable Diffusion 文生图模型的插件,允许用户将静态图像转换为动态动画。该框架的目的是简化动画生成的过程,使得用户能够通过文本描述来控制动画的内容和风格,而无需进行特定的模型调优。

https://github.com/guoyww/animatediff


Open-Sora Plan

Open-Sora Plan 由北大深圳研究生院-兔展智能 AIGC 联合实验室发起。模型架构主要包括 Video VQ-VAE(视频编解码模块)、Denoising Diffusion Transformer(去噪扩散型 Transformer)和 Condition Encoder (条件编码器)三个部分。该项目使用 2D+1D Diffusion Transformer 代替了 3D Diffusion Transformer ,以降低计算量需求,提升训练效率。

https://github.com/PKU-YuanGroup/Open-Sora-Plan


StreamingT2V

StreamingT2V 是一种自回归技术,可应用于不同的 T2V 模型,以提高视频生成的质量和效率。其专注长时间视频生成,确保视频在保持动态的丰富性和时间连贯性的同时,紧密贴合描述性文本,并保持高水平的帧级图像质量。目前项目的成功示例显示,生成视频帧数可达 1200 帧,跨越 2 分钟,并且可以扩展到更长的持续时间。另外,StreamingT2V 的有效性不受使用的特定 T2V 模型限制。

https://github.com/Picsart-AI-Research/StreamingT2V


三、大模型视频生成精选论文


ID-Animator: Zero-Shot Identity-Preserving Human Video Generation 2024.5.14

生成具有特定身份(ID)的高保真人类视频面临的关键挑战包括训练成本高昂、缺乏高质量的文本-视频配对数据集,以及参考图像中与身份无关的特征对视频生成质量的影响。为解决上述挑战,该论文提出了一种名为 ID-Animator 的新方法,可在无需额外训练的情况下,根据单个参考面部图像生成个性化视频。通过构建面向身份的数据集和随机面部参考训练,ID-Animator 有效解决了训练成本高和数据集缺乏的问题。同时,论文指出 ID-Animator 与流行的预训练 T2V 模型(如 animatediff )和各种社区骨干模型高度兼容,展示了在真实世界视频生成应用中的高扩展性。

https://arxiv.org/abs/2404.15275


MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators 2024.4.7

该论文研究了文本转视频(Text-to-Video, T2V)生成领域的一个易被忽视的问题:现有模型没有对现实世界的物理知识充分编码,导致生成的视频动作有限且变化贫乏。为解决该问题,论文提出了一个名为 MagicTime 的新型延时视频生成模型,该模型通过学习延时视频中的现实世界物理知识来实现变形生成(metamorphic generation)。

https://arxiv.org/abs/2404.05014


CameraCtrl: Enabling Camera Control for Text-to-Video Generation 2024.4.2

论文指出,现有文本转视频(T2V)生成模型往往忽略了作为电影语言来表达更深层次叙事细节的摄像机姿态的精确控制。为解决上述问题,作者提出了一个即插即用的摄像机模块 CameraCtrl,旨在为 T2V 生成模型提供灵活且精确的摄像机视角控制能力。论文介绍,CameraCtrl 可以适应各种个性化视频生成模型,生成平滑且具有视觉吸引力的摄像机控制效果,有助于增强视频生成的可控性和个性化体验。

https://arxiv.org/abs/2404.02101


Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 2024.3.5

Stable Diffusion 3 技术论文。主要研究了如何通过改进现有的噪声采样技术来训练修正流(Rectified Flow)模型,并通过大规模研究展示了这种方法在高分辨率文本到图像合成方面的优越性能。此外,论文还提出了新的多模态 DiT(MMDiT,Multimodal Diffusion Transformer)模型架构,该架构使用不同的权重处理图像和文本模态,并实现了图像和文本 token 之间的双向信息流,从而改善了文本理解、排版和人类偏好评分。

https://arxiv.org/html/2403.03206v1


Video generation models as world simulators 2024.2.15

OpenAI 公开的 Sora 技术报告,重点介绍了:Sora 模型训练数据的处理,即将所有类型视觉数据转换为统一表示的方法;对 Sora 模型能力和局限性的定性评估。

https://openai.com/index/video-generation-models-as-world-simulators/


SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers 2024.1.16

论文介绍了基于 Diffusion Transformers(DiT)构建的 Scalable Interpolant Transformers(SiT)模型。SiT 可以看作是在 DiT 的基础上从抽象质量到速度的一个升级。与 DiT 相比,其主要区别在于提供了更高的灵活性和可扩展性。SiT 通过引入连续时间学习、速度预测、不同的插值器选择以及确定性或随机采样器的使用,实现了在生成图像质量上的显著提升。此外,SiT 在实验中展示了通过调整扩散系数来优化性能的能力,这是 DiT 中通常与正向噪声过程紧密关联的,而在 SiT 中可以独立调整。

https://arxiv.org/abs/2401.08740


Latte: Latent Diffusion Transformer for Video Generation 2024.1.5

论文提出了一个新的基于 Latent Diffusion Transformer 架构的视频生成模型 Latte ,试图解决如何有效地在潜空间中捕捉视频的复杂时空信息,并提高视频生成质量的问题,特别是针对高分辨率视频的生成。Latte 首先从输入视频中提取时空标记,然后采用一系列 Transformer 模块来模拟潜空间中的视频分布。为了模拟从视频中提取的大量标记,作者从输入视频的空间和时间维度分解的角度,引入了四种高效的模型变体。同时,为了提高生成视频的质量,作者通过严格的实验分析确定了 Latte 的最佳实践,包括视频片段嵌入、模型变体、时间步类信息注入、时间位置嵌入和学习策略。

https://arxiv.org/abs/2401.03048v1


Photorealistic Video Generation with Diffusion Models 2023.12.11

论文介绍了李飞飞团队与谷歌合作推出的视频生成模型 W.A.L.T(Window Attention Latent Transformer)。W.A.L.T 使用因果编码器(causal encoder)将图像和视频映射到统一的低维潜空间中,使得其可以在图像和视频数据集上联合训练单个生成模型,显著降低了生成高分辨率视频的计算负担。同时,为了提高内存使用和训练效率,论文提出了一种窗口注意力架构,以高效捕获图像和视频中的空间关系和视频中的时序关系,该架构适用于联合空间和时空生成建模。该设计通过使用局部窗口注意力显著降低了计算需求,并且允许图像和视频帧的独立处理。

https://arxiv.org/abs/2312.06662


VideoGPT: Video Generation using VQ-VAE and Transformers 2021.9.14「v2」

论文提出的 VideoGPT 采用了 VQ-VAE+Transformers 的架构,可用于将基于似然的生成建模扩展到自然视频。VideoGPT 使用 VQ-VAE,通过采用 3D 卷积和轴向自注意力来学习原始视频的降采样离散潜在表示,并使用类似 GPT 的架构进行自回归,使用空间-时间位置编码对离散潜在表示进行建模。

https://arxiv.org/abs/2104.10157


-全文完-


【奇绩潜空间】第二季最后一期将在 7 月 7 日举办。与以往不同的是,当天下午上海线下场将继续举办【AI Unconference】活动(多模态、Agent、算力、AI 硬件、AI 游戏、AI+教育、机器人等七大主题),欢迎大家报名参加。报名链接:https://mp.weixin.qq.com/s/lnkoboIPtLetb_rRdH-yxg



发布于: 刚刚阅读数: 6
用户头像

奇绩创坛

关注

在源头最大化驱动创新 2020-12-14 加入

像联合创始人一样,手把手与你一起创业。奇绩创坛成立于2019年,使命是在源头最大化驱动创新,核心产品是创业营,每年举办两届,陆奇博士和合伙人全身心投入3个月,通过创业营投资加速,提供长期帮助。

评论

发布
暂无评论
​​给「大模型视频生成」创业者的论文、开源项目和商业化实践案例_人工智能_奇绩创坛_InfoQ写作社区