快手自研视频生成大模型「可灵」来啦!
可灵大模型(Kling)是由快手大模型团队自研打造的视频生成大模型,具备强大的视频生成能力,让用户可以轻松高效地完成艺术视频创作。近日,快手“可灵”视频生成大模型官网正式上线,同时已在快手旗下的快影 App 开放邀测体验。
已开放测试,欢迎「阅读原文」申请体验!
快手在短视频视频技术方面有多年的深入积累,其视频生成大模型也有天然、广泛的应用场景。可灵大模型为快手 AI 团队自研,结合多项创新技术,具备诸多优势:
能够生成大幅度的合理运动;
能够模拟物理世界特性;
具备强大的概念组合能力和想象力;
生成的视频分辨率高达 1080p,最长可达 2 分钟(帧率 30fps),且支持自由的宽高比。
具体而言:
可灵大模型能够生成大幅度的合理运动。可灵采用了 3D 时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,可灵大模型不仅能够生成较大幅度的运动,且更符合客观运动规律,能够真正做到让想象力动起来。下面是宇航员在月球上奔跑的视频,随着镜头慢慢抬升,我们可以看到宇航员跑步的动作流畅轻盈,无论是步态还是影子的运动都合理恰当。
prompt:一名宇航员在月球表面奔跑,低角度镜头展现了月球的广阔背景,动作流畅且显得轻盈
可灵大模型能够模拟真实物理世界的特性。得益于自研模型架构及 Scaling Law 激发出的强大建模能力,可灵大模型为我们构建起了一个无限逼近现实的想象空间,无论是真实世界的光影反射,重力影响下的流体运动,还是与物理世界的交互,可灵大模型都能够生成符合物理规律的视频。下面是小男孩吃汉堡的生成视频,汉堡被咬出一个明显的缺口,在视频的每一帧中都清晰可见。我们还能看到小孩咀嚼汉堡的享受表情,特别是逼真的脸部肌肉动态。
prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡
可灵大模型具备强大的概念组合能力和想象力。凭借模型对文本-视频语义的深刻理解和基于 Diffusion Transformer 架构学到的强大概念组合能力,可灵大模型能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的场景,让创意触手可及。下面的视频展示了一位熊猫吉他手坐在湖边,边弹奏吉他边唱歌,显然是只在想象中才会出现的场景。
prompt:一只大熊猫在湖边弹吉他
可灵大模型生成的视频分辨率高达 1080p、时长最高可达 2 分钟(帧率 30fps),能够生成电影级的画面,且支持自由的输出视频宽高比。可灵大模型的自研 3D VAE 能够将视频编码到紧凑的隐空间并解码成带有丰富细节的视频,可以生成高达 1080p 分辨率 30fps 的视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达 2 分钟的视频,还可以做到同样内容输出多种视频宽高比。下面的视频展示了分钟级的视频生成,我们可以跟随镜头,陪伴小男孩骑自行车游览花园,在一镜到底中欣赏春夏秋冬四季的风景。
prompt:小男孩在花园里骑自行车经历秋冬春夏四季变换
prompt:疯狂动物城预告片
大模型的生成效果取决于数据的规模和质量、以及大规模训练的效率。可灵大模型在研发过程中,配套建设了高效的大规模自动化数据解决方案,覆盖了海量视频挖掘、多维打标筛选、视频描述增强、及数据驱动的效果质量评估等多个方面。在训练过程中,采用了多种计算优化和通信优化方案,极大提升了 GPU 和网络带宽利用率,并通过自动故障检测和 failover 等机制,提供了分钟级故障恢复能力,保障了短时间内模型效果的快速提升。
基于可灵大模型,更多应用方向也已经或即将落地。例如,基于肢体驱动的“AI 舞王”功能已在快手和快影 App 成功落地,用户只需上传一张全身或半身照片,即可体验一键跳舞的乐趣。近期还将首发上线“AI 唱跳”新玩法,基于自研的 3D 人脸和人体重建技术,结合背景稳定性和重定向模块,实现表情肢体全驱动技术,仅需一张照片就能生成唱跳“爱你”的生动视频。
随着 AI 大模型时代来临,快手已展开全面布局,先后发布通用大语言模型“快意”、文生图大模型产品“可图”,还推出了 Direct-a-Video、Video-LaVIT、I2V-Adapter、UNIAA 等视频关键技术,引发了广泛关注。伴随着此次可灵大模型的发布,快手将持续加速大模型的研发与应用,带来更加多元的 AI 创作与互动体验。
快影 App 的 AI 创作功能中已正式开放文生视频功能的邀测,支持创作者申请并体验可灵大模型最新的文生视频功能,图生视频功能也将于近期开放。如果各位在邀测体验中有任何疑问或建议,期待与我们交流合作。
👉🏻【官网链接】:https://kling.kuaishou.com/ 或「阅读原文」访问官网
👉🏻【申请指引】:快影 app-AI 玩法-AI 生视频-填写问卷申请
👉🏻【申请流程】因为当前申请用户较多,我们会优先给专业创作者逐步开放权限体验,请大家耐心等待,审批通过后短信提示。
版权声明: 本文为 InfoQ 作者【快手技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/59d687bd7cd13f84fa134685c】。文章转载请联系作者。
评论