快手可灵视频生成大模型全方位测评

快手视频生成大模型“可灵”(Kling),是全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。截至目前,申请体验其内测版的用户数量已突破 70 万大关,累计生成的视频作品更是高达 700 万。
可灵在持续创新的道路上也从未停下脚步,在七月份举办的世界人工智能大会(WAIC)期间,可灵再次迎来重大升级。新功能包括上线 web 端、基础模型效果升级、图生视频支持首尾帧、增添相机镜头控制功能、单次生成时长增至 10s 等。
大模型落地的实际效果如何离不开用户的体验与感知,来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵 AI 视频生成大模型进行了测评。该团队致力于生成式 AI 的正向应用与反向监管工作,近年来在人工智能和图形学顶级会议和期刊(ACM TOG/CVPR 等)上发表了多个图像视频生成成果。团队本次对可灵 AI 的评测,是为了评估现有视频生成模型能力,探索视频生成技术在学术和现实场景里的新方向和应用潜力。(本文转自 数字内容合成与伪造检测 帐号,已获得作者授权转载,本文发表在新功能上线之前,目前可灵最新功能已更新,欢迎爱好者朋友至https://klingai.kuaishou.com 体验)
六个角度:
团队主要从画面质量、内容可控与运动生成三方面进行评测,并与当下最火热的 Stable Video Diffusion、Sora 和 Dream Machine 进行比较。画面质量考量视频画面的真实感,包括细节刻画的逼真度与物理世界的一致性两个角度;内容可控从多主体生成、特定内容风格与模型创造力三个角度测试;最后,从运动生成的角度测试了生成结果中动态场景的流畅性和时空关系的合理性。

测评情况:
1、细节刻画:超乎想象
细节决定着一个视频是否会被一眼“打假”,一年前,网上还在大呼“图像生成的场景虽然宏大,但仔细一看完全是东拼西凑”。而可灵对细节的刻画,超出我们的想象。
精美自然界 晶莹剔透的水珠,微微摆动的湿润绿叶,虚化的背景,这个画面真的太美了。不过这里也体现出了后续会说的一个问题——运动不符合提示词。

“一滴雨水滑落叶片的边缘,特写水珠的表面张力和反射的光芒。”
对动物的刻画也十分细致,透明的小翅膀,在花蕊上采蜜的动作,不细看像是真的一样。

“一只蜜蜂在花瓣上采蜜,特写其细腻的翅膀和花粉粘附在腿上的情景。”
精准手和脸 我们知道脸部崩坏,手指抽象是生成模型的老问题了,而可灵的结果看起来不错。看起来画面中的演员真的很痛苦,完全符合我们的提示词。

“一位演员在舞台上表演悲剧角色,特写脸上的悲伤表情和流下的泪水。”
纸张纹理、手部青筋、握笔方式都刻画得十分到位,甚至在纸面上留下了持续新增的笔触。

“一位画家的手在画布上细致地勾勒出人物的轮廓,特写手指的灵活运动。”
总之,可灵对细节的把控比较到位,不管是自然界的花花草草还是人的面部情绪、手部动作,在视频生成领域有很大的进步。
2、物理世界:表象 or 内核
人工智能是否能够真正地理解物理世界?我们认为可灵仍然停留在视频的表象。我们发现它对自然界有着细致入微的观察,并且面对镜子、光影可以生成一些令人惊叹的视频,不过在视频中偶尔会发生不合理的事情。
绽放的花朵 两朵花缓慢绽放,花蕊的细节清晰可见,像真是用延时摄影拍摄的一样。

“两朵黄色的花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。”
令人惊叹的镜子 这个视频仿佛是在真实场景中发生的,特别是耳部动作的刻画。虽然最后几秒镜子里的动作有问题,但瑕不掩瑜,整体质量十分好。

“一只狗在照镜子,背景是房间内的物品。”
越来越满的咖啡 这是一个特别常见的画面,然而模型完全没有理解我们的意思,蒸汽不减少,咖啡却越来越多。

“一杯满是热咖啡的透明玻璃杯,慢慢地冷却,蒸汽逐渐消失。”
3、想象力:生成不可能
到了可灵主打的想象力环节,我们来看看它能不能生成天马行空的内容。
海底探险 海底、发光宝藏、潜水员和海洋生物该有的元素都有了,镜头不断推进,仿佛我们也深陷海底。

科幻都市 这里的光影令人惊喜,倒影、反光都随着小猫的前进不断变化。整个场景也充满科技风,以后设计画面都可以来这找灵感了。

活灵活现的画面 这里动静之间的处理得特别好,跃出纸面的动物、画板和画家之间的空间关系完全正确。

更具想象力 可灵没有成功生成这个充满想象力的画面,丢失了很多元素。

“一只猫坐在一本打开的书上,书页上的文字围绕着猫身形成漩涡。”
总之,可灵在想象力上中规中矩,能生成让人眼前一亮充满想象力的大场景,但偶尔面对过于超脱的提示词时不知道如何创意地组合各个概念。不过以现在生成的总体质量来看,再改进一下提示词,应该就可以实现想要的内容。
4、多主体:更丰富的内容
谁是狮子 可灵成功生成了两只老虎、两只狮子,但让它生成一只老虎和一只狮子时,却生成了两只老虎。

猫狗合体 小猫小狗作为最常见的动物,可灵却分不清,第一个视频猫变身狗,第二个视频猫狗直接合体。另外可以看到,可灵不会数数但对颜色的把控到位。

“一只白猫,一只黑狗,两只黄色鸭子在一起玩。”

“一只白猫,一只黑狗,两只绿色鸭子在一起玩。”
对模型来说,模拟多个角色之间的复杂交互具有挑战性,在多主体上可灵稍显逊色,可能会生成错误的内容。
5、角色和风格:个性化生成
指定角色 可灵在软件上禁止生成现实中存在的名人,因此我们简单地尝试了几个常见角色。
在角色、动作、场景上符合提示词,生成的质量还可以。

“圣诞老人将礼物递过来。”
虽然生成了猴子形象,并且吃东西的动作也很生动,但生成了一行字幕,也完全不符合我们心中孙悟空的样子。在这方面希望国产模型可以认识更多国内文化,让用户可以生成含有优秀传统文化的视频。

“孙悟空吃饭。”
指定风格 我们尝试了不同的风格,模型能够根据提示词生成对应风格,尤其是科幻风较好。

“熊猫弹吉他,赛博朋克风格。”

“熊猫弹吉他,迪士尼动画风格。”

“熊猫弹吉他,写实风格。”
总之,在指定角色和风格上,生成的视频还是令人满意的。不过,生成更加个性化的内容有广泛需求,比如用户自己、家养宠物。如何通过微调或无需训练的方法实现完全的定制化是一个值得深入探讨的话题。
6、运动:复杂的时空关系
相对于图像生成,视频生成最大的难点就在于建模复杂的时空关系,可灵官方声明“可灵采用 3D 时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容”。
常见运动 首先看看官方提示词的生成对比:
景色不错,但我们的马没有官方的跑得快。

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(官方)

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(我们)
猎豹跑得没马快。

“一只猎豹在草原上全速奔跑,追逐猎物。”
飞机飞得可以,但是没有体现出“急速俯冲和爬升”,只是常见的飞行。

“一架喷气式飞机在蓝天中做出急速俯冲和爬升的动作。”
复杂场景 完美生成了场景,但是完全不符合动作。

“一只猫在书架上跳跃,书本、装饰品和其他物品之间的空间关系清晰可见。”
交互式动作 模型在拿出来还是放进去反复横跳。

“一个人打开冰箱,拿出里面的可乐。”
看得出来,可灵对于一些常见的动作可以按照提示词生成一致的运动,但存在运动幅度较小的问题,对“飞快、急速”等词的响应有一点问题。而面对复杂场景时,可灵生成的结果也较差,无法生成对应的动作。
模型对比
可灵 vs. SVD
Stable Video Diffusion 是 Stability 公司在 2023 年底公布并开源的视频生成模型,凭借其出色的性能和应用潜力,吸引了全球技术圈的目光。由于 SVD 是图生视频模型,我们首先利用 SDXL 生成图片,再用 SVD 基于图片生成视频。与 SVD 相比,时隔半年的可灵生成质量如何?

"The waves crash against the beach, the sunset slowly sets in the distance,Beautiful view,the afterglow."(SVD)

“海浪拍打着沙滩,夕阳在远处缓慢落下,美景,余晖。”(可灵)

"A Chinese man sits at a table and eats noodles with chopsticks."(SVD)

“一个中国男人坐在桌前,用筷子吃面条。”(可灵)
可灵生成的海浪拍打沙滩、吃面条的动作十分真实,而 SVD 似乎只是简单的镜头移动。在视频连续性、真实性方面,可灵有着飞跃进展。
可灵 vs. Sora
今年 2 月,OpenAI 研发的 Sora 横空出世,60 秒的视频时长,影视级的画面质量一度盖过其它视频生成模型的风头。我们将可灵与 Sora 进行对比,由于 Sora 尚未开放测试,我们选取官方公布的测试样例进行对比,因此对比结果可能有失偏颇。
可灵生成的视频中,大象的每一步都会掀起一阵雪花,对阳光、影子都有准确的刻画,虽然后面的小象出现了问题,但还是凸显出可灵对光影的理解。而 Sora 对猛犸象的生成更加准确,但大象背后雪花造成的烟雾略显夸张。

"Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow-covered trees and dramatic snow-capped mountains in the distance, mid-afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field." (Sora)

“几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上踩踏,它们长长的毛茸茸的皮毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的雪山,午后的阳光与缕缕的云彩和远处的太阳高高地营造出温暖的光芒。低相机视角令人惊叹,以精美的摄影捕捉大型毛茸茸的哺乳动物,深度。”(可灵
在 Sora 展示的一个失败例子中,可灵也失败了。同样是让篮球爆炸,Sora 虽然在结尾又冒出了一个篮球,但确实让篮球爆炸了,而可灵的篮球像橡皮泥捏的。

"Basketball through hoop then explodes."(Sora)

“篮球穿过篮筐然后爆炸。”(可灵)
相比于 Sora,可灵没有完全败下阵来,二者都有可圈可点的地方,等 Sora 放出 Demo 才能进行更全面的对比。
可灵 vs. Dream Machine
6 月 13 日,Luma AI 发布视频生成模型 Dream Machine,用户可以通过文字或图片生成高质量的高清视频。不需要申请,登录就可以免费使用,但目前限制每天生成十个视频。下面是它与可灵生成的视频对比(使用 Dream Machine 文生视频功能):

"It was raining heavily outside the window, and the rain was sliding down the window, leaving water lines."(Dream Machine)

“窗外下着大雨,雨水在窗户上滑落,留下水流纹路。”(可灵)

"A cute cat is looking at a mirror through the water surface with fish swimming in it."(Dream Machine)

“一只可爱的猫通过水面照镜子,水里有游动的鱼。”(可灵)
在上面两个例子中,可灵在画面展现、物理规律上还是完全胜于 Dream Machine 的。在用户使用上,可灵的生成速度比 Dream Machine 慢,可灵通常是 3 分钟生成一个 5 秒的视频,而 Dream Machine 官方称 2 分钟即可生成 120 帧 5 秒的视频。
合成 vs. 检测
视频生成技术不断进步,生成的视频质量越来越接近真实内容。这也引发了对视频内容真实性的关注,特别是在新闻、法律和安全等敏感领域。我们用中科睿鉴研发的视频伪造检测小程序对可灵生成的 40 个视频进行检测,在检测模型未针对可灵模型进行调优时,检出率为 85%。

被识别为真的视频画面
我们利用可灵生成的这些视频,具有逼真的画面,较高的一致性和连续性,很少存在抖动情况。被检测出来的视频通过肉眼看也很难判别真伪,大多数视频很少存在失真、变形。可灵 AI 视频生成大模型的表现展示了 AI 在视频生成领域的巨大潜力,同时也突显了确保数字内容真实性的挑战。这一领域的未来发展将是技术创新和伦理责任并行的结果。
总结
总的来说,可灵的生成质量还是很不错的,支持中文输入极大提高了用户体验感。视频时长、分辨率、流畅度大幅提升,在细节、人体上有着很大进步,在动作幅度、想象力上还略显不足。本文采用的提示词都不是经过精心挑选的,有时甚至能达到随手出片的效果。
今年,Sora、可灵和 Dream Machine 等高质量视频生成模型不断涌现,各大科技机构纷纷投入视频生成赛道。目前,视频生成落地面临多重难点,快速高质量的生成技术、昂贵的算力成本都是亟需解决的问题。在这一背景下,快手推出面向公众开放测试的产品级应用,一键生成视频,直接剪辑发布,形成了一套完整流程,极大推动了视频生成的实际落地。在未来,如何形成一个完善的 AIGC 生态体系,以及完整的产业链与现有产品进行联动,都是长期关注的焦点。另外,随着 Sora 类的生成技术不断成熟,整个视频生成研究领域会进入到下一个阶段:不仅会关注视频内容的真实性,还会更加注重视频中的物理规律和运动幅度等“幻觉”问题。这意味着,未来的视频生成技术不仅要在视觉上令人信服,还要在物理动作和逻辑上保持一致,以产生更加自然和流畅的视觉效果。此外,随着技术的发展,我们还可能看到更多的交互式视频内容生成,其中用户可以指定某些参数或直接与视频内容互动,从而创造出独一无二的个性化视频体验。这将极大地扩展视频生成技术的应用范围,比如娱乐、教育、专业培训和模拟等多个领域。
总之,视频生成技术的未来发展将不仅仅局限于提高图像质量,更将涉及到如何创造出符合物理规律、具有高度互动性和个性化的视频内容。这将是一个充满挑战但也极具潜力的新阶段。
评论