FlagEval 8 月榜 | 文生视频大模型主观评测结果揭晓,新增 6 款新发布模型
近日,智源研究院联合中国传媒大学发布文生视频大模型主观评测榜单,在今年 5 月对 Sora、Runway Gen-2、PixVerse V1、Pika 1.0、VideoCrafter-V2、Show-1、Open-Sora 1.0 七个模型性能表现评测结果的基础之上,不仅对部分模型的升级版本进行了对比评测,包括 Runway Gen-3 和 Runway Gen-2、PixVerse V2 和 PixVerse V1、Pika 2.0 和 Pika 1.0 以及 Open-Sora 1.2 和 Open-Sora 1.0,还引入了即梦、Luma、可灵、Vega Ai、星火绘镜和 Pixeling 6 款新近发布的文生视频大模型进行评测。相比于上期评测的模型,本期模型普遍在物体运动表现上有了提升,动作更加流畅自然。此外,部分产品有了分镜切换能力,使得镜头语言更加丰富。
评测方法
本次评测采用的数据集和主观评价方法与今年 5 月开展的文生视频模型评测高度一致,并沿用了部分评测结果作为参考基准,以保持新旧模型评测标准的一致性,使两次评测结果具有可比性。
评测发现
当前的文生视频大模型在以下方面仍然存在共性问题:
(1)画面质量问题:许多模型生成的视频存在画质问题,如分辨率不高、马赛克效应、噪点、摩尔纹等。这些问题在剧烈运动的场景中尤为明显,在静态场景中则相对缓解。
(2)活动主体真实性较差:许多模型在生成活动的主体对象时表现不佳,尤其是在生成运动幅度较大的动物或人物时,常出现躯干结构缺失、形变或面部崩坏等问题。
(3)难以刻画复杂行为:当主体与环境有交互行为或操纵工具、设备时,生成效果往往较差。当存在多个主体有交互行为时,常常出现主体融合、消失或分身等现象。
(4)对超现实场景表现不足:对于高度抽象场景,尤其是对于反物理规律或反常识的提示词,如物体漂浮、雨水逆流等,大多数模型难以生成准确画面。
(5)文化特色相关场景生成困难:多个模型在生成具有文化特色的场景或标志性建筑时容易出错,尤其是在生成中国特色场景时问题较为突出。
(6)时间和因果关系容易出错。
这些问题表明,尽管当前文生视频模型在很多方面已经取得了显著进步,但在实际应用中仍面临诸多挑战,有待解决。
评测结果
1、榜单排名
从综合性能排名来看,Sora 的排名依然处于领先位置。Runway Gen-3 紧随其后,综合总分为 0.634,在本次参评模型中排名第一。即梦和可灵的综合得分分别为 0.591 和 0.565,也具备一定的竞争力。而 Vega Ai、Pika 2.0、Open-Sora 1.2 的综合性能排名相对靠后。
在 CUC T2V Prompts 数据集上,Runway Gen-3 在总体印象分、图文一致性、视频质量三个维度上均排名第一,显示出强大的综合性能。即梦在美学质量上领先,同时在其他多个维度上位列第二,表现出全面的竞争力,是 Runway Gen-3 的强劲对手。此外,可灵在真实性方面也有不错的表现。
在 Sora T2V Prompts 数据集上,Runway Gen-3 在总体印象分、图文一致性、真实性、视频质量和美学质量五个维度上均表现优异,除 Sora 外位居第一,再次证明其强大的综合实力。即梦在总体印象分、视频质量和美学质量上表现突出,是有力的竞争者。而可灵则在图文一致性和真实性方面取得了不错的成绩。
2、新增模型特点
新增的即梦、可灵、Luma、Vega Ai、星火绘镜和 Pixeling 六个模型展示了各自特的优势与不足:
(1)即梦:在动态表现、美学表现和精细动作生成方面表现卓越,尤其是在动画风格的生成上具有较高美感。然而,随着视频长度的增加,其真实性和前后内容一致性会有一定的下降。
(2)Luma:在生成日常生活场景时表现相对出色,画面质感贴近现实。此外,Luma 的镜头移动和场景切换频率较高,能够生成动态画面。但在生成文化特色场景、人与物体交互场景(如操作器材)和超现实场景时表现欠佳。
(3)可灵:在真实性上表现尤为出色,尤其是在动物毛发细节和质感的处理上。当人物运动幅度较小时,可灵能够生成皮肤细节清晰、人体比例真实的形象。不过,可灵生成的部分视频画面清晰度有所欠缺。
(4)Vega Ai:在动态表现上较为突出,但在人物生成的真实性、视频质量和镜头布局方面存在不足,限制了其在高质量视频生成中的应用。
(5)星火绘镜:擅长生成长视频和处理多镜头拼接,适合生成包含转场和多视角的视频内容。但在图文一致性和风格多样性上仍有改进空间。
(6)Pixeling:在色彩搭配和图文一致性上表现较好。然而,在视频画面稳定性和一致性上存在不足,生成视频常出现前后内容不一致的现象。
3、不同版本对比
本次评测还对部分模型的升级版本进行了性能对比。
(1)Runway Gen-3 vs. Runway Gen-2:Runway Gen-3 在图文一致性、动态表现和风格多样性等方面有显著提升。
(2)PixVerse V2 vs. PixVerse V1:PixVerse V2 在总体印象和图文一致性上超越了 PixVerse V1,但前后内容一致性和面部崩坏的情况还有待改善。
(3)Pika 2.0 vs. Pika 1.0:Pika 2.0 在画面稳定性和细节表现上有所提升,但在生成超现实场景和提高人物真实性方面仍需进一步优化。
(4)Open-Sora 1.2 vs. Open-Sora 1.0:Open-Sora 1.2 在视频时长、分辨率和画面稳定性上较 Open-Sora 1.0 有显著进步,但在实体对象呈现和前后内容一致性上仍有不足。
由于评测数据集的规模及类别限制,评测结果会存在一定局限性。未来,智源研究院将携手中国传媒大学继续推动文生视频评测技术与主观评价方法体系的迭代与完善。
评论