快手开源 I2V-Adapter,即插即用、轻量级模块让静态图像秒变动态视频
导读
快手开源图像生成视频技术 I2V-Adapter。I2V-Adapter 是基于 Stable Diffusion 的文生视频扩散模型的轻量级适配模块,该模块能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。
一、研究背景
电影,从黑白默片的古朴典雅到特效大片的视觉盛宴,是人类艺术史上不可或缺的一环。然而,其诞生之初,竟源于一场关于马匹奔跑时四蹄离地状态的打赌。1872 年,斯坦福与科恩的这场打赌,让摄影师穆布里奇利用 24 架照相机捕捉了马匹奔跑的连续瞬间,进而通过连续放映这些照片,赋予了静态图像生命,开创了电影艺术的先河。
如今,在计算机视觉领域,静态图像到动态视频(I2V)任务同样面临着巨大的挑战。其核心在于如何从单一的静态图像中提炼出动态的时间维度信息,并确保所生成的视频在真实性和视觉连贯性上达到高度一致。为了实现这一目标,当前的 I2V 方法大多依赖于复杂的模型架构和庞大的训练数据集。例如 Stable Video Diffusion(SVD),通常采用的策略是扩展文本到视频生成(T2V)模型的输入层维度,通过在扩展的维度上输入参考图像来注入图像信息。然而,这种方法需要对模型架构进行修改,导致整个模型需要重新训练,带来了巨大的计算和时间成本。Stable Video Diffusion 模型需要训练 1.5 亿个参数,累计训练迭代次数高达 33 万次,并消耗了 1000 万的数据量。更为复杂的是,由于重训练涉及到了控制图像空间排布的空间模块和风格化组件,如 ControlNet 和 DreamBooth 等,不再适配该模型,限制了其应用范围和效率。
二、研究方案
基础模型
相较于图像生成,视频生成的独特挑战在于建模视频帧间的时序连贯性。现有大多数方案都基于预训练的文本生成视频(T2I)扩散模型(例如 Stable Diffusion 1.5 和 SDXL)加入时序模块对视频中的时序信息进行建模。例如 AnimateDiff,一个为定制化 T2V 任务而设计的模型,它通过引入与 T2I 模型解耦的时序模块建模了时序信息并且保留了原始 T2I 模型的能力,能够结合定制化 T2I 模型生成流畅的视频。于是,研究者认为,预训练时序模块可以作为通用时序表征,并应用于其他视频生成场景,例如 I2V 生成,且无需任何微调。
I2V-Adapter 正式开源
为了突破这一技术瓶颈,快手 AI 团队在最新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》中,提出了一种适用于基于 Stable Diffusion 的文生视频扩散模型的轻量级适配模块(即 I2V-Adapter),该模块能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。这一成果不仅展示了 I2V 技术的巨大潜力,也为该领域的研究提供了新的思路。目前该论文已被 SIGGRAPH 2024 接受,项目也已开源。
GitHub 地址:https://github.com/KwaiVGI/I2V-Adapter
论文地址:https://arxiv.org/abs/2312.16693
I2V 任务相对于 T2V 的一大主要难点在于保持输入图像的 ID 信息,现有方案为解决这一问题,往往需要改变模型的结构与参数,训练代价大且兼容性较差。
I2V-Adapter 提出将输入图像作为视频首帧与噪声并行输入给网络,在模型的空间模块(Spatial Block)中的自注意力层(Self Attention),所有帧都会额外查询一次首帧信息,即 key,value 特征都来自于不加噪的首帧,输出结果与原始模型的自注意力结构相加。此模块中的输出映射矩阵使用零初始化以实现 T2V 初始化,并且只训练输出映射矩阵与 query 映射矩阵以实现高效的训练效率。为了进一步加强模型对输入图像语义信息的理解,研究论文还在交叉注意力层(Cross Attention)中引入了一种 Content-Adapter(本文使用的是预训练的 IP-Adapter)注入图像的语义特征。
Frame Similarity Prior
为了进一步增强生成结果的稳定性,I2V-Adapter 提出了帧间相似性先验(Frame Similarity Prior),用于在生成视频的稳定性和运动强度之间取得平衡。 其关键假设是,在相对较低的高斯噪声水平上,一段视频的不同帧之间足够接近,如下图所示:
因此,可以把加噪后的输入图像作为后续帧的先验输入。为了排除高频信息的误导,研究者还使用了高斯模糊算子(GaussianBlur)和随机掩码 M 混合输入 x。具体运算由下式给出:
实际效果
快手 AI 团队为了全面评估生成视频的质量,设定了四种定量指标,包括 DoverVQA(美学评分)、CLIPTemp(首帧一致性)、FlowScore(运动幅度)以及 WarppingError(运动误差)。这些指标从不同维度对生成的视频进行了全方位的评价。在最近的研究中,I2V-Adapter 模型在各项指标上均展现出了卓越的性能。如表 1 所示,I2V-Adapter 在美学评分上获得了最高分,显示出其生成的视频在视觉美学上具有出色的表现。同时,在首帧一致性方面,I2V-Adapter 同样表现出色,远超其他对比方案。值得一提的是,I2V-Adapter 生成的视频不仅运动幅度最大,而且运动误差相对较低。这意味着该模型在生成高度动态视频的同时,还能精准地保持时序运动的准确性。
Image Animation(左为输入,右为输出):
w/ Personalized T2Is(左为输入,右为输出):
w/ ControlNet(左为输入,右为输出):
三、业务应用
I2V-Adapter 展现了其卓越的多功能性,不仅适用于广泛的 I2V 任务场景,还能与定制化的 T2I 模型结合,实现独具特色的风格化 I2V 任务。更值得一提是,它还能与 ControlNet 兼容,为用户带来高度可控的 I2V 体验。
I2V-Adapter
w/ Personalized T2I
w/ ControlNet
快手与联发科技深化合作,共同推进视频生成技术的革新
视频生成技术如今已不仅仅局限于 App 应用层面,它在端侧同样取得了令人瞩目的成就。近日,快手与全球领先的半导体公司联发科技达成技术合作,共同探索并推进视频生成技术的革新。通过此次合作,快手将其先进的 AI 模型 I2V Adapter 与联发科技的 Dimensity 平台强大的 AI 计算能力结合,实现将静态照片转化为生动影片。用户只需简单挑选照片,平台便能智能识别照片中的人物和场景,通过深度分析精准捕捉关键帧,并据此生成自然流畅、栩栩如生的视频效果。
此外,该平台还支持个性化定制,提供了丰富多样的动画风格、精选的背景音乐和个性化的文字添加功能,让用户能够自由发挥创意,打造出独一无二的影片作品。无论是记录生活点滴,还是展现个人风采,这一平台都能满足用户的多样化需求,让视频生成变得更加简单、有趣和个性化。
四、展望未来
I2V-Adapter 以其独特的即插即用特性,为图像到视频生成任务带来了革命性的轻量级扩散模型模块。它巧妙地保留了原始文生视频模型的结构与参数不变,仅通过引入额外设计的注意力机制,使得生成的视频帧能够与用户输入的图像视频首帧交互,从而产生时序连贯且与首帧一致的视频。令人瞩目的是,通过定量实验验证,I2V-Adapter 在仅训练 1%的参数量和使用 18%的数据量的情况下,便达到了与 SVD 相媲美的图像到视频生成能力。此外,其灵活的解耦设计赋予了该方案出色的兼容性,使得 DreamBooth、Lora 与 ControlNet 等模块能够无缝集成,为用户提供高度定制化和可控的图像到视频生成体验。
评论