根据文本描述生成视频,Tune-A-Video 效果惊艳
出品人:Towhee 技术团队 张晨、顾梦佳
以文本-图片生成模型的成功为灵感,近来文本-视频生成模型也开始采用大规模的文本-视频数据集进行微调训练。然而处理大规模视频数据的成本非常高,为此 Tune-A-Video 提出一种新的任务模型 One-Shot Video Generation,即仅使用单个文本-视频对训练通用领域的文本-视频生成器。 Tune-A-Video 多功能性和有效性,能够在各种应用中生成拥有时序性的视频,例如主题或背景的变化、属性编辑、风格转换。
High-level overview of Tune-A-Video.
Tune-A-Video 利用大量数据预训练的文本-图像扩散模型,改进之后实现文本-视频生成。它有两个重要的发现:文本-图像模型能够根据动词描述生成良好的图像;而拓展文本图像模型以同时生成多个图像,则表现出令人惊讶的内容一致性。 为了进一步学习连续运动,Tune-A-Video 使用了定制的稀疏因果注意力。
相关资料:
评论