写点什么

根据文本描述生成视频,Tune-A-Video 效果惊艳

作者:Zilliz
  • 2023-02-28
    上海
  • 本文字数:436 字

    阅读完需:约 1 分钟

根据文本描述生成视频,Tune-A-Video 效果惊艳

出品人:Towhee 技术团队 张晨、顾梦佳


以文本-图片生成模型的成功为灵感,近来文本-视频生成模型也开始采用大规模的文本-视频数据集进行微调训练。然而处理大规模视频数据的成本非常高,为此 Tune-A-Video 提出一种新的任务模型 One-Shot Video Generation,即仅使用单个文本-视频对训练通用领域的文本-视频生成器。 Tune-A-Video 多功能性和有效性,能够在各种应用中生成拥有时序性的视频,例如主题或背景的变化、属性编辑、风格转换。

High-level overview of Tune-A-Video.


Tune-A-Video 利用大量数据预训练的文本-图像扩散模型,改进之后实现文本-视频生成。它有两个重要的发现:文本-图像模型能够根据动词描述生成良好的图像;而拓展文本图像模型以同时生成多个图像,则表现出令人惊讶的内容一致性。 为了进一步学习连续运动,Tune-A-Video 使用了定制的稀疏因果注意力。


相关资料:

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
根据文本描述生成视频,Tune-A-Video 效果惊艳_计算机视觉_Zilliz_InfoQ写作社区