身未动心已远,AI 带你流浪地球
本文分享自华为云社区《DreamBooth+LoRA微调生成主体》,作者: 杜甫盖房子 。
DreamBooth+LoRA 微调生成主体
文生图风靡一时,但预训练的文生图模型无法控制生成特定的主体。DreamBooth 提供了一种方法,只需要特定主体的几张图就可以微调文生图模型,生成包含特定主体的图片。例如,提供如下主体图片,给定主体名称为 biu model:
微调文生图模型后,使用"biu model in the garden"作为 prompt 推理,将生成包含该主体的图片:
我们提供了一键运行的 notebook AI作画 Dreambooth 生成自定义主体,可以在 ModelArts 平台上调试开发自己的文生图模型。此外,我们还提供了零代码运行的 Workflow DreamBooth自定义生成主体,可以通过简单的可视化配置完成模型训练、AI 应用打包、在线推理服务部署等全流程,无需任何开发即可玩转个性化文生图模型微调。
DreamBooth
DreamBooth 是一种生成个性化文生图模型的方法,用户可以给定 3~5 张某个主体的图像及该主体的名称,微调文生图模型(本案例使用的是 Stable Diffusion v1-4),微调后的模型可以使用主体名称作为 prompt,生成对应主体的图像,如图:
图源:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth 想要将定义的主体名称与特定主体绑定,同时保留主体对应类别的细节特征。因此,在构建主体名称时可以加入大类别名,如主体是一只可爱的小猫,则主体名称可以定义为"a [V] cat",其中大类名"cat"可以保留大类特征,[V]作为稀有标识符,可以避免主体受通用词组先验知识的影响。
为了减少微调导致的语义漂移,以及保持扩散模型生成内容的多样性,DreamBooth 引入了 prior preservation loss,利用大类的先验知识生成与训练主体相同大类的不同实例对模型进行监督:
图源:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
LoRA
Low-Rank Adaptation of Large Language Models (LoRA) 是一种训练方法,可以在消耗较少内存的同时加速大模型的训练。大模型通常具有很多参数,直接微调大模型将是一个缓慢而昂贵的过程。在Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning中提出一个洞见:预训练语言模型微调后,权重矩阵中表征特征的部分其实是很低秩的。作者受此启发,认为模型微调时,更新的权重表征特征的部分应该也是低秩的,即在模型微调时,权重可以表示为:W=W0+ΔW,其中,W0为不更新的预训练权重矩阵,ΔW 为实际更新的、可以进行低秩分解的权重矩阵,如图,蓝色部分为不更新的预训练权重,橙色部分为分解为两个低秩矩阵的微调权重:
图源:LoRA: Low-Rank Adaptation of Large Language Models
LoRA 有几个显而易见的优势:
预训练权重保持不变,因此模型不容易发生灾难性的遗忘;
秩分解矩阵的参数明显少于原始模型,微调部分的权重更小,易于移植;
预训练模型可以共享,不同的任务只需要提供很小的 LoRA 模块,可以高效的切换任务,显著降低存储需求;
微调成本大幅降;
在推理时可以将橙色部分与蓝色部分合并,不会引入额外的推理时延。
案例
我们提供了两种形式的案例:一键运行的 notebook AI作画 Dreambooth 生成自定义主体 和零代码运行的 Workflow DreamBooth自定义生成主体。
notebook 使用上灵活程度更高,适合有一定代码能力的朋友玩一下。Workflow 封装程度更高,提供了详细的使用文档,同时包含了 AI 应用等节点,不需要写任何代码也可以生成自己的模型并在线测试。
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/fcd74da4ebf9f9781eb93b799】。文章转载请联系作者。
评论