写点什么

快手可图大模型 Kolors 全面开源——一个更懂中文的文生图大模型

作者:快手技术
  • 2024-07-12
    北京
  • 本文字数:2540 字

    阅读完需:约 8 分钟

快手可图大模型Kolors全面开源——一个更懂中文的文生图大模型

文生图开源社区迎来重大突破:比肩 Midjourney-v6 的开源文生图大模型来了!


7 月 6 日,快手高级副总裁、主站业务与社区科学负责人盖坤(于越)在世界人工智能大会(WAIC)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,生成效果比肩 Midjourney-v6 水平,支持长达 256 字符的文本输入,具备英文和中文写字能力。目前,可图(Kolors)已在 Huggingface 平台和 GitHub 上线,包括模型权重和完整代码,供个人开发者免费使用。

  • 官网地址

https://kwai-kolors.github.io/

  • Github 项目地址

https://github.com/Kwai-Kolors/Kolors

  • Huggingface 模型地址

https://huggingface.co/Kwai-Kolors/Kolors

  • 技术报告地址

https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf



在最近的智源 FlagEval 文生图模型评测榜单中,可图(Kolors)凭借其卓越表现,主观综合评分全球第二,仅次于闭源的 DALL-E 3。尤其在主观图像质量上,可图(Kolors)表现突出,显著优于其他开源和闭源模型,评分排名第一。



图 1. 智源 FlagEval 评测榜单


可图(Kolors)使用了基于 U-Net 架构的隐空间扩散模型,并创新性地引入了大语言模型进行文本表征。这使得可图(Kolors)具备强大的复杂长文本理解能力,并且具备中英文文字生成能力。同时,通过两阶段渐进训练策略(概念学习和美感提升),可图(Kolors)在图像美感和质量上达到了国际领先水平。


可图(Kolors)开源短短几天,在 Github 已收获 2k star,Huggingface 模型下载热榜第一。引发国内外开发者广泛热议。

一、可图的技术优势

1.1 大模型助力复杂语义理解


与当前使用英文 CLIP 作为文本编码器的文生图模型不同,可图(Kolors)使用了大语言模型 ChatGLM3 进行中英文文本表征。文本提示词长度达 256 字符,远超 CLIP 的 77 字符。



在大语言模型的加持下,可图(Kolors)展现出强大的复杂文本理解能力。如图 2 所示,面对 DALL-E 3 的经典提示文本,使用 GLM 的模型能够正确绘制多主体(如小贩和女子),并且画面中包含了所有元素(如满月、电话等)。针对文生图模型常见的颜色混淆问题,使用 GLM 后多种颜色的服饰与多主体能够准确对应。


图 2. 复杂语义理解能力

同时,与 DALL-E 3 类似,可图团队对海量训练数据图像进行重打标来生成精细化文本描述。对比了多个开源多模态大语言模型,选择了效果相对较好的 CogVLM 进行打标。针对多模态大模型无法识别特定的概念,训练过程中采用混合描述的方式:50%用原始文本,50%用合成的文本。这种方法在 SD3 发表前便已应用。



可图(Kolors)的一大亮点是其文字生成能力,特别是中文写字。可图团队专门构建了一个覆盖五万余个常用汉字的中文写字数据集,包括合成数据以及真实数据。尽管 DALL-E 3 和 SD3 支持英文文字生成,但可图(Kolors)是第一个原生支持中文文字生成的文生图模型(无 Control 逻辑)。如图 3 所示,可图(Kolors)能够准确绘制简单甚至结构复杂的汉字,且文字与背景之间的贴合感弱。同时,可图(Kolors)也支持英文文字生成,并蕴含一定的设计美学与创意。



图 3. 中英文文字生成能力

此外,面对 SD3 的超高难度复杂提示,可图(Kolors)依然表现出色,准确绘制了对应的数量、位置、颜色、英文、中文和数字等多种属性。


图 4. 超高难度的复杂文本遵循能力

1.2 训练策略优化展现摄影级美感

可图(Kolors)在主观图像质量方面的卓越表现,主要得益于其训练策略的优化。可图(Kolors)将模型训练划分成两个关键阶段:概念学习与质量微调。在概念学习阶段,可图(Kolors)使用了数十亿图像文本对进行训练,覆盖了广泛实体概念。在质量微调阶段,采用了更为精细的数据筛选机制,从海量数据中精选出数百万张兼具高质量与高美感的图像,用于对模型进行精细调整。此外,可图(Kolors)还提出了全新的加噪策略,该策略针对高分辨率图像的特性进行了优化,有效提升了模型在生成高分辨率图像时的稳定性。这一系列训练策略的优化措施大幅提升了模型的出图质量和美感。如图 5 所示,通过对比模型在高质量微调前后的效果,可以直观地感受到这种改进所带来的积极影响。



图 5. 质量微调前后对比图

此外,如图 6 所示,可图(Kolors)在人像、建筑、动物、超现实、风格化、中国元素等多个类目均有出色表现。更多案例详见技术报告。



图 6. 可图(Kolors)生成图像展示

二、模型评测

为了主观评测文生图模型的生成能力,快手可图团队提出一个新的文生图评测集合 KolorsPrompts,涵盖了 14 个垂类并归纳出 12 个挑战项。模型针对每个 prompt 分别生成 4 幅图像,并邀请约 50 名专业评测人员对每幅图像进行 5 次打分,评估维度包括综合满意度、图像质量、图文相关性三个维度。从图 7 中可以看出,可图(Kolors)在综合满意度达到 Midjourney-v6 水平,特别在图像质量上,可图(Kolors)对比目前开源和闭源模型优势显著,这与智源的评估结果一致。



图 7. KolorsPrompts 评测集分布情况和人工评测结果


同时,采用快手 CVPR2024 最新提出的 MPS (Multi-dimensional Human preference Score) 机评指标来进行模型评估。可图(Kolors)也取得了最高 MPS 分数,这与人工评估的指标一致。



三、应用案例精选

目前,可图文生图大模型的能力已经广泛落地到快手的下游业务中,包括 AI 玩评、主站魔表、快影等多个场景。快手在今年 5 月 31 日完成可图大模型的对外开放,支持文生图图生图两类功能,已上线多种风格。目前可图大模型的各项功能已经集成至可灵 AI 中,普通用户可以通过可灵 AI 官方网站和可图大模型微信小程序免费使用各项功能。


可灵 AI 官网链接

https://klingai.kuaishou.com/

应用实践 1:IP 定制

使用 Dreambooth & Lora 实现模型微调和 IP 定制。下图为快手吉祥物小快和招财鸭 IP。


应用实践 2:AI 人像

人像 ID 保持,支持多种风格化人像,增加玩法趣味性。


应用实践 3:虚拟试衣

开放域虚拟试穿呈现出业务落地的技术可行性,千人千面的商品素材生成从此将成为可能。



四、未来展望

快手此次开源了具备强大复杂语义理解和高质量图像生成能力的基座模型可图(Kolors),并计划陆续开源可图(Kolors)的相关应用,如 ControlNet 等。目前开源社区反响热烈,已经有开发者提供了加速、ComfyUI 等应用。这一系列开源项目的产生,将为开发者提供更加全面和多样化的工具和资源,进一步丰富文生图领域的开源生态,为探索更多的应用场景和技术创新提供便利,共同推动文生图技术的进步和普及。

用户头像

快手技术

关注

还未添加个人签名 2024-05-15 加入

快手官方技术号,即时播报快手技术实践的最新动态 关注微信公众号「快手技术」

评论

发布
暂无评论
快手可图大模型Kolors全面开源——一个更懂中文的文生图大模型_开源_快手技术_InfoQ写作社区