走进 AI 图像生成核心技术 - Diffusion
编者按:2022 年,Diffusion model 成为图像生成领域的重要发现,推动了 AI 绘画应用的爆发式发展。Diffusion 模型相较于其他的图像生成模型,在所需数据更少的背景下,图像生成效果有明显提升。
本期 IDP Inspiration,我们将和大家一起走进 Diffusion 的发展史。
以下是译文,Enjoy!
作者 | Kyle Wiggers
编译 | 岳扬
随着技术的进步,人工智能创造的艺术保真度得到了大大增强,文转图人工智能在今年爆发了。尽管像 Stable Diffusion 和 OpenAI 的 DALL-E 2 这样的系统存在许多争议,但包括 DeviantArt 和 Canva 在内的很多平台已经采用它们来制作创意工具,实现品牌的个性化,甚至创意新产品。
但这些系统的核心技术 - Diffusion - 的能力远远不止生成艺术作品,它还被一些研究小组用来制作音乐,合成 DNA 序列,甚至用于研制新药。
那么,究竟什么是 Diffusion,为什么它与以前的技术水平相比有如此大的飞跃?我们需要来了解一下 Diffusion 的起源,以及它是如何随着时间的推移而发展成今天这样有影响力的。Diffusion 的故事还没有结束——每个月都会出现技术的改进,尤其过去一两年出现了显著的进步。
Diffusion 的诞生
你或许还记得几年前爆火的 deepfaking——这些 App 将人们的肖像插入现有的图像和视频中,创造出看起来很真实的换脸视频。利用人工智能,这些 App 会将一个人的脸,或者在某些情况下,他们的整个身体插入到某个场景中,往往能够产生足够的说服力,骗过大多数人。
这 App 大多依靠一种叫做生成对抗网络的人工智能技术,简称 GANs。GANs 由两部分组成:一个从随机数据中产生合成内容(如图像)的生成器和一个试图区分合成内容和训练数据集中的真实内容的鉴别器。生成器和鉴别器互相配合提高生成或鉴别能力,直到鉴别器无法从合成的例子中分辨出真实的例子,此时其准确率已经高于预期的 50%。
哈利-波特和霍格沃茨的沙雕,由 Stable Diffusion 生成。图片来源:Stability AI
好的 GAN 可以创建很多逼真的图片,例如虚构的公寓楼照片[1]。Nvidia 几年前开发的 StyleGAN,通过学习面部姿势、雀斑和头发等属性,可以生成虚构人物的高分辨率头像。除了生成图像之外,GANs 还被应用于构建 3D 建模空间和绘制矢量草图[2],输出视频片段[3]以及语音[4],甚至还能利用乐器演奏样本生成歌曲。
不过,在实践中,GANs 由于其结构而存在一些缺陷。生成器和鉴别器的同时训练本身就是十分不稳定的。有时生成器会 “崩溃”,输出许多看起来很相似的样本。GANs 还需要大量的数据和计算能力来运行和训练,这使得它们难以进行扩展。
Diffusion 是如何工作的
Diffusion 的灵感来自于物理学——物理学中物质从高浓度区域向低浓度区域移动的过程,就像糖块在咖啡中的溶解。咖啡中的糖粒最初集中在液体的顶部,但逐渐变得分散。
Diffusion 特别借用了非平衡热力学中的扩散,该过程随着时间的推移增加了系统的熵(或随机性)。比如气体最终会通过随机运动扩散开来,均匀地充满整个空间。同样,像图像这样的数据也可以通过随机添加噪声而转变为均匀分布。
Diffusion 通过添加噪音慢慢地破坏数据的结构,直到除了噪音什么都不剩。
在物理学中,扩散是自发的和不可逆的——扩散到咖啡中的糖不能恢复到立方体的形式。但机器学习中的扩散系统旨在学习一种 “反向扩散” 过程来恢复被破坏的数据,获得从噪声中恢复数据的能力。
Diffusion 已经存在了近十年,但是 OpenAI 最近的一项创新,即 CLIP(Contrastive Language-Image Pre-Training 的简称)使它们在日常应用中更加实用。CLIP 对数据(例如图像)进行分类,根据它在给定的文本提示下被分类成某一类的可能性(例如:“花丛中的狗素描画”),对扩散过程的每一步进行“评分”。
在最开始的时候,会给数据一个非常低的 CLIP 分数,因为它大部分是噪声。但随着 Diffusion 从噪声中重建数据,它慢慢地接近于文本提示。可以用一个雕刻大理石的例子,就像一个雕刻大师告诉一个新手在哪里雕刻一样,CLIP 引导 Diffusion 生成一个能给出更高分数的图像。
OpenAI 将 CLIP 与图像生成系统 DALL-E 一起推出。从那之后,又推出了 DALL-E 的后继者 DALL-E 2,以及诞生了像 Stable Diffusion 这样的开源替代品。
Diffusion 能做什么?
那么,CLIP 引导的 Diffusion 能做什么?正如前面所提到的,它们在生成艺术作品方面相当出色,从逼真的艺术作品到素描、油画等,几乎可以模仿任何艺术家的风格。事实上,有证据表明,它们会有针对性地反刍它们的一些训练数据。
但这些模型的天赋(尽管可能有争议)并没有到此为止。
研究人员还尝试使用引导式 Diffusion 来创作新音乐。Harmonai[5]是一个得到 Stability AI[6] 投资的公司,它发布了一个基于 Diffusion 的模型,通过对数百小时现有歌曲进行训练,可以输出音乐片段。最近,开发者 Seth Forsgren 和 Hayk Martiros 创建了一个被称为 Riffusion 的业余项目,该项目使用 Diffusion 巧妙地对音频的光谱图进行训练,以生成新的音乐。
除开音乐领域之外,一些实验室正试图将 Diffusion 应用于生物医学,希望能发现新的疾病治疗方法。正如《 MIT Tech Review》本月早些时候报道的那样[7],创业公司 Generate Biomedicines 和华盛顿大学的一个团队训练了一个基于 Diffusion 的模型,可以进行具有特定属性和功能的蛋白质设计。
这些模型以不同的方式工作。Generate Biomedicines 公司通过解开构成蛋白质的氨基酸链来增加噪声,然后在研究人员指定的约束条件指导下,将随机链放在一起形成一个新的蛋白质。另一方面,华盛顿大学的模型从一个混乱的结构开始,并使用一个独立的 AI 系统来提供蛋白质碎片如何组合的信息来预测蛋白质结构。
他们已经取得了一些成果,华盛顿大学小组设计的模型找到了一种能够附着在甲状旁腺激素(控制血液中钙含量的激素)上的蛋白质,比现有药物更好。
图片来源:PASIEKA/SCIENCE PHOTO LIBRARY/Getty Images
同时,在 OpenBioML[8],这是一个由 Stability AI 支持的项目,其将基于机器学习的方法引入生物化学的工作中,研究人员开发了一个名为 DNA-Diffusion 的系统,它能够生成细胞类型特异的调节性 DNA 序列(影响生物体内特定基因表达的核酸分子段)。如果一切按计划进行,DNA-Diffusion 将通过文本指令生成调节性 DNA 序列,比如 “一个激活基因在 X 型细胞中达到最大表达水平的 DNA 序列” 和 “一个能够在肝脏和心脏中激活基因,但不在大脑中激活的 DNA 序列”。
Diffusion 的未来可能是什么?一切皆有可能。现在研究人员已经将其应用于生成视频[9]、压缩图像[10]和合成语音[11]。这并不是说 Diffusion 最终不会被更有效、性能更强的机器学习技术所取代,就像 GANs 被 Diffusion 取代一样。但它拥有今天的辉煌是有原因的,Diffusion 如果不是多功能的,那就什么都不是。
参考资料
https://syncedreview.com/2019/02/27/from-faces-to-kitties-to-apartments-gan-fakes-the-world/
https://venturebeat.com/2019/04/11/ai-sketches-cats-firetrucks-mosquitos-and-yoga-poses/
https://venturebeat.com/2019/07/19/deepminds-ai-learns-to-generate-realistic-videos-by-watching-youtube-clips/
https://venturebeat.com/2019/09/30/googles-highly-scalable-ai-can-generate-convincingly-humanlike-speech/
https://www.harmonai.org/
https://stability.ai/
https://www.technologyreview.com/2022/12/01/1064023/biotech-labs-are-using-ai-inspired-by-dall-e-to-invent-new-drugs/
https://techcrunch.com/2022/11/04/stability-ai-backs-effort-to-bring-machine-learning-to-biomed/
https://arxiv.org/pdf/2204.03458.pdf
https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-Diffusion-can-compress-images/
https://arxiv.org/abs/2204.09934
版权声明: 本文为 InfoQ 作者【Baihai IDP】的原创文章。
原文链接:【http://xie.infoq.cn/article/01b15778e40b988d8f05edeb0】。文章转载请联系作者。
评论