工赋开发者社区 | 大“火”的扩散模型综述又一弹!UCF 等《视觉扩散模型》综述,20 页 pdf 详述三种通用的扩散建模框架
去噪扩散模型是计算机视觉中的一个新兴课题,在生成建模领域显示了显著的结果。扩散模型是基于正向扩散和反向扩散两个阶段的深度生成模型。在正向扩散阶段,通过加入高斯噪声对输入数据进行逐级扰动。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。扩散模型因其生成样本的质量和多样性而受到广泛赞赏,尽管其已知的计算负担,即采样过程中涉及的大量步骤导致速度较低。本文对应用于视觉的去噪扩散模型的文章进行了全面的回顾,包括该领域的理论和实践贡献。首先,我们确定并提出了三种通用的扩散建模框架,它们是基于去噪扩散概率模型、噪声条件评分网络和随机微分方程。我们进一步讨论了扩散模型和其他深层生成模型之间的关系,包括变分自编码器、生成对抗网络、基于能量的模型、自回归模型和归一化流。然后,我们介绍了一种多视角分类扩散模型在计算机视觉中的应用。最后,我们说明了扩散模型目前的局限性,并展望了一些有趣的未来研究方向。
https://www.zhuanzhi.ai/paper/3b8069429047d95eed52a50e7b1fdece
导论
扩散模型[1]-[11]构成了深度生成模型的一个类别,它最近成为计算机视觉中最热门的话题之一(见图 1),展示了令人印象深刻的生成能力,从高水平的细节到生成示例的多样性。我们甚至可以说,这些生成模型将生成建模领域的标准提高到一个新的水平,特别是涉及到模型,如 Imagen[12]和潜在扩散模型(LDM)[10]。到目前为止,扩散模型已经被广泛应用于各种生成建模任务,如图像生成[1]-[7],[10]-[22],图像超分辨率[10],[12],[23]-[26],图像修复[1],[3],[4],[10],[23],[25],[27]-[29],图像编辑[30]-[32],图像转换[31],[33]-[37]等。此外,通过扩散模型学习到的潜在表示在判别任务中也很有用,如图像分割[38]-[41]、分类[42]和异常检测[43]-[45]。这证实了去噪扩散模型的广泛适用性,表明进一步的应用还有待发现。此外,学习强潜在表征的能力与表征学习[46],[47]建立了联系,这是一个全面的领域,研究学习强大数据表征的方法,涵盖多种方法,从设计新颖的神经结构[48]-[51]到开发学习策略[52]-[57]。
从图 1 所示的图表可以看出,扩散模型的论文数量增长速度非常快。为了概述这一快速发展的主题的过去和现在的成就,本文对计算机视觉中去噪扩散模型的文章进行了全面的回顾。更准确地说,我们调查了以下定义的生成式模型范畴的文章。扩散模型代表了一类深度生成模型,基于(i)前向扩散阶段,输入数据在几个步骤中通过添加高斯噪声逐渐受到扰动;(ii)反向(后向)扩散阶段,生成模型的任务是从扩散(噪声)数据中恢复原始输入数据,通过学习逐步逆转扩散过程,一步一步。
我们强调,至少有三个子类的扩散模型符合上述定义。第一类是受非平衡热力学理论启发的去噪扩散概率模型(DDPMs)[1]、[2]。DDPM 是利用潜在变量估计概率分布的潜在变量模型。从这个角度看,DDPM 可以看作是一种特殊的变分自编码(VAEs)[49],正向扩散阶段对应于 VAE 内部的编码过程,反向扩散阶段对应于解码过程。第二类由噪声条件评分网络(NCSNs)[3]表示,它基于通过评分匹配来训练共享神经网络,以估计不同噪声水平下受扰动数据分布的评分函数(定义为对数密度梯度)。随机微分方程[4]代表了扩散模型的另一种方法,形成了扩散模型的第三个子类别。通过正向和反向 SDEs 对扩散进行建模,得到了有效的生成策略以及较强的理论结果[58]。后一种表述(基于 SDEs)可以被视为对 DDPM 和 NCSNs 的泛化。
我们确定了几个确定的设计选择,并将它们综合成三个通用的扩散模型框架,对应于上述三个子类别。在此基础上,我们进一步讨论了扩散模型与其他深层生成模型之间的关系。更具体地说,我们描述了与变分自编码器(VAEs)[49]、生成对抗网络(GANs)[51]、基于能量的模型(EBMs)[59]、[60]、自回归模型[61]和归一化流[62]、[63]的关系。然后,我们引入了一种用于计算机视觉的扩散模型的多视角分类方法,根据底层框架、目标任务或去噪条件等标准对现有模型进行分类。最后,我们说明了扩散模型目前的局限性,并展望了一些有趣的未来研究方向。例如,可能最成问题的限制之一是推断过程中较差的时间效率,这是由非常多的计算步骤(例如数千个)导致的,以生成一个示例[2]。当然,在不影响生成样本质量的情况下克服这一限制是未来研究的一个重要方向。
综上所述,我们的贡献有两方面:
由于视觉领域最近出现了许多基于扩散模型的贡献,我们提供了一篇全面而及时的文献综述,介绍了在计算机视觉中应用的去噪扩散模型,旨在为我们的读者提供对通用扩散模型框架的快速理解。
我们设计了扩散模型的多视角分类,旨在帮助其他研究应用于特定领域的扩散模型的研究人员快速找到各自领域的相关工作。
图 2 所示。一个由三种不同形式的扩散模型组成的通用框架:去噪扩散概率模型(DDPM)、噪声条件分数网络(NCSNs)和随机微分方程(SDEs)。基于 SDEs 的公式是对另外两种公式的泛化。在正向过程中,输入 x0 经过 T 步逐渐加入高斯噪声。在相反的过程中,模型通过逐渐去除噪声来学习恢复原始输入。在 SDE 公式中,正向过程基于 Eq.(11),反向过程基于 Eq.(12)。在 DDPM 版本中,正向过程采用 Eq.(1),反向过程采用 Eq.(5)。同理,在 NCSN 版本中,正向过程采用 Eq.(9),反向过程采用退火后的朗之万动力学。
扩散模型是一类概率生成模型,它可以学习通过在不同尺度上添加噪声来逆转逐渐降低训练数据结构的过程。在接下来的三个小节中,我们提出了三种扩散模型的形式,即去噪扩散概率模型、噪声条件分数网络和基于随机微分方程的方法,该方法推广了前两种方法。对于每个公式,我们描述了向数据添加噪声的过程,学习逆转这一过程的方法,以及在推断时如何生成新样本。在图 2 中,所有三个公式都作为一个通用框架进行了说明。我们在最后一小节专门讨论与其他深度生成模型的联系。
考虑到不同的分类标准,我们将扩散模型分为多视角分类法。也许分类模型的最重要的标准是由 (i)它们应用的任务和 (ii) 它们需要的输入信号定义的。此外,由于形成扩散模型有多种方法,(iii) 底层架构是对扩散模型进行分类的另一个关键因素。最后,在训练和评估过程中使用的数据集也非常重要,因为这有助于在同一任务中比较不同的基线。我们根据之前列举的标准对扩散模型的分类如表 1 所示。
评论