写点什么

用户可控的统一风格迁移框架 - 亚马逊科学研究院

作者:qife
  • 2025-07-27
    福建
  • 本文字数:1512 字

    阅读完需:约 5 分钟

用户可控的统一风格迁移方法框架

多样化的输出确保风格迁移模型能够满足任何用户的审美偏好。

神经风格迁移的挑战

神经风格迁移是利用神经网络将一幅输入图像(如名画)的风格迁移到另一幅输入图像(如后院照片)的技术。研究人员提出了多种不同的风格迁移技术,但哪种效果最好?这个问题没有标准答案,因为观众的偏好各不相同。在以往的风格迁移论文报告中,最受青睐的方法很少能获得超过三分之二的评审投票,而最不受欢迎的方法也很少低于 5%。

统一框架的提出

在今年的人工智能促进协会(AAAI)会议上,我们提出了一种新的风格迁移模型,该模型可以输出多种选项,由用户选择的模型参数控制。我们证明,大多数先前的风格迁移方法都可以重写为标准化的"分配-混合"(assign-and-mix)模型。


该模型的"分配"步骤涉及一个分配矩阵,它将一幅输入图像的特征映射到另一幅图像的特征。在论文中,我们展示了风格迁移技术之间的差异主要源于分配矩阵的熵值,即矩阵值的多样性。

关键技术突破

我们证明,在给定用户指定的输入参数设置下,一种称为 Sinkhorn-Knopp 的算法可以高效计算相关的分配矩阵,从而从同一风格迁移模型中产生多样化的输出。


在一系列实验中,我们将我们的方法与之前的方法进行了比较。我们发现,根据标准指标,我们的方法在保留内容输入的内容和风格输入的风格方面做得更好,并且产生了更多样化的输出。我们还进行了一项有 10 名人类评估者参与的研究,发现在特定的多样性参数设置下,受试者更喜欢我们的方法生成的图像,而不是其他方法生成的图像。

分配与混合技术详解

在风格迁移中,第一步是将内容示例和风格示例传递给相同的视觉编码器,该编码器通常是在广泛的对象识别任务上预训练的。编码器生成每幅图像的表示,其中每个图像区域都有一个相关的特征向量。


特征向量通常编码视觉信息(如颜色和梯度方向),但也编码语义信息(如指示特定图像区域描绘了眼睛的一部分)。


风格迁移通常涉及:(1)重新排列风格图像的元素以再现内容图像的内容,(2)扭曲内容图像使其总体统计量与风格图像相似,或(3)两者的某种组合。我们将所有这些方法都同化为分配-混合模型。


分配-混合的"分配"步骤对应于方法(1)。它涉及分配矩阵,该矩阵根据内容表示将特征向量从风格表示分配到新图像的区域。尽管先前的风格迁移方法使用各种技术来寻找风格和内容特征之间的对应关系,但我们在论文中分析了其中几种方法,并表明它们通常可以同化为分配矩阵模型。


新图像中特定点的分配可以是风格编码中的单个向量,也可以是向量的加权组合。在第一种情况下,分配矩阵是二进制的:每个矩阵条目要么是 0,要么是 1。这是一个最小熵分配。相比之下,如果新内容图像中的每个点都由风格图像中每个向量的加权组合组成,则分配矩阵具有更高的熵。现有的风格迁移方法中有二进制分配矩阵的方法,也有高熵矩阵的方法,我们的方法可以近似这两种方法。


在分配步骤之后,我们进入混合阶段,对应于上述方法(2)。在这个阶段,我们逐步处理新的合成图像的编码,对于每个图像区域,我们测量其编码与原始内容示例编码之间的距离。然后,我们根据差异程度按比例混合来自原始内容编码的特征向量。这确保了新图像保留了原始内容的内容。

计算优化

该过程中的计算瓶颈是创建具有不同熵值的多个分配矩阵。但我们在论文中展示了 Sinkhorn-Knopp 算法可以应用于构建分配矩阵的问题,该算法使矩阵能够以支持高效解决方案的标准化形式重写。


在论文中,我们使用分配-混合格式重写了三种先前的风格迁移方法。我们选择这些方法是因为它们的分配矩阵涵盖了完整的熵谱。我们的方法应该能够近似任何分配矩阵熵值落在更有限范围内的风格迁移模型的输出。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
用户可控的统一风格迁移框架 - 亚马逊科学研究院_深度学习_qife_InfoQ写作社区