写点什么

DAAM:首次利用视觉语言学解释大型扩散模型

作者:Zilliz
  • 2023-02-10
    北京
  • 本文字数:591 字

    阅读完需:约 2 分钟

出品人:Towhee 技术团队 张晨、顾梦佳


大规模扩散神经网络代表了文本到图像生成的一个重要里程碑,但它们仍然缺乏可解释性分析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本-图像归因分析。为了生成像素级属性图,DAAM 在去噪子网络中放大和聚合交叉注意力字像素分数。通过归因分析,DAAM 主要研究了如何将语法关系转化为视觉交互,并关注了扩散模型中的视觉语言现象。通过定量语义分割任务和定性广义归因研究,证明了归因方法 DAAM 的正确性。DAAM 是第一个从视觉语言学的角度解释大型扩散模型,这使得未来的研究成为可能。


The original synthesized image and three DAAM maps for “monkey,” “hat,” and “walking,” from the prompt, “monkey with hat walking.”


DAAM 在 Stable Diffusion 去噪逆扩散过程中选择了稍微靠后的步骤,进行可解释性研究。常规的归因分析通过梯度进行计算,但在扩散模型中无法进行梯度计算,因此 DAAM 选用词汇和特征图的得分的方式进行分析。通过评估句法关系如何转化为视觉互动,DAAM 发现某些注意力头不恰当地包含了他们的从属。因为,DAAM 得到了特征纠缠的假设,表明同位词是混乱的,而形容词的范围太广了。


相关资料:

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
DAAM:首次利用视觉语言学解释大型扩散模型_Zilliz_InfoQ写作社区