写点什么

【CVPR2022】用于域适应语义分割的域无关先验

  • 2022 年 6 月 20 日
  • 本文字数:2905 字

    阅读完需:约 10 分钟

本文分享自华为云社区《EI盘古研究分享【CVPR2022】用于域适应语义分割的域无关先验》,作者: 198808xc。



1. UDA 分割中的相似类别混淆问题


尽管 self-training 在 UDA 任务上取得不错的结果,但是在区分语义上相似的类时仍然存在困难,特别是当这些类在目标域中并不频繁出现时,例如摩托车只占总像素数的 0.1%。图 1 给出了摩托车类对和自行车类对容易混淆的例子,道路类对和人行道类对也容易混淆。对于上述现象,我们提出了一个假设。由于来自目标域的数据,,没有标记,因此通过将映射到源域来学习语义对应,例如,通过基于 GAN 的图像级风格转移和通过伪标签模拟。这可以看做以一种弱监督的方式学习域适应函数。这导致近似的视觉表征,从而导致识别的不准确性。此外,我们对不同方法中的相似类别的特征进行了统计分析,表 1 列举了两组易混淆类别。可以看到在只有源域数据训练时,源域中相似类别虽然距离较近但是分布紧凑重叠较少,但是直接用这个模型统计目标域特征发现他们的重叠比较严重,一个经典的方法 DACS[x],在引入 ClassMix 对两个域的图像进行混合操作后缓解了重叠的问题。


表 1 两组相似类比的特征统计


图 1 域适应过程混淆例子

2. 方法

2.1 基线方法 DACS


在 mean-teacher 训练框架下为目标域图像生成伪标签,然后用目标域和源域数据一起训练网络是一种常用的方法,在此基础上,DACS[1]提出用混合域 M 的训练数据替换来自目标域的训练数据。混合域 M 的训练数据生成过程:在每次训练迭代中,对带有(真或伪)标签的源图像和目标图像进行采样并裁剪成相同的分辨率。接下来,从源域标签中随机选择一个类子集,并得到一个与图像相同大小的二进制掩码,属于选中类别的位置为 1 其他为 0,再根据此掩码将源域和目标域数据混合在一起。


2.2 为 UDA 分割任务提供域无关先验


为了获得对目标域特征更准确的估计,我们参考贝叶斯理论,后验分布由先验和似然组成。在我们的设置中,似然来自目标数据集,没有足够的数据来保证准确的估计。解决方案是为每个类别引入信息先验,这些先验和域无关也不会受域差异的影响。我们找到两种先验,一种是 one-hot 编码,另外一种借助 word2vec[2]来为每个类别生成编码。这样每个类别都有一个先验编码向量,然后根据每个图像的标签,按位置替换为先验编码,构成一个先验编码图,如图 2。然后我们将其和网络提取的是视觉特征进行约束。为了让视觉特征更多保留和类别语义相关的信息减少域相关的信息,二者通过简单转换后用 L2 loss 拉近。这就是我们新引入的 DAP loss。



该损失函数与 DACS 的分割交叉熵函数相加构成完整的训练过程。



图 2 先验编码图构成过程

2.3 一些思考


据我们所知,这是第一个将文本编码嵌入到 UDA 分割的工作,并产生了相当大的准确性增益,这证明了语言线索协助视觉识别的有效性。然而,这还只是一个初步的解决方案,还可以发现一些可能的方向


1)加强文本嵌入。目前使用的 word2vec 的特点是它不考虑同一个语义对应不同的单词。我们试图通过搜索语义相似的单词来增强先验,但获得的准确性几乎没有提高。这可能需要探索文本世界的复杂机制。


2)构建领域不可知论但视觉感知的先验。这就回答了一个问题:什么样的图像数据被认为可以提供域无关信息? 答案可能存在于广义数据集,如 ImageNet[3]或 Conceptual Captioning [4],或甚至预先训练的图像文本模型,如 CLIP[5]。这可能是解开领域相关的信息以避免过度拟合的一个主要挑战,值得我们继续探索下去。

3. 实验结果

3.1 数据和设置


我们在常用的街景分割场景中进行评估,将信息从合成域迁移到真实域。GTAv 和 SYNTHIA 作为复合域数据集,Cityscapes 作为真实域。为了与其他方法保持一致,我们使用 Deeplabv2 框架下 RseNet101 基本模型作为我们的图像编码器,ASPP 分类器作为输出层。

3.2 GTAv 迁移到 Cityscapes


我们首先在从 GTAv 到 Cityscapes 的域适应分割任务上评估 DAP。DAP 在 19 个级别上达到 55.0%的平均 IOU,这个结果超过基线 2.9%,也优于其他单阶段和单模型训练的方法。我们将 DAP 的输出作为伪标签输入 ProDA 的第 1 阶段,然后保持 ProDA[6]第 2 和第 3 阶段训练方法不变。我们将结果提升了 2.3%,是目前最高的精度。


图 4. GTAv 迁移到 Cityscapes 结果比较。

3.3 SYNTHIA 迁移到 Cityscapes


将 SYNTHIA 转移到 Cityscapes 的结果,如表所示,同样比 DACS 在 13 类和 16 类上均提升了 1.3%,比 ProDA 提升了 4.4%和 2.3%。再次验证了我们方法的有效性。


图 5. SYNTHIA 迁移到 Cityscapes 结果比较。

3.4 DAP 对于易混淆类别的辨别


在 GTAv 到 Cityscapes 迁移实验中,自行车和摩托车的细分 iou 分别从 42.6%、25.1%提高到 53.1%、42.2%。从 SYNTHIA 到 Cityscapes,这两个类别平均提升 2.4%。我们在图 6 中可视化了一个分割的例子。除了定性观察自行车与摩托车、道路与人行道的区分改善之外,我们还注意到这一改善背后的原因是这些易混淆类别的特征分布得到改善。这与表 1 中显示的统计数据一致,表明 DAP 减少了自行车和摩托车的估计分布以及道路和人行道之间的 IOU。


图 6. GTA 迁移到 Cityscapes 实验中自行车和摩托车分割结果对比,以及特征分布对比。

4. 结语


到这里我们的文章就分享完了,论文中还有更详细的消融实验来证明我们方法的有效性,就不在这里详细列举,更多内容欢迎关注我们的原文。


论文:https://arxiv.org/abs/2204.02684

参考文献


[1] Wilhelm Tranheden, Viktor Olsson, Juliano Pinto, and Lennart Svensson. Dacs: Domain adaptation via crossdomain mixed sampling. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1379–1389, 2021.

[2] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages 3111–3119, 2013.

[3] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.

[4] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages2556–2565, 2018.

[5] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[6] Pan Zhang, Bo Zhang, Ting Zhang, Dong Chen, YongWang, and Fang Wen. Prototypical pseudo label denoising and target structure learning for domain adaptive semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12414–12424, 2021.


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 4
用户头像

提供全面深入的云计算技术干货 2020.07.14 加入

华为云开发者社区,提供全面深入的云计算前景分析、丰富的技术干货、程序样例,分享华为云前沿资讯动态,方便开发者快速成长与发展,欢迎提问、互动,多方位了解云计算! 传送门:https://bbs.huaweicloud.com/

评论

发布
暂无评论
【CVPR2022】用于域适应语义分割的域无关先验_人工智能_华为云开发者联盟_InfoQ写作社区