CMAE 结合对比学习和掩码，提高表征辨别力

作者：Zilliz

2023-02-02
上海
本文字数：624 字
阅读完需：约 2 分钟

出品人：Towhee 技术团队王翔宇、顾梦佳

掩码图像建模在各项视觉任务上都取得了可喜的成果，然而学习到的表征依然缺乏可辨别性。为了改善这个问题，一种新的自监督预训练方法 CMAE（Contrastive Masked Autoencoders）能够学习更全面、更有能力的视觉表征。 CMAE 统一并且利用了对比学习（CL）和掩码图像建模（MIM），以获得强大的实例辨别力和局部感知力。该方法在图像分类、语义分割、对象检测等竞争激烈的基准测试中均实现了最先进的性能。其中 CMAE-Base 模型在公开图像数据集 ImageNet 上达到了 85.3% 的 top-1 准确率，在 ADE20k 上达到了 52.5% 的 mIoU，都超过之前的最佳结果。

Overall pipeline. Method contains three components: the online encoder, target encoder and online decoder.

CMAE 由两个分支组成：在线分支是一个非对称编码器-解码器，目标分支是一个动量更新编码器。在训练期间，在线分支掩码图像的潜在表示中重建原始图像，用于学习图像的整体特征。目标编码器将完整的图像作为输入，通过与在线编码器的对比学习增强特征的可辨别性。为了使 CL 与 MIM 兼容，CMAE 引入了像素位移和特征解码器两个新组件，分别用于生成正视图和补充对比特征。相比传统的 MIM，这些新颖的设计有效提高了表征的质量和迁移学习的能力。

相关资料：