CMAE 结合对比学习和掩码,提高表征辨别力
出品人:Towhee 技术团队 王翔宇、顾梦佳
掩码图像建模在各项视觉任务上都取得了可喜的成果,然而学习到的表征依然缺乏可辨别性。为了改善这个问题,一种新的自监督预训练方法 CMAE(Contrastive Masked Autoencoders)能够学习更全面、更有能力的视觉表征。 CMAE 统一并且利用了对比学习(CL)和掩码图像建模(MIM),以获得强大的实例辨别力和局部感知力。该方法在图像分类、语义分割、对象检测等竞争激烈的基准测试中均实现了最先进的性能。其中 CMAE-Base 模型在公开图像数据集 ImageNet 上达到了 85.3% 的 top-1 准确率,在 ADE20k 上达到了 52.5% 的 mIoU,都超过之前的最佳结果。
Overall pipeline. Method contains three components: the online encoder, target encoder and online decoder.
CMAE 由两个分支组成:在线分支是一个非对称编码器-解码器,目标分支是一个动量更新编码器。在训练期间,在线分支掩码图像的潜在表示中重建原始图像,用于学习图像的整体特征。目标编码器将完整的图像作为输入,通过与在线编码器的对比学习增强特征的可辨别性。为了使 CL 与 MIM 兼容,CMAE 引入了像素位移和特征解码器两个新组件,分别用于生成正视图和补充对比特征。相比传统的 MIM,这些新颖的设计有效提高了表征的质量和迁移学习的能力。
相关资料:
代码地址:https://github.com/ZhichengHuang/CMAE.
论文链接:Contrastive Masked Autoencoders are Stronger Vision Learners
评论