SimMIM：更简单的掩码图像建模

作者：Zilliz

2023-01-30
北京
本文字数：596 字
阅读完需：约 2 分钟

出品人：Towhee 技术团队张晨、顾梦佳

掩码图像建模（MIM）通常会将输入 token 的随机子集替换为一个特殊的掩码符号，目的是从损坏的图像重建原始图像 token。SimMIM 系统分析了该方法中的主要组件，从而提出了无需特殊设计、更为简单的掩码图像框架。将简化后的 MIM 应用到 ViT-B，其预训练模型在公开的图像数据集 ImageNet-1K 上能够实现 83.8% 的 top-1 微调精度，成功超越之前最优模型。当使用更大模型 SwinV2-H 时，SimMIM 仅需用 ImageNet-1K 训练便能实现 87.1% 的 top-1 精度。SimMIM 还促进了 3B 模型 (SwinV2-G) 的训练，减少 40 倍的训练数据也能让模型在四个具有代表性的视觉基准上达到最先进的水平。

An illustration of SimMIM.

SimMIM 发现在掩码图像建模中，每个组件的简单设计都显示出非常强的表征学习能力。当输入图像的随机掩码具有适度的掩码块大小时（例如 32），能够产生强大的前置任务。直接回归预测 RGB 值的原始像素，其性能也能够媲美复杂设计的 patch 分类方法。另外，研究发现像线性层一样的轻量预测头的性能并不比多层的差。SimMIM 最终采用 Swin-B 作为默认 backbone，通过轻量级单层头预测随机掩码块的原始像素值，并使用简单的 L1 损失进行学习。

相关资料：