MixMIM 创建混合图像,提出新型掩码方案
出品人:Towhee 技术团队 顾梦佳
商汤和港中文联合提出一种简单但有效的掩码图像建模(MIM)方法 MixMIM,通过创建混合图像利用 BEiT 和 MAE 的优点,又避免了它们的局限性。MixMIM 可以有效地学习高质量的视觉表示,也能被广泛应用于预训练的层次化视觉 Transformer,比如 Swin Transformer、PVT 等。MixMIM 还探索了轻量级架构,将 Swin Transformer 修改为预训练和知识迁移的编码器。由于层次结构,MixMIM 适用于各种下游任务,比如图像分类、目标检测、语义分割任务。实验结果表明,在模型尺寸和 FLOPs 相似的情况下,MixMIM 在广泛的下游任务上始终优于 BEiT 和 MAE,包括公开图像数据集 ImageNet、iNaturalist 和 Places 上的图像分类,COCO 上的目标检测和实例分割,以及 ADE20K 上的语义分割。
Overview of MixMIM
给定训练集中的两幅随机图像,MixMIM 使用随机混合掩码创建一幅混合图像作为输入。模型会训练一个层次化 ViT 来重建两幅原始图像,用于学习视觉表示。不同于传统方法中用特殊的掩码符号替换输入图像的掩码 token,MixMIM 选择用另一个图像的视觉 token 替换掩码 token。另外,MixMIM 依然采用了编码器-解码器的结构设计。编码器处理混合图像以获得两个部分掩蔽图像的隐藏表示,而解码器则用于重建两个原始图像。
相关资料:
评论