SparK 用稀疏掩码为卷积设计 Bert 预训练
出品人:Towhee 技术团队 顾梦佳
稀疏掩码建模 (SparK) 是第一个 BERT-style 的预训练方法,无需修改主干即可直接在任何卷积网络上,克服了它们无法处理不规则的掩码输入。该框架遮盖图像的一部分并学习恢复它,通过预训练卷积网络编码器实现分层掩码图像建模。SparK 可以被直接用于任何卷积模型,无需主干修改。它在经典 (ResNet) 和现代 (ConvNeXt) 的卷积模型上进行了实验,结果表明 SparK 能够在三个下游任务上以大幅超过最先进的对比学习和基于 Transformers 的掩蔽建模。尤其在目标检测和实例分割任务上,该框架带来的的改进更为显著,证明了所学特征具有强大可迁移性。
Sparse masked modeling with hierarchy
SparK 确定并克服了将 BERT 式预训练或掩码图像建模的成功扩展到卷积网络 (convnet) 的两个关键障碍:卷积运算无法处理不规则的、随机掩码的输入图像,BERT 预训练的单一尺度性质与 convnet 的层次结构不一致。为了解决第一个问题,SparK 创新地提出将稀疏卷积用于 2D 掩膜建模,并使用稀疏卷积进行编码。它将未屏蔽像素视为 3D 点云的稀疏体素。对于后一个问题,SparK 开发了一个分层解码器来从多尺度编码特征重建图像。为了预训练分层编码器,SparK 框架采用了 UNet 风格的架构来解码多尺度稀疏特征图,其中所有空位置都是充满掩码嵌入。预训练后,只有编码器会被用于下游任务。
相关资料:
评论