写点什么

基于卷积神经网络的 MAE 自监督方法

  • 2023-08-11
    广东
  • 本文字数:736 字

    阅读完需:约 2 分钟

基于卷积神经网络的MAE自监督方法

本文分享自华为云社区《基于卷积神经网络的MAE自监督方法》,作者: Hint 。


图像自监督预训练算法是近年来的重要研究方向,MAE 是其中基于 ViT 实现的代表性方法,学习到了鲁棒的视觉特征。MAE 全称是 Masked Autoencoders,是由何凯明提出的自监督预训练方法,借鉴了 BERT 的预训练任务,将输入图片的 patch 以较大的比例进行 mask,并通过非对称的 ViT 编码解码器结构,进行 masked patches 的重建任务。该方法在性能上超过了以往的对比学习方法,如 MoCo 系列等。然而 ViT 的结构复杂,计算量庞大,基于 CNN 的类 MAE 方法具有极高研究价值,但受限于 CNN 的结构特性,常规的 MAE 方式无法直接在 CNN 上应用。本文介绍 ICLR2023 的方法 Spark[1],实现了基于 CNN 的 MAE。



如上图所示,对于一个 masked 的输入图片,对 ViT 输入和 CNN 的输入计算统计直方图,ViT 的直方图是和未 mask 的图片分布一致的,而 CNN 的直方图发生了很大变化。这是由于 ViT 结构天然适合处理变长、不规则的输入,且不同的输入之间不会重叠计算。CNN 的滑窗操作和规则的卷积核形状,导致模型会严重受到 mask 部分的影响。



因此作者借鉴了 3D 点云领域的稀疏卷积,该卷积只对未 mask 的像素进行计算,忽略 masked 的像素,可以处理不规则的输入,实现了和 ViT 类似的效果。另外,为了学习到多尺度的特征,作者设计了分层次的解码器,参考了 UNet 的结构设计,使模型学习到多尺度的特征,适应 CNN 的多层级结构。



从以下的实验结果来看,该方法的性能媲美原始的 MAE 方法,并在各种下游任务中取得了 SOTA 的结果,作者也证明了各个设计模块的有效性以及该方法的通用性。







[1]Tian K, Jiang Y, Diao Q, et al. Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling[J]. arXiv preprint arXiv:2301.03580, 2023.


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 3
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

生于云,长于云,让开发者成为决定性力量

评论

发布
暂无评论
基于卷积神经网络的MAE自监督方法_人工智能_华为云开发者联盟_InfoQ写作社区