写点什么

视觉模型 ConvNeXt V2,结合纯卷积与 MAE

作者:Zilliz
  • 2023-01-20
    山东
  • 本文字数:476 字

    阅读完需:约 2 分钟

视觉模型 ConvNeXt V2,结合纯卷积与MAE

出品人:Towhee 技术团队 王翔宇、顾梦佳


近年来以 ConvNeXt 为代表的现代 ConvNets 在各种视觉场景中都表现出了强大的性能。虽然这些模型最初是为使用 ImageNet 标签进行监督学习而设计的,但它们也可能受益于自监督学习技术,例如掩码自动编码器 (MAE) 。为了更好地结合 ConvNeXt 和 MAE,ConvNeXt V2 提出了一个改进的网络架构,将全局响应归一化 (GRN) 层添加到 ConvNeXt 架构中以增强通道间特征竞争。它显着提高了纯 ConvNet 在各种识别基准上的性能,包括 ImageNet 分类、COCO 检测和 ADE20K 分割。


FCMAE framework


ConvNeXt V2 将 ConvNeXt 作为骨干网络,成功在卷积网络中避免从遮掩的区域复制粘贴信息。它将可见的像素点看作了一个图像序列,用类似于 3D 视觉中的稀疏卷积来进行处理。另外,模型选择了一个轻量的 ConvNeXt 模块。为了重建目标,ConvNeXt V2 使用了 MSE 来计算目标图像,该损失在被遮掩区域进行计算。


相关资料:

用户头像

Zilliz

关注

Reinvent data science 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
视觉模型 ConvNeXt V2,结合纯卷积与MAE_计算机视觉_Zilliz_InfoQ写作社区