地平线 Vision Mamba:超越 ViT,最具潜力的下一代通用视觉主干网络
• Vision Mamba 论文链接:
https://arxiv.org/abs/2401.09417
• 项目主页:
简介
本文的工作 Vision Mamba[1]发表在 ICML 2024。研究的问题是如何设计新型神经网络来实现高效的视觉表示学习。该任务要求神经网络模型能够在处理高分辨率图像时既保持高性能,又具备计算和内存的高效性。先前的方法主要依赖自注意力机制来进行视觉表示学习,但这种方法在处理长序列时速度和内存使用上存在挑战。论文提出了一种新的通用视觉主干模型 Vision Mamba,简称 Vim1,该模型使用双向状态空间模型(SSM)对图像序列进行位置嵌入,并利用双向 SSM 压缩视觉表示。在 ImageNet[2]分类、COCO[2]目标检测和 ADE20k[3]语义分割任务中,Vim 相比现有的视觉 Transformer[4](如 DeiT[5])在性能上有显著提升,同时在计算和内存效率上也有显著改进。例如,在进行分辨率为 1248×1248 的批量推理时,Vim 比 DeiT 快 2.8 倍,GPU 内存节省 86.8%。这些结果表明,Vim 能够克服在高分辨率图像理解中执行 Transformer 样式的计算和内存限制,具有成为下一代视觉基础模型主干的潜力。
图 1 本文所提出的 Vision Mamba (Vim)和基于 Transformer 的 DeiT 模型进行精度与效率对比:Vim 在图像分类、目标检测、语义分割、实例分割任务上获得了更好的精度,且在高清分辨率图像处理上呈现出巨大的优势。
研究背景
图像表示学习是计算机视觉领域的重要研究课题,其目的是通过模型学习从图像中提取有意义的特征,从而应用于各种视觉任务中。目前,视觉 Transformer(Vision Transformer, ViT[4])和卷积神经网络(Convolutional Neural Networks, CNNs)是图像表示学习中最常用的方法。然而,这些方法在理论上存在一些局限性。
视觉 Transformer 利用自注意力机制能够取得全局的感受野,在大规模自监督预训练和下游任务中表现出色,但其自注意力机制在处理长序列依赖和高分辨率图像时,带来了计算和内存的巨大开销。具体而言,自注意力机制的计算复杂度是输入的图像块序列长度的平方,这使得其在处理高分辨率图像时非常耗时且占用大量内存。尽管一些研究提出了改进方法,如窗口注意力机制[6,7],但这些方法虽然降低了复杂度,但导致感受野被局限在局部的窗口内部,失去了原本全局感受野的优势。
另一方面,卷积神经网络在处理图像时,通过使用固定大小的卷积核来提取局部特征。然而,卷积神经网络在捕捉全局上下文信息方面存在局限性,因为卷积核的感受野是有限的,虽然一些研究引入了金字塔结构或大卷积核来增强全局信息提取能力,但这些改进仍然无法完全克服 CNN 在处理长序列依赖方面的不足。
在自然语言处理领域,Mamba[11]方法的出现给高效率长序列建模带来了很好的发展契机。Mamba 是状态空间模型(state space model, SSM)方法的最新演进。Mamba 提出了一种输入自适应的状态空间模型,能够更高质量地完成序列建模任务。与此同时,该方法在处理长序列建模问题时有着次二次方的复杂度与更高的处理效率。然而,Mamba 方法并不能够直接应用于视觉表征学习,因为 Mamba 方法是为自然语言领域的因果建模而设计的,它缺少对于二维空间位置的感知能力以及缺少全局的建模能力。
图 2 本文所提出的 Vim 模型的网络构架图。
为了克服上述 Transformer 和 CNN 的理论局限性,启发于自然语言处理领域 Mamba 的成功,本文提出了一种新的通用视觉主干模型——Vision Mamba (Vim)。该模型基于状态空间模型[10](State Space Models, SSMs),利用其在长序列建模中的高效性,提供了一种新的视觉表示学习方法。该模型提出了双向状态空间模型来适配视觉特征的多方向性,并引入位置编码来针对图像单元进行标记。本文提出的 Vim 模型通过双向 SSM 对图像序列进行位置嵌入和压缩,不仅在 ImageNet 分类任务上表现出色,还在 COCO 目标检测和 ADE20k 语义分割任务中展示了优异的性能。与现有的视觉 Transformer 如 DeiT 相比,Vim 在计算和内存效率上有显著提升。
Vision Mamba 方法介绍
状态空间模型
Vision Mamba 结构
Vim 模块
效率优化
Vim 通过借助于 Mamba 的硬件友好的实现方式确保运行的效率。优化的关键思想是避免 GPU 的 I/O 瓶颈和内存瓶颈。
IO 高效性。高带宽存储器(HBM)和 SRAM 是 GPU 的两个重要组成部分。其中,SRAM 具有更大的带宽,而 HBM 具有更大的存储容量。标准的 Vim 的 SSM 操作在 HBM 上需要的 I/O 数量是 O(BMEN),其中 B 为批量大小,M 为图像块序列长度,E 表示扩展状态维度,N 表示 SSM 维度。受到 Mamba 的启发,Vim 首先将 O(BME+EN)字节的内存从较慢的 HBM 读取到较快的 SRAM 中。然后 Vim 在 SRAM 中获取对应的参数,并执行 SSM 操作,最终将输出结果写回 HBM。此方法可以讲 I/O 数量从 O(BMEN)降低到 O(BME+EN)从而大幅度提升效率。
内存高效性。为了避免内存不足问题并在处理长序列时降低内存使用,Vim 选择了与 Mamba 相同的重计算方法。对于尺寸为 (B.M,E,N)的中间状态来计算梯度,Vim 在网络的反向传递中重新计算它们。对于激活函数和卷积的中间激活值,Vim 也重新计算它们,以优化 GPU 的内存需求,因为激活值占用了大量内存,但重新计算速度很快。
实验结果
该方法在标准的大型图片分类数据集 ImageNet-1K 上进行验证。并将分类训练好的模型作为预加载权重用于下游图片密集型预测任务中去,如 COCO 数据集上的目标检测和实力分割任务, ADE20K 上的像素级别的语义分割任务。
分类对比
如表 1 与当前主流的分类模型对比 Vim 显示出了相当的精度,将 Vim 和基于 CNN、Transformer 和 SSM 的主干网络进行比较,Vim 显示了相当甚至更优的性能。例如,在参数量相同的情况下 Vim-Small 的准确率 80.3%,比 ResNet50[12]高出了 4.1 个百分点。与传统的基于自注意力机制的 ViT[4]相比,Vim 在参数数量和准确率上均有显著提升。与视觉 Transformer ViT 高度优化的变种 DeiT 相比,Vim 在不同模型尺度上均以相似的参数数量取得了更好的精度。
如图 1 所示,Vim 的优越的效率足以支持更细粒度的微调,在通过细粒度微调后,与基于 SSM 的 S4ND-ViT-B[13]相比,Vim 在参数数量减小 3 倍的情况下达到了相似的精度,Vim-Ti+,Vim-S+和 Vim-B+的结果均有所提高。其中,Vim-S+甚至达到了与 DeiT-B 相似的效果。
表 1 ImageNet-1K 分类骨干网络对比
语义分割对比
在 ADE20K 语义分割数据集上,我们将 ImageNet-1K 上训练好的权重加载到 UperNet[14]分割器中,使用 Vim 作为骨干网络进行特征提取,如表 3 所示,Vim 取得了相比于 CNN 网络 ResNet 更少的参数量以及更高的精度,去 Transformer 模型 DeiT 相比,Vim 取得了更优的精度。
表 2 ADE20k 语义分割对比
表 3 COCO 目标检测和实例分割对比
目标检测与实例分割对比
在 COCO 目标检测与实例分割数据集上,我们将 ImageNet-1K 上训练好的权重加载到 Cascade-RCNN 框架中,使用 Vim 作为骨干网络进行特征提取,如表 3 所示,Vim 取得相对于 Transformer 的 DeiT 更好的检测框精度和实例分割精度。值得注意的是,在高清图像输入的目标检测任务上,图像输入分辨率为 1024×1024,由于 Transformer 的平方复杂度,需要将自注意力机制限制在固定大小的窗口内, 而 Vim 得意于其线性复杂度,无需窗口化,可以进行全局的视觉特征感知,从而取得了相对于表 3 中窗口化 DeiT 更好的精度。
消融实验
双向 SSM。如表 4 所示,双向 SSM 相较于原本的单向 SSM 取得了更高的分类精度, 且在下游的密集型预测任务上取得更为显著的优势。这一结果显示了本文提出的双向设计对于视觉特征学习的必要性与重要性。
表 4 双向 SSM 建模消融实验
分类策略。在表 5 中,我们探索了以下几种分类策略:
表 5 分类策略消融实验
· Mean pool,将最后 Vision Mamba 编码器输出的特征进行平均池化。
· Max pool,将最后 Vision Mamba 编码器输出的特征进行最大化池化。
· Head class token,将类别标记词元置于图像块序列头部。
· Double class token,将类别标记词元置于图像块序列两端。
· Middle class token,将类别标记词元置于图像块序列中间。
如表 5 所示,实验结果表明,中间类别标记策略能够充分利用 SSM 的循环特性和 ImageNet 中的中心对象先验,展示了最佳的 top-1 准确率 76.1。
总结
该论文提出了 Vision Mamba (Vim),以探索最新的高效状态空间模型 Mamba 作为通用视觉主干网络。与以往用于视觉任务的状态空间模型采用混合架构或等效的全局二维卷积核不同,Vim 以序列建模的方式学习视觉表示,并未引入图像特定的归纳偏置。得益于所提出的双向状态空间建模,Vim 实现了数据依赖的全局视觉上下文,并具备与 Transformer 相同的建模能力,同时计算复杂度更低。受益于 Mamba 的硬件感知设计,Vim 在处理高分辨率图像时的推理速度和内存使用显著优于 ViTs。在标准计算机视觉基准上的实验结果验证了 Vim 的建模能力和高效性,表明 Vim 具有成为下一代视觉主干网络的巨大潜力。
参考文献:
[1] Zhu L, Liao B, Zhang Q, et al. Vision mamba: Efficient visual representation learning with bidirectional state space model. In ICML 2024.
[2] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database. In CVPR 2009.[3] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context. In ECCV 2014.
[4] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR 2021.
[5] Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention. In ICML 2021.
[6] Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows. In ICCV 2021.
[7] Li Y, Mao H, Girshick R, et al. Exploring plain vision transformer backbones for object detection. In ECCV 2022.
[8] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In NeurIPS 2017.
[9] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition. In Proceedings of the IEEE 1998.
[10] Gu A, Goel K, Ré C. Efficiently modeling long sequences with structured state spaces. In ICLR 2022.
[11] Gu A, Dao T. Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752, 2023.
[12] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition. In CVPR 2016.
[13] Nguyen E, Goel K, Gu A, et al. S4nd: Modeling images and videos as multidimensional signals with state spaces. In NeurIPS 2022.
[14] Xiao T, Liu Y, Zhou B, et al. Unified perceptual parsing for scene understanding. In ECCV 2018.
[15] Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality object detection. In CVPR 2018.
[16] Liao B, Wang X, Zhu L, et al. ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention. arXiv preprint arXiv:2405.18425, 2024.
[17] Zhu L, Huang Z, Liao B, et al. DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention. arXiv preprint arXiv:2405.18428, 2024.
[18] Peebles W, Xie S. Scalable diffusion models with transformers. In CVPR 2023.
评论