EfficientFormerV2 加速 ViT，更高效的移动端视觉模型

作者：Zilliz

2023-01-13
上海
本文字数：529 字
阅读完需：约 2 分钟

出品人：Towhee 技术团队顾梦佳

EfficientFormerV2 仿造卷积结构的 MobileNet，对 transformers 进行一系列针对移动端加速的设计和优化。模型的参数量和延迟对资源受限型的硬件来说至关重要，因此 EfficientFormerV2 结合了细粒度联合搜索策略，提出了一种具备低延迟和大小的高效网络。该网络在同等量级参数量和延迟下，其性能在公开的图像数据集 ImageNet 的验证集上能够比 MobileNetV2 高 4%。

EfficientFormerV2 Architecture

EfficientFormerV2 全面研究了混合视觉主干，并验证了对于端侧更加友好的网络结构设计。此外，在前一个版本的基础上，它进一步提出了在大小和速度上的细粒度联合搜索，并获得了轻量级和推理速度超快的模型。EfficientFormerV2 遵循了常规的 ViT 架构。它采用相同卷积核大小的深度可分离卷积替换作为 token mixer 的平均池化层，这样既不会带来延迟开销，又能提高性能。此外，EfficientFormerV2 在前馈网络中注入了局部信息建模层，将原来的池化层替换成 BottleNeck 的形式。

相关资料：