写点什么

EfficientFormerV2 加速 ViT,更高效的移动端视觉模型

作者:Zilliz
  • 2023-01-13
    上海
  • 本文字数:529 字

    阅读完需:约 2 分钟

EfficientFormerV2 加速 ViT,更高效的移动端视觉模型

出品人:Towhee 技术团队 顾梦佳


EfficientFormerV2 仿造卷积结构的 MobileNet,对 transformers 进行一系列针对移动端加速的设计和优化。模型的参数量和延迟对资源受限型的硬件来说至关重要,因此 EfficientFormerV2 结合了细粒度联合搜索策略,提出了一种具备低延迟和大小的高效网络。该网络在同等量级参数量和延迟下,其性能在公开的图像数据集 ImageNet 的验证集上能够比 MobileNetV2 高 4%。


EfficientFormerV2 Architecture


EfficientFormerV2 全面研究了混合视觉主干,并验证了对于端侧更加友好的网络结构设计。此外,在前一个版本的基础上,它进一步提出了在大小和速度上的细粒度联合搜索,并获得了轻量级和推理速度超快的模型。EfficientFormerV2 遵循了常规的 ViT 架构。它采用相同卷积核大小的深度可分离卷积替换作为 token mixer 的平均池化层,这样既不会带来延迟开销,又能提高性能。此外,EfficientFormerV2 在前馈网络中注入了局部信息建模层,将原来的池化层替换成 BottleNeck 的形式。


相关资料:

用户头像

Zilliz

关注

Reinvent data science 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
EfficientFormerV2 加速 ViT,更高效的移动端视觉模型_计算机视觉_Zilliz_InfoQ写作社区