写点什么

EfficientFormer 提升速度的同时保持性能,使 ViT 在移动端成为可能

作者:Zilliz
  • 2023-01-12
    北京
  • 本文字数:601 字

    阅读完需:约 2 分钟

EfficientFormer 提升速度的同时保持性能,使 ViT 在移动端成为可能

出品人:Towhee 技术团队 顾梦佳


由于大量的参数和其模型设计(注意力机制),基于 ViT 的模型通常比轻量级卷积网络慢几倍。因此,为实时应用程序部署 ViT 特别具有挑战性,尤其是在资源受限的硬件(如移动设备)上。为了让 transformers 同时拥有高性能和速度,EfficientFormer 重新审视了 ViT 模型中使用的网络架构和运算符,引入一个维度一致的纯 Transformer 作为设计范例。大量实验表明 EfficientFormer 系列模型在移动设备上的性能和速度方面具有优越性。其中最快的模型 EfficientFormer-L1 在公开的图像数据集 ImageNet-1K 上实现了 79.2% 的 top-1 精度,在 iPhone 12 上的运行速度与 MobileNetV2×1.4 一样快。而最大的模型 EfficientFormer-L7 也能够以 7.0 毫秒的延迟获得 83.3% 的准确率。EfficientFormer 证明正确设计的变压器可以使模型在保持高性能的同时,在移动设备上达到极低的延迟。



Overview of EfficientFormer


基于延迟分析,EfficientFormer 的模型设计完全基于 Transformers。该网络首先用一个卷积骨干用作 patch embedding,然后包含了一组 MetaBlock (MB)。其中 MB4D 和 MB3D 拥有不同的 token mixer 配置,即以维度一致的方式排列的局部池化或全局多头自注意力。


相关资料:

用户头像

Zilliz

关注

Reinvent data science 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
EfficientFormer 提升速度的同时保持性能,使 ViT 在移动端成为可能_Zilliz_InfoQ写作社区