写点什么

Transformer 再添一员,比 Swin 更强的 DiNAT

作者:Zilliz
  • 2023-01-19
    北京
  • 本文字数:621 字

    阅读完需:约 2 分钟

Transformer 再添一员,比 Swin 更强的 DiNAT

出品人:Towhee 技术团队 张晨、顾梦佳


在视觉领域,除了常规 Transformer 的持续发展,分层的 Transformer 结构也因为其性能和易集成性获得了极大的关注。DiNA 注意力机制是 Neighborhood Attention (NA)的拓展,更加自然、灵活、高效。它可以捕获更多的全局上下文并以指数方式扩展感受域,而无需额外成本。DiNA Transformer 是基于两种注意力的新型分层视觉模型。相比 NAT、Swin 和 ConvNeXt 等强基线模型,DiNAT 变体带来了显著的改进。使用了 DiNA 的大型模型速度更快,在公开数据集 COCO 的目标检测中领先 Swin 模型 1.5% box AP,在实例分割中超过 1.3% mask AP。



An illustration of DiNAT’s architecture.


分层结构的 Transformer 模型通常采用局部注意机制,例如滑动窗口 NA 或 Swin Transformer 的 Shifted Window Self Attention。虽然该策略有效地降低了自注意力的二次复杂度,但局部注意力削弱了自注意力的两个最理想的特性:远程相互依赖建模和全局感受野。因此 DiNAT 首先将输入下采样到原始空间分辨率的四分之一,并通过 4 级 DiNA Transformer 编码器发送它们。特征图被下采样到其空间大小的一半,并在级别之间的通道中加倍。DiNAT 层与大多数 Transformer 相似,模型会每隔一层在局部 NA 和稀疏全局 DiNA 之间切换。


相关资料:

用户头像

Zilliz

关注

Reinvent data science 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
Transformer 再添一员,比 Swin 更强的 DiNAT_Zilliz_InfoQ写作社区