写点什么

BATMAN:将双边注意力用于视频对象分割

作者:Zilliz
  • 2023-02-13
    上海
  • 本文字数:480 字

    阅读完需:约 2 分钟

BATMAN:将双边注意力用于视频对象分割

出品人:Towhee 技术团队 张晨、顾梦佳


视频对象分割 (Video Object Segmentation,VOS) 是视频理解的基础。 基于 Transformer 的方法已经在半监督 VOS 上显示出显着的性能改进。 然而,现有的工作很难分割彼此靠近的相似物体。为此,BATMAN 提出了一种用于半监督 VOS 的新型双边注意力 Transformer。大量实验验证了 BATMAN 架构的有效性,它在所有四个流行的 VOS 基准测试中均优于所有现有的最先进技术:Youtube-VOS 2019 (85.0%)、Youtube-VOS 2018 (85.3%)、DAVIS 2017Val/Testdev (86.2) %/82.2%),以及 DAVIS 2016 (92.5%)。

Overview of BATMAN architecture


BATMAN 通过一个新颖的光流校准模块捕获视频中的对象运动,该模块将分割掩码与光流估计融合在一起,以提高对象内光流的平滑度并减少对象边界处的噪声。双边空间编码器用于将查询特征和校准后的光流编码为双边空间编码,供双边注意力使用。双边注意力 Transformer 会考虑运动和外观来计算相邻双边空间中查询帧和参考帧之间的对应关系。

相关资料:

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
BATMAN:将双边注意力用于视频对象分割_计算机视觉_Zilliz_InfoQ写作社区