写点什么

【NeurIPS 2022】视频动作识别,AFNet 用更低的成本接收更多数据

作者:Zilliz
  • 2023-02-20
    北京
  • 本文字数:555 字

    阅读完需:约 2 分钟

出品人:Towhee 技术团队 顾梦佳


为了避免大量的计算,现有的视频动作识别方法通常会采样几帧来表示每个视频,然而这往往会限制识别的性能。为此,Ample and Focal Network(AFNet)提出两个分支的结构,以用更少的计算量利用更多的视频帧。在减少计算量的前提下,AFNet 依然能借助其中间特征中的动态选择强制执行隐式时序建模,成功实现更高的精度。此外,该方法还可以帮助用更低的成本减少空间冗余。在五个公开的动作检测数据集上进行大量实验,AFNet 证明了其有效性和效率。


Architecture of AFNet


AFNet 虽然使用了更多视频帧,但明智地从中提取信息以保持较低的计算成本。具体来说,该方法设计了一个双分支结构,根据视频帧的重要性进行区别对待。另外,它以自适应的方式处理特征,以获得提供强大的灵活性。Ample Branch 将以较低的分辨率和较小的通道尺寸处理所有的输入特征。它将所有的视频帧作为数据,通过压缩计算获得丰富的信息,并利用所提出的定位模块为 Focal Branch 提供指导。而 Focal Branch 压缩时序大小以仅关注每个卷积块的显着帧。该分支只会针对导航模块建议的显着帧,计算其彩色特征。两个分支的结果在 AF 模块的末尾自适应融合,防止信息丢失。


相关资料:

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
【NeurIPS 2022】视频动作识别,AFNet 用更低的成本接收更多数据_Zilliz_InfoQ写作社区