【NeurIPS 2022】视频动作识别,AFNet 用更低的成本接收更多数据
出品人:Towhee 技术团队 顾梦佳
为了避免大量的计算,现有的视频动作识别方法通常会采样几帧来表示每个视频,然而这往往会限制识别的性能。为此,Ample and Focal Network(AFNet)提出两个分支的结构,以用更少的计算量利用更多的视频帧。在减少计算量的前提下,AFNet 依然能借助其中间特征中的动态选择强制执行隐式时序建模,成功实现更高的精度。此外,该方法还可以帮助用更低的成本减少空间冗余。在五个公开的动作检测数据集上进行大量实验,AFNet 证明了其有效性和效率。
Architecture of AFNet
AFNet 虽然使用了更多视频帧,但明智地从中提取信息以保持较低的计算成本。具体来说,该方法设计了一个双分支结构,根据视频帧的重要性进行区别对待。另外,它以自适应的方式处理特征,以获得提供强大的灵活性。Ample Branch 将以较低的分辨率和较小的通道尺寸处理所有的输入特征。它将所有的视频帧作为数据,通过压缩计算获得丰富的信息,并利用所提出的定位模块为 Focal Branch 提供指导。而 Focal Branch 压缩时序大小以仅关注每个卷积块的显着帧。该分支只会针对导航模块建议的显着帧,计算其彩色特征。两个分支的结果在 AF 模块的末尾自适应融合,防止信息丢失。
相关资料:
评论