恒源云 (Gpushare)_FAIR CVPR2022 新作 DVT 是个啥？

作者：恒源云

原文作者 | 咚咚

hi，大家好啊！窗外的树🌲 绿了，楼下的桃花🌺 开了，春天，就这么滴的过去了……

小编已经居家办公(不能下楼)3 个礼拜啦！敬请期待疯掉的小编～

我的春游彻底没希望了！！！

说那么多有啥用呢？还不是得乖乖搬运社区文章！毕竟社区伙伴们发帖是那么的勤快！Respect！

正文开始

引入主题：在视频分类领域，视频 Transformer 最近作为一种有效的卷积网络替代品出现。
现存问题：大多数以前的视频 Transformer 采用全局时空注意或利用手动定义的策略来比较帧内和帧间的 patch。这些固定注意力方案不仅计算成本高，而且通过比较预定位置的 patch，忽略了视频中的运动动力学。
解决方案：该论文介绍了可变形视频 Transformer（DVT），它根据运动信息动态预测每个查询位置的一小部分视频 Patch，从而允许模型根据帧间的对应关系来决定在视频中查看的位置。关键的是，这些基于运动的对应关系是从以压缩格式存储的视频信息中以零成本获得的。
实验结果：在四个大型视频基准（Kinetics-400、Something-Something-V2、EPIC-KITCHENS 和 Diving-48）上的实验表明，该论文模型在相同或更低的计算成本下实现了更高的精度，并在这四个数据集上获得了最优结果。

视频数据的输入大小一般可以表示为 $X \in R^{H \times W \times 3 \times T}$ ，T 表示帧数，3 表示每一帧是 RGB 图像

因为使用的是 Transformer 架构，所以首先需要将输入数据转换为一个 $S \cdot T$ tokens，S 表示每一帧中的 patch 个数，每个 token 可以表示为 $x_{s}^{t} \in R^{D}$ 。整个过程可以表示如下：

最终得到 $z_{s}^{t} = x_{s}^{t} + e_{s} + e^{t}$

然后通过多头自注意力，layer norm（LN）和 MLP 计算，可以表示如下：

其中具体的自注意力可以表示如下（使用单头进行简化说明）

根据以往的视频 Transformer 算法，自注意力机制可以分为 Global space-time attention 和 Divided space-time attention

Global space-time attention

简单来说就是将时空联合起来进行注意力计算，公式如下：

其中注意力权重计算公式如下：

整个计算过程的计算复杂度为 $(S^{2} T^{2})$ ，最大的问题就是计算量很大。

Divided space-time attention

顾名思义，就是将时间和空间的注意力进行分开计算，用来减少计算量

空间注意力计算公式如下：

计算复杂度为 $O (S^{2} T)$ 对应的时间注意力计算公式如下：

计算复杂度为 $O (S T^{2})$ 需要注意的是，时间注意力只对不同时间帧上的同一个空间位置进行注意力计算！这就是其最大的问题，因为其没有考虑到不同帧之间目标的运动。

主要分为以下三个部分（创新点）

Deformable Space-time Attention(D-ST-A)

这个注意力机制和上文 Divided space-time attention 中的时间注意力机制很相似，但是有两个主要不同点：

对于每个查询 $q_{s}^{t}$ ，使用不同帧上的 N 个空间位置 $s (n) ∣ n = 1, \dots$ 进行相似度计算，而不是一个固定位置，这虽然带来相对较大的计算量，但会获取更大空间上的特征信息，性能会提高很多。文中使用 N=8。
这 N 个位置是数据驱动的，而不是人为定义的，这在后面进行细说。