【ECCV 2022】高效视频学习框架 EVL，CLIP 助力视频识别

作者：Zilliz

2023-02-16
北京
本文字数：610 字
阅读完需：约 2 分钟

出品人：Towhee 技术团队顾梦佳

视频识别一直以端到端的学习范式为主，即首先使用预训练图像模型的权重初始化视频识别模型，然后用视频进行端到端训练。虽然这种方式使得视频网络能够从预训练的图像模型中受益，但是它需要大量的计算和内存资源来微调视频模型。另外，如果直接使用预训练好的图像模型而不通过微调主干网络，这样获得的图像特征会导致最终的视频网络结果不佳。幸运的是，CLIP 最近的进展为视觉识别任务的新路径铺平了道路。这些模型在大型开放词汇图像-文本对数据上进行了预训练，学习了具有丰富语义的强大视觉表示。在此基础上，高效视频学习框架 EVL 能够直接训练具有冻结 CLIP 特征的高质量视频识别模型。广泛的实验证明了 EVL 的有效性，并发现它是一种简单有效的流水线，具有更高的准确性，同时降低了训练和推理成本。

EVL Architecture

EVL 设计了一种有效的迁移学习方法，能够利用冻结的 CLIP 图像特征进行视频识别。为了从 CLIP 图像编码器动态收集帧级空间特征，该框架采用了一个轻量级的 Transformer 解码器并学习了一个查询 token。此外，它在每个解码器层中采用了局部时间模块，以便发现来自相邻帧及其注意力图的时间线索。最后，模型使用全连接层来预测视频类别的分数。

相关资料：