写点什么

【ECCV 2022】高效视频学习框架 EVL,CLIP 助力视频识别

作者:Zilliz
  • 2023-02-16
    北京
  • 本文字数:610 字

    阅读完需:约 2 分钟

【ECCV 2022】高效视频学习框架 EVL,CLIP 助力视频识别

出品人:Towhee 技术团队 顾梦佳


视频识别一直以端到端的学习范式为主,即首先使用预训练图像模型的权重初始化视频识别模型,然后用视频进行端到端训练。虽然这种方式使得视频网络能够从预训练的图像模型中受益,但是它需要大量的计算和内存资源来微调视频模型。另外,如果直接使用预训练好的图像模型而不通过微调主干网络,这样获得的图像特征会导致最终的视频网络结果不佳。幸运的是,CLIP 最近的进展为视觉识别任务的新路径铺平了道路。这些模型在大型开放词汇图像-文本对数据上进行了预训练,学习了具有丰富语义的强大视觉表示。在此基础上,高效视频学习框架 EVL 能够直接训练具有冻结 CLIP 特征的高质量视频识别模型。广泛的实验证明了 EVL 的有效性,并发现它是一种简单有效的流水线,具有更高的准确性,同时降低了训练和推理成本。


EVL Architecture


EVL 设计了一种有效的迁移学习方法,能够利用冻结的 CLIP 图像特征进行视频识别。为了从 CLIP 图像编码器动态收集帧级空间特征,该框架采用了一个轻量级的 Transformer 解码器并学习了一个查询 token。此外,它在每个解码器层中采用了局部时间模块,以便发现来自相邻帧及其注意力图的时间线索。最后,模型使用全连接层来预测视频类别的分数。


相关资料:

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
【ECCV 2022】高效视频学习框架 EVL,CLIP 助力视频识别_Zilliz_InfoQ写作社区