写点什么

【ECCV 2022】TeSTRa:稳定的流式视频识别

作者:Zilliz
  • 2023-02-21
    上海
  • 本文字数:476 字

    阅读完需:约 2 分钟

【ECCV 2022】TeSTRa:稳定的流式视频识别

出品人:Towhee 技术团队 顾梦佳


流式视频识别视频会关注每一个视频帧中的对象及其行为。一个好的流式识别模型可以捕获视频的长期动态和短期变化。然而在大多数现有方法中,尤其是基于 Transformers 架构的网络,计算复杂度往往会随着所考虑的变化的长度而剧烈增长。为了解决这个问题,TeSTra 提出一种时序平滑 Transformer,可以接收任意长度的输入,并具有稳定的缓存和计算开销。由于时间跨度增加,TeSTra 成功在两个标准在线动作检测和动作预期数据集 THUMOS'14 和 EPIC-Kitchen-100 上取得了最先进的结果。

Overview of streaming attention architecture TeSTra


TeSTra 能够对足够长的历史进行编码,每个时间步的推理成本都很稳定。该框架通过内核镜头重新表述了视频 Transformer 中的交叉注意力。它采用了一种有效的注意力机制,在连续帧之间重复使用大部分注意力计算。并应用了两种时间平滑内核:box kernel 和 Laplace kernel。这样的设计实现了高效的流式注意计算。


相关资料:

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
【ECCV 2022】TeSTRa:稳定的流式视频识别_计算机视觉_Zilliz_InfoQ写作社区