CVPR2022 | 上科大 x 小红书首次提出动作序列验证任务，可应用于体育赛事打分等多场景

2022 年 6 月 21 日
本文字数：2454 字
阅读完需：约 8 分钟

在 CVPR2022 上，上海科技大学和小红书多模态算法团队共同提出了一项新颖的动作序列验证任务，旨在验证两个视频中呈现的动作序列是否一致。区别于传统的关注单个动作的视频任务，我们认为一项复杂任务是需要多个动作构成的步骤序列来完成的，且这些步骤之间遵循一定的内在联系且互相影响。

这种任务可以应用于娱乐或者体育领域的自动打分。例如在跳水比赛中，可以根据与标准视频的对比检测，对选手动作进行打分。对于小红书这样一个笔记模态多元化的业务场景而言，该方法对视频内容、动作流程的理解将有助于平台更精准地为用户推荐相关笔记。

得益于近年来各个视频平台的火爆与拍摄器材的普及，视频数据大量涌现，也为视频理解的研究提供了重要的数据基础。我们发现，多数视频中记录的日常活动都是通过一系列步骤而非单个动作来完成的。针对这类视频，我们提出了动作序列验证任务，旨在区分执行相同动作序列的正视频对与具有子动作级别差异但仍执行相同任务的负视频对，如下图所示。

这样一项具有挑战性的任务能够应对开集问题，且不需要事件级甚至帧级注释监督的动作检测或分割来提供先验知识。该任务可应用于体育、娱乐领域的自动打分，或工业生产场景中的标准流程检测等。

我们设计了一个全新的脚本数据集，Chemical Sequence Verification (CSV)来支持这项任务。CSV 以第一人称视角记录了化学实验场景下的诸多操作流程，充分包含了各类子动作级别变换（子动作的增加、缺失、乱序），能够构成足够数量的正负样本对，因此与我们的任务相契合。数据集包含了约 2000 个视频，100 余类步骤，18 类原子动作，具有充分的动作多样性。数据示例可参考图一。下图为 CSV 中各类原子动作的占比与视频时长分布。

除此之外，我们对 COIN[2]和 Diving48[3]进行了重规划，使其标注与切分更符合我们的设定，我们将重规划后的数据集称为 COIN-SV 与 Diving48-SV。

针对流程验证任务对步骤级别差异的高要求，我们提出 CosAlignment Transformer （CAT），从整体流程、局部步骤多角度来进行模型训练的监督。

Intra-step module: 对于每一张采样帧输出帧级别的特征图，提取子动作级别的特征。

Inter-step module: 参考 ViT [1]的方法，利用 Transformer Encoder 来对子动作之间的时序关系进行建模，得到视频的全局特征。

Alignment module: 仅关注视频的全局特征是不够的，我们的任务更关注视频对之间子动作级别的差异，因此我们提出序列对齐损失（Sequence Alignment Loss）对来自正视频对的两个特征图序列进行对齐，要求两个输入视频中的子动作在时序上能够一一对应。

作为一项新提出的任务，在此之前并没有专门针对此项任务的方法，考虑到我们的方法与动作识别方法的相似性，且同样是以多类别分类任务来进行训练，实验中我们与传统动作识别算法进行对比。

实验证明我们的方法在三个数据集上均超越了传统的动作识别算法。

上图为消融实验的结果，左图证明了 TE（Transformer Encoder）与 SA（Sequence Alignment）模块对量化结果的积极作用；右图的可视化配合不同模型的类内误差与类间误差证明了 TE 和 SA 模块对细化分辨流程中的步骤是有益的。

该任务可用于娱乐/体育领域的自动打分。给定一段标准视频，与多段待打分视频，根据两段视频在特征空间的相似度给出打分结果。

或是标准化流程中的异常动作检测，当与标准流程显著不同的动作发生时，两段视频在特征空间的距离开始飙升，此时我们可以停止操作，一定程度上避免由不规范动作引发的危险。

本文提出了一项全新的动作序列验证任务来判断两个视频中的动作序列是否一致，具有广阔的应用前景。针对此任务，我们设计和收集了包含各种子动作级别变换的化学实验流程数据集 CSV，并且提出了一套简单而有效的流程验证算法 CAT，实验证明优于现有方法。该方法不仅能直接用于视频序列验证任务上，也能作为预训练模型，用于视频检索，视频分类等下游任务中，在视频搜索，推荐等工业应用场景中发挥更大的价值。

论文地址：https://arxiv.org/abs/2112.06447
开源地址：https://github.com/svip-lab/SVIP-Sequence-VerIfication-for-Procedures-in-Videos
参考文献：

[1] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[2] Tang Y, Ding D, Rao Y, et al. Coin: A large-scale dataset for comprehensive

instructional video analysis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 1207-1216.

[3] Li Y, Li Y, Vasconcelos N. Resound: Towards action recognition without representation bias[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 513-528.

钱一成

小红书多模态算法团队实习生，现硕士就读于上海科技大学 SVIP Lab，师从高盛华教授。

主要研究方向：视频动作理解。

汤神

小红书多模态算法团队负责人。

CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录，ICCV Wider Challenge 人脸检测国际竞赛冠军，ICCV VOT 单目标跟踪冠军，CVPR UG2+亚军。

计算机视觉（CV）算法工程师 / 实习生

1. 开发与部署深度学习、图像视频理解、多模态融合、大规模信息检索、内容理解等方向先进算法，达到业界领先的性能指标。
2. 负责计算机视觉相关算法研发，面向但不限于：多模态分类、细粒度分类、人脸识别、目标检测、分割、Metric Learning 等，时刻 follow 与探索前沿技术。
3. 负责计算机视觉相关工程研发，面向但不限于：模型轻量化、向量召回引擎、排序等底层优化，需精通 C++。
4. 负责相关算法和系统的持续迭代和进化；同时能够深入小红书丰富的业务场景，结合实际需求进行技术落地和创新。
5. 完成算法的快速实现以及大规模工业化部署，参与创新性算法的研究以及开发工作。

欢迎感兴趣的朋友发送简历至: REDtech@xiaohongshu.com；
并抄送至: tianbuyi@xiaohongshu.com。