eggtart 队比赛攻略

2024-09-20
浙江
本文字数：1828 字
阅读完需：约 6 分钟

关联比赛: “新内容新交互”全球视频云创新挑战赛--算法挑战赛道https://tianchi.aliyun.com/competition/entrance/531873/introduction?spm=a2c22.21852664.0.0.47c975656fTOLi

赛题回顾

本次赛题核心为高清视频人像分割，属于无监督视频物体分割任务，要求在未提供任何额外输入的情况下，识别并定位视频中的主要人物，并精确到图像的每个像素。

赛题数据多来自于影视剧、运动、舞蹈、街拍等视频片段，这些多样的场景会带来以下技术难点：

高精度：要求关注人物边缘细节及附属物的分割，包括背包、手持物、复杂的发饰服饰等；
多目标：实例级分割，存在目标间相互遮挡、相似目标及背景人物的干扰；
多尺度：目标尺寸跨度较大，人物形变，小目标识别等。

其中，镜头切换，人物遮挡，人物快速运动及目标人物的中途出现或消失等问题都可能成为算法的瓶颈，部分难例如下图所示：

初赛方案设计

无监督 VOS 可被拆解成人物分割和人物追踪两部分。在初赛方案中我们使用了用于显著人物分割的 SOLOv2 算法，用于时序人物分割的 STM 算法，并创新性地提出了将两者结合的动态融合推理算法。

SOLOv2 具有较好的速度和精度的 trade-off，能够高效地生成显著人物的初始 mask。有了初始 mask 后，可以将无监督 VOS 问题转化为半监督 VOS，因此可以使用 STM 算法进行时序上人物的追踪分割。原生的 STM 算法对于本次比赛的数据存在以下不足：

随着帧数的增加，可能出现误差累积现象，容易造成目标混淆、跟错等情况；
当目标在视频中途消失或被遮挡时容易跟丢目标；
对于小目标跟踪效果较差，或分割精度不够高。

为此，我们引入 Motion Guided Attention 和 ASPP 模块，进一步提高 STM 的运动捕捉能力以及对小目标的分割能力。其中 motion-guided 模块使用了前一帧的分割 mask，旨在使模型更好地学习到目标运动的连续性，减少同帧内相似目标的混淆。使用 ASPP 模块，提高对小目标的分割效果。

使用 Motion-Guided STM 能够在一定程度缓解以上问题，但如果只用某一帧的 solo mask 作为起始 mask 进行半监督 VOS，仍然存在严重的误差累积。为了进一步解决该问题，并尽可能多地捕捉视频中的主要人物，以及更充分地利用 SOLOv2 和 STM 的分割结果，我们提出了一种动态融合的无监督推理算法。

动态融合（Dynamic Fusion）模块不涉及参数训练，是基于规则的推理算法，可以简单高效地结合实例分割算法和半监督 VOS 算法的分割结果，其主要流程如下图所示：

我们发现，使用 Dynamic Fusion 模块，不但可以在一定程度上解决 STM 的误差累积现象，还可以对视频中途出现或消失的人物进行持续分割，因此可以应用于较长的视频片段。

复赛方案设计

本次复赛不同于以往的赛题，需要在 CPU 上进行推理，且 200 段视频测试时间不得超过 10 小时，对网络性能提出了很高的要求。这就要求参赛者在保证模型高精度的同时，更多地考虑模型推理加速的优化工作。为此，我们在初赛方案上进行了以下几点改进：

1、为了进一步提高人物分割精度，且不增加太多额外计算，我们在 SOLOv2 后面增加了一个轻量的 RefineNet 模块，优化人物边缘细节及分割 mask 的完整性。

2、为了提高 STM 推理效率，先使用 SORT（Simple Online and Real-time Tracking）算法提供人物初始跟踪序列，再用 STM 对初始跟踪序列进行关联和补全。SORT 算法是一种快速多目标跟踪算法，基于卡尔曼滤波与匈牙利算法来进行目标跟踪。对镜头固定，人物位移小的视频能够有较好的跟踪效果。但对于目标遮挡、快速运动、镜头切换等场景，其跟踪效果不佳，主要表现为目标 ID 的频繁切换。为此，我们优化了初赛的 Dynamic Fusion 模块，提出了新的 SORT+STM 两阶段推理流程，如下图所示：

通过 STM mask 和 SOLOv2 mask 的融合，进行 SORT 序列之间的关联匹配，能够纠正同一个 instance 序列被 SORT 算法分成多段及检测丢帧等情况，同时极大地缩短了 STM 的运行时间。复赛 200 段测试视频在 CPU 上的全流程推理时间只需 2 小时！

比赛总结

算法优点

使用 single-shot 的实例分割算法 SOLOv2，推理速度快、精度高；
Motion-Guided STM 算法学习了运动的连续性，提高了小目标的分割效果；
初赛提出的 Dynamic Fusion 模块缓解了时序分割的误差累积现象，可应用于较长视频片段，并可以模块化地替换实例分割和半监督 VOS 使用的模型；
复赛提出的 SORT + STM 两阶段跟踪算法，在保证模型效果的同时，极大地减少 STM 的运行时间。

优化方向

引入光流、ReID 等模块；
改进 STM 算法，设计更轻量的 Memory 机制；
尝试基于 Transformer 的视频实例分割算法，如 VisTR 等。

查看更多内容，欢迎访问天池技术圈官方地址：eggtart队比赛攻略_天池技术圈-阿里云天池

发布于: 刚刚阅读数: 6

阿里云天池

关注

还未添加个人签名 2024-03-12 加入

还未添加个人简介

发布

暂无评论

创作场景