优酷端侧弹幕穿人技术实战之：PixelAI 移动端实时人像分割

2022 年 6 月 08 日
本文字数：4900 字
阅读完需：约 16 分钟

一. 业务背景

随着各大视频平台相继推出弹幕穿人功能，广受好评。在大众消费视频的同时，大大增加了观看的娱乐互动性。接着，其他视频、动漫、阅读等内容平台也都增加了弹幕功能。弹幕已经成为一种重要的内容互动的手段。优酷作为视频消费为主的业务平台，也针对相关爆款视频，推出了服务端分割技术主导的弹幕穿人功能。服务端分割功能稳定，识别精度高，但存在一定的存储和带宽成本，且无法满足实时的特效，特别是爆款视频，时效性要求特别高。因此，优酷视频弹幕穿人业务对移动端的人像分割技术有强烈的需求。

针对优酷弹幕穿人业务，设计了实时性和精度都较高的移动端人像分割模型，加上淘系 PixelAI SDK 的加持，将人像分割技术上线到优酷移动端弹幕穿人业务。本文将从算法和工程两个方面，详细阐述解决方案。

二. 显著人像分割

优酷弹幕穿人，主要用于视频中显著人像的分割，对于非聚焦区域的人物和背景都无需分割。移动端和服务端模型的设计有很大区别，服务端精度要求高于实时性，因此模型的设计可以更大，对于输入的尺寸要求也可以更大。而对于移动端而言，模型的设计需要精准到每个模块的设计和耗时需求，因此首先需要和业务明确显著人像的定义。显著人像除了指镜头下聚焦的区域外，还需要明确人物的尺寸比例。在明确算法需求的前提下，进行数据采集，打标，模型设计以及训练优化。1.构建数据集团队经过了几年的分割沉淀，已经拥有了百万级的人像分割数据，且服务了集团的钉钉和淘系相关业务。针对优酷特殊的场景需求，将视频场景划分为了：现代都市剧，古代剧，军事题材。在不同的题材中，有针对显著人像的特征，分为了：半身、全身、单人、多人，以及人体不同的姿态。由于影视作品中有很多特殊效果镜头，会影响算法的分割效果，所以针对这些特效，我们还专门收集了一些长尾的数据，比如逆光、暗光、伸手等场景，可以提高模型的鲁棒性。最终，我们使用了百万级的训练数据。

2.模型设计 2.1 轻量化网络研究目前常用的轻量化网络模型有 mobilenet 系列、shufflenet 系列，ghostnet 系列等，但是这些学术界的移动端模型离实际的移动端应用还相差甚远，特别是运行时效上完全不能达到业务需求。针对这一问题，我们在集团的 MNN 移动端推理框架下，从算子执行时间，不同模块执行效率，不同网络效率三个维度在 CPU 和 GPU 模式下进行了对比实验，结果如下图所示：

通过网络参数控制变量实验分析，VGG 这类直筒型的网络设计性能最佳，效率最优。2.2 自研网络 AirSegNet 系列设计 2.2.1 网络 backbone 设计基于前述实验结论，我们重新设计了淘系新的移动端分割网络 AirSegNet 系列，主要的 backbone 设计思想如下：（1）Decode 部分的卷积全部使用 1x1 conv，先卷积改变通道后与 low feature map 进行融合，从而降低计算量；（2）Decode 部分融合了 x2，x4，x8 倍三种尺度的低层特征，还原更多细节；（3）设置双线性插值参数 align_corners=False 而非主流的 True，获取更精准的边缘分割，在 True 模式下，当推理的图片输入分辨率与训练不一致时，会存在像素点误差。

模型会针对不同机型，以及 CPU 或 GPU 模型，进行相应的修改，已达到最佳的性能。当前我们设计完成了 AirSegNet-CPU， AirSegNet-GPU，AirSegNet-Server 三种主干架构。2.2.2 训练优化在模型训练中，采用交叉熵损失函数作为 loss 函数，在此基础上逐步实验，发现了几个有效的策略：(1) 背景权重计算，解决误识别问题。统计训练数据中前景和背景的分布比例，设计分类权重，分类权重采用经典的计算公式：其中，r 表示前景或者背景的比例。ω=1/(log(1.1+r))(2) 边缘加权，解决边缘融合效果。采用 5x5 的核对 ground truth 进行膨胀操作；采用 5x5 的核对 ground truth 进行腐蚀操作；判断图 1 不等于图 2 的部分，即为边缘，给边缘分配 5 倍的 loss 权重。(3) 提出聚类 loss，提升分割精度。计算公式如下：如果点 i、j 的 ground thuth 为同一类，则约束两者的网络输出小于α，否则约束两者的网络输出大于β。loss_(i,j)={█(max(‖e_i-e_j ‖-α,0) if l_i=l_j@max(β-‖e_i-e_j ‖,0) if l_i≠l_j )┤（4）使用 topk loss。针对难负样本，尤其是针对模型稳定阶段的深度优化有较大的效果。在使用边缘加权和聚类 loss 的前提下，针对 GPU 训练模型的对比实验结果如下：

最终人像 IOU 达到了 0.98。2.2.3 .后处理优化模型输出的效果在不同的分辨率下会出现锯齿状的现象，特别是原图尺寸比模型的实际输入尺寸大很多的时候。因此，需要进行一系列后处理优化，提高实际的呈现效果体感。（1）边缘优化，分为如下两步：对原始网络输出使用 3x3 的高斯模糊，平滑人像边缘，实际在模型转成 mnn 时，同时将高斯模糊融合进网络，既可以节约处理时间，又可以避免在 C++中调用高斯模糊。由于网络输出的是 0-1 之间的概率值，因此融合背景图后在边缘处会存在过渡区域，采用曲线变换缩小过渡区域。（2）利用动量抑制帧间抖动，为了自适应处理不动场景和跳变场景，动量是一个变化值，会根据变化的幅度改变阈值。（3）针对画面变化很小时，采用隔帧检测，减少计算量。

三. 工程部署

AirSegNet 系列算法集成到集团的算法部署平台 PixelAI SDK 中，优酷使用此 SDK 进行对接。工程端，算法前向主要流程如下图所示，视频序列中每幅图像经过 CNN 网络，得到初步的分割结果，随后经过后处理（包括平滑和动量处理等步骤），得到稳定精细化的分割结果。整个流程中耗时最久的就是 CNN 网络推理。

基于集团的 MNN 推理框架，针对我们的设计的 AirSegNet-CPU， AirSegNet-GPU 模型，在不同机型上进行了性能测试，如下所示：性能测试结果（单位：ms）：绿色代表 CPU 推理耗时，粉色代表 GPU 推理耗时。1.Android 机型测试

测试结论：（1）对于高端机型来说（>85），CPU 性能很强大，轻量化模型 GPU 加速均不太明显。（2）对于中端机型来说（30-70），GPU 模型利用 GPU 加速效果明显，但 CPU 模型利用 GPU 反而会变慢，这是因为 CPU 模型的设计不符合 GPU 加速逻辑。（3）对于低端机型来说（<20），由于 GPU 太弱，所有模型使用 GPU 推理都会比 CPU 推理慢。2.ios 机型测试

**ios 测试结论：**对于 iPhone 系列来说，CPU 性能很强，CPU 模型推理速度高于 GPU。3.优酷业务工程逻辑优化优酷业务要求，整个 SDK 请求耗时要小于 15ms。根据如上的测试结果，PixelAI SDK 框架会根据不同的机型，下发最优的模型，快速适配不同的业务场景。但在优酷业务对接中，仍然进行了如下两个严重的耗时问题：1）纯 GPU 模型初始化严重耗时。在下发 GPU 模型的时候，会存在初始化耗时特别严重的问题，达到秒的级别。因为，MNN 的 GPU 推理初始化时耗时很高，如果单纯下发 GPU 模型，那么第一帧耗时就会特别高。这就需要从工程端去使用策略来解决。核心解决思路是，如果此类机型 GPU 模型最优化，则同时下发 CPU 模型和 GPU 模型，且同时初始化两类模型。在 GPU 模型初始化阶段，使用 CPU 模型先行进行前向，待 GPU 模型初始化完成后再切回 GPU 模型进行前向推理。根据如上结论，对于 90%以上的机型，CPU 的前向推理也是可以满足耗时小于 15ms 的业务需求的，在用户端达到无感的弹幕体验。2）纯 CPU 模型弹幕渲染卡顿。针对优酷弹幕业务的特殊性，除了算法以外，也有很多的渲染线程，在移动端上同时使用模型和这些线程的时候，CPU 资源非常吃紧，所以导致渲染卡顿的问题。根据如上的实验结论，对于 90%以上机型的 GPU 模型前向耗时是能符合 15ms 以内的需求的，因此采用了 CPU+GPU 混合下发的方式。在不影响渲染的情况下，保证了模型的效率。

查看系列文章：

优酷移动端弹幕穿人架构设计与工程实战总结

参考文献：[1]Khoreva A, Perazzi F, Benenson R, et al. Learning video object segmentation from static images[J]. arXiv preprint arXiv:1612.02646, 2016.[2]Jégou S, Drozdzal M, Vazquez D, et al. The one hundred layers tiramisu: Fully convolutional densenets for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2017: 11-19.[3]Ding H, Jiang X, Shuai B, et al. Context contrasted feature and gated multi-scale aggregation for scene segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2393-2402.[4]Jégou S, Drozdzal M, Vazquez D, et al. The one hundred layers tiramisu: Fully convolutional densenets for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2017: 11-19.[5]Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.[6]Chen L C, Collins M, Zhu Y, et al. Searching for efficient multi-scale architectures for dense image prediction[J]. Advances in neural information processing systems, 2018, 31.[7]Tang J, Aksoy Y, Oztireli C, et al. Learning-based sampling for natural image matting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3055-3063.[8]Li H, Xiong P, Fan H, et al. Dfanet: Deep feature aggregation for real-time semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9522-9531.[9]Zhang S H, Dong X, Li H, et al. PortraitNet: Real-time portrait segmentation network for mobile device[J]. Computers & Graphics, 2019, 80: 104-113.[10]Tang J, Aksoy Y, Oztireli C, et al. Learning-based sampling for natural image matting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3055-3063.[11]Zhang Y, Gong L, Fan L, et al. A late fusion cnn for digital matting[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 7469-7478.[12]Ghosh S, Das N, Das I, et al. Understanding deep learning techniques for image segmentation[J]. ACM Computing Surveys (CSUR), 2019, 52(4): 1-35.[13]Yuan Y, Chen X, Chen X, et al. Segmentation transformer: Object-contextual representations for semantic segmentation[J]. arXiv preprint arXiv:1909.11065, 2019.[14]Wang Y, Zhou Q, Liu J, et al. Lednet: A lightweight encoder-decoder network for real-time semantic segmentation[C]//2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019: 1860-1864.[15]Wu H, Zhang J, Huang K, et al. Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation[J]. arXiv preprint arXiv:1903.11816, 2019.[16]Sengupta S, Jayaram V, Curless B, et al. Background matting: The world is your green screen[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2291-2300.[17]Park H, Sjosund L, Yoo Y J, et al. Sinet: Extreme lightweight portrait segmentation networks with spatial squeeze module and information blocking decoder[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2020: 2066-2074.[18]Luo L, Xue D, Feng X. Ehanet: An effective hierarchical aggregation network for face parsing[J]. Applied Sciences, 2020, 10(9): 3135.[19]Cheng H K, Tai Y W, Tang C K. Modular interactive video object segmentation: Interaction-to-mask, propagation and difference-aware fusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 5559-5568.[20]Wu T, Tang S, Zhang R, et al. Cgnet: A light-weight context guided network for semantic segmentation[J]. IEEE Transactions on Image Processing, 2020, 30: 1169-1179.

发布于: 刚刚阅读数: 4

阿里巴巴文娱技术

关注

还未添加个人签名 2021.06.09 加入

还未添加个人简介

发布

暂无评论

创作场景

优酷端侧弹幕穿人技术实战之：PixelAI 移动端实时人像分割

一. 业务背景

二. 显著人像分割

三. 工程部署

阿里巴巴文娱技术

评论