写点什么

腾讯 TVQA 斩获 ECCV 2024 压缩视频质量评估比赛冠军

作者:Geek_2d6073
  • 2024-10-28
    湖北
  • 本文字数:2619 字

    阅读完需:约 9 分钟

近日,ECCV 2024 AIM Workshop 大赛结果公布,在压缩视频质量评估赛道上,腾讯 TVQA-C 视频质量评估算法获得比赛冠军。未来,相关能力将在腾讯云媒体处理(MPS)产品中的落地,进一步提升产品全链路媒体质量监控与分析能力,帮助企业用户实现媒体质量升级。



比赛成绩榜单



比赛获奖证书


压缩视频质量评估标准 推动视频压缩场景的演进与创新

视频是全球互联网流量中最重要的部分,随着网络负载的增加,对高效视频压缩编码器的需求迫切增长。而视频编码器的好坏对比主要依赖于质量评价指标,其中又包括客观指标和主观指标。以全球权威的 MSU 世界视频编码器大赛为例,其不但有客观评价指标,也增设了主观评价赛道,通过组织观众群对不同编码器输出的视频进行投票,再把不同编码器得到的票数转换为主观分进行比较,可以得到最准确的用户观看体验分,但这种方式也需要大量的人力物力成本。

因此,准确的编码视频质量评估算法变得至关重要,一方面可以帮助编码器研发人员进行快速对比,提高迭代速度;另一方面,通过准确的编码视频质量评估算法,可以得到关于视频质量的直接反馈,帮助编码器的使用者理解不同编码设置对观看体验的实际影响,快速地将编码器用在不同的业务场景。



ECCV 2024 AIM Workshop 是欧洲计算机视觉会议(ECCV)2024 的一个关于图像操作(Image Manipulation)的研讨会,此次压缩视频质量评估是 AIM 2024 研讨会的相关比赛之一,由 MSU 世界编码器大赛的主办方 Lomonosov Moscow State University 联合 Yandex Research、ISP RAS Research Center for Trusted Artificial Intelligence、MSU Institute for Artificial Intelligence 和 Julius Maximilian University of Würzburg, Germany 共同举办,加速推动视频质量评估算法在视频压缩场景的演进与创新。此次比赛的数据由 MSU 举办方对历年世界编码器大赛的压缩视频通过人工标注的方式收集而来。比赛从两个不同的角度评估参赛算法的性能:预测单调性和预测准确性,利用 SROCC 和 KROCC 来评估预测评分和真实主观评分之间的单调性。此外,还使用 PLCC 来评估预测精度,用该指标衡量预测评分和真实主观评分之间的线性关系。最终用于排名的分数通过对 SROCC、KROCC 和 PLCC 进行平均得到。参赛者可在训练集上训练模型,并提交验证集的结果初步评估模型效果,最终每个参赛队伍需要提交测试集的结果用于最后排名。


腾讯 TVQA-C 算法斩获第一  加速视频场景的突破与产业落地

其中,腾讯团队通过不断优化的模型结构和训练策略,以及结合业务落地的丰富经验,最终在比赛获得了第一。

具体从表中可看出,腾讯算法(TVQA-C)在 SROCC 指标上以 0.0002 的极小分差低于 SJTU 队伍,另外两个指标都以明显优势优于第二名,其中 KROCC 较第二名高 0.0092,PLCC 较第二名高 0.0063,最终 TVQA-C 总成绩较之第二名高出 0.0051,获得比赛冠军。



腾讯算法(TVQA-C)成绩


模型结构

具体来说,在模型结构方面,经过大量骨干框架的测试,TVQA-C 算法考虑到压缩视频质量评估需要考虑更多的帧细节信息(如压缩造成的伪影),选择 HVS-5M 来得到压缩视频的空域以及时域特征。同时,通过大模型 Q-Align 从视频帧中提取特征,以增强特征的语义表达能力;然后使用特征融合模块融合上述提取的特征;最后,融合后的特征经过全连接层(FC)得到视频质量评分。



TVQA-C 算法结构图


训练策略

比赛数据基于分组投票得到分数,这种方式相比传统视频打分方法操作更简单,结果更准确,更能反映视频质量的好坏关系。但是存在两个特点:第一,由于分数通过投票获得,会有较多极端情况的主观评分出现(例如 0 分),而这种情况只能反映这个视频差于组内其他所有视频,导致其得到的投票数为 0,但并不能认为这个视频的绝对质量一定很差;第二,由于投票过程在小组内进行,不同小组中的分数没有可比性,可能会出现更低视觉质量的视频最后得出的主观评分更高,还可能会出现同一个视频在不同组里投票打分后得到的分数差异巨大。针对这两个特点,腾讯团队在训练策略上做了一些优化。

在损失函数方面,从上面的数据分析中可以知道,本次比赛数据集的主观分数是在小组内投票得到的,不同小组之间的主观分没有一致性,因此不能采用 L1 Loss 或 L2 Loss 这种直接拟合分数的损失函数,这会导致模型训练在训练过程中出现歧义。而基于排序的损失函数非常适合在这种场景中使用,最初使用 SROCC Loss 以及 PLCC Loss 作为损失函数,实验发现这两个损失函数会导致 KROCC 指标特别低,经过分析发现,SROCC 和 PLCC 是基于整组数据得到的指标,而 KROCC 是基于组内数据成对观察值之间的一致性和不一致性的比例得到。为了优化 KROCC 指标,对预测的逆序对使用 Pairwise-ranking loss 进行优化,以此减少逆序对的数量,提高 KROCC 指标。因此最终使用的损失函数如下:



针对数据采样策略,基于训练数据分组打分的特点,使用了一种分组训练策略。具体来说,按照数据集打分时的分组,将整个训练集分为 57 组。训练时,每个 batch 仅包含来自同一组的数据,保证每个 batch 中样本的分数都是可比较的。同时考虑视频数量和分组数量较少,还进行了数据增强处理,首先每个 batch 从一组数据中随机抽 8 个视频组成,随后再将这 8 个视频的顺序随机打乱,以增加数据序列的多样性。此外,在训练细节上,整个训练过程使用单卡 A100 完成,使用 AdamW 优化器,学习率使用余弦退火策略从 5e-4 衰减到 5e-6。训练过程中发现 Pairwise-rank loss 的引入导致训练不稳定,为此我们还使用了指数移动平均(EMA)策略来减少训练时模型的波动,提高模型参数的稳定性和泛化能力。


展望

在不断深耕,持续保持行业领先的同时,腾讯云也一直秉承“开放合作”的理念,通过腾讯云媒体处理(MPS)产品,将腾讯在音视频领域的自研和深度积累,以公有云、私有云、可集成 SDK/LIB 库等多种方式提供给行业客户和广大开发者。在本次比赛中大放异彩的腾讯 TVQA-C 视频质量评估算法未来也将在腾讯云媒体处理(MPS)产品中落地,帮助 MPS 媒体质检评测系统进一步提升产品能力,为企业提供更优质的全链路媒体质量监控与分析服务,为离线、直播等多场景下 QoS 和 QoE 相关指标保驾护航。

腾讯云媒体处理(MPS)媒体质检具备格式诊断、内容质检、无参考评分、高可编排、部署灵活、支持定制等六大优势,能够分析流信息、时间信息、流状态、容器封装和解码等异常情况,支持丰富的视频封装格式和编码格式,具备智能检测黑屏、绿屏、遮挡、冻结以及对于音频的噪声回声等 20 余种异常检测。视频编码和主观评价能力相结合,将助力腾讯云打造更为行业领先的媒体处理能力,给用户带来更便捷优质、更清晰流畅的视频体验。

用户头像

Geek_2d6073

关注

还未添加个人签名 2021-12-22 加入

还未添加个人简介

评论

发布
暂无评论
腾讯TVQA斩获ECCV 2024压缩视频质量评估比赛冠军_Geek_2d6073_InfoQ写作社区