连续两年入选 CVPR !快手 KVQ,大模型加持的视频质量评价“黄金眼”
每天,人类创造出约 1.77 亿 TB 的视频数据,累计时长足以从史前时代连续播放到现在。
如何准确评判视频质量,并兼顾成本和体验,让有限的带宽和算力真正用在“刀刃”上,是一大难题。
此外,视频从生产到消费的链路很长,编码、处理、传输等环节都会对画质造成影响,业界需要有的放矢,为改善用户体验找到有效依据。
人们一直在寻找一把尺子,让复杂的画质指标可以被准确量化,在全链路、全场景实现精准的视频质量评估,喊出那句:
“我的眼睛就是尺”
随着快手 KVQ 的问世,这把尺子,终于来了。
KVQ(Kuaishou Visual Quality),是一套快手自研的图像/视频质量评估方法。它基于海量的视频数据+AI 大模型训练而成,是针对视频质量的科学量化的衡量手段。
快手丰富海量的视频内容和数据积累训练,让 KVQ 具备极强泛化性。
快手 KVQ 的感知能力优势
KVQ 在视频质量评估的过程中,会综合感知两方面指标:
● 视频质量分析(能不能看):模糊检测、块效应检测、镜头脏污、噪声检测和交错检测
● 视频内容理解(好不好看):大光圈检测、横竖屏检测、三段式检测、无意义检测和场景识别
前者有助于识别视频的基础画质问题,后者则是对抽象性特征的分析,二者综合判断,从而帮助后续的视频处理决策和分发决策。
● KVQ 感知能力和评分维度一览(点击查看大图)
相比传统的视频质量评价方法,KVQ 更适合内容、编码和处理手段更多样的平台。
在 PGC 和 UGC 测试场景下,KVQ 准确率均超过传统画质评价算法,已经可以媲美人眼主观评价。
快手 KVQ 解决的痛点
● 准确的视频质量评价标准,将复杂的评价体系进行科学量化
● 全链路任一节点的视频质量评估,并辅助归因与调整,指导画质处理与编码
● 帮助确定成本与画质的均衡点,实现质效统一
面向音视频场景
KVQ 作为画质的准绳,如何在【生产-处理增强-编码-消费】每个环节进行全链路画质监督与衡量呢?
● 监测:在拍摄/编辑/推流等环节,提前诊断画质隐患,从生产源头发现画质风险。
● 提醒:基于画质问题的原因,提供“白盒化”提醒方案,更针对性地给出改善画质的举措建议:如擦镜头、开灯;或开启端侧画质增强来进一步修复。
● 处理前:KVQ 是画质增强算法(去模糊、去噪声、去块效应等)开发过程的“判卷人”——每一次处理增强算法的迭代都可交给 KVQ“判卷”,验证效果,提升研发效率。
● 处理中:基于 KVQ 基础特征给出的视频损伤检测结果,更具针对性地触发不同类型的增强算法,对算力进行靶向规划,减少算力浪费。
● 处理后:在增强处理后,KVQ 的分数可用来判断是否出现 badcase,进而决策是否重新优化算法。
● 基于 KVQ 对「编码码率-质量曲线」的实时预测(不同码率档位,对应的质量曲线斜率不同),去保障带宽的合理控制,和画质体验的最佳水平。
● 转码压缩后的画质监督——避免“省了带宽但丢了画质”,防止画质劣化。
● 多码率决策:将清晰度量化,在保障流畅播放的前提下,下发清晰度最高的档位。
● 触发端侧后处理:基于 KVQ 的判断,分析一个作品是否适合做后处理(如:端侧超分),进而提升低质作品清晰度。
● 清晰度长期监控:视频生产-处理-消费的全链路定期巡检,通过 KVQ 分数,判断大盘清晰度是否正常,进而辅助归因与干预。
● 快速排障:在点直播全链路中,基于 KVQ 的分数判断,辅助快速定位造成清晰度明显损失的环节,提升排障效率。
面向运营、分发、搜索场景
KVQ 可以帮助筛选优质内容,减少低质内容隐患,提升运营效率。
● 机审环节:劣质(无意义、黑屏)过滤 ;低质(模糊、噪声过高)限权。
● 人审环节:作品在获取一定热度之后,KVQ 可以辅助审核人员,判断视频画质是否适合继续享有更高流量。
● 让低质视频降权,保证用户消费生态体验。
● 让精品视频池“蓄水” ,保障精品池作品清晰。
● 促进新作品冷启动 —— 准确识别画质层面的潜力,帮助热度快速爬坡。
● 基于 KVQ 给出的画质评价,对搜索结果重排。
● 提升优质作品排序,提升点击。
目前,KVQ 已经全面应用于快手的点直播的生产、转码、消费全链路,同时也已经面向头部客户开放技术支持。
传统的视频质量评价方法——大体分为主观方法和客观方法。
主观方法以人工方式,邀请画质专家评估视频质量。虽然准确度高,但人力成本巨大,缺乏时效性,不适合规模投入。
客观方法基于设计出的算法模型,在机器上自动执行视频质量评估(如 SSIM、VMAF、PSNR 等传统业界标杆方法)。这类方法依据人工对视频失真的理解来设计,容易因考虑不周或难以实现,使得模型对视频质量表示不充分,特别是在面对海量 UGC 视频时,可能出现误判。
比如一个源视频,在处理阶段经过了过度的锐化。在人眼主观看来会觉得观感不佳,但在传统评价方法看来,可能反而觉得效果不错。
● 实验室训练集 vs 真实的视频数据
在生产阶段,UGC 种类繁杂,源视频质量也参差不齐;而在处理增强阶段,对视频画质的处理方式也不尽相同;到了编码阶段,平台为保障不同网络下顺利播放,对源视频的编码档位各异。此外,为了提升消费侧体验,平台也会触发端侧的画质增强。
各种环节的叠加,加剧了画质问题的复杂性。对传统的评价模式来说,严重超纲,容易失灵。
那么 KVQ 在训练过程中,如何摆脱传统方法的瓶颈?
数据融合训练,“大力出奇迹”
基于快手海量、丰富的视频标注数据,KVQ 在训练过程中触达的场景多元,足够“见多识广”。
站在巨人的肩膀,让 KVQ 足以应对复杂的 UGC 短视频特征,实现准确评价。
● 训练过程中,基于快手海量素材,KVQ 足够见多识广
大模型训练,创造“代差优势”
快手始终在音视频技术领域坚持前沿探索与技术验证,率先投入大模型预训练实践:
● 大模型预训练技术,基于海量的 UGC 视频数据和领先的 Transformer 架构实现 AI 推理,让 KVQ 在面对不同类型视频时可以“触类旁通”,理性评价。
● 多维的失真感知能力:即空间感知(图像内容本身的失真感知)、时间感知(视频播放过程中,连续时域上的失真变化感知)。
迭代飞轮,快速优化表现
● KVQ 在应用场景中持续收集 badcase 反馈(快手内部+客户侧的反馈和需求),并不断迭代。
● 针对线上消费侧视频大盘进行巡检,定期捞取检测,发现问题。
● 针对内容多样性、处理多样性、编解码多样性等问题,KVQ 持续调优,目前已迭代至第五代,多个场景均达到 Golden Eye(人眼的最佳主观评价)水平。
当前,KVQ 无论是和学术界众多领先方法的效果比对,还是和工业界的标杆方法比对,都展示了出众的技术优势。
KVQ 与业界标杆对比
KVQ 的保序性表现优秀
保序性作为视频质量评估重点依赖的指标,与终极目标挂钩——是否与人眼主观感受质量一致。
其逻辑在于:在同源视频对的清晰度区分中,评估【机器预测顺序】与【人眼主观顺序】的一致性,包含点播/直播多档位、分辨率、多码率等测试场景。
KVQ 在以下多个场景维度的保序性指标,均达到 Golden Eye 水平。
在已经拉开帷幕的计算机视觉顶会 CVPR 2024 中,快手KVQ相关论文被正式收录,展示了 KVQ 在短视频平台上进行视频质量评估的重要作用。
基于快手的海量用户反馈迭代,KVQ 的泛化性越来越高,目前已经服务多家头部互联网客户,有效帮助客户实现高效准确的视频质量评估。
视频平台的成本和体验,始终是天平上难以取舍的两端。KVQ 这把尺子,经过千锤百炼,为打造极致的音视频体验而生,将持续帮助更多行业伙伴,在天平上找到最优解。
版权声明: 本文为 InfoQ 作者【快手技术】的原创文章。
原文链接:【http://xie.infoq.cn/article/66e89d76f46fb4468025c8841】。文章转载请联系作者。
评论