写点什么

连续两年入选 CVPR !快手 KVQ,大模型加持的视频质量评价“黄金眼”

作者:快手技术
  • 2024-06-18
    北京
  • 本文字数:2907 字

    阅读完需:约 10 分钟

每天,人类创造出约 1.77 亿 TB 的视频数据,累计时长足以从史前时代连续播放到现在。


如何准确评判视频质量,并兼顾成本和体验,让有限的带宽和算力真正用在“刀刃”上,是一大难题。

此外,视频从生产到消费的链路很长,编码、处理、传输等环节都会对画质造成影响,业界需要有的放矢,为改善用户体验找到有效依据

人们一直在寻找一把尺子,让复杂的画质指标可以被准确量化,在全链路、全场景实现精准的视频质量评估,喊出那句:

我的眼睛就是尺

随着快手 KVQ 的问世,这把尺子,终于来了。

KVQ(Kuaishou Visual Quality),是一套快手自研的图像/视频质量评估方法。它基于海量的视频数据+AI 大模型训练而成,是针对视频质量的科学量化的衡量手段。

快手丰富海量的视频内容和数据积累训练,让 KVQ 具备极强泛化性

快手 KVQ 的感知能力优势

KVQ 在视频质量评估的过程中,会综合感知两方面指标:

● 视频质量分析(能不能看):模糊检测、块效应检测、镜头脏污、噪声检测和交错检测


● 视频内容理解(好不好看):大光圈检测、横竖屏检测、三段式检测、无意义检测和场景识别

前者有助于识别视频的基础画质问题,后者则是对抽象性特征的分析,二者综合判断,从而帮助后续的视频处理决策和分发决策



● KVQ 感知能力和评分维度一览(点击查看大图)


相比传统的视频质量评价方法,KVQ 更适合内容、编码和处理手段更多样的平台。

在 PGC 和 UGC 测试场景下,KVQ 准确率均超过传统画质评价算法,已经可以媲美人眼主观评价

快手 KVQ 解决的痛点

● 准确的视频质量评价标准,将复杂的评价体系进行科学量化


● 全链路任一节点的视频质量评估,并辅助归因与调整,指导画质处理与编码


● 帮助确定成本与画质的均衡点,实现质效统一



面向音视频场景

KVQ 作为画质的准绳,如何在【生产-处理增强-编码-消费】每个环节进行全链路画质监督与衡量呢?



● 监测:在拍摄/编辑/推流等环节,提前诊断画质隐患,从生产源头发现画质风险。

● 提醒:基于画质问题的原因,提供“白盒化”提醒方案,更针对性地给出改善画质的举措建议:如擦镜头、开灯;或开启端侧画质增强来进一步修复。

● 处理前:KVQ 是画质增强算法(去模糊、去噪声、去块效应等)开发过程的“判卷人”——每一次处理增强算法的迭代都可交给 KVQ“判卷”,验证效果,提升研发效率。

● 处理中:基于 KVQ 基础特征给出的视频损伤检测结果,更具针对性地触发不同类型的增强算法,对算力进行靶向规划减少算力浪费

● 处理后:在增强处理后,KVQ 的分数可用来判断是否出现 badcase,进而决策是否重新优化算法。

● 基于 KVQ 对「编码码率-质量曲线」的实时预测(不同码率档位,对应的质量曲线斜率不同),去保障带宽的合理控制,和画质体验的最佳水平。



● 转码压缩后的画质监督——避免“省了带宽但丢了画质”,防止画质劣化。

● 多码率决策:将清晰度量化,在保障流畅播放的前提下,下发清晰度最高的档位。

● 触发端侧后处理:基于 KVQ 的判断,分析一个作品是否适合做后处理(如:端侧超分),进而提升低质作品清晰度。

● 清晰度长期监控:视频生产-处理-消费的全链路定期巡检,通过 KVQ 分数,判断大盘清晰度是否正常,进而辅助归因与干预。

● 快速排障:在点直播全链路中,基于 KVQ 的分数判断,辅助快速定位造成清晰度明显损失的环节,提升排障效率。

面向运营、分发、搜索场景

KVQ 可以帮助筛选优质内容,减少低质内容隐患,提升运营效率

● 机审环节:劣质(无意义、黑屏)过滤 ;低质(模糊、噪声过高)限权。

● 人审环节:作品在获取一定热度之后,KVQ 可以辅助审核人员,判断视频画质是否适合继续享有更高流量。

● 让低质视频降权,保证用户消费生态体验。

● 让精品视频池“蓄水” ,保障精品池作品清晰。

● 促进新作品冷启动 —— 准确识别画质层面的潜力,帮助热度快速爬坡。

● 基于 KVQ 给出的画质评价,对搜索结果重排。

● 提升优质作品排序,提升点击。

目前,KVQ 已经全面应用于快手的点直播的生产、转码、消费全链路,同时也已经面向头部客户开放技术支持。



传统的视频质量评价方法——大体分为主观方法和客观方法。

主观方法以人工方式,邀请画质专家评估视频质量。虽然准确度高,但人力成本巨大缺乏时效性,不适合规模投入。

客观方法基于设计出的算法模型,在机器上自动执行视频质量评估(如 SSIM、VMAF、PSNR 等传统业界标杆方法)。这类方法依据人工对视频失真的理解来设计,容易因考虑不周或难以实现,使得模型对视频质量表示不充分,特别是在面对海量 UGC 视频时,可能出现误判。

比如一个源视频,在处理阶段经过了过度的锐化。在人眼主观看来会觉得观感不佳,但在传统评价方法看来,可能反而觉得效果不错。



● 实验室训练集 vs 真实的视频数据

在生产阶段,UGC 种类繁杂,源视频质量也参差不齐;而在处理增强阶段,对视频画质的处理方式也不尽相同;到了编码阶段,平台为保障不同网络下顺利播放,对源视频的编码档位各异。此外,为了提升消费侧体验,平台也会触发端侧的画质增强。

各种环节的叠加,加剧了画质问题的复杂性。对传统的评价模式来说,严重超纲容易失灵

那么 KVQ 在训练过程中,如何摆脱传统方法的瓶颈

数据融合训练,“大力出奇迹”

基于快手海量、丰富的视频标注数据,KVQ 在训练过程中触达的场景多元,足够“见多识广”

站在巨人的肩膀,让 KVQ 足以应对复杂的 UGC 短视频特征,实现准确评价。



● 训练过程中,基于快手海量素材,KVQ 足够见多识广

大模型训练,创造“代差优势”

快手始终在音视频技术领域坚持前沿探索与技术验证,率先投入大模型预训练实践:

● 大模型预训练技术,基于海量的 UGC 视频数据和领先的 Transformer 架构实现 AI 推理,让 KVQ 在面对不同类型视频时可以“触类旁通”,理性评价。

● 多维的失真感知能力:即空间感知(图像内容本身的失真感知)、时间感知(视频播放过程中,连续时域上的失真变化感知)。

迭代飞轮,快速优化表现

● KVQ 在应用场景中持续收集 badcase 反馈(快手内部+客户侧的反馈和需求),并不断迭代。

● 针对线上消费侧视频大盘进行巡检,定期捞取检测,发现问题。

● 针对内容多样性、处理多样性、编解码多样性等问题,KVQ 持续调优,目前已迭代至第五代,多个场景均达到 Golden Eye(人眼的最佳主观评价)水平。

当前,KVQ 无论是和学术界众多领先方法的效果比对,还是和工业界的标杆方法比对,都展示了出众的技术优势。

KVQ 与业界标杆对比

KVQ 的保序性表现优秀

保序性作为视频质量评估重点依赖的指标,与终极目标挂钩——是否与人眼主观感受质量一致

其逻辑在于:在同源视频对的清晰度区分中,评估【机器预测顺序】与【人眼主观顺序】的一致性,包含点播/直播多档位、分辨率、多码率等测试场景。

KVQ 在以下多个场景维度的保序性指标,均达到 Golden Eye 水平。

在已经拉开帷幕的计算机视觉顶会 CVPR 2024 中,快手KVQ相关论文被正式收录,展示了 KVQ 在短视频平台上进行视频质量评估的重要作用。

基于快手的海量用户反馈迭代,KVQ 的泛化性越来越高,目前已经服务多家头部互联网客户,有效帮助客户实现高效准确的视频质量评估

视频平台的成本和体验,始终是天平上难以取舍的两端。KVQ 这把尺子,经过千锤百炼,为打造极致的音视频体验而生,将持续帮助更多行业伙伴,在天平上找到最优解。

发布于: 刚刚阅读数: 4
用户头像

快手技术

关注

还未添加个人签名 2024-05-15 加入

快手官方技术号,即时播报快手技术实践的最新动态 关注微信公众号「快手技术」

评论

发布
暂无评论
连续两年入选CVPR !快手KVQ,大模型加持的视频质量评价“黄金眼”_音视频_快手技术_InfoQ写作社区