CVPR 2024 | 快手 8 篇论文入选计算机视觉顶会
IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR)是国际顶级计算机视觉和模式识别领域的学术盛会。作为计算机视觉领域的三大顶会之一,CVPR 的投稿量逐年攀升,官方发文称,今年共提交了 11532 份有效论文,2719 篇论文被接收,录用率为 23.6%。创历史新高!其中,快手 8 篇论文入选 CVPR2024,涵盖文生图评估方法、视频质量评估、视频修复增强、3D 生成、跨域检索等多个方向(排名不分先后),欢迎大家共同交流讨论。
论文 01:Learning Multi-dimensional Human Preference for Text-to-Image Generation
| 论文地址:https://arxiv.org/pdf/2405.14705
| 论文简介:当前文本生成图像模型的评估指标通常依赖于统计性的指标,这些指标不足以充分代表人类的真实偏好。尽管最近的研究试图通过人工标注图像来学习这些偏好,但它们将人类丰富的偏好简化为一个单一的总体评分。然而,当人类在不同方面评估图像时,偏好结果会有所不同。因此,为了学习多维的人类偏好,我们提出了多维偏好评分(MPS),这是首个用于评估文本生成图像模型的多维偏好评分模型。MPS 在 CLIP 模型上引入了偏好条件模块,以学习这些多样化的偏好。它基于我们收集的人类多维偏好(MHP)数据集进行训练,该数据集包含 918,315 个人类偏好选择,涉及 607,541 张图像的四个维度(即美学、语义对齐、细节质量和总体评估)。这些图像由多种最新的文本生成图像模型生成。在三个评估数据集和四个偏好维度上,MPS 的表现优于现有的评分方法,使其成为评估和改进文本生成图像的有前景的指标。该模型和数据集将公开,以促进未来的研究。
* 本篇为可图大模型团队自研
论文 02:KVQ: Kwai Video Quality Assessment for Short-form Videos
| 论文地址:https://arxiv.org/abs/2402.07220
| 项目主页:https://lixinustc.github.io/projects/KVQ/
| 论文简介:短视频 UGC 平台(如快手、抖音、视频号)凭借着用户友好、创作内容丰富的优势,已经成为一种新兴的、不可替代的主流媒体形式。然而,诸如特效类的内容生产模式和平台内部复杂的处理流程给视频质量评估带来了重大挑战:1.特效和失真内容混淆影响了质量决定区域的识别;2.多种复杂的混和失真难以区分。为了应对上述挑战并协助短视频的发展,我们建立了第一个用于质量评估的大型短视频数据集 KVQ,其中包括 600 个用户上传的短视频和 3600 个经过增强、前处理、转码等多种实际处理工作流程的处理视频。其中,每个视频的 MOS 和不可区分样本的排序分数由视觉专家提供。在此基础上,我们提出了首个短视频质量评估器 KSVQE,它使质量评估器能够利用大型视觉语言模型的内容理解来识别质量决定的语义,并利用失真理解模块来区分失真。实验结果表明了 KSVQE 在我们的 KVQ 数据集和主流的 VQA 测试基准上的有效性。
同时,基于 KVQ 数据集,我们在 CVPR NTIRE Workshop 上举办了首届短视频质量评估比赛,共吸引 200 多支国内外高校、企业参赛,共同促进了短视频质量评估领域的发展。
* 本篇为音视频技术部与中国科学技术大学合作研究
论文 03:PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild
| 论文地址:https://arxiv.org/abs/2405.17765
| 论文简介:视频质量评估是一个具有挑战性的问题,有许多因素会影响视频的感知质量,例如内容吸引力、失真类型、运动的类型和程度等。然而,对视频的平均意见分(MOS)进行标注是昂贵且耗时的,这限制了 VQA 数据集的规模,并对基于深度学习的方法构成了重大障碍。在本文中,我们提出了一种名为 PTM-VQA 方法,该方法从预模型中转移知识,从而提升 VQA 的准确性,缓解了对海量标注数据的依赖。具体地,我们从不同的预训练模型中提取视频的特征,并对它们进行整合以生成表示。由于这些模型拥有不同领域的知识,并且通常使用与质量无关的标签进行训练,因此我们提出了样本内一致性和样本间区分性损失函数(ICID loss),对提取的特征施加约束。样本内一致性约束保证了不同预训练模型提取的特征在统一的质量感知潜在空间中;样本间区分性约束引入基于样本标注的伪聚类,试图从不同聚类中分离样本特征。此外,随着预训练模型数量的不断增加,确定使用哪些模型以及如何使用它们至关重要。为了解决这一问题,我们提出了一种有效的方案来选择合适的候选预训练模型。大量的实验证明了该方法的有效性。
* 本篇为音视频技术部与清华大学合作研究
论文 04:CPGA: Coding Priors-Guided Aggregation Network for Compressed Video Quality Enhancement
| 论文地址:https://arxiv.org/abs/2403.10362
| 代码开源:https://github.com/VQE-CPGA/CPGA
| 论文简介:近年来,许多方法在压缩视频质量增强(VQE)领域取得了显著进展,但这些方法未能充分利用在压缩视频过程中蕴含的编码先验信息,例如运动向量和残差帧等,这些先验包含了压缩视频中丰富的时序和空域特性。为解决这一局限,我们设计了一种编码先验引导聚合网络(CPGA),通过帧间时序聚合、多尺度非局部聚合及质量增强模块,有效利用编码先验提升时空特征表示能力。CPGA 网络主要包括两个关键模块:一是帧间时序聚合模块,负责连续帧及编码先验中的时序信息的聚合;二是多尺度非局部聚合模块,该模块在残差帧的引导下聚合全局空域信息。此外,为进一步推动 VQE 领域的研究,我们构建了一个全新的压缩视频编码先验数据集 VCP,包含 300 个原始视频和多种 HEVC 编码配置下的编码先验(如运动矢量、预测帧、残差帧等),有效弥补了现有数据集中编码先验缺失的空白。实验结果证明,CPGA 在 PSNR 等客观指标上超越了现有 SOTA 方法,并在推理速度上提升了 10%,展现出了优越的性能。
* 本篇为音视频技术部与电子科技大学合作研究
论文 05:UDiFF: Generating Conditional Unsigned Distance Fields with Optimal Wavelet Diffusion
| 论文地址:https://arxiv.org/abs/2404.06851
| 项目主页:https://weiqi-zhang.github.io/UDiFF/
| 代码开源:https://github.com/weiqi-zhang/UDiFF
| 论文简介:扩散模型在图像生成、编辑和修补方面表现出了卓越的成果。近期的研究探索了通过神经隐函数(如有符号距离函数和占据函数)进行 3D 形状生成。然而,这些方法仅限于闭合曲面的形状,无法生成包含开放曲面的多样化 3D 真实内容。本文提出了一种新的 3D 扩散模型 UDiFF,该模型基于无符号距离场(UDF),能够根据文本条件或无条件地生成具有开放曲面的带纹理的 3D 形状。
本论文创新点:UDiFF 模型:提出了 UDiFF,一种适用于无符号距离场的 3D 扩散模型,能够生成具有开放曲面和真实纹理的 3D 形状。
优化小波变换:引入了一种通过数据驱动优化的小波变换,以创建适合 UDF 生成的紧凑表示空间,在频域中生成 UDF。
评估与比较:通过数值和视觉比较,评估了 UDiFF 在广泛使用的基准测试上的优势,显示出相对于现有最新方法的优越性。
* 本篇为清华大学刘玉身团队与快手合作研究
论文 06:ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval
| 论文地址:https://arxiv.org/abs/2312.12478
| 项目主页:https://github.com/fangkaipeng/ProS
| 论文简介:通用跨域检索(UCDR)的目标是在泛化测试场景中实现稳健的检索。最近,经过提示词微调的预训练模型已经显示出强大的泛化能力,并在各种下游任务中取得了令人瞩目的成就,如少量学习和视频文本检索。然而,将它们直接应用于 UCDR 可能不足以同时处理领域转移(即适应陌生领域)和语义转移(即转移到未知类别)的问题。为此,我们提出了 Prompting-to- Simulate(ProS),这是第一种为 UCDR 进行提示词微调的方法。ProS 采用两个步骤来模拟基于内容感知的动态提示词(CaDP),这可以影响模型,从而为 UCDR 生成通用的特征。具体来说,在 “提示单元学习 ”阶段,我们引入了两个 “提示单元”,以掩码和对齐的方式单独捕捉领域和语义知识。然后,在上下文感知模拟器学习阶段,我们在模拟测试场景下训练内容感知提示词模拟器,以生成相应的 CaDP。
本文创新点:
我们首次研究如何借助提示词微调方法将 CLIP 迁移到 UCDR 任务。
我们提出了一种基于提示的方法,名为 “模拟提示”(Prompting-to-Simulate,ProS),它可以学习处理开放场景的通用知识。
在三个基准数据集上的广泛实验表明与基于提示的方法相比,我们的 ProS 在不带来过多参数的情况下,取得了最先进的新结果。
* 本篇为电子科技大学与快手合作研究
论文 07:Perception-Oriented Video Frame Interpolation via Asymmetric Blending
| 论文地址:https://arxiv.org/pdf/2404.06692
| 论文简介:以往的视频帧插帧(Video Frame Interpolation, VFI)方法遇到了一些挑战,特别是在运动较大的情况下容易有模糊和重影效果出现。这些问题可以归因于两个关键因素:不可避免的运动误差和监督中的错位。在实际操作中,运动估计常常会出现误差,导致特征错位。此外,重建损失往往会带来模糊的结果,尤其是在目标错位的区域。
为了缓解这些挑战,我们提出了一种新的范式,称为 PerVFI(面向感知的视频帧插值)。我们的方法包含一个非对称协同融合模块(Asymmetric Synergistic Blending, ASB),该模块利用两侧的特征协同融合中间特征。其中一个参考帧强调主要内容,而另一个则提供补充信息。为了对融合过程施加严格的约束,我们引入了一种自学习的稀疏准二元掩码,有效减少了输出中的重影和模糊伪影。此外,我们采用基于正则化流(normalizing flow)的生成器,并利用负对数似然损失来学习输出的条件分布,从而进一步促进清晰细节的生成。实验结果验证了 PerVFI 的优越性,显示出在感知质量方面相比现有方法的显著改进。
* 本篇为由上海交通大学、快手、Seekoo、电子科技大学与深圳先进院等合作完成
论文 08:TEA: Test-time Energy Adaptation
| 论文地址:https://arxiv.org/abs/2311.14402
| 论文简介:测试时适应(TTA)旨在提高模型在测试数据与训练分布发生偏移时的泛化能力,其独特优势在于不需要访问训练数据和过程,这在使用预训练模型的情境中尤为宝贵。然而,当前的 TTA 方法未能解决一个根本问题:协变量偏移,即泛化能力下降可归因于模型依赖训练数据的边缘分布,这可能会损害模型的校准并引入偏误。为了解决这一问题,我们提出了一种新的基于能量的视角,增强模型对目标数据分布的感知,而无需访问训练数据或过程。基于这一视角,我们提出了测试时能量适应(TEA),它将训练好的分类器转变为基于能量的模型,并使其模型内建分布与测试数据分布对齐,增强模型对测试分布的感知能力,从而提高整体泛化能力。通过在多个任务、基准和架构上的广泛实验,TEA 展示了其相较于最先进方法的卓越泛化性能。进一步的分析实验也揭示了 TEA 能够使模型全面感知测试分布,为提高泛化能力和校准开辟了一条新的道路。
* 本篇为中科院计算所与快手合作研究
评论