快手 8 篇论文入选机器学习领域顶会 ICML 2025!

导读:快手 8 篇论文入选机器学习领域顶会 ICML 2025,研究涵盖了多模态情感大模型、机器学习单调建模、因果效应估计结果、级联排序系统一体化建模、统一生成理解框架、图像压缩、图像超分等前沿领域的成果。
ICML(International Conference on Machine Learning)作为机器学习领域的全球顶级学术盛会,由国际机器学习学会(IMLS)主办,并被中国计算机学会(CCF)列为 A 类国际权威会议。第 42 届 ICML 将于 7 月 13 日至 19 日在温哥华会议中心举办。近日,大会正式公布论文录取结果,快手凭借在人工智能领域的持续创新与突破,共有 8 篇高质量论文脱颖而出,这些研究聚焦于多模态情感大模型、机器学习单调建模、因果效应估计结果、级联排序系统一体化建模、统一生成理解框架、图像压缩、图像超分等前沿领域研究。本文将系统解读入选论文的核心贡献与技术亮点,期待与学界同仁深度交流与思想碰撞。

论文 01:MODA: MOdular Duplex Attention for Understanding Multimodal Perception, Cognition, and Emotion Understanding
| 论文链接:https://openreview.net/pdf?id=9hd5WA6QCn
| 论文简介:情智兼备数字人与机器人处理多模态的人类交互信息,挖掘人的内在情感状态,从而进行更真实、更自然的回应。然而,面对多模态情智解译的挑战,如何在多模态情感数据语义复杂的背景下建模模态之间的关联,仍然是一个亟待解决的关键问题。
南开大学与快手可灵团队在「多模态情感大模型」领域开展了首次探索,成功定位了现有多模态大模型在情感线索捕捉中的关键短板。从多模态注意力机制的角度出发,提出了新的模块化双工注意力机制,并基于此构建了一个涵盖感知、认知与情感能力的多模态大模型‘摩达(MODA)’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的 21 个基准测试中均取得了显著性能提升。通过新的注意力机制加持,‘摩达’大模型在角色剖析与规划演绎等人机交互应用中表现出色。目前,该研究成果已被遴选为焦点论文(Spotlight,Top 2.6%)。

论文 02:Learning Monotonic Probabilities with a Generative Cost Model
| 论文链接:https://arxiv.org/pdf/2506.03542
| 项目代码:https://github.com/tyxaaron/GCM
| 论文简介:在许多机器学习任务中,输入和输出变量之间的关系通常需要是单调的,包括严格单调和隐式单调关系。传统的保持单调性的方法主要依赖于构造或正则化技术。本文表明,严格单调概率的问题可以被视为一个可观察的收益变量与一个潜在成本变量之间的偏序关系。这一视角使我们能够将单调性挑战重新表述为对潜在成本变量的建模。为了解决这个问题,我们引入了一个用于潜在成本变量的生成网络,称为生成成本模型(GCM),它自然地解决了严格单调问题。此外,我们提出了隐式生成成本模型(IGCM)来解决隐式单调问题。我们进一步通过分位数回归的数值模拟验证了我们的方法,并在公共数据集上进行了多次实验,结果表明我们的方法显著优于现有的单调建模技术。

论文 03:Generalizing Treatment Effects from Randomized Controlled Trials across Environments
| 论文简介:因果效应估计结果在环境偏移场景下的跨环境泛化是因果推断领域的一项重要挑战。现有方法通常基于分离集合(Separating Set)对原始环境的因果效应估计结果向目标环境进行泛化,但这些方法需假设分离集合在两组环境中都完全可观测,这一假设在真实应用场景中难以满足。为了克服上述难题,本文提出两阶段双稳健估计方法(Two-Stage Doubly Robust, 简称 2SDR),该方法将已有方法的假设放宽到仅需分离集合在原始环境或目标环境其中任意一个环境中可观测,拓宽了因果效应的可泛化边界。具体来说,2SDR 通过自动选择影子变量实现了对分离集合中缺失变量的无偏补全,并进一步采用双重稳健方法将原始环境的因果效应估计泛化到目标环境。该方法在可识别性和一致性理论上得到严格证明,并在合成数据集和真实数据集上通过广泛实验验证了其正确性与有效性。

论文 04:Learning Cascade Ranking as One Network
| 论文链接:https://arxiv.org/abs/2503.09492
| 项目代码:https://github.com/kwai/LCRON
| 论文简介:级联排序(Cascade Ranking) 是大规模 top-k 选择系统(如推荐系统和广告平台)中广泛采用的一种架构。传统的训练方法通常专注于单阶段优化,忽略了各个阶段之间的相互作用。尽管近期的研究提出了考虑阶段间交互的训练范式,但仍面临两个关键挑战:
训练目标与整个级联排序系统的最终目标(即端到端地召回 Ground-truth 项目)不一致;
难以充分学习不同阶段之间有效的协作模式。
为了解决这些问题,我们提出了 LCRON,该方法引入了一种新的代理损失函数,该函数可以直接优化 Ground-truth 项目在整个级联排序过程中生存概率的下界,从而确保了训练目标与系统整体目标的一致性。根据所推导出的下界的性质,我们进一步为每个阶段设计了一个辅助损失函数,以驱动该下界的缩紧,从而实现更鲁棒、更有效的 top-k 集合选择。
LCRON 能够将整个级联排序系统作为一个统一的网络进行端到端训练。实验结果表明,LCRON 在公共基准数据集和工业应用中均显著优于现有方法,解决了级联排序训练中的关键限制,并大幅提升了系统性能。LCRON 目前已经在快手商业化场景全量,完成了召回、粗排的统一,并成为了线上占比最大的通路。此外,LCRON 训练的模型更便于以一体化的方式部署在一个模型服务中,可以有效精简引擎模块,降低链路通信与存储开销,具备显著的系统成本优化潜力。
论文 05:MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
| 论文链接:https://arxiv.org/abs/2502.10391
| 论文简介:尽管多模态大型语言模型(MLLMs)取得了显著进步,但大多数最先进的模型尚未经过与人类偏好的充分对齐。这种差距存在的原因是目前的对齐研究主要在特定领域内取得进展(例如幻觉减少),而关于是否可以通过将模型与人类偏好进行系统性对齐来提高多模态大语言模型能力这一更广泛的问题则尚待探索。为此,我们引入了 MM-RLHF 数据集,该数据集包含 120,000 对精细的人工注释的偏好对比样本。此数据集代表了现有资源的重大进步,提供了更大规模、更多样化、更细致和高质量的数据。 利用这一数据集,我们提出了一系列关键创新以提高奖励模型的质量和对齐算法的效率。特别是,我们引入了一种基于批评的奖励模型,在给输出打分之前先生成对其批评,与传统的标量奖励机制相比提供了更高的可解释性和更有信息性的反馈。此外,我们还提出了动态奖励缩放方法,该方法根据每个样本的奖励信号调整损失权重,从而优化高质量对比对的使用。 我们的方法在 10 个不同的维度和 27 个基准上进行了严格的评估,结果显示模型性能在多个方面都有显著且一致的进步。具体而言,在 LLaVA-ov-7B 基础上与 MM-RLHF 数据集结合进行微调,并应用我们提出的对齐算法后,对话能力提升了 19.5%,安全性提高了 60%。

论文 06:Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads
| 论文链接:https://arxiv.org/abs/2412.00127
| 项目代码:https://github.com/zhijie-group/Orthus
| 论文简介:
现有多模态模型通常在文本和图像的统一建模上遇到困难:
完全自回归模型通过矢量量化将图像转换为离散标记,但这会导致不可避免的信息损失;
而 AR 与扩散混合模型则因其固有的噪声干扰,难以高效协调图像理解与生成任务。
为应对这些挑战,Orthus 提出了一种创新框架。在输入端,Orthus 采用了一个可微分的视觉嵌入模块,它通过“软嵌入”技术直接处理连续的图像特征,从根本上规避了传统矢量量化所导致的信息瓶颈。这些无损的视觉特征与文本标记一同被送入一个统一的自回归 Transformer 主干进行建模。在输出端,模型则通过两个模态特定的头部来生成内容:一个是常规的语言模型头用于预测离散文本,另一个是新颖的扩散头用于生成连续的图像特征。这种输入无损、统一处理、输出分离的架构,不仅保留了输入的完整信息,还巧妙地绕开了其他混合模型中的噪声干扰问题,能够以完全自回归的方式直接、灵活地刻画图文模态间的复杂关联。实验结果表明,Orthus 不仅在多个视觉理解指标上超越了 Chameleon 和 Show-o 等竞争模型,还在图像编辑、图文交错生成等任务上展现了强大的能力。我们的代码已开源。

论文 07:Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion
| 论文链接:https://arxiv.org/abs/2505.08281
| 论文简介:现有的基于多模态大模型的图像压缩框架通常依赖语义检索、潜空间压缩、生成模型的"碎片化"集成,一方面重建保真度不符合编码压缩领域的需求,另一方面也会导致编码效率的降低。为解决这些问题,我们联合南京大学提出了基于残差的超低码率图像压缩方法 ResULIC (Residual-guided Ultra lowrate Image Compression)。该方法引入语义残差编码、压缩感知扩散模型,兼顾了压缩效率和重建保真度,在超低码率限制下,生成了超高保真度、细节纹理丰富的图像。具体来说,图像首先经过特征压缩将图像映射到潜空间,得到其潜在特征表示。随后语义残差编码部分通过分析解码图像和原始图像生成优化描述。这个过程中,为进一步提升重建质量,还应用了感知保真优化器(Perceptual Fidelity Optimizer)。最后,我们提出了压缩感知扩散模型 CDM,将文本信息和压缩后的图像信息融合成条件信号,通过 CDM 扩散模型,获取最终输出的重建图像。本文提出的算法在客观指标和主观视觉质量上,均优于现有的 SOTA 方法,和前序同样使用基于 Diffusion 的 SOTA 算法 PerCo 对比起来,ResULIC 在 LPIPS 和 FID 上分别实现了 80.7%和 66.3%的 BD-rate 节省。

论文 08:VARSR: Visual Autogressive Modeling for Image Super Resolution
| 论文链接:https://arxiv.org/abs/2501.18993
| 论文简介:图像超分辨率(Image Super-Resolution, ISR)作为提升图像清晰度与细节还原的重要技术,近年来在生成模型的推动下取得了显著进展。尽管如此,如何在图像的真实感与保真度之间取得平衡,以及高昂的计算成本,仍是制约其广泛应用的关键难题。受自然语言领域自回归生成模型成功经验的启发,我们提出了一种新颖的视觉自回归超分辨率方法 VARSR(Visual AutoRegressive modeling for image Super-Resolution),通过逐尺度预测(Next-Scale Prediction)的方式,从低分辨率图像逐步构建高质量图像。为了更好地保留图像的语义信息,我们引入了前缀标记(Prefix Tokens)作为条件引导机制。同时,我们设计了尺度对齐的旋转位置编码(Scale-Aligned Rotary Positional Encoding),用于更有效地建模图像的空间结构。为进一步提升图像细节的还原能力,我们在生成过程末端引入了 Diffusion Refiner 模块,用于精细建模量化残差,实现像素级保真重建。此外,我们还提出了一种基于图像的无分类器引导机制(Image-based Classifier-Free Guidance),在不依赖外部分类器的情况下,有效提升生成图像的真实感。实验结果表明,VARSR 不仅在图像保真度和真实感之间实现了更优的平衡,还在效率上优于传统的扩散式(Diffusion-based)方法,展现出强大的生成能力和广阔的应用潜力。

结语
作为一家以人工智能为核心驱动和技木依托的科技公司,快手致力于不断深化研发投入,将技术作为强劲引擎,驱动业务的迅猛增长。同时,快手将在人工智能领域持续探索,将前沿科技在业务场景中落地应用。欲了解更多关于论文的详尽内容及深度解读,敬请密切关注快手技术公众号的后续推文。
评论