写点什么

8 篇入选,1 项最佳论文提名!快手 AI 研究在 KDD2025 “全面开花”

作者:快手技术
  • 2025-08-05
    北京
  • 本文字数:5522 字

    阅读完需:约 18 分钟

8篇入选,1项最佳论文提名!快手AI 研究在KDD2025 “全面开花”

近日,快手 8 篇论文入选人工智能数据挖掘领域顶会 KDD 2025,研究涵盖推荐系统、多任务学习、多模态大模型、大语言模型、组合优化等前沿领域的成果。


KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是人工智能数据挖掘领域的国际顶级学术会议。 该会议一年举办一次,由 ACM 的数据挖掘及知识发现专委会主办。KDD 2025 将于 2025 年 8 月 3 日至 7 日在加拿大举办。近日,大会正式公布论文录取结果,快手凭借在人工智能领域的持续创新与突破,共有 8 篇高质量论文脱颖而出,这些研究聚焦于推荐系统、多任务学习、多模态大模型、大语言模型、组合优化等前沿领域研究。本文将系统解读入选论文的核心贡献与技术亮点,期待与学界同仁深度交流与思想碰撞。


论文一:VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform


论文链接:https://arxiv.org/abs/2504.14904


论文简介:随着短视频内容量的指数级增长,短视频平台在生态治理方面面临着前所未有的挑战:一方面,为了保证用户体验,避免劣质内容造成社会危害,平台需要更高效地识别和管理内容;另一方面,传统内容审核存在标注成本高、人为偏差大、审核标准难以适配热点动态等问题。多模态大模型在模态理解方面的卓越能力为短视频平台自动化内容审核提供了新的选项,然而,如何提升多模态大模型在内容审核任务上的表现,以及实现审核模型对线上热点的适配,目前缺乏成熟的解决方案。为了解决上述问题,快手提出 KuaiMod 方法,对利用多模态大模型重塑短视频生态做出了尝试。KuaiMod 包括如下三个方面的贡献:


(1)KuaiMod 劣质内容判别基准测试:KuaiMod 构建了面向快手生态的短视频劣质内容分类体系,包含 4 种主要劣质类别以及 15 种细粒度劣质类别。基于该体系构建的基准测试包含 1000 条短视频样本,涵盖 15 种细粒度劣质类别,并经过多轮人工标注以保证正确性。目前该基准测试已开源。


(2)KuaiMod 自动化内容判别方案:KuaiMod 为多模态大模型设计了包含离线适配和在线对齐的训练策略。在两阶段的训练中,训练数据经过 Tag2CoT 和 CoT2Tag 两个步骤,从原始的视频信息和标签形式化为状态转移格式的 CoT 数据。高质量数据和两阶段训练使得 KuaiMod 在线上取得了媲美人工审核的准确率,使用户举报率降低了 20%。


(3)基于用户反馈的强化学习训练+更新策略:区别于静态的规则或内容判别 API,KuaiMod 设计了基于用户反馈的强化学习范式,利用用户的线上反馈构造新的训练数据,通过迭代训练数据完成判别策略的更新。天级更新的审核服务实现了对短视频动态热点的快速追踪。

目前,该论文已获最佳论文荣誉提名。


更多技术解读可查看👉:行业首创!快手开源短视频内容质量评测标准KuaiMod!


论文二:Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed


论文链接:https://arxiv.org/pdf/2412.10381


I 论文简介:在短视频与直播混合推荐的场景中,直播推荐系统(RS)需要在每次用户请求时决定是否为视频信息流分配最多一个直播内容。然而,忽视直播分配对用户长期负面影响的不当策略,可能会显著影响用户在应用中的使用时长与留存率。为了最大化用户长期活跃度,准确决定是否进行直播分配的最优策略是至关重要的。近年来,强化学习(RL)被广泛应用于推荐系统中,以捕捉用户的长期兴趣。然而,传统强化学习算法常常面临收敛性差与训练不稳定等问题,这限制了其在大规模工业级推荐系统中的实际应用,尤其在上述这样具有挑战性的场景下尤为明显。


为了解决这些问题,我们提出了一种新颖的、融合监督学习的多组演员-评论家算法(SL-MGAC)。具体来说,我们引入了一个监督学习增强的 actor-critic 框架,并结合了方差减小技术,其中的多任务监督奖励学习有助于在 critic 学习过程中抑制 bootstrap 误差的累积。此外,我们为 actor 与 critic 网络设计了一个多组状态解耦模块,以降低预测方差并提升模型稳定性。我们还提出了一种新的奖励函数,以避免过度贪婪地分配直播内容。在实验方面,我们使用离线策略评估(OPE)和线上 A/B 测试对 SL-MGAC 算法进行了评估。实验结果表明,所提出的方法不仅在平台级约束下优于各类基线方法,还在实际线上推荐中展现出了更高的稳定性。

论文三:Combinatorial Optimization Perspective based Framework for Multi-behavior Recommendation 


I 论文链接:https://dl.acm.org/doi/pdf/10.1145/3690624.3709278


I 论文简介:在真实世界的推荐场景中,用户会通过多种行为方式与物品进行交互。充分利用多样化的用户行为信息,有助于提升目标行为(如购买)的推荐效果,这一点已被近年来的多行为推荐方法所验证。主流的多行为推荐框架通常包括两个关键步骤:融合与预测。近期的方法多采用图神经网络进行多行为融合,并在预测阶段引入多任务学习范式进行联合优化,取得了显著的成果。然而,这些方法在多行为融合方面的视角较为有限,导致在融合阶段难以准确捕捉用户行为模式。同时,在利用多任务学习进行预测时,目标任务与辅助任务之间的关系缺乏有效协调,容易产生负向信息迁移。


为了解决上述问题,我们提出了一种全新的多行为推荐框架,从组合优化的角度出发,命名为 COPF。具体而言,我们将多行为融合建模为一个组合优化问题,在每种行为的不同阶段引入约束,从而限制解空间,显著提升融合效率(COGCN 模块)。在预测阶段,我们通过改进多专家模型在正向和反向传播过程中的生成与聚合方式,缓解由于特征和标签分布差异所导致的负迁移问题(DFME 模块)。在三个真实世界数据集上的综合实验表明,COPF 具有优越的性能。进一步的分析也验证了 COGCN 与 DFME 模块在提升推荐效果方面的有效性。

论文四:GREAT: Guiding Query Generation with a Trie for Recommending Related Search about Video at Kuaishou 


论文链接:https://arxiv.org/abs/2507.15267


I 论文简介:短视频底部的相关搜索 query 是近年兴起的一个重要场景,它满足了用户浏览短视频时的信息获取需求,并且可以无缝地将用户从推荐入口转移到搜索入口。目前,该场景的研究面临两大挑战:一方面,学术界的相关研究与公开数据集极为匮乏,这不利于该场景的研究与发展。另一方面,现有的方法主要依赖于用户行为或 embedding 来计算相似度。前者需要一定时间的数据积累,后者缺乏了内容与 query 之间语义的深度交互。


针对这两个问题,一方面,我们首次系统性地研究了该场景的技术挑战,并基于快手平台相关搜索场景的真实数据发布了大规模数据集 KuaiRS,填补了这一领域研究的空白。另一方面,我们提出了基于大语言模型生成优质 query 的 GREAT 框架。具体来说:首先,我们收集具有高消费价值(例如,高曝光、高点击)的优质 query 作为天级更新的 query 库,并基于它构建字典树(Trie)。由于大语言模型直接生成的 query 通常存在字面质量问题(例如,拼写错误、虚假信息),我们利用字典树来引导大语言模型的生成结果。在训练阶段,通过增加 NTTP(Next-Token in Trie Prediction)任务结合字典树,增强大语言模型生成高质量 query 的能力;在推理阶段,解码时字典树实时地引导下一个 token 的生成,从而提升生成 query 的质量。此外,我们还引入了一个后处理模块,通过过滤低质量内容进一步确保 query 的相关性与准确性。目前,GREAT 已全量部署在快手的 photo to query 业务,每天服务亿级用户。

论文五:HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou


I 论文链接:https://arxiv.org/abs/2408.05430


I 论文简介:在工业界推荐系统中,混合专家(MoE)是多任务学习使用最多的框架范式之一,通常做法是为每个任务引入一些共享和特定专家,并使用门控网络来衡量不同专家之间的重要程度,研究的关键在于如何公平且有效的建模每个专家并为其分配合理的权重。尽管 MoE(例如 MMoE、PLE 等)已经在工业界推荐系统中取得了显著的效果,但我们在实际应用中却遇到三个容易导致专家训练不稳定的现象。(1)专家坍缩:专家的输出分布有显著差异,这使得门控网络难以分配公平的权重来平衡专家。(2)专家退化:一些共享专家失去了其建模能力,并退化为某些特定专家,这使得这些共享专家失去了其本身的功能。(3)专家欠拟合:一些稀疏的预测任务倾向于忽略其特定专家,并为共享专家分配较大的权重。这些不稳定的现象容易导致 MoE 模型中专家训练不充分,从而效果无法保障。


基于这些观察,我们提出了 HoME,一个稳定且有效的 MoE 模型,以克服上述的三个稳定性问题。具体如下:(1)专家归一化,以对齐专家输出分布并避免专家坍塌。(2)层次化掩码机制,以增强任务之间的共享效率,减少专家冗余占用等问题,避免专家退化。(3)特征门控机制,以确保每个专家都能获得适当的梯度,从而最大化其有效性。另外,本文是首个专注于提高多任务 MoE 模型稳定性的工作,我们进行了大量的离线、在线实验(累计线上提升 0.954% 的人均 APP 时长)和消融分析,以证明 HoME 的有效性。目前,HoME 已全量部署在快手的短视频业务,每天服务 4 亿用户。

论文六:Improving Long-tail User CTR Prediction via Hierarchical Distribution Alignment


I 论文链接:https://cloud.tsinghua.edu.cn/f/99648e5e5e784a53b977/


I 论文简介:点击率(Click-Through Rate,CTR)预测是在线广告和推荐系统中的一项基础任务,需要有效建模特征交互关系。尽管现有方法在整体预测性能上有所提升,但对于历史数据较少的长尾用户,其性能仍不理想。这些长尾用户面临两个主要挑战:(i)训练数据不足,导致预测不准确;(ii)样本分布不均衡,使模型偏向头部用户学习。为应对这些挑战,我们提出了一个新颖的框架,通过层次化分布对齐、层次化残差学习和自适应分布校准来提升长尾用户的表现。该方法首先通过层次化分布对齐捕捉头部用户与长尾用户之间的共享模式,然后通过层次化残差学习获取群体特有的信息。此外,我们通过动态重加权的方式重新平衡头部用户与长尾用户的样本分布。为抵消重加权可能带来的偏差,我们进一步引入了一个分布校准模块。该方法与具体模型无关,可以无缝集成到各种基于特征交互的 CTR 预测架构中。我们在多个公开数据集以及在线实验中进行了大量实验,结果表明该方法在保持整体性能不变甚至更优的同时,显著提升了长尾用户的准确性与公平性。

论文七:Mitigating Redundancy in Deep Recommender Systems: A Field Importance Distribution Perspective 


I 论文链接:https://dl.acm.org/doi/abs/10.1145/3690624.3709275


I 论文简介:在推荐系统领域,准确预测点击率(CTR)是一项需要学习用户-物品交互特征的关键任务。尽管许多研究者提出了挖掘交互信号的新模型,但他们忽视了冗余特征本身会导致高计算成本并引发次优性能的问题。现有方法尝试通过剔除无用特征或压缩嵌入表规模来消除冗余,但当前特征选择方法易受训练随机性和数据动态性影响,而嵌入维度分配技术则忽略了特征域间的重要性关联。由于两种优化方式的目标存在固有差异,简单组合也会导致性能不佳。因此,学术界尚缺乏能同步协调优化特征域双重维度的有效范式。


本文指出该问题的核心在于缺乏衡量特征域贡献度的实用指标,提出了一种基于分布的特征域优化框架,通过重要性分布为两种方法提供统一视角。我们创新性地为每个特征域设计学习器来获取稳定全面的重要性表征,据此实现噪声特征剔除,并根据重要性相似度为不同特征域分配自适应嵌入维度。实验表明,该框架具有极低的预训练开销,能大幅降低训练和推理耗时,在减少特征域数量的情况下反而获得了更精准的预测效果。

论文八:Personalized Query Auto-Completion for Long and Short-Term Interests with Adaptive Detoxification Generation


I 论文链接:https://arxiv.org/abs/2505.20966


I 论文简介:query 自动补全是现代搜索系统中的重要功能,它可以在用户输入过程中根据前缀猜测用户意图,推荐 query 给用户。用生成式模型结合前缀和个性化信息来生成 query 候选是比较直观的思路,然而在实际落地应用中,面临两大挑战。(1)个性化生成效果与推理耗时之间的平衡:引入更多个性化信息可以更好地捕捉用户兴趣,但会增加模型的输入长度,增加线上推理耗时和推理资源消耗。(2)生成式模型在线推理的不可控问题:尤其在前缀本身有错误或有诱导性倾向时,容易生成质量差的 query(笔误、不通顺),甚至带来风控问题(色情、谣言等);常规做法是生成后接一个判别模型进行过滤,但这会增加线上耗时,且两个模型耦合不利于迭代更新。


针对这两个问题,我们提出了 LaD 模型。一方面,我们使用嵌套结构分别刻画长短期兴趣,短期兴趣输入 token 粒度文本,长期兴趣整句编码成 Embedding 输入,以降低输入序列长度;线上应用时,短期兴趣 token 实时推理,长期兴趣预先离线刷库,线上从缓存中提取,从而兼顾了长短期兴趣和推理耗时。另一方面,我们创新的设计了拒绝偏好优化 RPO 算法,实现了端到端的去毒机制;具体来说,引入了一个特殊的 token [Reject],训练过程通过强化学习使模型学到【质量好 q > [Reject] > 质量差 q】的偏好,在线推理 BeamSearch 时,质量差的 query 会落在 [Reject] 之后,可以将其过滤掉不展现给用户。LaD 模型在快手搜索 SUG 业务中取得广泛应用,实现了近两年来单次实验 AB 指标的最大提升,已全量部署,每天服务亿级用户。

结语

作为一家以人工智能为核心驱动和技术依托的科技公司,快手致力于不断深化研发投入,将技术作为强劲引擎,驱动业务的迅猛增长。同时,快手将在人工智能领域持续探索,将前沿科技在业务场景中落地应用。欲了解更多关于论文的详尽内容及深度解读,敬请密切关注快手技术公众号的后续推文。


- END -

用户头像

快手技术

关注

还未添加个人签名 2024-05-15 加入

快手官方技术号,即时播报快手技术实践的最新动态 关注微信公众号「快手技术」

评论

发布
暂无评论
8篇入选,1项最佳论文提名!快手AI 研究在KDD2025 “全面开花”_人工智能_快手技术_InfoQ写作社区