“对齐”驱动增长:快手 Align³GR 广告生成式推荐大模型

一、引言
在推荐系统中引入语义内容信息,无论是应用于判别式还是生成式模型,均是提升模型泛化能力的关键路径。然而,语义信息所依赖的内容相似性逻辑,与推荐系统中传统协同过滤所依据的用户行为共现逻辑,在底层学习目标上存在本质差异。这种根本上的不一致,导致语义信息往往难以直接、有效地提升推荐模型的效果,也因此成为业界长期面临的核心挑战。我们将旨在弥合语义空间与用户行为空间之间差异的技术过程定义为“对齐”。
为应对语义空间与行为空间深度融合的挑战,我们系统性地探索了广告推荐系统的“对齐”技术演进:从奠定语义协同融合基础的对偶对齐式语义 ID(DAS),演进至贯通“懂-会-契合”三级对齐的生成式推荐大模型(Align³GR),以期实现用户偏好与业务目标的终极对齐,具体来说:
首次提出一段式量化+对齐的语义 ID 框架 DAS:创新性的提出了语义-协同联合训练机制,同步优化语义 ID 的量化与对齐过程,结合多视角对比对齐,在避免信息损失的同时能够有效提升对齐效果。截至 2024 年 Q4,DAS 已在快手商业化广告全流量推全。通过将 DAS 作为多模态特征与生成式推荐的底层 token,有效驱动商业化广告大盘累计收入提升 3.48%。相关研究成果被 CIKM 2025 接收。
首次提出统一多级对齐的生成式推荐框架 Align³GR:通过 token-behavior-preference 三级对齐,有效统一了大语言模型的语义理解能力与推荐系统的协同过滤机制。截至 2025 年 Q2,Align³GR 已在快手商业化广告全流量推全。通过 Align³GR 构建独立召回通道,拓宽用户兴趣的召回入口,有效驱动商业化广告大盘累计收入提升 1.43%。相关研究成果被 AAAI 2026(Oral)接收。
二、一段式量化+对齐的语义 ID 框架:DAS
你刷短视频时,广告精准触达的核心靠两类信息:一是广告本身的语义信息(比如手机广告、零食广告的内容卖点),二是你的行为信息(比如常看手机测评就推手机广告)。但行业长期面临 “两张皮” 难题:懂内容的不懂行为,懂行为的不懂内容 ——AI 能读懂广告 “快充” 卖点,却不知道适配哪些未下单的手机测评用户;推荐系统能分析用户行为,却抓不住广告核心卖点。
此前行业采用 “先做内容标签、再补行为分析” 的两阶段方案,就像 “先做饭再找食客”,易导致供需错位。快手创新性提出语义 - 协同联合训练机制,核心突破是 “做饭与找食客同步进行”:给广告做 “语义 ID” 标签时,直接融入用户行为数据,让 ID 既说清 “广告是啥”,又标明 “谁会喜欢”。
论文标题:DAS:Dual-Aligned Semantic IDs Empowered Industrial Recommender System
论文链接:https://arxiv.org/pdf/2508.10584
2.1 研究动机
传统语义 ID 的构建通常遵循以下流程:基于物品或用户的多模态内容生成语义表征,通过量化方法(如:RQ-VAE、RQ-KMeans)转化为离散的语义 ID,以供下游推荐任务使用。然而,下游推荐任务的核心优化目标在于从用户行为中学习协同关系,这导致仅依赖内容生成的语义 ID,其语义空间与任务所依赖的行为空间存在固有差异。
为缓解这种不一致性,我们的核心思路是:在构建语义 ID 的过程中,同步融入协同信号,使生成的 ID 既能表达内容语义,也能反映用户行为模式,从而更契合推荐任务的实际需求。
2.2 技术创新
2.2.1 框架
1、现有框架的问题
在推荐系统中,若直接使用未与用户行为对齐的语义 ID(如 Tiger 等),由于其语义空间与推荐任务所依赖的行为空间存在固有差异,使得模型整体性能受到限制。
为弥合这一“语义‑行为鸿沟”,当前主流方案采用“两阶段对齐”框架,主要分为两种技术路径:
然而,这类两阶段框架在实践中仍存在以下关键局限,制约了其性能与普适性:
训练目标割裂:语义 ID(SID)模型与协同过滤(CF)模型通常独立训练,缺乏统一的优化目标。这种分离导致二者的优化方向不完全一致,难以保证整体系统达到最优。
流程衔接不连贯:语义表征的量化过程与跨模态对齐任务分阶段执行,易造成信息损失。此外,固定的对齐策略缺乏动态调整能力,难以适应多变的真实场景需求。
互信息优化不足:由于缺乏联合优化机制,传统两阶段框架难以充分挖掘和利用语义表示与协同信号之间的深层关联,无法实现互信息最大化,限制了整体对齐的能力。
2、 一段式对偶对齐式语义 ID 框架
为解决上述挑战,我们提出了一段式对偶对齐语义 ID 框架(DAS)。该框架突破传统两阶段训练的局限,通过联合训练(co-train)机制,实现语义 ID 量化模型与协同过滤模型同步优化,从而在端到端的学习过程中最大化语义表征与协同信号间的互信息。
该框架设计灵活,具备良好的兼容性:
语义 ID 量化组件:可兼容 RQ-VAE、RQ-KMeans 等主流量化技术。
协同过滤组件:支持 DSSM、GCN 等典型推荐模型。
对齐模块:采用即插即用设计,通过多视角对比学习动态地优化对齐效果,提升框架的适应能力。
2.2.2 模型方案
DAS 框架包含三个协同工作的核心模块,其结构与优化目标如下图所示:
①UISM 模块:奠定高质量的语义基础
它利用 MLLMs 理解用户和广告的丰富内容信息,并通过 RQ-VAE 将其转化为离散的、具有层次结构的语义 ID,为后续处理提供富含语义的标识。
各项损失的具体定义如下:
该模版的整体 loss:
②ICDM 模块:净化协同信号
传统的 ID-based CF 表征常包含流行度等偏差,该模块通过解耦去偏学习框架,提炼出无偏 CF 表征,为准确对齐扫清障碍。
该模块的整体优化目标为:
③MDAM 模块:实现深度融合
通过“多视角”的对比学习策略(如下表),从不同角度促使前两个模块产出的语义 ID 表征和无偏 CF 表征相互对齐、互信息最大化,对比对齐方法使用经典的 InfoNCE,最终达成语义与协同信号的有机统一。
最终的统一损失函数为:
2.3 部署 & 应用
2.3.1 部署
线上部署流程如下,包括:近线提取语义内容表征、在线推理语义 ID 和表征和在线应用到广告推荐模型。
2.3.2 应用
DAS 框架的输出可灵活应用于两类主流推荐范式:
判别式推荐模型的语义内容增强:这里构建了四大类语义内容增强特征,应用到判别式推荐系统的全链路级联架构(召回->粗排->精排)(下图 1)。
作为生成式推荐模型的 Token 输入:在生成式推荐模型中,将用户与广告的原始 ID 特征升级为对偶对齐式语义 ID(DAS)(下图 2)。
图 1
图 2
2.4 实验效果
2.4.1 离线实验
基于快手广告场景的大规模数据集,对 DAS 进行了充分的离线实验和分析。实验结果表明:
在判别式 CTR 任务上,相比基线模型,能够显著提升 AUC、UAUC 和 GAUC 指标(下图 1)
在生成式推荐任务的离线评估中,DAS 也能够显著提升 HR@K、NDCG@K 等指标(下图 2)
图 1
图 2
2.4.2 在线 AB 实验
在快手商业化广告推荐系统中进行严格的在线 A/B 测试,取得了显著的业务收益:
整体收入提升:推动商业化广告大盘累计收入提升 3.48%。其中,判别式推荐模型贡献 2.69%的提升,生成式推荐模型贡献了 0.79%的提升。
冷启动效果:在冷启动广告素材上效果尤为突出,实现了 8.98% 的显著收入提升,充分体现了 DAS 在解决模型泛化性问题上的强大优势。
三、统一多级对齐的生成式推荐大模型:Align³GR
如果说 DAS 给广告和用户做了 “又懂内容又懂行为” 的精准身份证,让广告推荐实现了 “精准匹配已知兴趣”;那 Align³GR 就是在此基础上,给推荐系统装上了 “聪明的大脑”—— 借助大语言模型的推理能力,让推荐从 “被动找匹配” 升级为 “主动预判潜在需求”,甚至能搞定新用户、新广告的冷启动难题。
作为 DAS 技术的自然演进,Align³GR 的核心目标是:让大语言模型真正 “懂用户和广告、会推荐、契合用户偏好”,彻底打通 LLM 的语义理解能力与推荐系统的行为匹配逻辑,实现用户、商家、平台的三方共赢。
论文题目:Align³GR:Unified Multi-Level Alignment for LLM-based Generative Recommendation
论文链接:https://arxiv.org/pdf/2511.11255
3.1 动机
大语言模型(LLM)凭借其丰富的世界知识、强大的推理能力以及优异的冷启动表现,为推荐系统带来了新的发展机遇。如何使 LLM 成为真正的推荐系统?核心挑战在于:LLM 的语言语义空间与推荐系统的用户行为空间之间存在固有差异。
为弥合这一差距,必须构建一套统一的多级对齐机制,系统性地引导 LLM 从“理解用户与广告”逐步演进至“掌握推荐功能”,并最终实现“与业务目标深度融合”。这一演化过程可具体分解为三个递进阶段:
“懂”阶段(理解用户与广告):设计高效的特征表示方法,将用户行为与广告信息转化为 LLM 可处理的 Token 表示。
“会”阶段(掌握推荐能力):激发 LLM 的推理与生成能力,使其能够执行如广告生成、排序等核心推荐任务。
“契合”阶段(对齐业务偏好对齐):将 LLM 输出与业务目标(如用户体验、平台收益)进行优化对齐。
3.2 技术创新
为系统性解决 LLM 与推荐系统之间的语义-行为鸿沟,我们围绕 “对齐” 这一核心,在三个不同层级上进行了技术创新,构建了从基础词元、到任务能力、最终至业务目标的递进式对齐体系。
3.2.1 Token-level Alignment
核心挑战:如何让推荐系统真正“懂得”用户与广告?关键在于构建一个能同时理解丰富语义信息与用户协同行为的统一表示体系。
解决方案演进:为解决语义信息与协同信号的高效融合问题,技术路径从 DAS 的“注入式”对齐,演进至 SCID 的“一体化”融合
DAS(协同信号注入):在语义 ID 的构建过程中引入协同信号,通过对齐方式将两者关联。
SCID(语义-协同 ID 体系):在 DAS 基础上更进一步,将语义与协同信息在表征层面深度融合,形成统一的“语义-协同”ID,为下游任务提供兼具内容理解能力和行为洞察力的基础标识。
SCID 建模,包含以下两个关键组成部分:
1、语义-协同融合:
该部分核心在于通过双编码器与融合模块,将不同来源的信息进行统一。使用 Semantic 编码器提取用户与广告的语义表征(如文本、图像等多模态内容特征),使用 Collaborative 编码器提取协同表征(如历史交互、共现行为等信号)。将两类表征拼接后,输入专用的 SC 编码器进行深度融合,生成统一的语义‑协同融合表征。最后,基于 RQ‑VAE 对该融合表征进行量化,生成兼具语义信息与协同信号的 ID 体系。
2、U2I 对齐任务:
为促使模型学习到的融合表征与真实的广告推荐场景对齐,设计了用户‑广告行为对齐任务(U2I Alignment)。该任务一方面旨在增强模型在 U2I 行为层面的直接对齐能力,另一方面也作为一个重要的驱动信号,迫使 SC 编码器必须充分学习和利用融合后的表示,而不仅仅是依赖单一信息源。其核心优势在于,通过显式地引入与业务目标(如点击、转化)强相关的监督信号,使模型内部学习到的表示与下游推荐任务的优化目标保持一致,从而提升最终效果。
整体 Loss 包括语义 ID 量化和 U2I 对齐两部分:
SCID 相比于传统 SID 的优势在于:具备更强的多源信息融合能力和对齐能力,同时兼顾 Token 空间友好、训练和推理性能友好等优势。
3.2.2 Behavior-level Alignment
为了让 LLM-based GR 具备基础推荐能力,我们采用多任务监督微调框架进行对齐优化,具体设计如下:
1. 生成式序列建模主任务
以之前构建的用户 SCID 及其历史交互行为的广告 SCID 序列(如 like/goodsview/cartclick/orderpay 等)构建输入 Prompt,基于 Next Token Prediction 任务进行生成式训练,使模型能够基于用户行为历史自回归地预测下一个可能交互的广告 SCID。
2. 显式索引‑语言对齐任务
通过引入双向语义对齐机制,显式建立 SCID 与其对应语义信息之间的映射关系,增强模型对 SCID 语义含义的结构化理解能力。
3. 隐式推荐导向对齐任务
联合训练序列建模与用户兴趣推理任务,使模型能够隐式学习 SCID 在推荐场景中的上下文语义与行为模式,进一步激发其深度推理与泛化能力。
3.2.3 Preference-level Alignment
在真实推荐场景中,若直接使用真实稀疏反馈进行强化学习(RL),主要面临训练不稳定、以及与监督微调(SFT)阶段样本分布差异大导致的收敛困难。
解决方案:渐进式 RL 偏好对齐
我们借鉴课程学习思想,提出渐进式 RL 偏好对齐方法,将学习过程分解为“由易到难”的渐进阶段:
Easy 阶段:渐进式 Self-Play DPO(SP-DPO)。采用 SP‑DPO 方法,将模型生成结果与真实 next SCID 进行对比,构建自博弈生成的稠密奖励信号,使模型初步建立偏好对齐能力。
Hard 阶段:渐进式 Real-Feedback DPO(RF-DPO)。在模型具备初步对齐能力后,进一步使用 RF‑DPO 方法,将生成结果真实推送给用户并收集反馈,基于稀疏真实信号进行奖励建模,实现贴近实际业务场景的偏好对齐。
注:该方法基于 Softmax-DPO 实现,正负样本(chosen/rejected)比例为 1:20。其渐进式 RL 思想同样适用于 GRPO 系列方法(在 Align³GR 迭代过程中已得到验证)。
渐进式 SP-DPO 实现细节:
在 SP-DPO 阶段,基于 SCID 层次化的特性,构建了渐进式学习方法,即对于一个 promptx,构建由易到难的偏好样本对集合:
每个集合中的 chosen response 保持一致,均为真实 next SCID,而则是一个 rejected responses 集合,从对 prompt x 生成的 N 个 responses 其选取,选取方式为:使用 PNM(Prefix-Ngram Match)计算两个 SCID 的前缀匹配个数,值为 0 表示 chosen 和 rejected 样本相差甚远,两者区分性大,较为容易学习,反之值越大表示 chosen 和 rejected response 越相似,两者越难区分,越难学习,按照 SCID 层次化的特性,约定。通过利用当前模型的生成数据和用户真实偏好来初始化训练构造偏好样本对。
为了持续提升模型的用户偏好捕捉能力,在渐进式学习的每一阶段,我们将上一阶段训练收敛的模型作为当前阶段的参考模型进行初始化,即,其中。
渐进式 RF-DPO 实现细节:
接下来就是进一步提升广告业务价值与用户真实兴趣偏好的对齐效果,我们基于用户实际反馈信号构建样本进行偏好学习。具体而言,根据用户对广告行为的偏好程度,构建不同难度的样本对集合 , 用户真实反馈下的 easy 和 hard 样本集合,详情如下表:
沿用上述渐进式学习策略,依次学习不同反馈难度的用户偏好数据,并将前一步训练好的模型作为当前步骤的参考模型,即,其中。
3.3 实验效果
3.3.1 离线实验
在公开数据集的离线实验上,Align³GR 取得了 SOTA 效果。在 Instruments 数据集上的 Recall@10 和 NDCG@10 评估上,分别以 17.8%和 20.2%的显著优势超越已有最佳基线模型。为进一步验证框架设计的有效性,我们进行了系统的消融实验。其性能变化曲线清晰表明,我们所提出的统一多级对齐框架中的每一组成部分均对最终效果的提升具有重要贡献,从而实证了该框架设计的合理性与必要性。
3.3.2 在线 AB 实验
我们基于 Qwen2.5-1.5B 基座模型,采用上述统一多级对齐框架,成功构建了面向广告场景的生成式推荐大模型,并完成大规模线上部署。
该模型通过预估生成 TopK 语义协同 ID(SCIDs),并以此构建独立召回通道(消耗占比超过 20%),有效拓宽了用户兴趣的覆盖范围与召回多样性。在快手商业化广告平台进行的严格线上 A/B 测试取得了积极的业务成果:该方案推动整体广告大盘收入提升 1.432%。尤其在冷启动场景表现突出:针对低活跃度冷启动用户,广告收入提升达 9.6%;在冷启动广告素材上,收入也实现 2.18%的增长,验证了生成式推荐在业务增量上的实际价值。
四、结语
快手商业化算法团队以语义与行为信号的“对齐”技术为核心驱动力,构建了从对齐式语义 ID(DAS)到多级对齐的生成式推荐大模型(Align³GR)的渐进式技术路径,这一体系化演进显著提升了广告匹配效率和平台整体广告收入。
未来,我们会继续将前沿 AI 技术深度融入广告系统,通过生成式推荐大模型、智能出价等核心技术的规模化落地,驱动广告匹配效率与用户体验的双重提升,实现智能广告体验的持续进化。







评论