大模型时代下的新一代广告系统

2024-09-23
北京
本文字数：8221 字
阅读完需：约 27 分钟

京东零售广告部承担着京东全站流量变现及营销效果提升的重要职责，广告研发部是京东最核心的技术部门，也是京东最主要的盈利来源之一。作为京东广告部的核心方向，我们基于京东海量的用户和商家数据，探索最前沿的深度学习等算法技术，创新并应用到业务实践中，赋能千万商家和数亿消费者的消费连接，不断拓展中国乃至全世界的数字经济边界。

在这里，你将与各业务、产品、工程团队紧密合作，深入京东亿量级的数据与丰富的广告业务场景，进行前沿 AI 算法和工程架构的研究与应用工作。通过 AGI 算法创新和行业领先的广告技术，赋能京东多个业务线的广告投放和管理需求，帮助商家实现精准营销，同时提升用户购物体验，推动京东的商业增长，创造数以亿计的业务贡献。

大模型时代的到来，新一代广告系统中，我们目前重点攻坚以下五个方向，欢迎敢于挑战、有梦想的同学，和我们一起共事。让我们一起来看看新一代广告系统中如何实现大模型时代的流量价值预估、流量售卖机制、生成式推荐、智能创意以及承载它的算法工程体系。

文末有最新的机会哟~

一、流量价值预估——更好的人货场理解能力

1、广告用户意图理解

Query 意图识别是电商搜索中离用户最近和最基础的一个模块，主要的功能是精确地理解用户的搜索意图，为下游的召回/相关性/排序提供决策信息和特征。Query 意图识别主要是做分词、纠错、NER、品牌识别、类目预测和 query 改写等，需准确捕捉用户意图辅助下游决策，是供需匹配和用户体验的基础。

当前 query 意图识别训练样本的产生逻辑导致约 85%的 query 预测的类目都是单类目，且多标签样本的标签量较少。因此亟需在保持现有的类目精准度情况下，提升类目的召回率。通过分析，主要存在以下类型的 query 的高相关召回率不足：

•泛词的多意图：侧重知识类，词与具体商品之间需要知识关联，例如：水果，生日礼物，灯；

•歧义词的多意图：多意图 query 下，基于样本生成逻辑，会偏向主意图，弱化甚至丢失次意图，导致召回问题，例如：小米（粮食 or 手机？），苹果（水果 or 手机？）；

•长尾类目冷启：由于用户点击数据的马太效应，使得大量的长尾类目没有曝光机会，类目下商品无法获得点击，加深了模型无法得到长尾类目训练数据的问题，例如：服务类，健康类，工业品类；

•长尾 query 的多意图：由于用户背景和表达习惯不同，对同类商品需求，会有多种表达方式，产生很多长尾 query。模型给出的类目不准，因此产生的点击数据也不够准确。

生成-判别模型增强长尾类目训练数据

模型的训练依赖 query 点击商品的类目来作为监督信号。像这些偏冷启动类目的商品，我们希望通过增加商品曝光来让它们获得更多点击。有了点击数据，就能正向影响下次模型迭代，让模型下一次可以预测的更准。从而让整个模型迭代的流程形成良性循环，而不是马太效应的恶性循环。

解决方案：针对训练样本的类目高度不平衡问题，我们设计了生成-匹配模型，预训练一个 query 生成模型+query-SKU 匹配模型，生成模型用来根据 SKU 的标题/属性信息生成 query，匹配模型用于计算生成 query 和原 SKU title 的相关性分数，卡掉低质量的 query，保证生成 query 的质量。Sku 的类目作为生成 query 的类目，补充到类目预测的训练样本中，平衡和缓解训练集类目失衡问题，让模型能够学习到用户 query 中的长尾类目需求，从而让长尾类目商品有一定的曝光机会。

生成数据样例：

基于搜索日志数据预训练的生成-匹配模型不仅可以在类目预测中使用，也可以用在其他相关业务线。例如 query suggestion 和 query 改写业务，根据 sku title 生成的 query 可以作为两者的 query 召回源。

先验知识注入模型解决中长尾类目召回不足导致的商家获量困难问题

算法训练以用户点击 sku 的类目为标签。但由于马太效应，高点击商品的类目才能获得展现。模型的更新，反而会加剧马太效应，形成恶性循环。

•用户反馈信号被高频类目主导，需打破仅依赖用户反馈的马太效应闭环。例如：用户搜“耳机”，相关类目包含 862-手机耳机，842-蓝牙耳机... 等 9 个三级类目。由于马太效应，系统只能展现出 1~2 个高点击类目的商品，中长尾类目下商品无展现。

•业界最新算法，也高度依赖后验反馈信号，无法召回中长尾类目。

解决方案：通过引入先验知识和模型的优化，增强模型对电商知识的感知，弱化模型对后验反馈的依赖：引入先验知识：类目语义知识、类目共现/语义关系图。通过提取类目名、类目的产品词等，代表类目侧的语义表征。通过类目关系图，反映类目共点击和语义相似关系，实现头部类目带长尾（相关）类目来提升召回率。学习先验知识：设计新模型，以 BERT 为文本编码器，学习 Query 和类目表征。以多通道 GCN 为图结构编码器，学习类目之间的关系。设计半监督 Loss，通过 query-类目语义匹配分数，作为监督信号增强类目标签。

算法方案发表于 WWW 2024《A Semi-supervised Multi-channel Graph Convolutional Network for Query Classification in E-commerce》

2、广告多模态内容理解

随着富媒体时代的到来，商业广告已告别了纯文本广告时代，图文广告、视频广告已成为广告主进行创意表达的新型方式。目前京东 APP 中的推荐和搜索页面均包含大量图像、视频形式的商品展示。在此场景下，传统单模态 or 少模态的建模方式，有以下问题：

•无法建模视觉信息对用户行为的影响，用户对商品展示效果的偏好无法建模。

•只局限在文本/ID 特征上，无法对商品细节进行精准建模。

•大量使用物料 ID 特征会带来模型记忆性的问题，使得整个广告系统对广告物料的换血能力会比较差，新物料无法在系统中快速生效。

针对上述问题，我们在广告场景下实现了多方位的多模态表征能力建设，并在召回及创意等环节进行了应用，取得了显著的线上效果提升。

图 1.电商场景下的多模态商品展示

多模态表征在召回环节的应用

当前线上的向量化召回模型，过于依赖于 sku 的切词特征、品牌、类目特征等客观特征，对于刻画 sku 的全局属性、主观信息等方面的能力是缺失的。引入 sku 的图像信息，相当于从另一个维度增加了图片的信息，对于 query-item 本身的 match 任务是有正向增益效果的。在未来的发展趋势中，单纯基于文本匹配的方式已经缺乏了优势，图像、视频、虚拟现实 &人机交互等途径的冲击对传统的搜索、推荐任务提出了新的挑战。

基于图像 &文本多模态的商品表征本工作中，我们基于双流模型 pipeline，分别利用预训练的文本表征提取网络和图像表征提取网络，提取京东站内商品的视觉与文本表征，并通过不同的对齐流程得到用于下游推荐任务的多模态商品表征。整体流程包括：内容模态表征提取->内容模态对齐->推荐空间对齐三个主要部分。内容模态表征提取对于文本模态信息，基于商品标题+品牌词+三级类目，使用预训练的 BGE-large-zh1.5 模型提取隐层表征，对于视觉模态信息，基于商品主图，使用预训练 ViT-CLIP-base 提取视觉表征。内容模态对齐：对基于预训练 backbone 提取到的隐层表征，使用基于 CLIP 的对比学习方式训练一个 projection head，对文本和视觉模态进行对齐和降维处理。推荐空间对齐：在对齐到推荐任务的语义空间时，首先构造不同模态的商品关系图，之后利用 Gate-GNN 的特征聚合能力，在 item-item 关系图上进行基于商品活跃度的聚合，得到混合模态的商品表表征。

多模态表征在创意优选环节的应用

创意优选环节的多模态理解与排序等环节存在较大区别，排序任务的目标是建模同一用户在多个候选 sku 之间的排序关系，用多模态理解作 sku 信息精细化建模的信息增益来源，更好地建模商品信息，以实现不同商品之间的对比。创意可以表征很多高阶的结构化信息。基于这一点，在创意优化的特征工程上，方向大致是：强化 User/Context，弱化 Item/POI，通过引入多模态的创意表征，来个性化地学习到创意中的卖点信息，从而实现创意层面的最优排序。

基于图像模态的商品表征目前商详主图中存在一定的噪声，因此对于全图的表征往往会受到噪声的干扰，之前的做法往往先对主商品进行抠图，之后再进行特征提取，但是这种两阶段的特征提取依赖主图区域的准确标注，并会带来误差累积的问题，不适合缺乏标签的电商图像预训练任务。我们考虑直接进行图像自监督方法（DINO）进行预训练，在模型训练的同时端到端提取可靠的图像主体表征，具体流程如下图所示：

无监督模型方案

注意力图可视化

二、流量售卖机制——更优的机制能力

1、ListVCG：基于强化学习的序列拍卖机制

推荐信息流广告是典型的多品拍卖场景，业界通用方案 GSP 在理论、效率上均不是最优解，VCG 多品拍卖机制是我们的理想方案。但是 VCG 仅仅是一个理论上的解决方案，他的前提是需要高效的找到最佳组合拍卖结果。与此同时，推荐业务复杂，是典型的多目标优化场景，但是标准 VCG 是追求社会福利最大化的机制，因此在由 GSP 切换到 VCG 时，平台收益在短期内会显著下降，这也是业界公认的 VCG 机制切换难题。因此如何将 VCG 与多目标优化进行结合也是我们面临的主要挑战。结合京东的实际应用场景，我们提出了 ListVCG 拍卖机制，来解决上述问题。

首先面临要解决的是 700 选 4 的排列组合问题，序列的搜索空间上千亿，我们将此定义成一个强化学习的问题，借鉴了经典的 Actor-Critic 架构，Actor 输出概率矩阵，通过采样的手段去求解排列组合问题，同时我们利用用户的真实反馈去提升 Critic 的评估水平，挑选出的最优组合会利用策略梯度的方式指引 Actor 学习。通过这种互相迭代自提升的方式去高效逼近最优组合。

VCG 下的多品拍卖同时是一个经济学问题，需要满足激励相容的拍卖理论约束来保证长期的生态健康发展，然而常见的多目标问题的优化思路会使得无法使用 vcg 计费。因此我们在 Listvcg 中对于 ECPM 价值进行了参数化的变形，在保证可计费的同时通过可学习的参数来满足平台收益、社会福利、用户体验以及物料整体价值多目标优化的诉求。

为了更好地对流量长期价值进行建模，我们自然地引入了强化学习的方式，起初我们尝试了传统 off-policy 的 Q-Learning 算法如 DDQN 等，然而，由于后验反馈的奖励稀疏，模型训练效果不稳定，因此，我们尝试引入 reward shaping 以及 curriculum RL 的思想，通过加入稠密先验奖励缓解数据侧的奖励稀疏，并让模型在相对简单的单步决策任务（如序列曝光、点击、单步价值预估等）收敛后，再学习长期决策任务，使得模型效果有了显著提升，在优化长期竞价环境的同时，实现了短期收入和广告主 roi 的上升。

2、基于强化学习的多智能体博弈

多智体在拍卖机制的博弈环境

目标层面：机制和出价智能体联合优化是行业发展趋势，出价与机制智能体具有一致的整体目标。

算法层面：我们从算法视角分析出价与机制的策略如何影响广告收入和 tcharge。

•平台一段时间的收入由以下三个因素决定：

1.流量价值分布：一段时间请求数量，广告主数量，以及每个请求 pctr、pcvr、tcpa

2.广告主调价策略：bid ratio （假设这段时间不变）

3.平台机制策略：分配以及计费规则

•具体的，我们有（假设 100 个请求，10 个广告主）

TC=∑i=1100∑j=110xij⋅pctrij⋅pcvrij⋅tcpaj⋅bid_ratiojTC=∑i=1100∑j=110xij⋅pctrij⋅pcvrij⋅tcpaj⋅bid_ratioj

期望 revenue=∑i=1100∑j=110xij⋅pctrij⋅cpcij 期望 revenue=∑i=1100∑j=110xij⋅pctrij⋅cpcij

机制、出价与用户（环境）的交互关系如下图所示，事实上，在单智能体强化学习下，机制和出价互为环境

基于强化学习的多智能体博弈的研究和落地工作

基于 MPC 和强化学习的出价算法优化点主要在于对未来一段时间请求环境奖励（tcharge、达成率）的预测，以及根据当前的状态（展现、点击、消耗、达成情况）来决定下一步动作（bid ratio）；同样的，基于强化学习的机制策略也需要对未来一段时间请求环境奖励（广告收入）进行预测，并且根据当前的状态（历史收入、预算情况等）来决定下一步动作（分配 &计费）。

机制和出价对未来一段时间奖励预测越准确，动作选择越准确，会带来越多的收入和达成提升。为此，我们根据不同阶段对多智能体技术就行研发：

（1）第一阶段：基于离线请求数据的模拟

•出价和机制智能体一侧固定，通过离线模拟尽可能还原线上策略，进行模型训练

•难点：

◦缺少精确的离线模拟环境，目前只有部分精排队列还原，复杂逻辑难以还原

◦计算量级大；新的机制还在不断迭代中

（2）第二阶段：基于离线仿真环境的模拟

•出价和机制智能体通过感知自身不同动作下对方的反馈，对未来奖励预估更准确

•风险：

◦模拟误差累计增大（无法模拟部分/用户行为模拟偏差）

◦实验评估难以进行

以机制为例，收益本质上来自于对广告主未来行为的预测，比如在某个流量上 bidder 由于 bid ratio 高（但是 cvr 低）获得了流量，虽然平台当次请求收入最大，但是会影响后续 bid ratio 调节，整体收入非最优。通过在仿真环境下寻找更优均衡（需考虑离在线不一致的问题），可以避免广告主（比如某个类目）的出价收敛到对平台整体收入不利的均衡。

三、广告生成式推荐——更颠覆的推荐范式

在京东广告场景，我们面临了如下的挑战：用户行为复杂、平台数据边界、数据稀疏性高、冷启动问题、场景理解困难、多样性和新颖性。由于现实系统中的商品数量巨大，传统 RS 通常采用多级过滤范式，包括召回、粗排、精排、重排等流程，

相较于传统 RS，生成式推荐系统具备如下的优势：1）简化推荐流程。实现从多级过滤范式（discriminative-based，判别式）到单级过滤范式（generative-based，生成式）的变迁。2）具备更好的泛化性和稳定性。利用 LLM 中的世界知识和推理能力，在具有新用户和商品的冷启动和新领域场景下具备更好的推荐效果和迁移效果。

1、方案

生成式推荐涉及两个接地（grounding）过程，“将语言空间接地到推荐空间”和“将推荐空间接地到实际商品空间”。为了实现这两个过程，我们的方案如下：

步骤一：商品量化表示阶段

选取高点击商品的标题、类目等语义信息，经由编码器模型获得向量表示，再利用 RQ-VAE 对向量进行残差量化，从而获得商品的语义 ID。例如，商品“ThinkPad 联想 ThinkBook 14+ 2024 14.5 英寸轻薄本英特尔酷睿 ultra AI 全能本高性能独显商务办公笔记本电脑”可表示为：<a_99><b_225><c_67><d_242>

步骤二：继续预训练阶段

（1）量化 token 扩展大模型词表并完成初始化

将商品量化表示的底层 token 集合，加入到大模型中，进行微调对齐训练，使得模型“理解"这些底层 token

（2）语义 ID 和商品文本信息互译任务

提示词:请告诉我,商品的四元组表示为{input_turple}的标题是什么？输入:<a_1><b_2><c_3><d_4>输出:华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白
提示词:请告诉我,商品的标题是{input_title}, 它的四元组表示是什么?输入:华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白输出:<a_1><b_2><c_3><d_4>

复制代码

步骤三：微调阶段

非对称商品预测任务1:提示词:用户历史浏览的商品的四元组序列为{input_tuple1, input_tuple2, ..., input_tupleN},请帮我预测用户下一个要浏览的商品是什么？输入:<a_1><b_2><c_3><d_4>,<a_1><b_2><c_3><d_7>,<a_1><b_2><c_3><d_9>, <a_1><b_2><c_4><d_2>输出:华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白

复制代码

提示词:用户历史浏览的商品序列的文本语义信息为{input_text1, input_text2, ..., input_text_N},请帮我预测用户下一个要浏览的商品是什么？输入:华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 宣白,华为（HUAWEI）旗舰手机mate60 pro+ 16G+1TB 宣白,华为（HUAWEI）旗舰手机mate60 pro+ 16G+512GB 砚黑，华为（HUAWEI）旗舰手机mate60 pro+ 16G+1TB 砚黑,华为输出:<a_1><b_2><c_3><d_4>

复制代码

提示词:用户历史浏览的商品的四元组序列为{input_tuple1, input_tuple2, ..., input_tupleN},请帮我预测用户下一个要浏览的商品是什么？输入:<a_1><b_2><c_3><d_4>，<a_1><b_2><c_3><d_7>, <a_1><b_2><c_3><d_9>, <a_1><b_2><c_4><d_2>输出:<a_1><b_2><c_3><d_2>

复制代码

步骤四：DPO 阶段

提示词:用户历史浏览的商品的四元组序列为{input_tuple1, input_tuple2, ..., input_tupleN},请帮我预测用户下一个要浏览的商品是什么？输入:<a_35><b_87><c_282><d_347>, <a_35><b_89><c_17><d_363>, <a_112><b_140><c_435><d_946>, <a_112><b_103><c_449><d_942>正例: <a_21><b_37><c_138><d_524>负例:<a_21><b_188><c_357><d_377>

复制代码

2、效果

我们将上述方案应用于京东站内和站外广告的推荐流程，取得了显著的效果提升。

四、广告智能创意——更生动的视觉冲击

广告创意不仅能够抓住消费者的眼球，还可以传递品牌核心价值和故事，建立起与消费者之间的情感联系。在电商场景下，创意内容是影响用户点击的重要因素，对广告收入有着重要的影响。为了满足千人千面的用户偏好，我们在大模型时代借助其强大的生成能力，产出以下一系列的创意内容：

尽管最近 AIGC 技术蓬勃发展，使得创意制作摆脱了成本和效率的限制。然而，大模型在广告创意的应用上还存在诸多问题。如下方图片所示，现有的图片生成模型会产出空间失调/大小失调/商品不显著和形状幻觉等 bad case：

为了解决上述问题，我们提出一种多模态可靠反馈网络（RFNet），用于自动审核生成的图片，并将其应用于递归生成过程中，从而提高可用广告图片的数量。此外，我们通过一致性条件正则化（Consistent Condition regularization）微调扩散模型，利用 RFNet 的反馈，显著提升了生成图片的可用率，减少了递归生成的尝试次数，同时保持了高效的生产过程和视觉吸引力。我们还构建了一个包含超过一百万张人工标注生成广告图片的 RF1M 数据集，帮助训练 RFNet 准确评估图片的可用性。这项工作发表在计算机视觉顶级会议 ECCV2024。

五、广告大模型算法工程体系——更极致的算法基建

大模型尤其以 LLM、AIGC 类的典型模型为例，其模型参数通常在 0.5B ~ 72B 之间，在广告场景上带来最直观的挑战是：超大规模模型的训练推理挑战、复杂业务链路的融合。

推理上，广告链路跟传统的对话系统不同，其延迟要求极高，通常请求到计算完毕返回之间的耗时仅有 100ms，因此，耗时约束下的推理能力是一个极大的挑战。此外，单请求的推理成本也是业界大模型服务公司挥之不去的追求点。京东广告已经可以做到 1.5B 体积模型，百万 Token 成本较行业成本更低。

训练上，不论是开源模型再微调和在训练，还是以 Transformer 为核心的自行搭建的模型结构，对片上网络、存内计算、空间时间编排的脉动计算模式等技术要求都有成倍的要求提升。

业务链路上，最典型的模型服务以模型内逻辑+外部链路逻辑整合而成，而一个 DAG（RAG）服务是一种不错的融合方式。

京东广告算法工程团队在人工智能领域持续深耕，不仅致力于 LLM（Large Language Model）训练推理技术的前沿探索，力求突破自然语言处理的瓶颈，提升模型的语义理解和生成能力。同时，我们也充分认识到硬件基础设施对于大规模模型运行的重要性，因此积极与业界领先的芯片制造商和网络服务提供商展开深度合作。

我们从底层的物理拓扑结构开始优化，确保数据传输的高效性和稳定性，为模型的高速运行奠定坚实基础。接着，针对不同的芯片特性进行定制化的适配工作，让模型能够在各种硬件环境下发挥出最优性能。我们深知，只有软硬件完美结合，才能真正释放 AI 的潜能。

此外，京东广告算法工程团队还对训练框架进行了全方位的优化。我们引入了最新的并行计算技术和分布式存储方案，使得大规模数据的处理和模型的训练变得更加迅捷。同时，我们也在推理服务上狠下功夫，通过缓存策略、负载均衡等手段，显著提升了模型的响应速度和并发处理能力。

这一切的努力，都是为了能够支撑起下一代的超大规模模型，使其能够应对百万级 QPS 的严苛挑战，为用户提供更快速、更精准的广告推荐服务。京东广告算法工程团队将持续创新，以技术驱动业务发展，为实现更智能、更个性化的广告体验而不懈奋斗。

TO 亲爱的朋友：

京东广告研发部致力于提供全方位的广告技术服务，包括广告排序、出价、创意算法、广告投放平台建设、大数据生产和数据挖掘、广告质量控制和广告产品创新。我们全天候保障京东广告系统的稳定运行，不断优化广告系统全链路基础能力，持续提升研发效率和交付能力。通过 AGI 算法创新和行业领先的广告技术，赋能京东多个业务线的广告投放和管理需求，帮助商家实现精准营销，同时提升用户购物体验，推动京东的商业增长，创造数以亿计的日均广告收入。在这里，你将与各业务、产品、工程团队紧密合作，深入京东亿量级的数据与丰富的广告业务场景，进行前沿 AI 算法和工程架构的研究与应用工作。

发布于: 刚刚阅读数: 7

原文链接:【http://xie.infoq.cn/article/84e9f6599ee5c3089b2b02a15】。文章转载请联系作者。

京东零售技术

关注

还未添加个人签名 2024-01-12 加入

京东零售那些事，有品、有调又有料的研发资讯，带你深入了解程序猿的生活和工作。

发布

暂无评论

创作场景

大模型时代下的新一代广告系统

一、流量价值预估——更好的人货场理解能力

1、广告用户意图理解

生成-判别模型增强长尾类目训练数据

先验知识注入模型解决中长尾类目召回不足导致的商家获量困难问题

2、广告多模态内容理解

多模态表征在召回环节的应用

多模态表征在创意优选环节的应用

二、流量售卖机制——更优的机制能力

1、ListVCG：基于强化学习的序列拍卖机制

2、基于强化学习的多智能体博弈

多智体在拍卖机制的博弈环境

基于强化学习的多智能体博弈的研究和落地工作

三、广告生成式推荐——更颠覆的推荐范式

1、方案

2、效果

四、广告智能创意——更生动的视觉冲击

五、广告大模型算法工程体系——更极致的算法基建

TO 亲爱的朋友：

京东零售技术

评论