探索无限可能：生成式推荐的演进、前沿与挑战

2025-10-17
北京
本文字数：10711 字
阅读完需：约 35 分钟

TL;DR

过去一年间，生成式推荐取得了长足的实质性进展，特别是在凭借大型语言模型强大的序列建模与推理能力提升整体推荐性能方面。基于 LLM（Large Language Models, LLMs）的生成式推荐（Generative Recommendations, GRs）正逐步形成一种区别于判别式推荐的新范式，展现出替代依赖复杂手工特征的传统推荐系统的强大潜力。本文系统全面地介绍了基于 LLM 的生成式推荐系统（GRs）的演进历程、前沿核心技术要点、关键工程落地挑战以及未来探索方向等内容，旨在帮助读者系统理解 GRs 在“是什么”（What）、“为什么”（Why）和“怎么做”（How）三个关键维度上的内涵。

一、引言：传统推荐的困境与 LLM 的破局

随着推荐系统的发展，建模算法大致经历了三种不同的技术范式：

•基于机器学习的推荐（Machine Learning-based Recommendation，MLR）；

•基于深度学习的推荐（Deep Learning-based Recommendation，DLR）；

•生成式推荐（Generative Recommendations，GRs）。

1.1 传统推荐范式的瓶颈

传统推荐范式（即 MLR 和 DLR），侧重于基于手工特征工程和复杂的级联建模结构来预测相似性或排序分数：

•MLR 主要依赖传统的机器学习算法，通常建立在显式的特征工程之上。关键技术包括协同过滤（基于与其他用户或物品的相似性预测用户偏好）和基于内容的过滤（基于物品属性推荐与用户喜欢过的物品相似的物品）。

•DLR 主要利用深度神经网络的力量，直接从原始或稀疏特征中自动学习复杂的非线性表示。在工业推荐系统中，DLR 已被使用了近十年。

图一：DLRM 模型逐渐复杂化

如上图，展示了 DLRM 模型从简单到复杂的演进：从早期的 DWE（Deep Wide and Embedding）模型，到 DIN（Deep Interest Network）模型，再到 SIM（Search-based user Interest Model）长序列建模，传统推荐对特征和模型结构做了大量迭代和极致挖掘，现阶段暴露了“模型越复杂，优化边际效益越低”的问题，遭遇了明显的增长瓶颈。

图二：多阶段级联架构

一线算法工程师普遍面临一个困境：简单地增加一些特征或扩大现有模型规模，并不能带来预期的效果提升，模型本身也难以有效“变大”。

分析背后深层次的原因，可以概括成以下几点：

•特征工程依赖：成熟业务特征工程“矿山”基本被挖掘殆尽，“精心”设计的手工特征（如用户/物品统计特征、交叉特征等），迭代成本骤升且泛化性差；

•模型工程天花板：现有架构无法有效建模“世界知识”、“用户意图 Reasoning”，对多领域、多模态、用户行为等吸收、表达有限；

•级联架构导致误差放大：级联多阶段架构（如上图二所示，召回-粗排-精排-重排），算法目标被分散到不同阶段和不同算法团队去优化，出现了严重的目标割裂和误差传播。

同时系统架构中还发现以下问题：

•在级联架构中，资源存在严重浪费。各模块之间的通信、缓存的代价越来越大，以某实际场景为例：线上服务超过 50%的资源消耗在模块间的通信和数据存储上，而非核心的模型计算上。

•核心的模型计算 GPU 资源利用率低。大模型的爆火催动了硬件芯片 TensorCore（矩阵乘）的配比提升，但传统 CTR 模型难以对其有效利用，业界普遍存在训推资源利用率低的情况。以某实际场景为例，训练 MFU（Model FLOPs Utilization，模型浮点运算利用率） 4.6%，推理 MFU 11.2%。相比之下，大语言模型（LLM）在 H100 上训练时 MFU 可高达 40-50% 。

针对上述问题，大语言模型（LLM）提供了解决问题的新思路。

1.2 LLM 的颠覆性潜力

大语言模型（LLM）和视觉语言模型（VLM）等领域已经出现了关键技术突破，如 Scaling Law 和先进的强化学习（RL）方法等。

大模型研究热点

同时大语言模型的链式推理能力涌现，带来了推荐范式跃迁新契机，可重构推荐系统的“推理逻辑”：

•长序列建模强化：将用户行为视作时序信号（如[点击 A, 收藏 B, 购买 C]），通过自回归预测捕捉复杂依赖，解决用户行为深度挖掘的瓶颈；

•世界知识注入：LLM/VLM 预训练语料蕴含跨领域、多模态知识（如“滑雪板与护具的关联性”），破解新用户、新商品的冷启动难题；

•端到端生成：单一模型直接输出排序列表，消除级联误差。

范式变革的本质：从“预测相似性”到“推理用户需求”，LLM 可让推荐系统具备推理与创造能力。

1.3 为什么是现在？

生成式推荐在 2025 年迎来爆发并非偶然，而是 LLM 技术成熟度与推荐工业场景需求共振的结果。

1、LLM 生态成熟

•训练能力提升：分布式训练框架，通过数据并行、模型并行和流水线并行策略，结合混合精度训练、梯度累积等优化技术，显著缩短了模型训练周期。同时，融合监督微调（Supervised Fine-Tuning，SFT）与人类反馈强化学习（Reinforcement Learning from Human Feedback, RLHF）技术栈，有效提升了模型与复杂业务目标（如点击、转化）的对齐能力。

•推理性能优化：大模型推理框架，通过 FlashAttention/PagedAttention、连续批处理（Continuous Batching）和分布式并行等核心技术，显著降低了千亿级大模型的推理延迟，提升了吞吐量并减少了资源消耗，有力支撑了其大规模、低成本的生产部署。

京东自研大模型推理引擎 xLLM 优化： https://aicon.infoq.cn/2025/beijing/presentation/6530 xLLM 已经开源， https://github.com/jd-opensource/xllm/，敬请关注！

2、工业级验证

在过去一年中，Scaling Law 在推荐场景的验证打破了传统 DLRM 的性能天花板，各种 GRs 系统在实际工业场景中取得了较好的线上效果提升，验证了商业价值。这其中包括 Meta GR、美团 MTGR、百度 COBRA、字节 RankMixer 和快手 OneRec 等公司的工作，

工业届落地： 召回： Google TIGER [2023.5]：https://arxiv.org/pdf/2305.05065Meta LIGER [2024.11]：https://arxiv.org/pdf/2411.18814 百度 COBRA [2025.3]：https://arxiv.org/pdf/2503.02453v1 排序： Meta GR [2024.2]：https://arxiv.org/pdf/2402.17152 美团 MTGR [2025.5]：https://zhuanlan.zhihu.com/p/1906722156563394693 百度 GRAB [2025.5]：https://mp.weixin.qq.com/s/mT8DmHzgc3ag57PVMqZ3Rw 字节 RankMixer [2025.7]：https://www.arxiv.org/abs/2507.15551 端到端生成： OneRec Technical Report [2025.6]：https://arxiv.org/abs/2506.13695 （2 月份初版：https://arxiv.org/abs/2502.18965）美团 EGA-v2 [2025.5]：https://arxiv.org/abs/2505.17549

迎来爆发的前提本质是生产力的跃迁，LLM 能同时解决效果、效率和冷启动三大难题，为传统架构升级提供了新方案。

二、技术演进：从模块化到端到端的生成式架构

2.1 LLM4Rec：技术探索前夜

LLM 爆火伊始，学术界和工业届便有不少尝试和探索：

reference: 《A Survey on Large Language Models for Recommendation》

总的来说有三种探索范式：

1、LLM Embeddings + RS

•将大型语言模型（LLM）作为特征抽取器，输入用户（User）或物品（Item）的特征，LLM 输出对应特征的嵌入向量（Embedding）。推荐系统（RS）随后利用这些 Embedding 进行推荐。

•生产应用（Production Use）：主要在离线环境下预先生成 Embedding，例如为物品的文本描述或图像生成 Embedding。

2、LLM Tokens + RS

•向 LLM 输入用户和物品的特征，LLM 生成蕴含潜在偏好信息的特定标识符（Token）。推荐系统则基于这些 Token 执行推荐任务。

•生产应用（Production Use）：在离线阶段预生成 Token（也可称作标签，Tag），用于推荐系统的标签到物品（tag2item）召回策略或作为模型输入特征。

3、LLM as RS

•直接将 LLM 作为推荐系统核心。输入包括用户偏好、用户历史行为以及明确的任务指令（Instruction），由 LLM 生成最终的推荐结果列表。

•现状：目前基本尚未达到生产可用水平，主要应用于学术研究领域。

小结：探索落地主要集中在离线链路的预加工任务，未对推荐系统（RS）的在线链路产生实质影响。范式 3（LLM as RS）直接引入原生 LLM 的成本过高，实际落地难度大。

2.2 生成式推荐 Online 应用范式

LLM4Rec 之后，最近半年在线链路 GRs 的应用落地如雨后春笋，目前业界主流有两大类方式：

1、与传统级联系统的相应模块协作或模块替换

•召回策略增加，开山代表工作：Google TIGER [2023.5]

•精排模型升级，开山代表工作：Meta GR [2024.2]

2、直接应用生成模型进行端到端推荐

•召排一体，用一个模型直接生成推荐列表，避免传统方法中的误差传播和目标不一致的问题。

•开山代表工作：快手 OneRec [2025.6]

本文后续章节将结合核心技术要点，对几个开山代表作 Paper 做简要介绍。

2.3 GRs 核心技术要点：抽丝剥茧

2.3.1 判别式->生成式的转变

2.3.1.1 什么是生成式推荐？

判别式推荐：

•给定用户、物品和上下文特征，模型预估一个用户喜欢物品的概率。

•例如：用户 A、物品 B —→ 模型预测点击概率是 0.76，把候选集中的物品逐个预估点击率，取出 top N 个推荐给用户。

生成式推荐：

•利用用户的行为历史序列，基于生成式模型的结构，在无输入候选的情况下直接生成若干用户最有可能交互的物品。

•例如电影推荐，用户历史：[电影 A, 电影 B, 电影 C] —→生成下一个或者下面 N 个用户最有可能看的电影 D, E, F。

总的来说，判别式推荐是封闭式的，从圈定的候选集合中去排序，产生用户喜欢的物品列表。而生成式推荐是开放式的，无中生有的生成用户喜欢的物品列表。

那么，“无中生有”的生成具体是怎么做的呢？

2.3.1.2 Google TIGER：召回阶段用自回归生成式模型

核心价值：首次将自回归生成引入召回阶段，通过语义 ID 压缩 Item 空间，为生成式推荐提供了“无中生有”的技术范式。局限性：仅适用于召回阶段，未解决精排与重排的端到端问题。Paper：《Recommender Systems with Generative Retrieval》

作者借鉴 LLM 的模型结构以及自回归生成的方法，以自回归方式直接预测标识下一个 item 的编码词组，因此它被视为生成式检索模型。

•生成式模型结构：基于 Transformer 的 T5 模型。

•输入与输出：均为语义 ID 序列（Semantic ID Sequence）。

•自回归生成过程：Transformer 解码器块（Decoder Block）计算得到隐状态（hidden_states），将其与全库词嵌入（Vocab Embedding）计算得到 logits，再进行 TopK 采样，进而得到可能要输出的 Token ID。

•采用束搜索（Beam Search）采样策略。

词嵌入（Vocab Embedding）：以 LLM 为例，词嵌入规模即所有 Token ID 大小（与英文单词有对应关系，约 15 万规模）。

“无中生有”的生成过程本质是与整个词嵌入计算概率分布，再根据概率取 Top。

2.3.1.3 Meta GR：精排阶段发现 Scaling Law

核心价值：验证了推荐场景的 Scaling Law，在特征构建、模型结构和训练方法上采用了生成式模型的理念和方法论，推动生成式推荐向精排阶段渗透。局限性：特征工程简化过度导致复现难度高，需结合传统 DLRM 特征才能提升效果。另外它是精排模型的替换升级，并非端到端直接生成推荐结果。Paper：《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》

Meta GR 模型结构创新 HSTU

Meta GR 特征设计

•模型架构设计：提出一种新的 HSTU（Hierarchical Sequential Transduction Units，层级序贯转导单元），针对高基数、非平稳的流式推荐数据设计，通过修改注意力机制和利用推荐数据集特性，在长序列上比 FlashAttention2-based Transformers 快 5.3x 到 15.2x。

•推理优化：提出一种新的推理算法 M-FALCON，通过微批处理（micro-batching）完全分摊计算成本，在相同的推理预算下，能够服务复杂度高 285x 的模型，同时实现 1.50x-2.99x 的速度提升。

•Scaling Law：模型参数量高达万亿，计算量提升 1000x，第一次达到 GPT-3 175B/LLaMa-2 70B 等 LLM 训练算力，且第一次在推荐模态观测到了语言模态的 Scaling Law。

2.3.2 基于语义 ID 的生成：压缩 Item 空间，提升泛化性与生成效率

自 Google TIGER 提出后, 基于语义 ID（Semantic ID）方式的生成式推荐就成为了近两年的研究热点，各大公司也提出了不少优化方案，例如百度的 COBRA、快手的 OneRec 等都使用了语义 ID 的方案，并做了微创新。

1、为什么语义 ID 这么受青睐？

前文提到自回归生成过程需与整个 Vocab Embedding 进行 Logits 计算。当前大语言模型（如 Qwen3，多国语言）的 Vocab Embedding 大小约为 15 万 Token。若将生成计算依赖的全库 Vocab Embedding 替换为京东的 40 亿商品，

•这将导致词嵌入存储与计算开销爆炸；

•且已知大规模稀疏 Embedding 易引发过拟合与训练不充分问题，进而也影响模型效果；

因此，要实现高效的商品“无中生有”式生成，必须压缩 Vocab Embedding 规模。

语义 ID（Semantic ID）通过将十亿级稀疏 Item ID 抽象、归纳为更高层的万级别语义表示，实现了 Vocab Embedding 规模的显著压缩，其核心目的有二：

（1）大幅减少稀疏参数规模、降低过拟合风险：将 item 参数体量与传统 LLM 的 Vocab Embedding 对齐至同一量级（从 40 亿压缩到万级），有效降低过拟合风险，结合多模态提取 item 语义 ID，提升模型泛化能力；

（2）支持高效生成式范式：语义 ID 即 Token 的总量可控（万级别），不仅支撑生成式训练，更能实现高效的生成推理。通过语义 ID 将 Item 空间从 40 亿压缩至万级，使自回归生成的 logits 计算开销降低 99.9%。

2、语义 ID 的生成过程

基于语义 ID 的生成式推荐过程

如上图所示，基于语义 ID 的生成式推荐主要分为两个阶段：

1）Item 提取 Embedding，再量化成语义 ID

使用预训练 LLM/LVM（文本、图像多模态）对 Item 提取 Embedding 之后, 业界最常用以下两种量化方式来提取语义 ID：

•RQ-VAE（Residual Quantized VAE）: 基于残差量化, 会有多层的语义 ID, 每一层对应一套 Codebook。

•RQ-Kmeans: 没有了 VAE 的部分, 并且 Codebook 是由 Kmeans 聚类算法得到。

语义 ID 提取完成后，每个 item 会被表示为类似<32, 61, 55>的三元组，该三元组与 item 一一对应。

2）Next 语义 ID 生成预测

基于 Beam Search 的自回归生成方式，可生成多个 Semantic ID 三元组（如<12, 23, 8>、<4, 28, 9>等）。实际在生成阶段可能会遇到“模型幻觉”问题，并不是所有的三元组都能映射成真实的 item_id，需要边生成边做有效性过滤。

2.3.3 稀疏特征依然很重要

生成式模型结构以及基于 Semantic 语义 ID 的自回归生成提供了很好的范式，但输入信号表达上很快发现了瓶颈。

1、Meta GR 效果难以复现

分析原因是对特征工程简化太厉害，只保留了行为序列 item id 和 action，其余 dense 特征、item side info 等特征全部删除，导致输入信号表达有限。

美团 MTGR 基于 Meta GR 基础上，保留了全部 DLRM 原始特征，线上效果有大幅提升。

•保留全部 DLRM 原始特征，并针对样本进行无损压缩，同时建设稀疏化存储以及计算框架将 padding 导致的冗余计算降低至 0。

•利用 Group LayerNorm 以及动态混合掩码策略，实现用统一的 HSTU 架构针对不同语义空间的 Token 信息进行编码。

MTGR 模型架构图

2、快手 OneRec 在最新技术方案里也加上了稀疏特征

OneRec 2 月份技术方案（ https://arxiv.org/pdf/2502.18965 ）模型输入为 Semantic ID 序列（与 TIGER 一致，由用户行为序列 item id 转化而来），而四个月后，OneRec Technical Report 和 OneRec V2 方案输入已改为稀疏 ID 特征，主要原因还是 Semantic ID 的表达能力有限。

OneRec V2 技术架构

OneRec 沿用了 Encoder-Decoder 结构，相较于 Google TIGER 原生方案，主要异同点如下：

•变化 1：Encoder 结构输入调整为传统 DLRM 稀疏模型结构（含用户基础属性、偏好及行为序列等）。

•变化 2：Decoder 结构保留了 Cross Attention（本质上类似于 Target Attention），FFN 替换为 MoE（Mixture of Experts）结构（推测受 DeepSeek 模型启发）。

•变化 3：Semantic ID 生成阶段，利用 miniCPM-V-8B 模型联合建模 item 文本与图像信息，采用 RQ-Kmeans 量化算法。

需要注意的是 OneRec V2 模型架构换称“Lazy Decoder-Only”，在笔者看来仍然是 Encoder-Decoder 结构，只是 Encoder 部分去掉了双向 Attention 变简单了，用户行为序列还需要与 CrossAttention 结合，这个是与 LLM Decoder-Only 最关键的区别。

从工程视角看，

•稀疏图（Encoder 输入）：特征设计沿用传统长序列建模方案，采用稀疏特征及 Embedding。这其中涉及用户行为序列的高性能存储/查询，以及 10TB 级、流式更新的大规模稀疏 Embedding 高性能存储是长序列建模效果提升的关键依赖。

•稠密图（Encoder-Decoder）：采用类 T5 结构（Encoder-Decoder），包含 Self Attention、Cross Attention、MoE、自回归解码及 Beam Search 采样策略等技术。当前模型规模在 0.1B~1B 之间，目前已经验证 MoE Scaling Up 可带来大幅的效果提升，预计模型规模很快会扩展到 10B 规模。

2.3.4 Encoder-Decoder vs Decoder-Only

目前基于 Next Token 预测的生成式模型架构主要分为两类：

•Decoder-Only 架构：LLM 的广泛实践，如 Llama、Qwen、DeepSeek 等模型均采用此架构；

•Encoder-Decoder 架构：而目前工业届生成式推荐广泛应用的是 Encoder-Decoder 架构，例如 Google TIGER 和快手 OneRec V1 等。

在当前阶段，T5 Encoder-Decoder 架构在推荐系统中处理长用户行为序列以编码用户兴趣的任务上效果可能更优（注：目前尚缺消融实验对比，结论将持续更新）。相比于 LLM Decoder-Only 架构，主要区别如下：

•Decoder 采用的 Fully Visible Cross Attention 机制，则是建立“用户兴趣编码”与候选“Item”间关联的关键设计。

•CrossAttention 的计算复杂度远低于 Self Attention，这对于长序列建模至关重要，Self Attention 针对长序列计算耗费的资源和延时要大的多。

不过 Decoder-Only 架构在 LLM 大语言建模上取得了巨大成功，随着 GRs 模型规模的持续扩大和训练数据的积累，同时 Decoder-Only 架构也可以吸收 Cross Attention 产生一些变种 Decoder-Only 架构，所以其在推荐领域的潜力仍需密切关注和探索。

三、工程攻坚：主要考量和挑战

作为推荐领域的新范式，GRs 在工业应用中面临诸多挑战。

3.1 模型的演变驱动工程架构升级

3.1.1 LLM/DLRM/GRs 异同点

从上述归纳表格可以看到，在特征抽取、特征存储、Embedding 规模以及 Dense 模型复杂度以及结果生成方式等角度，GRs 融合了 DRLM 的稀疏处理和 LLM 的稠密生成特性，这使得 AI Infra 工程实现面临独特的复杂性和资源挑战。

3.1.2 生成式推荐 GRs 的发展趋势

结合以上特点，我们大胆地对生成式推荐 GRs 的发展趋势做了预判，总结成了 Dense Scaling Up、Sparse Scaling Up 和生成范式三个技术象限，如何在三维技术象限上既要、又要、还要是个亟需解决的技术命题。

生成式推荐 GRs 发展趋势研判

（1）Sparse Scaling Up：由于用户序列中的稀疏特征仍然非常重要，生成式推荐系统（GRs）仍需应对大规模稀疏 Embedding 的分布式扩展与 Online Learning 在线学习时效性的挑战。在全站全域数据以及全生命周期用户长序列建模的加持下，实现 10TB 级别 Embedding 的秒级流式更新，仍是一个值得持续深入探索的技术方向。

（2）Dense Scaling Up：目前传统的 DLRM 或类似 Meta GR 的精排模型中，稠密参数规模大多不到百兆，而大语言模型（LLM）已经达到了几百 B 甚至上 T 的参数量级。未来若要实现基于世界知识的全场景联动甚至推理能力，必然需要引入图像、文本更多模态，扩大模型参数规模。同时考虑到推理计算资源成本，结合混合专家（MoE）结构达到 10B 参数规模是一条可行路径。

（3）Generation Paradigm：传统 DLRM 的输入是预先确定的候选目标（Target），对每个 Target 与公共的用户/上下文信息进行两两打分，这是一种逐点打分（Point-wise Scoring）范式。当前生成式推荐已采用广度优先的束搜索（Beam Search）生成方式，但这仅是一个起点，束搜索的自回归生成方式调度开销较大，导致生成效率偏低。借鉴大语言模型（如 DeepSeek）中的 MTP 并行解码技术，以及扩散模型（Diffusion Model）的并行生成能力，我们相信未来会出现更高效的并行生成方案。

小结：我们的初衷是工程先行，借鉴大语言模型（LLM）领域的前沿技术能力（如 MLA/NSA、MTP/Diffusion 等），构建能够同时支持 Sparse Scaling Up、Dense Scaling Up 以及多种生成范式的高效生成与推理系统。这不仅涵盖若干前沿技术点，更是一条具备高度可行性的技术发展路径！

3.2 训练策略升级：多阶段训练与强化学习

3.2.1 TensorFlow 到 PyTorch 的技术栈转变

传统 DLRM 模型的训练与推理主要基于 TensorFlow 技术栈，而 LLM 模型则普遍采用 PyTorch 技术栈，其在低精度量化、FlashAttention 加速、TP/DP/PP 等多维分布式并行训练能力建设较为完善。

在生成式推荐的新范式下，Dense 模型的训练与推理优化若基于 PyTorch 技术栈迭代、复用 LLM 能力，将具有较高的 ROI。

理论上这些工作没有可行性风险，但工作量巨大，包括但不限于以下内容：

•基于 PyTorch 生态构建稀疏 Embedding 参数服务器（PS）能力；

•基于 PyTorch 生态构建特征准入、淘汰、展现/点击（Show/Click）统计等能力；

•解决离线（Offline）到在线（Online）原生图化导出的交付与约束等问题。

PyTorch 动态图便于离线灵活构图，允许纯 Python 逻辑与 PyTorch 代码混合编写，但在线推理无法执行 Python 代码，因此必须从离线导出仅包含原生 PyTorch OP 表达的静态图（类似于 TensorFlow）。如何有效约束算法逻辑，以及如何高效、自动化地导出原生计算图，是务必解决的关键问题。

3.2.2 多阶段联合训练与强化学习

The overall process of GRs post-training

GRs 的核心问题在于如何设计训练方法和目标以适配推荐任务，需要从传统的单阶段训练，跃迁式的往多阶段训练模式升级。

单阶段训练：模型在一个阶段完成推荐任务, 通常专注于召回或排序。

多阶段训练：分为预训练和微调两阶段。根据微调方式不同，又分为：

•基于表征的微调：如字节跳动的 HLLM、快手的 LEARN 通过对比学习生成用户和物品表征，再用于传统排序模型。

•基于模型的微调：如快手的 OneRec 和 OneSug 等采用端到端框架，结合 GRPO 强化学习提升排序能力、通过精巧的奖励系统设计，为多目标优化、业务策略调控和团队协作模式提供了全新的、更高效的解决方案。

这些训练模式、解决方案的升级，极大的增加了离线链路的复杂性。

3.3 推理性能瓶颈：工业级在线的百毫秒级生死线

推荐系统在线链路时延要求较高，通常全链路在百毫秒级别要求，同时用户流量在几万~几十万 QPS。伴随 LLMs 复杂架构带来的是推理时延和资源成本的增加，这是 GRs 落地的极大挑战和阻碍。

生成式推荐在线架构示意

3.3.1 用户行为序列的高效生产、存储与查询

用户行为序列（如浏览、点击、收藏、加工等时序事件）是生成式推荐范式的核心驱动数据，相比于传统推荐，生成式推荐由于去掉了很多 item 相关的特征，这使得用户行为数据的重要性成为核中核。

在新范式下，

•如何采集整个 APP 全域场景的更多、更全面用户行为事件（包括页面停留轨迹等）；

•如何把行为序列做到更长，万级->十万级->甚至 Life Long 全生命周期；

为实现上述目标，对数据时序保证、毫秒级时效性、通信数据量、存储资源量等都提出了较大的挑战。

3.3.2 生成式推理优化

尽管可借鉴 LLM 的成熟经验，但在训练和推理环节仍需大量结合特定场景和模型结构的针对性优化工作，LLM 技术并不是总能开箱即用于 GRs。

目前在深入探索并实践多项关键技术路径：

•高性能计算 Kernel：针对模型关键算子（如 Self-Attention、Cross-Attention 及上 Transformer 变体）进行深度硬件感知优化。通过开发高度融合的计算核心，将访存密集与计算密集操作深度结合，最大化利用硬件（如 GPU/NPU）的计算单元和显存带宽，显著提升算子的执行效率。

•序列表征压缩：动态识别并保留序列中的高价值信息，显著缩短有效处理长度。在保证模型效果的前提下，将冗长输入序列精炼为紧凑的表征，大幅降低长序列带来的计算与存储开销。

•端到端推理流程优化：整体生成过程的效率与资源协同，其中包括 CPU/GPU 异构计算并行 Overlap、高效的 Beam Search 实现、有效性过滤早停机制（及早终止低潜力分支）等，提高整个推理流水线的高吞吐与低延迟等。

•模型架构革新：通过设计创新的稀疏激活机制、状态传递机制或特征解耦架构，将 Transformer 核心组件的计算复杂度从 O(N²)显著降至线性 O(N)或近似线性水平等。

如下图所示，借鉴 LLM 大模型推理目前在系统、模型和硬件层面的深水区优化工作和进展，生成式推荐 GRs 也是如此：未来的核心优化技术手段，都需要深刻理解业务场景、深入理解模型结构，挖掘场景、模型和硬件的性能极限。

LLM 大模型推理核心优化方向

限于篇幅原因，未来会将更多的工程实现解密，与大家分享这一路以来的优秀工程优化实践经验。

四、未来方向

未来 GRs 的探索将聚焦于以下几个前沿方向：

•从“生成”到“深度推理”（Reasoning）：当前生成式模型仍处初级阶段，具备基础生成能力但缺乏真正的“思考”与“深度推理”能力。提升模型的复杂推理能力，做到不仅能根据用户历史购买“滑雪板”推荐相似商品，还能进一步推理用户可能计划去极限运动，进而推荐“护具”这类具有深层关联或场景延伸性的商品。

•奖励机制的前沿探索： “什么是好的推荐？”，目前仍是开放性问题。生成式端到端架构极大凸显了奖励系统的核心作用，使其成为极具价值的研究焦点。超越简单的点击率（CTR）/ 转化率（CVR），设计能捕捉用户长期满意度、探索价值以及平台生态（如多样性、公平性）等的复合奖励信号，是构建真正智能 GRs 系统的关键。

•真正的多模态对齐：将“用户行为”视为一种模态，与文本、图像、视频等在统一强大的 LLM 基础模型中实现对齐。达成此目标，推荐模型有望在文本空间进行思考与推理，达到全新智能高度。

•并行生成优化：探索 MTP（Multi-Token Prediction，在 DeepSeek 模型中大放异彩）等并行解码策略，以及 LLaDA（Large Language Diffusion Models）之类的 Diffusion Models 在 GRs 场景的应用，充分发挥其并行生成潜力以大幅提升推理效率。

•全链路联动与决策：实现首页→推荐→商详→支付→售后等全链路的端到端生成与实时联合优化决策，达成跨场景全局收益最大化。