大语言模型在电商定价中的实践
2025 年 4 月,在 InfoQ 举办的 QCon 全球软件开发大会上,本文作者进行了“因果推断与大模型融合:电商定价策略的变革实践”专题演讲。期间阐述了如何应用大模型方法应对电商定价挑战,优化商品定价策略,提升决策的科学性与精准度,期待与大家讨论交流、相互学习。
引言
随着电商的快速发展和价格透明度的不断提升,消费者在购物前往往会货比三家,挑选自己最满意的商品。为此,我们设计了一套模仿消费者购物行为的算法,基于相似品价格,为给定商品生成合理的价格建议。具体流程分为以下三步:
1.输入待核算价格商品描述;
2.从数据库中提取与该商品相似的商品及其价格;
3.根据相似商品给出价格建议,同时输出推导逻辑。
目前,该能力已应用于自营新品价格审核:每天都有大量新品上架,其定价由供应商提报,采销部门负责审核。由于商品数量庞大,审核成本高昂,接入该能力后,可显著提升人工审核效率。
基于大语言模型的建模方法
在建模过程中我们主要遇到如下难点:
1.覆盖全品类:需覆盖数百个品类,而不同品类的比价逻辑存在较大差异,例如某些需要进行单位价格转换,某些则需考虑材质差异对价格的影响。
2.商品信息复杂:商家常采用赠品、套装、专供型号等方式增加比价难度,增加了模型判断难度。
3.可解释性:比价过程中需详细阐述价格推导逻辑,明确参考了哪些相似商品及原因。
针对上述 3 个难点,大语言模型提供了解决问题的新思路:
1.其具备丰富领域知识,能够处理不同品类的比价逻辑;
2.能较好地理解复杂商品信息;
3.相较于传统机器学习模型,大语言模型不仅能给出价格预测,还能提供解释说明。
应用 RAG(Retrieval-Augmented Generation)架构,设计的定价流程如下:

说明:
1.检索器:从商品池中基于文本相似度和 embeding 召回与目标商品最相似的竞品,并将其作为生成模型的 prompt 输入
2.生成器:使用推理模型基于相似品价格推导出主商品价格,提升定价的准确性与可解释性。
3.强化学习奖励设计:从三方面构建 reward:
1.定价误差:模型定价与实际成交价的偏差尽量小。
2.相似品之间价差幅度:相似商品间价格差异尽量小。
3.属性提取:商品属性与规格识别的准确度。
通过过程奖励与树搜索优化模型效果
在推理模型训练过程中,链式思维(Chain-of-Thought,CoT)无法依赖人工标注,须由模型自动生成。此时,单纯“探索”会带来过多低质量尝试,单纯“利用”又容易陷入已有思路的局限。通过过程奖励与树搜索机制的协同作用,我们既让模型探索新的推理路径,又有效利用已学知识,显著提升了推理正确率和训练效率。
过程奖励与树搜索实现方式
在计算价格环节,我们会将待定价商品的描述与相似品的描述及价格构造成 prompt,并通过 LLM 生成预估价格。整个 CoT 过程分为以下 3 步:
•step 1:将单位价格进行转换,目标是通过单位价格的转换来缩小相似品之间的价差。使用相似品之间价格的变异系数来计算奖励(reward)。
•step 2:对价格进行排序,将价格计算简化为对不同商品价格高低的比较。奖励(reward)取决于模型排序结果与实际排序之间的差异。
•step 3:计算最终价格,给出最终报价。奖励(reward)依据预估价格与实际价格之间的差异来确定。

预训练
在预训练阶段,由于 CoT 是通过特定构造方式生成的,我们首先通过设计提示词来生成一批严格遵循 CoT 模板结构的样本。随后,我们使用 SFT 对基座模型进行预训练,确保模型输出的 CoT 格式符合预期要求,同时提升三步推理中每步的合理性与准确性。

强化学习
由于本方法的步骤固定且层数较少,我们采用 BFS 策略进行 CoT 样本的扩展和收集。在每一步推理中,模型会生成多个候选解,通过过程奖励选取当前阶段中质量较高、潜在价值较大的候选保留,并将其作为下一阶段的扩展起点。这样可以高效收集到更多符合预期且接近最终价格的 CoT 样本,提升整个训练过程的效率和质量。
在强化学习的优化阶段,我们采用了 PPO 算法,并对 reward 环节进行了调整。传统 PPO 算法中的 reward 是通过蒙特卡洛回报计算:

该方法未引入过程奖励,导致 CoT 推理初期可能包含非常关键的 token,但由于等比例衰减,初期 reward 信号会非常弱。
而在我们的优化中,引入了过程奖励设计:我们在每一步中设置过程奖励,同时考虑后续步骤的奖励并将其累积到前面的步骤中,从而确保初期关键 token 也能获得合理的 reward。例如:
•step1 在其第 k个 token 处拿到来自 step2 的αkr2与来自 step3 的βk+tr3。
•step2 在其第 t个 token 处拿到来自 step3 的βtr3。
•step3 只拿自己的 r3。
最终的奖励计算公式为:

实验结果
准确性:之前的线上的传统深度学习模型是针对文具、办公用品等少数品类进行定制化开发的,包含了大量专门设计的特征,因此难以扩展到全品类,对从常见三级类目中随机抽取一定量商品进行测试,整体准确率仅为 44%。采用本文方法定价后,整体准确率提升至 74%。
速度:如果使用提示词工程和高质量推理模型可以实现类似效果,但推理速度通常需要 10 分钟以上,并且由于 CoT 推理经常陷入死循环,必须进行额外处理。而我们采用 7B 开源模型作为基座进行训练,最终训练得到的模型可以在单卡上进行推理,整体流程可在数秒内完成。
后续优化
端到端 RAG+LLM 联合训练
目前,相似商品召回与 LLM 的训练是分离进行的。因此,模型无法根据最终定价结果判断召回阶段哪些样本是正例或负例,也难以将“探索–利用”思路扩展到相似商品的召回环节。
引入对抗学习优化样本选择
目前主商品的选取主要依赖经验规则,例如从表现较差的类目中随机抽取商品。若采用对抗学习,模型可以在候选商品池中自动挑选主商品,对表现欠佳的部分进行重点训练,并将“探索–利用”策略贯穿整个流程,从而提升召回质量和整体定价效果。言模型在电商定价中的实践
相关工作介绍
在 DeepSeek-R1 开发早期,尝试了过程奖励模型(PRM)和蒙特卡洛树搜索(MCTS)两种方法来提升推理能力,但未能取得理想效果。PRM 遇到三个问题:一是难以为各种推理问题定义一种通用的切分步骤方法;二是难以准确判断中间步骤的正确性;三是容易出现过程奖励滥用(hacking)。MCTS 的问题则在于:问题的潜在解答种类繁多,导致搜索维度呈爆炸式增长;训练一个既能对中间步骤有效、又较为准确的价值函数非常困难,同时很难通过强化学习提升价值函数的准确性。
首先,AlphaGo 利用约 3000 万条人类专家对局数据,对策略网络
ππ
进行监督学习,得到初始模型,其中策略网络的监督学习损失为

在自对弈阶段,对于每个局面 st,算法在当前搜索树中一次只扩展一个新子节点,所选动作由节点的价值估计 Q(st,a)和策略先验 P(st,a)共同决定:

扩展后,从该新节点模拟直至终局,统计胜负信号 z∈{+1,−1}作为 reward,结合价值网络在新子节点估值得到 Q 值,也在回传阶段更新整棵树中经过节点的 Q 值:

当一局对弈结束后,收集所有{(st,at,z)}迭代价值网络和策略网络。策略网络目标函数与学习人工棋谱一致。价值网络目标函数为:

每步切分方法:整条 CoT 推理按句子级切分,每一句话视为一个独立的推理步骤 sk。
预训练:
策略网络:收集高性能模型生成的高质量 CoT 路径{(Q,s1:K)},对策略网络π做监督微调:

价值网络:以整条路径为单位,用正负路径对做偏好学习(DPO)初始化过程奖励模型 rϕ:

MCTS 搜索流程:
Selection & Expansion:在当前节点 p(前缀)上,先用策略网络生成 top-K 候选动作{ai},再按 PUCT 公式选出最佳扩展:

Evaluation (一次 Rollout):从新叶子 p′开始,进行贪心模拟。1)每步生成 top-K 候选句子{sk+1(i)}。2)用价值模型打分,取最高分分支继续,直到终局。3)最终记录该模拟返回路径上价值模型打分的最大价值。
Backup:将叶子估值沿路径回传,这块比较复杂考虑了深度惩罚、价值函数、父节点的 rollout 值。
RL 模型训练:
策略网络更新:执行多轮 MCTS,筛选最终答案正确的完整轨迹{(Q,s1:K)}用于 SFT 更新策略模型。方法与预训练一致。
价值网络更新:执行多轮 MCTS,收集所有结果正确和错误的路径。对路径上每个步骤做进行多次(比如数百次)rollout,然后统计答案正确的比例 rk。获得{pk,rϕ(pk)}用于微调价值模型。

每步切分方法:CPO 将整条 CoT 推理按“Step k:” 前缀自动切分,每当模型在生成时遇到字符串 "Step k:" 就视为一步结束并停止该步的生成,下一步从新的前缀继续。
状态评估器:本文章有没单独训练价值网络,而是用一个 LLM+提示词实现了每步的打分。
始终用 BFS 构建思路树:每一层对所有活跃前缀同时扩展 top-K 候选,再保留评估器打分最高的 B 条进入下一层,直到达到终局。这一步贯穿了策略预训练和偏好数据收集两个阶段。
预训练:先把 BFS 搜索出的最优完整路径当作“专家示例”做一次 SFT:

偏好对收集 & DPO 微调:在同一棵 BFS 树里,对每个父前缀 p。选出下一步中被保留的那个 sk+以及剩下作为负样本的 sk−。用 DPO 同时利用好坏样本来微调策略网络:

OpenAI 在“过程奖励建模”(Process Reward Modeling, PRM)方向上的最新成果。
核心动机:传统的 Chain-of-Thought(CoT)训练主要依赖对最终答案的“结果监督”(Outcome Supervision),无法对每一步推理提供细粒度反馈;而本工作通过对推理过程中每一步的“有助/无助”人工标注,验证了过程监督在提升多步推理可靠性上的巨大潜力。
PRM800K 数据集:团队首先用大规模 LLM 自动生成多条 CoT 解法,然后请标注员对每道题的每一步(以换行为单位)打“是否有助于最终正确”的标签,并将所有“前缀 → 标签”平铺成一个约 80 万条样本的公开数据集 PRM800K。

方法与效果:在 PRM800K 上监督微调得到的过程奖励模型(PRM),可以对任意中间前缀输出“从这里出发最终正确的概率”。监督微调的目标函数(以二分类交叉熵形式):

其中 p 是一个前缀,r∈[0,1]是对应的软标签,rϕ(p)是模型预测的“从这里出发最终正确概率”。
推理时,对生成的多条 CoT 解法,按每步评分再累积排序(Best-of-N),显著减少逻辑漏洞。对多条 CoT 解法进行 Best-of-N 排序时,给每条完整路径的最终评分定义为其各步正确概率的乘积:

其中 pk=(s1,…,sk)是到第 k 步的前缀,保留得分最高的解法输出。
在 MATH 题库代表性子集上,PRM 驱动的搜索后输出准确率达 78.2%,相比只用结果监督的模型提升明显。
欢迎相互交流,共同探讨电商定价与大模型的更多可能。如果你对大模型在电商场景下的应用充满热情,渴望与我们一起突破技术边界,欢迎加入我们!

评论