利用 Transformer 模型提升产品检索效果
利用 Transformer 模型提升产品检索效果
当顾客点击产品搜索结果列表中的某个商品时,暗示该商品优于未点击项。传统"学习排序"模型通过比较点击/未点击结果的"成对比较"或"列表排序"方式利用这种隐式反馈。但这种方法存在缺乏绝对反馈的缺陷——例如当列表中无任何点击时,模型无法利用这一负面信号。
在 KDD 2023 会议上,我们提出了一种融合绝对反馈的新型学习排序方法 RankFormer。该模型采用自然语言处理中流行的 Transformer 架构,能够:
通过分类令牌捕捉列表整体质量
利用注意力机制动态评估商品特征的上下文重要性
对零点击列表仍能进行有效学习
技术架构
模型输入包含商品特征(XI)和分类令牌(x[CLS])。Transformer 编码器生成的特征表示(ZI 和 z[CLS])分别传递至两个评分头:
商品评分头(hs)预测单个商品相关性
列表评分头(hd)评估整体列表质量
训练过程采用双损失函数优化:
商品级损失(Ly)基于点击/购买标签
列表级损失(Lt)依据列表最高价值项
实验结果
在公开数据集测试中,梯度提升决策树(GBDT)仍保持优势。但在包含丰富特征的亚马逊内部搜索数据上,我们的模型实现全面超越:
准确率提升 12%超过基线神经网络
首次在工业级数据集上超越 GBDT 模型
特别擅长处理零点击或全点击的特殊场景
研究表明,当数据集具备以下特征时,神经排序器才能展现最佳性能:
海量训练样本
高维特征空间
复杂特征分布
应用价值
该方法已应用于亚马逊商品搜索系统,通过更精准地解读用户点击行为,显著提升转化率。我们特别关注以下场景的优化:
无点击列表的负样本学习
全点击列表的质量判别
跨价格区间的上下文感知
未来将继续深化客户反馈信号的研究,包括:
多模态检索中的 Transformer 应用
长尾查询的冷启动优化
购买与浏览行为的差异建模更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码
- 办公AI智能小助手
评论