在京东做 AI 的 95 后:我们这样搞定技术难题

在京东零售技术团队中,有很多年轻的算法工程师,他们大多是 95 后,在加入京东的短短几年内,用实力“啃”下了一个个硬骨头。
从大模型训练的效率优化、生成效果的极致调优,到算法落地的工程难题、业务场景的创新应用,他们用行动证明——做难而正确的事,才是技术人最快的成长路径。
每个技术突破的背后,是数百次实验的坚持,是推翻重来的勇气,更是对技术极致的追求。
一起看看这群技术年轻人解决技术难题的故事。

技术难题:
判断广告图片合不合格就像评价"这幅画美不美",涉及大量主观标准,人类一眼能看出的商品变形、错位等问题,AI 评委经常"看不懂"。
现有的奖励模型给出的决策常常无法精准指导 AI 调整,如何让 AI 像人类一样精准理解图片中复杂的审美和商业要求,并给出具体改进方向的评判指引?
我的解题思路:
拿到这道题时,我在思考:是否可以用多个奖励小模型的组合来替代单一奖励大模型呢?让每个小模型专注评判图片的某一类问题,如商品形状、摆放位置、色彩搭配等,降低单一模型的学习难度,同时提升评判的精细度;另一方面多奖励模型意味着更灵活的业务规则嵌入和更丰富的模型组合方式,提高了奖励信号质量的上限。
我和团队一起完成了一套基于人类反馈的可信赖广告图像生成的训练和推理框架,这个框架的运作流程可以分为训练阶段和推理阶段。训练阶段,生成模型根据商品透底图产出广告图后,由多个专注细分任务的小奖励模型生成多维质量信号,通过强化学习微调生成模型,使其逐步修正问题;在推理阶段,生成模型输出的广告图经同一组奖励模型联合决策,自动判断生成的广告图能否直接上线,无需人工审核。
基于这套框架,生成图片可用率 98%的情况下,召回率提升了近 30%,可以高效、批量化制作商品的 AIGC 广告图片。

我的成长笔记:
成长的最佳途径在于不断反思和复盘。在每次项目结束后,我都会总结成功的经验和需要改进的地方,将这些经验和教训形成可复用的方法论,不仅帮助自己成长,也能帮助团队中的其他成员提高工作效率。
入职前我的研究方向并非图像生成,而是图像分割、目标检测等任务。虽然应用的算法有差异,但是同为深度学习相关任务,提升模型性能时的优化思路、训练技巧乃至模块实现方式都有很多共通之处,其技术迭代的方向和角度,也往往能带给我很多启发,跨领域的知识迁移,往往能碰撞出意想不到的创新火花。

技术难题:
query 扩展是一种有助于缩小用户搜索词与商品描述之间差距的好方法。
想象一下,你在京东 APP 搜索"养生神器",理想情况下希望出现保温杯、颈椎按摩仪等商品,但传统的神经网络机器翻译模型在遇到新颖的用户搜索意图时,可能无法生成有效的扩展 query,无法召回很多相关商品。
如何突破传统 query 扩展的局限性,让 AI 学会举一反三,让搜索引擎召回更多相关且优质的商品?
我的解题思路:
大模型的盛行启发了我和团队,query 扩展本身就可以是一个生成任务,而大模型的大参数量又可以提升泛化性,正好可以解决我们所遇到的问题。同时,InstructGPT 论文中提出的利用 PPO 提升 LLM 效果的思路,不仅能够克服传统“死记硬背”训练数据的问题,还能让模型在实际应用中更加灵活和智能,就这样,我们坚定了大模型+强化学习的技术路线。
基于这一思路,我和团队研究了一种基于大语言模型的 query 扩展框架,该框架分为三个训练阶段:电商领域的预训练、任务驱动的微调和基于搜索引擎的强化学习。
首先,我们利用消费者行为数据和京东商品数据对 LLM 进行预训练,这一阶段为大模型装备了一个强大的“知识库”,让它具备深入理解电商领域知识和用户购物行为的能力。接下来,基于搜索日志筛选出高质量的 query 扩展数据,对模型进行了任务驱动的微调,在大模型已经具备电商知识的基础上,打磨模型在 query 扩展特定任务上的效果,让模型能更准确理解用户的搜索意图。最后,利用强化学习进一步优化模型的目标对齐,通过模拟离线搜索引擎,设计了多粒度的奖励函数,优化扩展 query 所检索到的相关产品数量,在线实验的转化率提升也证明了我们方案的有效性。

我的成长笔记:
面对技术难题时,我认为最有效的方法是通过分析具体案例 Case 来准确定位问题所在,并通过实验来验证不同的解决方案。这种方法不仅能够帮助我们深入理解问题的本质,还能确保选择的解决方案是最优的。
另外,我还会定期看顶会 paper、跟踪开源社区动态进行技术积累,在面对问题时能更快定位问题,高效提出解法。

技术难题:
优化京东商家智能助手的过程就像教一个实习生处理问题,传统方法(监督学习)就像让资深客服手把手教他每句话该怎么回。虽然能保证基本合格,但这个实习生永远无法超越师傅的水平,遇到新问题就束手无策。
如何通过有效的指导和激励,帮助这位“实习生”不断提升技能,在“教练”的指导下,突破人类经验的限制,实现自我进化?
我的解题思路:
在大模型训练过程中,如果仅基于传统监督微调手段,模型效果会以人类标签为上限,而我们的目标是助力模型从人类指导转向 AI 自我引导、进一步优化模型效果。于是我转向强化学习,对比了两种方案:
1、类似 DPO 的隐式奖励方案,像是给学生树立正面榜样和反面典型,让他自行学习优点、规避错误。
2、类似 RLHF 的显式奖励方案,像是先通过一系列答案和对应分数告诉教练如何打分,再由教练实时训练。这个方法效果更稳定,但训练资源消耗更大、同时十分依赖“教练”的质量。
如何培养这个高质量教练呢?我设计了一套 Agent 全链路评估技术,针对不同类型问题给出不同评分标准,保障局部与端到端两类视角的评估。对明确答案的问题直接判对错,并检查对应的思考过程;对开放性问题则用 AI 来评分。评估时区分模型生成质量与环境反馈结果,例如:当 Agent 正确调用 API 却因外部故障失败时,系统会给出高思维分+低环境分。通过区分"AI 想对了但执行出错"和"AI 本身就想错了"的情况,精准定位问题来源,为后续优化指明方向。
现在,京东商家助手就像有个"AI 教练团",边服务边进化。用算法解决算法的问题,正是技术最迷人的地方。

我的成长笔记:
技术突破往往需要跳出常规思维,即使是“看似不可能”的任务也都是从实际应用场景中提炼出来的,一定存在合理性与可实现的底层逻辑。
在解决技术问题时,我首先会进行问题的框架梳理与模块拆解,明确顶层设计,然后逐步细化到具体的实施要点。首先确认要达成的目标,识别核心难点,分析技术要点是否已掌握或需要学习,此外还要寻找业界案例或替代方案,以及评估团队协作需求等。通过将问题具体化,找到解决方案,即使遇到无法完成的任务,也能提供清晰的调研结论。

技术难题:
文生图大模型能够根据文本生成高质量图像的能力而备受青睐。然而这些模型往往有巨大的参数量,在电商场景下会占用大量算力资源且推理速度较慢。
如何精准识别并裁剪模型中的冗余部分,同时确保模型性能不受影响呢?这一过程就像“修剪花园”,识别珍贵的花卉与徒耗养分的杂草,让花园重焕生机。
我的解题思路:
在模型优化过程中,我发现通过 FFT(快速傅里叶变换)技术进行频域分析,就像使用了显微镜来观察,更直接地捕获模型冗余和有效特征的差异。具体来说,低频和高频的图片特征在频域上的输出会有明显的变化,这意味着可以利用 FFT 技术来定位模型中的冗余部分。
然而,仅仅依靠频域分析还存在一个难题:很难确定一个明确的阈值来有效冗余和有效特征。为此我还引入了 RDP 算法(迭代端点拟合算法),这就像是一种高级的探测仪器,能够自动识别频谱变化趋势中的关键拐点。结合这两种方法,我成功定位并移除了模型中的冗余部分。结果实验显示,模型训练吞吐量提升了 40%,性能效率显著提升。
这一成果不仅证明了创新方法的有效性,也是我首次在工业级项目中将基础算法理论创新与实际应用完美结合,通过技术探索,成功解决了复杂的工程问题,积累了宝贵的经验。
分享一段这个项目中重要的一段代码:通过递归的方式拟合频谱曲线,在误差尽可能小的情况下,找到频谱曲线中最重要的点,这些点即为 transformer 中的有效 block。
我的成长笔记:
AIGC 与大模型的快速演进,技术更新速度加快,对算法工程师提出从单纯研发走向落地应用与创新融合的更高要求。
面对快速变化的时代和复杂的业务,我会主动追踪前沿进展,跟进顶会、开源社区的动态,保持对领域趋势的敏锐性,同时提升的跨领域技能与知识,深入理解用户需求与市场趋势,结合算法能力提供真正有商业价值的方案,掌握良好的代码工程实践、持续集成和自动化部署,提高算法从实验到生产的效率。

技术难题:
在智能导购场景中,用户常提出包含具体场景参数的需求,如"我家的桌子长 130cm,宽 60cm,推荐一个大小合适的置物架"。
如何让大模型准确理解用户需求,并将其精准映射到商品库的结构化参数?
我的解题思路:
这一技术难点在于语义复杂性和商品描述与用户需求的精准匹配,一方面需要理解用户语言中的隐含条件,比如“大小合适"需转换为"长度≤130cm 且宽度≤60cm”,另一方面要准确匹配商品库的结构化参数,如货架尺寸、承重等,这需要突破语义理解、多意图混杂等难题。
过程中,我进行了模型训练,使用通用强化学习方法提升语义理解能力,通过数据闭环持续优化用户意图识别。并筛选高质量数据训练模型,确保处理新需求时仍保持高准确率。此外,我还将京言的多个模型整合成一个统一的系统,每个功能对应一个独立的代理。通过让单个智能体处理多种任务,在需要时进行人工干预,进一步提升大模型的效果,确保系统既高效又灵活,能够更好地服务于用户。
通过大模型语义推理,多轮对话引导用户完善需求,将技术参数转化为用户语言,结合电商知识,动态生成易懂的解释。京言上线以来,活跃用户平均对话次数增加,购买转化率持续攀升,实现了"越用越懂你"的智能导购体验。
这是我在进行多任务训练的时候,通过探针观察模型训练状态:
我的成长笔记:
在模型训练过程中,数据清洗和过滤是关键,但过程往往充满挑战。有时候,花整整一周时间合成数据、清洗数据、再到数据配比,最终训练出的模型却表现不佳,难免让人沮丧。但我始终相信,每一次失败都有价值。历史数据不仅能帮助分析问题,还能用于构建更优质的训练样本,支撑下一次尝试。当方向不对时,就果断调整策略,带着经验重新出发。
这就是技术人的成长——在不断试错中积累经验,在失败中寻找突破,最终一步步实现更好的结果。
评论