校招加入京东,他悄悄干出了这些大事

家兴是 21 届京东博士管培生,从中国科学院自动化研究所毕业后就加入了京东零售技术。
初入团队,家兴便瞄准了极具挑战性的课题——低资源下的大模型训练与规模化应用。凭借对前沿技术的深刻洞察与独到见解,工作期间他发表了 4 篇顶会论文,提交 10 项专利,并入选北京亦麒麟优秀人才。
这一路走来,这位年轻人是如何做到快速成长的?希望他的经历能给大家带来一些启示和帮助。
技术人从后面走到前面 会有更大的施展空间
技术人始终面临业务落地与技术创新的博弈:既要消化应接不暇的需求洪流,又要驾驭日新月异的技术浪潮。在短期交付与长期成长间寻找平衡点。对我来说,每一次业务问题的解决都是进行技术驱动的一次重要尝试。在完成业务需求的时候,尝试去深入理解业务逻辑,思考当前业务需求的来源是什么,后面还可能会出现什么问题,从技术的角度看是否有散点的需求可以合并解决,从后面走到前面,想到前面,就可以实现业务需求与技术探究的有机结合,给技术人以更大施展和腾挪的空间。
入职一年后,我开始接触同品识别项目,通过对同款商品的聚合展示,用户可以快速选择性价比高的商品,获得更好的体验,商家也会被激励提供更具竞争力的价格和服务。为保证聚合展示的质量,通常会对重保商品的聚合结果进行人工审核,但京东海量的商品为审核带来了压力。比如一百件待对比商品需要进行 10^{4}次比较。因此,我们考虑基于大模型训练同品判别器来进行自动预审核过滤。同品判别模型以待对比商品标题作为输入,为了避免大模型幻觉,我们将 Llama-7b 改造为 MultiChoice 模型,仅生成“否”和“是”,并根据其概率产生判别结果。当判别结果的置信度超过某一阈值后,直接输出,而低置信的样本则会送予人工标注审核, 这样可以过滤掉大量“容易”的样本,降低人工审核的成本,整体提效 50%以上。随后我们更进一步考虑了使用大语言模型带来的严重计算消耗,对同品判别模型进行了蒸馏压缩,将其压缩六倍以上,推理速度提升约 4 倍,而精度几乎不下降。 成果最终广泛应用到了多个业务场景,节省了大量标注费用。

结合自动预审核过滤的站内同品识别系统示意
走在了业务需求的前面,在能力建设的早期就提前考虑了效率的需求。业务方也非常乐于见到这样的尝试,给了很多的空间和支持。主动深入理解业务逻辑,预见业务发展的潜在需求,可以为后续技术手段的探究和运用留出比较大的空间。同时,基于实际的业务问题进行分析、解构和抽象,可以更好地发现深刻的、值得讨论的技术问题,用这样的实际问题切入进行深究,很多时候会比 follow paper 型的研究效率更高、理解更到位。每个业务需求都是构建技术纵深的最佳契机。
毕业一年,我的 AI 研究入选顶会 ICLR
我的工作目标是探索更高效的模型训练范式,推动低资源训练这一前沿领域的发展,以及通过模型轻量化来推动大模型在实际业务场景上的应用落地。
在日常工作中,我们有非常多的场景有训练的需求,待训练模型的参数量很大,训练数据很多,还需要做大量的实验来获得最优的策略设置,在计算资源紧张的情况下还真的是很头疼。我在做大模型应用的过程中就被模型训练速度慢困扰了很久。在模型固定的情况下,业务实践中通常会随机采样部分数据训练来缓解这个问题。但是更深入地思考后,就会出现新的疑问:
1、哪些样本应予以保留?
受到经典机器学习方法支持向量机(SVM)的启发,我们考虑根据样本点到分类边界的距离来衡量训练样本的价值(对于深度学习方法,仅考虑特征空间中点到决策面的距离作为近似)。越靠近分类决策面的样本越容易被错分,其包含的信息量越大,应该被保留。反之,远离分类决策面的样本点对训练帮助不大,可以被去掉。这样的样本选择策略被命名为边界间隔选择(Margin Selection, MS)。
2、训练过程中,这部分核心样本是否是静态的?
在训练过程中,由于参数的更新模型的决策面是在不断变化的。在训练的不同阶段应该保留不同的训练样本。因此,我们采用了动态数据选择的策略:在训练过程中,每隔 N 个 epoch 进行一次数据选择更新核心集, 随后在该核心集上训练模型直到下次数据更新。下图给出了设计的基于间隔的动态数据选择(Dynamic Margin Selection,DynaMS)方法示意:

基于分类面 margin 的动态数据选择方法
3、减少数据后,模型效果还能否得到保证?
通过理论收敛性分析,使用上述 DynaMS 训练的模型大概率可以收敛到与原模型相同的 Loss。
以上工作也被顶级会议 ICLR 录用了。
这并不意味着结束,我们还可以更进一步。
大模型效果与训练样本量的幂率关系(Power Scaling Law)是海量算力需求的核心因素。如图所示,横轴是训练的样本量,纵轴是验证损失。增加 10^8 训练数据,模型 Loss 仅下降 0.05。这一规律意味着任何进一步的减少误差尝试都可能需要增加一个数量级的样本。既然上面我们发现用少量的样本训练也可以达到接近的效果,那么是不是可以通过数据选择来突破幂率形式,实现如下图所示的指数形式的新 Scaling Law 呢?那这样就是非常有影响力的问题了。
从这个意义上说,仅选择信息最丰富、知识密度最高的样本子集进行训练可以在模型性能和训练效率之间实现更好的权衡,这为低资源情况下进行模型训练带来了希望。近期 DeepSeek R1 通过使用高质量的推理数据蒸馏 7B 的 Qwen-7B 模型在推理任务上超过了 GPT-4o,也展示了通过优化数据来实现“四两拨千斤”效果的潜力。

通过数据选择突破幂率的 Scaling Law!
结果第一、靠谱、专业:技术人的自我修养
在学生时代,我总是被各种新鲜事物所吸引,思维跳跃且充满好奇心。本科期间,我在电力控制工程领域主修电动汽车的无线充电技术。然而在美国做交换生时,足式机器人吸引了我的目光,于是我迅速转向,选修了机器人学及非线性控制等课程。2015 年,随着 AI 热潮的兴起,我意识到为机器人赋予智能大脑有着无限的可能性,便又投身于机器学习的研究。进入研究生和博士阶段后,我延续了这种广泛的探索模式,一开始关注应用型研究和推荐系统,但很快,我又被贝叶斯方法的通用性和灵活性所吸引,随后又深入研究 moment matching 方法。这种不断迁移的探索模式虽拓宽了视野,却也导致每个领域都浅尝辄止。
真正的创新不在于知识面的铺陈或现有技术的重组,而在于对核心问题的持续深耕与价值验证。这促使我反思自己的学术路径,认识到真正的突破来自于专注和深入的研究。用立足当下,脚踏实地的态度减少大量无意义的内耗。专注于工作,事事有回应,件件有着落,解决好业务需求,去交付结果并赢得认可。技术探究终须落地生根,思想火花终要淬火成钢。“这个世界上根本没有正确的选择,我们只不过是要努力奋斗使当初的选择变得正确。” 确定好当下要做的事情,就要绝不动摇地把重点放在努力执行上,用最终的结果去说话。才能成为一个靠谱的人。
作为技术人永远不能忽视技术能力的提升。特别是 AI 领域的变化日新月异,持续学习非常必要的,专业力永远是立身之本。所以要密切关注行业动向,了解并学习前沿科技,提升对技术的敏锐度,勇于尝试和布局;积极参与学术活动和技术论坛,保持同行的交流,避免陷入闭门造车的困境,长期地去修炼好自己的内功。
这是过去四年我在京东零售的故事,也是所有京东技术人快速成长的故事。
第五年的旅程已经开启,未来充满无限可能!
论文
《DynaMS: Dyanmic Margin Selection for Efficient Deep Learning》
京东零售智能算法团队负责大模型以及自然语言处理(NLP)算法在电商域相关业务场景的赋能,包括电商内容理解/标签生产/商品信息抽取/知识问答/内容生成等。团队成员来自国内外顶尖高校,我们致力于打造电商理解一流团队,用前沿的技术驱动业务发展,也乐于把实践经验分享给业界。 欢迎有技术情怀、有创新活力的你加入我们,期待与您在京东相遇!简历投递邮箱:org.znsf.jobs1@jd.com
评论