京东零售基于国产芯片的 AI 引擎技术
``作者:京东零售 李杰峰
一、前言
随着大模型的广泛应用,作为人工智能三大支柱之一的 AI 算力,已经成为竞争的焦点。从模型训练到推理,算力存在于大模型生命周期的每一环,极大程度地影响着模型在实际业务场景的性能与效果。面对京东海量数据的各种场景,缺乏坚实的算力基础就犹如高楼大厦没有稳固的地基,上层的算法/数据无法发挥其作用。
而随着美国相继出台的高端 AI 芯片禁令,如何保障集团的算力安全成为一个我们无法回避的问题。2024 年 12 月 3 日,中国半导体行业协会、中国汽车工业协会、中国互联网协会、中国通信企业协会集体发布声明,针对美国对华采取的出口限制表示坚决反对,认为美国相关芯片产品不再安全、不再可靠。四协会建议相关企业谨慎采购美国芯片,扩大与其他国家和地区芯片企业合作,积极使用内外资企业在华生产制造的芯片,呼吁中国政府支持可靠半导体产品供应商的稳定发展。
如何在京东业务场景让国产芯片可用、好用,是一个亟需解决的问题。然而,我们发现这并非易事,存在着以下挑战:
1. 硬件架构差异显著
在过去,京东底层算力集群主要围绕 GPU 进行建设,而国产 NPU 与 GPU 硬件架构差异大,且京东零售业务场景诉求多样、数据与模型体量庞大,需提升集群对多种异构芯片的兼容性及统一灵活调度能力,充分挖掘国产芯片算力,从而保障集群中不同类型的国产芯片被最大化利用的同时,能够有序、高效地为业务提供算力支持。
2. 软件生态尚未成熟
当前各开源模型或训练推理框架并不直接提供针对国产 NPU 的解决方案,而国产 NPU 软件生态尚不成熟。这意味着开发人员从 GPU 迁移至国产 NPU 包含精度校验、性能调优等复杂的适配工作,面临着巨大的迁移成本,严重影响算法开发与业务迭代效率。
我们看到,GPU 芯片能成为大多数人第一选择的原因,核心并不在于其产品硬件性能更强,而是因为他们构建了十分完善的 CUDA 生态。开发人员基于 GPU 的开发工作无需感知底层硬件的架构,能够更加关注模型开发与业务逻辑。
3. 业务场景需求多样且复杂
京东零售业务场景丰富复杂,各场景在模型选型、性能要求等方面差异巨大,解决方案不仅需要高效、统一,还必须能够灵活适配各业务场景,实现“1 套方案、N 种应用”。

以 PyTorch 为例,通用模型从 GPU 迁移至华为昇腾 NPU 流程示例,图像来自昇腾官网模型开发文档
以上痛点的核心在于,缺乏一套基于国产 NPU 的端到端训练推理解决方案,支持算法人员无感知地从 GPU 迁移至国产 NPU。在此背景下,九数算法中台从集群网络到训练推理引擎建设,推出了高效、统一、灵活的基于国产芯片的 AI 引擎技术。在接下来的章节,将为您详细介绍九数算法中台如何搭建起这样的生态系统,使得国产芯片在京东零售“落地有声”。
二、 基于国产芯片的 AI 引擎技术
2.1 整体技术架构

项目架构图
2.2 GPU 与 NPU 异构混合调度系统
为了保障京东零售业务场景多样复杂的芯片使用诉求,九数算法中台基于高性能计算网络搭建千卡规模集群,支持国产 NPU 与 GPU 相同的调度能力,通过统一的配额分配、调拨体系支持开发人员无感知灵活调度国产 NPU 与 GPU。由于算力资源长期处于满负荷运行状态,九数算法中台采取了多种措施来最大程度助力算法同学极致利用算力资源、更高效地完成算法工作,在保证业务稳定、易用基础上提升资源利用率,节约集团 IT 资源成本,充分挖掘 NPU 硬件能力,实现国产 NPU 芯片到从“单片可用”跨越至“集群好用”:
•千卡集群:为保障千卡规模以及 RDMA 互联网络模式下的集群稳定性,九数算法中台支持了全面的可视化监控系统,涵盖了 NPU 卡、网卡、光模块等关键组件,还支持了 NPU 卡健康检查、故障自动隔离,故障上报业务容器与自动告警能力,以便业务可以及时干预和解决问题。另外持续跟进新版本 HDK,不断提升集群的稳定性。
•调度优化 : 调度算法在 NPU 服务器独特的卡互联拓扑结构上兼容了原有 GPU 上的优化,兼顾算法任务性能、集群利用率与业务公平。关键特性如:
◦NUMA 感知和网络拓扑感知调度:识别 CPU NUMA 和网络拓扑,确保任务被分配到最优的计算和网络资源上,从而最大化任务的执行效率。
◦资源碎片最小化:采用了多种调度策略,如 Gang、BinPack 和节点资源预留,来减少资源的碎片化,提高集群的整体占用率。
◦可配置的优先级驱逐机制:该机制为用户提供了配额保障和抢占能力,确保重要任务能够及时执行。同时,它也支持根据任务的优先级队列来维护业务之间的公平性,提供更好的用户体验。
•高效使用: 为了给用户提供更灵活的计算资源以及更好的利用集群资源,国产 NPU 与 GPU 共同遵循资源队列机制。资源队列是为了关联某一资源队列的用户提供保障资源量(MIN)和共享资源量(MAX),多个资源组通过关联资源队列的方式,既可有一定资源的保障量,同时可共享集群空闲资源,从而提高集群资源整体的使用率,进而达到国产 NPU 的最大化利用。
2.3 高性能训练引擎
九数高性能训练引擎,经过深度优化和架构升级,完成对超过 40 种涵盖 LLM、多模态等主流底座模型的全面适配和优化,包括但不限于 LLM、多模态系列和文生图、文生视频系列,实现了对 NPU 算力的全面兼容。该引擎采用高度抽象的 API 接口,实现了一套 API 下 NPU 和 GPU 用户无感、0 成本无缝切换训练,为京东零售算力提供了坚实的安全保障;同时通过集成模型并行、序列并行,低精度通信,通信计算融合等技术,大幅提升了模型训练的吞吐量,为京东零售的智能计算提供了强有力的支撑。其主要特性如下:
•覆盖主流 LLM、多模态底座: 30+ LLM、10+ 多模态主流底座模型覆盖,一套 API 下 NPU 和 GPU 用户无感、0 成本无缝切换训练。
•覆盖 LLM 训练全流程: 涵盖从数据、训练模式,打标/评测离线全链路能力,支持 3 类数据生成方式、11 类指令/对齐微调能力、20 类通用/垂类评测。
•软硬协同深度优化: 通过 Triton 编译和 CANN 融合技术对热点算子(如 flash attention、rotary_embedding、npu_matmul_add_fp32 等)进行精细调优,实施锯齿 Attention、动态输入拼接、全子图下发以及重计算流水线的独立调度和自适应重计算等深度优化措施,实现了百卡 MFU 达 60%。同时,通过权重更新通信隐藏、CoC 计算通信并行、启发式自动并行策略搜索、BF16 低精度通信和多机间 RDMA 通信等技术,达到了百卡扩展系数 0.93,从而实现了千亿至万亿参数模型训练的近线性横向扩展。
•高可用性训练能力: 采用 Token 预缓存技术和分钟级的异步 Checkpoint 保存机制,结合按需快照即时下发,将启动时间从小时级别降至分钟级别,同时将模型存时间减少了超过 90%,整体训练效率提高了 15%,确保在发生故障时能够迅速恢复训练任务。
九数训练引擎 LLM 模型支持概况
在使用 NPU 进行模型训练时,开发人员无需进行精度对齐、框架适配等工作,仅需基于实际业务诉求,关注数据准备、参数配置、验证评估等训练流程,选择 NPU 对应型号,即可快速提交训练任务,实现基于 NPU 业务的高效迭代优化。
2.4 高性能推理引擎
与训练引擎类似,九数算法中台针对国产 NPU 建设高性能推理引擎,支持 MaaS 开箱即用部署(服务化部署托管),实现基于国产 NPU 的一键部署,内置 20+业界通用 LLM 大模型。通过模型量化、编译优化等手段进行推理加速,满足业务在大模型场景下对于高效问答的诉求,性能相比业界开源框架提升 20%。
•MaaS 开箱即用:基于九数 EA 部署,实现昇腾 NPU 的一键部署,API 兼容 OpenAI 和 Triton 协议,支持流式推理,与 GPU 方案保持一致。
•主流 SOTA 模型支持:支持 Baichuan、ChatGLM、Qwen、Llama 等 20+主流模型的端到端推理;
•性能优化:
◦模型优化:计算方面通过 GE 图编译优化和 ATB 高性能算子技术对 Paged Attention、Flash Attention、Sub_Mul_Concat 等操作进行深度优化,实现整图下发能力,通过算子 setup(workspace、tiling)、下发、计算实现流水线并行,有效隐藏了算子调度开销。同时支持 W8A8 SmoothQuant 量化、W4A16 AWQ 量化技术,显著较少了计算量与访存密度。
◦框架优化:调度方面实现了 Prefill/Decode 分离技术,在部分场景下有效提高推理速度,通过 KV cache、Prefix cache 等缓存技术减少重复计算。
•监控告警体系:支持可视化监控系统,包括服务吞吐、失败率、整体延时等服务化监控指标。同时,用户也可根据实际需求配置对应指标的告警系统。


九数推理引擎 NPU 支持模型概况
同时,在大规模搜推广场景,本项目也支持基于 NPU 的搜推广模型推理,通过开发融合 Pass 及融合 kernel,满足搜索推荐广告系统对于在线推理服务高吞吐、低延迟的诉求。
三、落地场景
•案例一:视频内容 Tag 云标签生成场景
多模态大模型在京东零售业务场景存在广泛的应用,而算力是影响图像、视频计算任务的关键卡点。其中,数字内容相关业务期望基于 NPU,利用 Qwen2 VL 模型对视频的多模态信息进行分析,抽取能够表征视频的一系列关键词。但当前 Qwen2 VL 开源代码仅支持 GPU 推理,暂未提供 NPU 解决方案,Qwen2 VL 运行在国产 NPU 上存在算子优化、推理加速等适配工作。
通过使用九数算法中台的 NPU 高性能推理框架,业务可将模型快速部署至线上场景。业务仅需选择模型与 NPU 资源量,即可完成模型的在线部署,无需关心 Qwen2 VL 从 GPU 迁移至 NPU 的繁琐流程。
目前,该案例共部署数十卡国产 NPU,用于内容 Tag 云标签生成工作,与 GPU 比对效果无明显差异。在输出 Token 数量一致的前提下,二者平均响应时长基本保持一致。

•案例二、物流大模型场景
如何将国产芯片和物流场景有机结合,是电商领域亟需解决的问题。
在京东物流大模型场景中,业务方期望基于 910B 将 Qwen2-7B 在地址解析、地址编码、地址分类等任务进行上训练。由于 Qwen2-7B 开源项目未提供 NPU 训练方案,该业务利用九数算法中台提供的统一训练框架,基于框架底座开源模型进行了 Pretrain、SFT、RL 适配。
基于 NPU 微调的模型与基于 GPU 微调的模型在地址解析等任务的训练结果分别达到了 91.03%与 91.08%,二者表现基本一致。目前,基于 NPU 的训练产物已应用在多个业务场景中。在预分拣分单场景已上线多个省份,在地址分类任务上已经刷新 4600 万条母库 POI 数据的多级分类标签,在人工预分拣地址异常识别中每天识别 3 万条以上地址。
•案例三、商家侧智能助手
基于大模型的客服 Agent 已成为电商领域的新趋势。其中,在商家侧智能助手的案例中,业务侧期望使用过往沉淀 QA 数据,基于 Qwen1.5 7B 进行微调,实现模型针对商家问题进行分析,并将任务分配给下游工具处理。
由于 Qwen1.5 系列开源模型暂未提供针对 NPU 的微调方案,该案例利用九数算法中台提供统一训练框架,基于框架底座开源模型进行微调。
通过测试对比,国产 NPU 微调的模型与基于 GPU 微调的模型分析结果相似,且 96%问题分配下游工具相同。对比模型分配的工具(pred_tool)和人工标注的工具(tool_gt)并综合打分,二者得分相近。
四、应用价值
目前,京东零售基于国产芯片的 AI 引擎技术已在十余个业务场景落地,为加速国产芯片破局、打造开放生态探寻新思路。
•核心技术自主且可控:通过使用国产算力芯片,有效降低了对海外芯片的依赖,确保了算法与算力方面的安全性。这一自主可控的技术体系涵盖底层硬件至上层应用,使京东零售在快速变化的国际环境中保持稳健和高效的运转。
•国产芯片应用性提升: 国内电商领域业务的复杂性和多样性为国产算力的应用提供了广泛的实践机遇。当前的引擎能力已应用于搜索推荐、广告创意生成、智能客服和数据自动分析等多个场景。通过这些实践,不仅显著提升实际业务效能,也为国产算力在真实商业环境中的应用提供了宝贵的经验反馈,从而反哺国产算力技术生态发展、成熟、普惠。
五、行业影响力
在实现了基于国产算力的一系列技术突破后,我们将沉淀的技术经验进一步转化为在集团内外的影响力,彰显京东零售的技术领先性和行业责任感:
•2024 年,京东零售开始作为理事单位,与华为昇腾共建 Openmind 开源社区;
•7 月,在上海举办的昇腾人工智能产业高峰论坛上,京东作为华为昇腾邀请 11 家生态伙伴及客户中的一员,联合华为发布了基于昇腾大模型推理解决方案的五大场景优秀实践。
•7 月,基于国产芯片的 AI 引擎技术项目荣获京东零售平台产品与研发中心 618 大促技术敢打奖。
•9 月,在第九届华为全联接大会(HUAWEI CONNECT 2024)上,项目主力成员获得优秀昇腾原生开发者的奖项。

24 年 7 月,昇腾大模型推理解决方案正式发布暨五大场景优秀实践,图源昇腾官网新闻资讯:https://www.hiascend.com/activities/dynamic-news/451
六、未来规划
•万卡集群建设
随着业界主流模型体量不断扩大,百 B 甚至千 B 级模型的训推诉求愈发迫切。为了满足京东零售在大规模计算场景的诉求,集群将在 25 年实现万卡级别高性能网络及调度能力,助力大体量模型业务发展。同时,九数算法中台将持续扩充集群支持的芯片类型,允许 GPU、国产 NPU 在集群内被混合调度。通过这样的集群生态建设,一方面能够让京东算法业务不依赖于单家厂商,保障了集团的算力安全和可持续发展;另一方面,也让算法业务在算力调度上有更加多元的选择。
除了进行集群的升级,九数算法中台还将进一步优化国产芯片的调度策略,通过应急资源池、资源智能预测、动态扩缩容等手段保障各业务都能够合理、高效地用上国产芯片,全面挖掘国产芯片算力性能。
•国产算力生态建设
京东零售将在 2025 年持续深入与国产头部芯片厂商的合作,共同助力京东零售 AI 数智化,作为华为昇腾 AI 解决方案竞争力和软件生态核心贡献者。
针对自研训练引擎在 LLM 场景的支持,九数算法中台将深入 HCCL 底层通信优化,建立融合算子库全面优化性能,达到百卡/千卡 MFU 可至 60%。针对 CTR 训练场景,九数算法中台将建设业界首个同时支撑昇腾 NPU 和 GPU 的性能领先的 CTR 大规模训练框架,并考虑建立开源生态,支持业务无感迁移,落地在主站推荐精排、主站搜索精排场景。
针对自研推理引擎在 LLM 场景的支持,九数算法中台将通过共建昇腾加速 ATB 算子库,扩展 LLM 前后处理能力及 LVM 等模型,性能能够达到业界 SOTA;针对 CTR 推理场景,建设 9N-Predictor NPU 推理引擎,支持 GPU/NPU 异构推理,并通过共建 GE 自动融合优化引擎编译能力,最大程度发挥 NPU 在推荐场景的极致性能。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/2292e2827dd9887c3404213de】。文章转载请联系作者。
评论