写点什么

从英伟达到国产算力:一场必须打赢的“迁移之战”

  • 2025-09-11
    北京
  • 本文字数:2317 字

    阅读完需:约 8 分钟

在当今数字化时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。AI 应用的广泛落地离不开强大的算力支持,而 GPU 作为 AI 计算的核心硬件,一直是推动 AI 发展的关键力量。然而,随着国际形势的变化和技术竞争的加剧,依赖单一供应商的 GPU 芯片已经无法满足国内 AI 产业的长期发展需求。在这种背景下,将 AI 应用从英伟达显卡迁移到国产显卡,不仅是技术发展的必然选择,更是保障我国 AI 产业安全和可持续发展的紧迫任务。

一、迁移的紧迫性和必要性

(一)国际形势的挑战

近年来,美国对中国的高科技产业实施了一系列限制措施,尤其是对高端 AI 芯片的出口禁令,严重影响了国内 AI 产业的正常发展。2024 年 12 月 3 日,中国半导体行业协会等四大协会联合发布声明,呼吁企业谨慎采购美国芯片,并扩大与其他国家和地区芯片企业的合作。这一举措凸显了我国在 AI 芯片领域实现自主可控的紧迫性。

(二)技术自主可控的需求

依赖进口芯片不仅存在供应风险,还可能面临技术封锁和安全威胁。国产 AI 芯片的崛起为我国 AI 产业提供了新的选择。通过将 AI 应用迁移到国产显卡,可以有效降低对国外芯片的依赖,确保技术的自主可控,保障国家信息安全。

(三)国内市场的潜力

国内 AI 市场庞大且应用场景丰富,从智能安防到自动驾驶,从医疗影像到金融科技,AI 技术的应用无处不在。国产显卡的性能不断提升,已经具备了替代进口芯片的能力。将 AI 应用迁移到国产显卡,不仅可以满足国内市场的多样化需求,还能为国产芯片的发展提供广阔的市场空间。

二、迁移到底难在哪?


痛点的核心在于缺乏一套基于国产显卡的端到端迁移工具链和解决方案,支持算法人员无感知地从 GPU 迁移至国产算力。

三、JoyScale “零感知”迁移栈

京东云 JoyScale 异构算力管理平台经过在京东内场和外场万卡集群打磨,完成了 40+ 主流模型迁移,沉淀出 JoyScale 全栈方案,其核心思想是:


  1. 零侵入:算法代码一行不改,仅通过后端切换完成迁移。

  2. 可验证:每一步都有黄金对照(GPU 基线),误差可量化、可回滚。

  3. 可扩展:新增芯片≈插件式接入,核心框架保持不变。

  4. 全链路:训练→微调→推理→上线监控,端到端覆盖。

3.1 系统架构

3.2 迁移方案

  1. 硬件适配

  2. 加速卡调度适配针对国产显卡的卡间互联技术,开发适配的调度插件。例如,昇腾 910B 的 HCCS 架构要求同一 Pod 内的处理器必须在同一 HCCS 环内,否则任务会失败。

  3. 算子支持度分析通过工具(如 Pytorch Profiler)提取 GPU 算子,与国产显卡支持的 API 清单进行对比,对不支持的算子进行适配开发。

  4. 性能调优结合国产显卡的硬件特性,通过 Profile 获取每个算子的执行时间,对较慢算子进行精细优化,通常要结合底层硬件架构特性进行优化,例如数据对齐,转换为连续内存等。同时也可以使用厂商 API 将多个算子进行融合以及转换为子图方式提交到加速卡等加速手段。

  5. 软件适配

  6. 程序迁移将基于 CUDA 的代码迁移到国产显卡支持的框架。例如,将torch.cuda.xxx()接口替换为torch.npu.xxx()接口。

  7. 框架优化在框架层为国产显卡和英伟达 GPU 提供统一的 API 接口,实现了一套 API 下 NPU 和 GPU 用户无感、0 成本无缝切换训练。

  8. 模型适配

  9. 模型量化通过模型量化技术,减少模型的计算量和存储需求,提高在国产显卡上的运行效率。

  10. 软硬协同深度优化: 通过 Triton 编译和 CANN 融合等技术对热点算子(如 flash attention、rotary_embedding、npu_matmul_add_fp32 等)进行精细调优,实施锯齿 Attention、动态输入拼接、全子图下发以及重计算流水线的独立调度和自适应重计算等深度优化措施,实现了百卡 MFU 达 60%。同时,通过权重更新通信隐藏、CoC 计算通信并行、启发式自动并行策略搜索、BF16 低精度通信和多机间 RDMA 通信等技术,达到了百卡扩展系数 0.93,从而实现了千亿至万亿参数模型训练的近线性横向扩展。

  11. 推理优化

  12. 通过 GE 图编译优化和 ATB 高性能算子技术对 Paged Attention、Flash Attention、Sub_Mul_Concat 等操作进行深度优化,实现整图下发能力,通过算子 setup(workspace、tiling)、下发、计算实现流水线并行,有效隐藏了算子调度开销。同时支持 W8A8 SmoothQuant 量化、W4A16 AWQ 量化技术,显著较少了计算量与访存密度。

  13. 模型服务采用双后端热备,流量 5% → 30% → 100%逐级灰度上线国产算力,失败率 > 0.1% 自动回滚英伟达 GPU。

  14. 统一调度和监控

  15. 自研基于云原生的万卡级异构算力统一调度系统,自动识别 CPU NUMA 和网络拓扑,确保任务被分配到最优的计算和网络资源上,从而最大化任务的执行效率。通过 Gang 调度、算力切分池化等技术提高集群的整体占用率。

  16. 支持可视化监控体系,统一监控异构显卡的算力利用率、显存利用率,以及 AI 负载的服务吞吐、失败率、延时、token 数等服务化指标。

四、典型落地场景

  1. 零售场景: 利用多模态模型对商品视频进行分析,抽取能够表征视频的一系列 tag。从英伟达 GPU 无缝迁移到国产 NPU,与 GPU 比对效果无明显差异。在输出 Token 数量一致的前提下,二者平均响应时长基本保持一致。

  2. 智能客服基于大模型的客服 Agent 助手,使用过往沉淀 QA 数据对模型进行微调,迁移到国产算力进行微调后,与基于英伟达 GPU 微调的模型分析结果相似,且 96%问题分配下游处理路径相同。

  3. 物流场景基于国产算力微调的模型与基于英伟达 GPU 微调的模型在物流地址解析等任务的训练结果分别达到了 91.03%与 91.08%,二者表现基本一致,AI 预分拣已上线多个省份,每天识别 3 万条以上异常地址。



五、结语

将 AI 应用从英伟达显卡迁移到国产显卡,不仅是技术发展的必然选择,更是保障我国 AI 产业安全和可持续发展的紧迫任务。迁移不是可选项,而是生存项! 越早动手,窗口期越长。京东云 JoyScale 通过完整且成熟的迁移软件堆栈,帮助客户有效降低迁移成本,提高迁移效率,确保 AI 应用在国产显卡上的高效运行,让客户更多地把精力更多放在算法创新上。京东云愿意与更多客户携手,一起把国产算力推向极致。

发布于: 刚刚阅读数: 3
用户头像

拥抱技术,与开发者携手创造未来! 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者,提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】,欢迎大家来玩

评论

发布
暂无评论
从英伟达到国产算力:一场必须打赢的“迁移之战”_京东科技开发者_InfoQ写作社区