智源开源 FlagOS 升级：首次实现 DeepSeek-R1 满血版多种芯片高效快速部署

2025-02-25
北京
本文字数：3766 字
阅读完需：约 12 分钟

近日，DeepSeek-R1 以低训练成本实现比肩一流模型的高性能并全面开源，引发了海量部署及场景应用，推理计算需求迅猛增长。基于面向大模型、支持多种 AI 芯片的开源统一软硬件技术栈 FlagOS，智源研究院联合多个芯片厂商一同开发并开源了 DeepSeek-R1 多芯片版本，旨在推动大模型在不同芯片的适配应用，打破生态墙和算力束缚，构建多元芯片的统一技术栈和开源软硬件生态。此次发布基于 FlagOS 的 DeepSeek-R1 多芯片版本，是业界首次通过统一开源软件栈实现 DeepSeek-R1 的多芯片开源版本，并同时给出了严谨的模型对齐结果，保证了开源可用、统一易用。它给用户带来以下几个重要价值。

代码统一：使用同一套开源代码和底层框架，实现了不同 AI 芯片架构的 DeepSeek-R1 推理，推动生态统一、开放。
效果对齐：智源秉承科学严谨的方法，发布的多芯片版本，在各个芯片服务器上，均与英伟达芯片上的 DeepSeek-R1 进行严格评测，保证在不同芯片架构上的 DeepSeek-R1 版本与原始英伟达版本效果对齐，同样优秀。该对齐评测是基于智源的 FlagEval 大模型评测系统，评测结果可在 HuggingFace 及魔搭平台查阅。
开源开放：多芯片版本的源代码、各个芯片的 DeepSeek-R1 模型文件、各个芯片的一站式 Docker 运行镜像文件分别开放到 Github/Gitee，Huggingface 和魔搭，云厂商镜像仓库等平台，方便广大开发者用户的获取。
高效易用：依托各芯片适配的基础镜像，安装 FlagOS 核心组件，其中涵盖异构并行训推框架 FlagScale 与大模型通用算子库 FlagGems。在此基础上，能够一键部署 DeepSeek - R1 模型服务和自动分布式推理调优能力，同时提供与 OpenAI 兼容的 API，极大降低使用门槛，提升部署效率。

FlagOS 是由智源牵头，与多个厂商共同打造的面向多元 AI 芯片的统一、开源的系统软件技术栈，包括支持多种 AI 芯片的高效并行训推框架 FlagScale、支持多种 AI 芯片架构的高性能算子库 FlagAttention 和 FlagGems，以及支持多种 AI 芯片的统一通信库 FlagCX 等关键技术。FlagOS 旨在包括英伟达及多种 AI 芯片上，都能为用户提供统一、开源开放的系统软件，支撑各种大模型在不同 AI 芯片上的高效易用，从而打破算力的束缚。

此次基于 FlagOS 研发的 DeepSeek-R1 多芯片版本，可一键启动 FlagScale 实现 6700 亿参数大模型跨芯片的并行推理，支持用户根据需求灵活选择算力组合，自动实现并行推理计算。FlagScale 会根据不同 AI 芯片的计算能力自动优化分布式并行策略，确保资源分配最优化和高效利用，提升整体部署性能。FlagScale 提供统一且简单的命令执行机制，用户可以通过相同的命令在各种硬件平台上快速无缝部署服务。底层的高性能算子库 FlagGems 提供了 25 个通用算子的 CUDA 开源替换方案，融合算子将在下一个版本中完成替换，支持模型快速迁移至多元芯片。借助 FlagScale 的统一 Runner 机制以及与 FlagGems 的深度集成，用户只需在配置文件中添加环境变量即可无缝切换到 FlagGems 算子库进行推理。

HuggingFace 地址：https://huggingface.co/FlagRelease

详细步骤

基于 FlagOS，只需要几步，用户即可在支持的 AI 芯片服务器上完成环境搭建和模型部署。具体步骤可以参考我们提供的模型 readme（以下链接以沐曦为例）。https://www.modelscope.cn/models/FlagRelease/DeepSeek-R1-FlagOS-Metax-BF16

视频见智源研究院视频号

5 行命令完成从零开始在非 Nvidia 的 AI 芯片服务器部署 DeepSeek-R1 全流程

基于 FlagOS 研发的 DeepSeek-R1 多芯片版本提供了预配置芯片镜像，可绕过分布式环境搭建与芯片专属配置，实现零成本适配，大大方便了用户在不同 AI 芯片服务器上面部署和使用 DeepSeek-R1 模型。目前，首批完成了 5 种不同厂商的 AI 芯片支持，更多 AI 芯片支持将于近期陆续上线开源。同时，以 FlagOS 技术栈为基础，未来将支持更多优秀大模型在多种 AI 芯片的版本发布。

基于 FlagOS 的 DeepSeek R1 跨芯片模型性能在准确性上可全面对齐使用英伟达 H100 的模型性能。

DeepSeek-R1-H100-CUDA 是基于 CUDA 在 H100 上部署的基线性能，基本可以还原 Deepseek R1 技术报告上的数值。
DeepSeek-R1-H100-FlagOS 是在 H100 GPU 上利用 FlagOS 实现的模型，其性能与基线模型相匹配，证明了跨芯片部署的可行性和一致性。
DeepSeek-R1-FlagOS-Cambricon-BF16 是基于 FlagOS 在寒武纪芯片上基于 FlagOS 和 BF16 混合精度技术部署的模型，其性能成功与基线模型对齐，展示了跨芯片迁移的高性能潜力。
DeepSeek-R1-FlagOS-Metax-BF16 是基于 FlagOS 在沐曦芯片上利用 FlagOS 和 BF16 混合精度技术部署的模型，其性能同样与基线模型相匹配，进一步验证了模型跨不同芯片平台的兼容性和稳定性。
DeepSeek-R1-FlagOS-Iluvatar-INT8 是基于 FlagOS 在天数芯片上基于 FlagOS 和 INT8 量化技术部署的模型。尽管由于量化技术的应用，性能略有下降，但仍然保持了较高的准确性。

基于 FlagOS 的 DeepSeek-R1 在各芯片上的评测结果

注：1. 本评测结果由 FlagEval 提供。当前版本的发布涉及到在多个芯片平台上进行性能评估，这一过程需要较长时间来完成，我们将根据评估进度，逐步更新并公布各平台的性能对齐结果。确保能够提供准确和可靠的性能数据，以满足不同硬件环境的需求。

2. 本测试仅用于验证模型迁移后与英伟达版本效果的一致性，但由于适配芯片架构与产生原参数的芯片架构存在差异，因此在同数值精度（及同量化策略）条件下各数据集的评测指标差异在 1%内则视为效果一致。

FlagGems 是由智源联合多家公司研发的大模型通用算子库，基于 OpenAI Triton 语言并支持多种芯片架构。凭借 Triton 语言的开放性与灵活性，FlagGems 为多种加速硬件提供了统一且高效的算子层生态接入方案。目前，FlagGems 是全球范围内基于 Triton 开发的算子覆盖最全面的通用算子库，已展现出以下特色：

数量丰富：算子总数超过 140 个，且算子类型的广度远超同类竞品。
性能优越：90%以上平均性能超越 Pytorch CUDA 版本。
多后端支持：目前支持 7 种加速器后端，经过持续优化，性能加速比提升显著。
创新技术：采用独特的代码生成优化及运行时优化技术，二次开发效率及运行时性能优于同类项目

FlagGems 算子库已初步验证多元芯片统一算子层的路线可行性。同时，构建了从模型应用企业、系统集成商到芯片企业全链路产业生态。未来，算子库计划进一步提升性能，支持更多模型和芯片，引领多元异构芯片统一生态的技术前沿和产业落地。

FlagScale 由智源联合生态伙伴，基于开源技术共同构建的面向多芯片开源大模型框架，旨在提升计算资源利用效率，并确保模型训练与推理效果。通过提供模型开发、训练和部署等全流程关键组件，FlagScale 致力于成为优化大型模型工作流程效率与效果的必备开源工具包，具备如下特色：

领先的异构混训技术：首次实现不同代际与不同架构芯片之间大模型异构混合训练，提供通用的多维异构混合并行策略，支持不同厂商跨节点 RDMA 直连和 CPU 中转通信。
高效的端到端训练与推理：支持智源内外 10 余种模型的端到端预训练与推理，涵盖稠密和稀疏模型，涉及语言与多模态领域，参数规模达千亿量级。在 LLaVA-OneVision 同配置下，训练效率达到 DeepSpeed 的 1.7 倍；多模态 CFG 推理效率达到 HuggingFace 的 3.8～6.7 倍。
跨芯片自动调优能力：为用户提供开箱即用的自动调优工具，仅需通过配置即可一键获取性能最优的并行策略。这大幅降低了分布式训练与推理的部署门槛。通过自动调优，实际测试中多款芯片的性能平均提升 11.3%。
多芯片训练与推理适配：与厂商共建，已在 8 家不同芯片上完成训练与推理适配，实现算子、预训练损失、微调损失及评测效果四个层级的精度对齐。涵盖语言和多模态领域多个不同规模的模型，并成功实现非英伟达芯片上千卡的端到端完整训练。

FlagCX 是智源联合生态合作伙伴，构建并开源的异构统一通信库，是填补多元算力开源软件栈的重要版图，它不仅能够实现不同芯片之间的跨节点高效通信，支持单一任务在多芯片环境下的高效异构混合训练，还能实现大规模自适应通信优化，显著降低跨芯片、跨规模、跨任务的迁移成本。FlagCX 具备以下特色：

标准化：功能和接口进行统一标准化，将厂商适配成本极大的减少。
兼容性：兼容 PyTorch 等框架，兼容厂商自研通信库，兼容标准 IB/RoCE 网络协议等。
自适应：针对不同任务负载、不同集群规模、不同厂商芯片等，将提供自动调优机制。
高性能：当前已在同构芯片上实现通信的零开销分发，而在异构跨机通信达到峰值带宽 90%以上。为更好地推动异构统一通信库 FlagCX 的发展，加速相关标准的研制及落地应用，智源正在积极构建相关软件生态。通过产学研的协同创新，形成良性循环，加速异构统一通信库的技术推广与应用落地。

FlagEval（天秤）是智源于 2023 年推出的大模型评测体系及开放平台，致力于建立科学、公正、开放的评测基准、方法及工具集，旨在协助研究人员全面评估基础模型及训练算法的性能。FlagEval 已逐步推出一系列评测工具，涵盖语言大模型评测、多语言文图大模型评测及文图生成评测等多个领域，通过系统化的工具建设，平台不仅实现了对各类大语言模型和跨模态模型的广泛评测，还进一步拓展了评测场景，覆盖自然语言处理（NLP）、计算机视觉（CV）、音频处理（Audio）及多模态（Multimodal）四大领域，并支持丰富的下游任务。截至目前，FlagEval 已完成对 800 多个国内外大模型的评测，支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测，为模型性能的全面评估提供了强有力的支持。