FlagRelease 上线：自动迁移发布大模型多芯高效版本，用户下载即用

2025-07-22
北京
本文字数：4429 字
阅读完需：约 15 分钟

模型开源并不意味着模型可用，绝大多数的开源模型仅适配某单一闭源芯片硬件生态，不同芯片的适配方案无法互通，生态高度分裂，适配各种 AI 硬件需要投入大量人力，效率低下。此外，每个模型的更新都需要重新适配，维护成本高企。

为了让开源大模型人人可用、多种硬件可运行，降低人工智能计算的门槛，智源研究院研发了面向多种 AI 芯片的大模型自动迁移、多芯片发版平台 FlagRelease。依托统一、开源的 AI 系统软件栈 FlagOS 提供的跨芯适配能力，FlagRelease 打造了一套将大模型自动迁移至不同硬件架构、自动评测迁移结果、内置自动部署调优功能并自动发布模型多芯版本的标准流程。用户可从魔搭或 Hugging Face 的 FlagRelease 入口找到所需开源大模型对应的不同芯片版本，下载即可直接使用，无需迁移。FlagRelease 彻底改变了 AI 模型与多元异构硬件的关系，让模型发展不再受制于硬件生态壁垒。

FlagRelease 当前面向 7 种不同硬件，完成了 12 个最新开源大模型的适配迁移，包括 Qwen、DeepSeek、ERNIE、RoboBrain、MiniCPM 等。智源期待与更多硬件厂商和模型团队合作，拓展硬件和大模型的适配种类。

FlagRelease 自动发版流程

FlagRelease 在多个平台的官方链接：

魔搭社区：

https://www.modelscope.cn/organization/FlagRelease

魔乐社区：

https://modelers.cn/FlagRelease

HuggingFace：https://huggingface.co/FlagRelease

一、FlagRlease 的核心技术：FlagOS

当前，AI 芯片架构与指令集各异，系统软件互不兼容，人工智能算法代码和模型文件很难进行跨架构迁移，这一问题已困扰人工智能发展多年，行业需要支持多种芯片硬件的统一编译器、算法库、计算框架等，实现多芯片之间的跨架构迁移。

FlagRelease 得以做到自动跨芯迁移，核心在于 FlagOS 软件栈的支持。FlagOS 是面向多种 AI 芯片的统一、开源软件栈，包括了面向多种芯片架构的统一编译器 FlagTree、基于 Triton 语言的通用算子库 FlagGems、高效训练推理框架 FlagScale 和统一通信库 FlagCX 等核心技术库组成。FlagOS 技术栈由智源研究院、中科院计算所、北京大学、清华大学、先进编译实验室、硅基流动、基流科技、中科嘉禾及众多芯片厂商共同打造。当前 FlagOS 技术栈已经支持了来自 10 家芯片公司、18 种不同芯片。

二、FlagRelease：自动跨芯迁移及发版

基于 FlagOS 技术栈，FlagRelease 可将开源大模型自动迁移至不同的 AI 加速芯片，并发布完整的迁移成果——包括代码、模型文件和适配多硬件的 Docker 镜像。

开源模型依赖分析

FlagRelease 可识别迁移任务，支持选择目标芯片，智能分析模型的环境、框架、算子库等依赖因素。平台用户可根据模型基本信息识别其任务类型，选择计划迁移的目标芯片，智能分析模型的环境、框架、算子库等依赖因素。在使能基础环境、框架、算子库等不同层级的软件过程中，FlagRelease 会对每一模块进行可用性分析，基于 AI 生态各层级的特点进行针对性的异常识别与修复。主要分为以下几个层级：

系统环境预校验：对平台提供的基础镜像进行系统依赖完整性前置检查，期望排除网络环境问题、操作系统软件源配置问题、编译器环境配置异常等问题。
AI 生态环境智能分析：平台将自动尝试以默认环境进行框架、FlagGems 算子库安装，模型迁移与多维度评测。当不同模型存在个性化环境依赖时，平台自动捕获并分析异常日志，形成供决策的环境分析结论。
AI 生态环境智能修复：平台引入智能手段根据环境分析结论，自动匹配适合的自动修复方案，如：安装缺失依赖、补全环境变量配置、修改算子实现、修复框架服务配置等。匹配方案后由智能体自动执行修复工具，并对关键修复结果进行二次校验。

分析与修复完成后，平台重新尝试执行原始任务，若仍失败，则进入下一轮异常识别与修复，直至任务成功或达到最大重试阈值。

模型自动迁移

为了实现模型在多种目标硬件上的自动迁移与高效部署，FlagScale 框架持续构建一系列自动化能力。包括：

进行框架支持代码级自动测试：在任务启动前自动校验模型在当前运行环境中的兼容性与稳定性，确保模型运行无误。
为用户准备好一键部署能力：通过 YAML 配置和结合内置主流模型模板，实现一键部署任务，包含单机和分布式任务，显著降低部署门槛，并通过 FlagScale 框架内置的负载均衡机制，用户无需额外配置，FlagScale 即可自动完成多节点间的任务分配和调度。
提供针对迁移后的模型自动推理部署调优工具：最终用户只需在配置文件中设置自动调优关键字，即可触发并行策略优化与执行参数的自动调优过程，最大化利用硬件能力，也支持用户自定义搜索空间和优化目标（如吞吐量、端到端时延等），实现更精细的性能调控与部署优化。具体过程如下图所示：

首先，用户只需提供目标模型配置和目标硬件数量，框架据此解析模型的计算与通信特性，结合当前资源约束，自动选择可用的硬件数量和策略空间。

接下来，框架会自动枚举包括并行方式（如张量并行、流水并行）、实例数量、批大小等关键可调维度，构建一个包含离散与连续参数的多维搜索网格，作为性能调优的基础搜索空间。

然后，通过生成候选配置并进行临时部署环境，自动构建内置样例数据集模拟真实推理负载场景，在线采集关键性能指标如吞吐量、延迟、显存占用和资源利用率。

基于这些评估结果，框架动态更新当前的“最优配置”候选。在此基础上，FlagScale 框架将基于历史评估结果持续迭代，执行“生成—部署—评估—更新”的自动优化循环，逐步减少搜索空间以提高搜索效率。

最终，当性能提升趋于饱和，或已达到预设的阈值或时间限制，将冻结最优配置，自动切换至正式部署模式，并完成服务实例的负载均衡配置、健康检查接入及实时监控挂载，确保推理服务稳定、高效地输出。

迁移后的模型评估

为了实现从一种 AI 加速芯片架构迁移到另一种架构，需要把底层算子库、编译器等都进行替换。因此，在替换了底层软件栈和硬件后，是否能够维持原有的模型效果是广大用户高度关注的核心问题。为了科学严谨地评估迁移适配后的模型表现，FlagRelease 依托 FlagEval（https://flageval.baai.ac.cn/）大模型评测工具，制定并实施了一套标准化、可复现的系统验证流程。

在充分确认迁移至不同 AI 加速芯片后的模型不存在显著性能损失后，模型方可进入正式发布阶段。该流程不仅有效规避了芯片兼容性带来的潜在风险，还切实保障了新算力平台上线的系统质量和用户体验，为多芯片生态适配及大模型工程化演进提供了坚实的技术基础。

具体而言，从知识应用、复杂推理、代码生成、数学能力等多个维度对模型进行系统性评测。为确保评测标准的一致性和科学性，测试过程中严格统一所使用的数据集、参数设置及评测脚本。此外，为保证评测结果的可量化和可对比，采用绝对差异和百分比差异两种指标，分别描述迁移后模型与原生模型之间的性能变化，计算方法如下：

在多组核心评测集上，只有当模型各项指标的平均百分比差异小于 5%时，才判定迁移过程未引发显著性能损失，并推动迁移后的模型和代码进入正式上线环节。通过上述严谨流程，能够以客观、数据驱动的方式，最大限度保障模型迁移的可靠性和业务落地的稳定性。由于当前评测的异构集群资源有限，未来将增加更多评测维度。

在经过上述重要步骤后，迁移后的模型和代码达到发布的要求，FlagRelease 即自动生成包括模型说明、使用步骤和评估结果的用户文档，自动将迁移后的模型相关文件发布至 Hugging Face 和魔搭等平台，迁移后的代码发布至 Gitee 和 Github，运行镜像发布至阿里云，形成用户“开箱即用”的资源。FlagRelease 极大降低了大模型的使用门槛，节省开发者的迁移和部署时间。

魔搭平台上的 FlagRelease 已上线模型

目前，FlagRelease 已在魔搭和 Hugging Face 上线了共 30 个不同版本的模型，覆盖 7 种芯片。以 Qwen3 - 4B、RoboBrain2.0 - 7B 等模型在不同芯片（如 Cambricon、Ascend 等）与基准（如 H100 - CUDA ）的迁移前后评测对比为例，LIVEBENCH、AIME、GPQA 等多项指标显示 FlagRelease 发布的跨芯片迁移版本的模型性能与原模型一致。通过 FlagRelease 在跨芯片模型迁移的质量把控，不但为用户在多种芯片上使用大模型提供了“开箱即用”的方便，更是提供了“质量一致”的重要保障。

在 FlagRelease 上发布的迁移后模型说明文件举例

三、FlagRelease 上的多芯片模型版本，三步部署可用

FlagRelease 的目标是希望降低用户的计算使用门槛，在面对新的硬件平台（FlagRelease 已经支持的），用户无需迁移，使用 FlagRelease 发布的版本，即可在新的硬件上运行大模型。

以下以 Qwen3-4B-flagos 模型在寒武纪使用为例讲解，其他厂商和模型同理。

第一步：下载模型权重，flagRelease 通常提供源于官方的版本或量化版本

pip install modelscopemodelscope download --model Qwen/Qwen3-4B --local_dir <Cache Path>

复制代码

第二步：拉取由 FlagRelease 发布的镜像并启动容器，具体见官方 Readme

docker pull 120.92.210.157/flagrelease/cambricon_vllm083_gemsreleasev1_0_0@sha256:2ad9fe06cdf46932e63efe79458546e09a00f06084be29e69b2b2fa30abbb17f
docker run -d --name flagos   --entrypoint "/bin/bash"   -e DISPLAY=$DISPLAY   --net=host --pid=host --ipc=host   -v /tmp/.X11-unix:/tmp/.X11-unix   --privileged   -v /share/project/xxx:/share   -v /home:/home -v /mnt/:/mnt/   -v /data/:/data/ -v /opt/data/:/opt/data/   -v /usr/bin/cnmon:/usr/bin/cnmon   cambricon_vllm083_gemsreleasev1_0_0:v1.0   -c "tail -f /dev/null"
docker exec -it flagos bash

复制代码

第三步：使用 flagScale Serve 一键部署推理服务

flagscale serve qwen3_4b

复制代码

部署模型后，可使用 API 或者配置 AnythingLLM 应用程序调用模型

四、推动人工智能计算普惠化，降低创新门槛

在 2025 年 7 月日内瓦举办的 Global Digital Collaboration 大会上，智源研究院提出了 Open Data、Open Model、Open Compute 的全球开源合作倡议。在人工智能大模型浪潮中，需要通过 Open Compute 开放计算，让多元 AI 硬件能够轻松支持大模型应用与 AI 创新，从而降低计算门槛，实现人工智能的计算普惠化。

而支持 Open Compute 的关键技术是统一、开源的 AI 系统软件栈。智源研究院联同全球社区力量一起打造的 FlagOS 技术栈，以公益开源的方式推动其生态发展，正是践行计算普惠化这一信念的核心。FlagRelease 的推出可进一步降低计算门槛，让用户“无需迁移”、“开箱即用”。

为了进一步推动多种 AI 硬件的产业落地和统一开源生态 FlagOS 的开发者生态发展，FlagOS 技术社区通过 FlagRelease 积极支持各种大赛和创新。近期，在由云计算开源产业联盟、天翼云、魔乐社区联合承办，万卡智算集群服务推进方阵 ICCPA、启智社区、智源研究院、商汤大装置协办的 2025 全国高性能云计算创新大赛（2025 MAXP 大赛）中，参赛团队可直接调用基于 FlagRelease 适配的多款 AI 芯片的 Qwen3-4B 等模型进行任务开发。

未来，依托 FlagRelease 大模型自动迁移发版的平台能力，可持续产生多种芯片+开源模型的开源版本组合，助力大模型在多种芯片上的自动高效迁移，推动 AI 生态的跨架构协同发展，降低大模型创新和应用的计算门槛，让计算普惠化，并助力人工智能计算架构的不断创新和突破。