写点什么

从云端到终端,从大模型到机器人:智源众智 FlagOS 1.5 引领开放计算生态迈向成熟

作者:智源研究院
  • 2025-09-28
    北京
  • 本文字数:5866 字

    阅读完需:约 19 分钟

9 月 26-27 日,在北京举办的首届 FlagOS 开放计算开发者大会上,北京智源人工智能研究院(简称“智源研究院”)携手 18 个共创团队、超过 60 个全球生态合作伙伴,正式发布开源大模型智算基座“众智 FlagOS 1.5”,已经支持了 16 家厂商超过 20 多款芯片,成为全球在 AI 系统软件全栈上,覆盖 AI 芯片种类最多的开源统一技术栈。作为一个面向多种 AI 芯片的统一开源系统软件栈,众智 FlagOS 1.5 的发布标志着全球人工智能底层技术生态正迈向一个以“开放计算”为核心理念的协同创新新纪元。


众智 FlagOS v1.5 发布


本次大会吸引了来自 Linux 基金会、PyTorch 基金会等全球顶尖开源组织,以及覆盖“模型-系统-芯片”全产业链的领袖、专家与开发者。他们共同见证了众智 FlagOS 如何以“开源开放、全栈统一”打破硬件隔阂,释放多元算力潜能,为全球人工智能产业的可持续发展奠定坚实基础。


智源研究院理事长黄铁军致辞


智源研究院理事长黄铁军在致辞中表示,众智 FlagOS 的推出不仅打破了芯片厂商之间的技术隔阂,更为中国和全球 AI 产业打造了一个真正开放、协同、可持续创新的智算底座。他指出:“‘众智 FlagOS’技术栈及生态的发展是一项长期而系统的工程,需要持续凝聚跨领域的创新力量。我们希望通过 FlagOS,持续推动 AI 创新资源的自由流动,让人才和产业通过开源平台开放竞争、协作共赢,支持人类、环境和智能的融合和可持续发展。”


中国开源软件推进联盟名誉主席陆首群视频致辞


中国开源软件推进联盟名誉主席陆首群通过视频致辞表示祝贺。他高度肯定了 FlagOS 在性能优化上取得的显著成就,并将其视为充分挖掘国产芯片潜力,构建自主 AI 计算平台的关键一步。

破解 AI 算力碎片化:“开放计算”的时代使命


当前,人工智能的飞速发展正面临一个深刻的挑战:算力生态的严重碎片化。全球 AI 芯片百花齐放,但每一种芯片都倾向于构建自己的软件生态系统,形成了“一芯一栈”的“烟囱式”开发模式。这导致大模型和 AI 应用的开发者们如同在建造一座技术上的“巴别塔”,彼此的语言(软件接口)不通,代码无法复用。


这种困境带来了巨大的资源浪费和创新阻碍:

  • 高昂的迁移成本:将一个在某款芯片上开发成熟的模型,迁移到另一款芯片上,往往需要耗费数月甚至更长的时间进行底层代码的重写和适配。

  • 生态锁定风险:用户被深度绑定在单一硬件供应商的生态中,失去了选择更具性价比或更先进算力的灵活性。

  • 创新效率低下:开发者的大量精力被消耗在重复性的底层适配工作上,而非更高层次的算法和应用创新。


在此背景下,“开放计算”的理念应运而生。其核心是构建一个开放、统一的软件层,将上层的 AI 模型与底层的异构硬件解耦,让开发者能够“一次开发,处处运行”。


智源研究院副院长兼总工程师林咏华发布众智 FlagOS 1.5


“作为开放计算理念的坚定实践者和关键推动者,”智源研究院副院长兼总工程师林咏华表示:“众智 FlagOS 的愿景和使命是构建一个不受单一硬件限制的、真正开放的 AI 创新乐土。我们相信,开放协作是推动技术普惠的唯一路径。今天发布的 1.5 版本,是智源与全球 60 多家合作伙伴共同努力的结晶。我们正通过 FlagOS 这个平台,连接全球的智慧与算力,让每一位开发者都能自由地创造未来。”


众智 FlagOS 1.5:从支持大模型到具身智能的全栈能力飞跃


历经两年多的精心打磨和社区共建,此次发布的 FlagOS 1.5 在全面性、自动化、性能和应用场景四个维度上实现了重大突破,展示了其作为“大模型操作系统”的强大实力。

众智 FlagOS 架构图


首先,在芯片适配广度上,FlagOS 现已支持全球 20 余款主流 AI 芯片,覆盖寒武纪、摩尔线程、华为昇腾、昆仑芯、清微智能、海光、英伟达等 17 家主流厂商,成为全球芯片兼容性最强的 AI 系统软件栈之一。这种“全芯片、全栈式”兼容,极大降低了开发者的迁移门槛,推动大模型跨平台部署标准化。


在核心组件上,FlagGems 算子库已成长为全球体量最大的 Triton 语言算子库,核心算子数量超过 200 个,已支持 16 家主流芯片公司的近 30 款芯片,并成为唯一被纳入 PyTorch 官方生态的跨芯片算子库。持续优化算子性能,部分性能低洼算子,性能超越 CUDA 30% 以上。




统一 AI 编译器 FlagTree 发布 v0.3 版本,扩展实现了 12 家主流芯片公司的 20 余款芯片产品的统一高效编译。通过 Hints 机制初步实现了基于硬件感知的编译优化技术,部分关键算子在华为昇腾芯片上性能提升达 10%。通过 CPP JIT 运行时提升算子速度,实现了基于 CPP 语言的运行时包装机制,降低运行时开销,应用于 20 余个算子,算子平均性能提升 20%以上。


FlagTree v0.3 原理架构图

通过 FlagGems 算子库与 FlagTree 编译器的共同优化,在 Qwen2.5 和 Qwen3 的推理场景下,与原生 Triton 实现相比,性能大幅提升,并逼近了 CUDA 性能。


基于 FlagOS 的端到端 Qwen 模型推理性能对比


FlagScale 并行框架全面支持了英伟达、天数、沐曦、昆仑芯、寒武纪、海光、华为昇腾、摩尔线程、清微智能等 9 种芯片。FlagScale 实现了训练、微调、压缩到推理部署的全流程覆盖,新增 LoRA 功能,支持部分参数高效微调。在 FlagOS v1.5 中,除了 Transformer 架构,FlagScale 也新增了对 RWKV 和 Diffusion 类模型支持。同时,支持了 vllm、SGlang、llama.cpp 等多后端引擎,真正实现了跨框架、跨芯片、跨后端的统一能力。



在训练场景上,FlagScale 支持了从百卡、千卡到万卡的同构集群高效训练,以及各种异构集群场景的高效混合训练。利用 FlagScale 的强大自动调优能力,用户可以获得平均 23%(最高测得 36%)的训练效率提升,显著降低模型训练成本。


在推理场景上,FlagScale 实现了推理部署的动态扩缩容和多模型自动编排。支持了 PD 分离的异构推理场景,即模型推理的 prefill 和 decode 阶段分别使用不同的 AI 芯片服务器,通过配比优化,降低推理服务的成本。此外,通过 FlagScale 提供的推理自动调优能力,用户可以获得 2%–20%的推理吞吐量提升,进一步获得性能收益。


不同芯片上模型训练自动调优的加速比较(0%为无加速)


FlagCX 统一通信库在 FlagOS 1.5 发布中,全面支持了集合通信,涵盖同构芯片通信和和异构芯片通信的全场景,并实现多芯片自动拓扑探测功能。当前 FlagCX 已经支持了寒武纪、昆仑芯、海光、华为昇腾、摩尔线程、英伟达等 8 家芯片的高效通信,支持 IBRC、IBUC 、RoCE、Socket、UCX 等 5 种网络协议。FlagCX 还被深度集成于百度飞桨 PaddlePaddle 3.0,实现 Pytorch、Paddle 两大框架的支持。基于 FlagCX 的统一通信库技术已申请国家标准和 ITU 国际标准,目前国家标准已进入国标委下发推荐性国家标准立项计划号阶段,ITU 国际标准已通过 ITU-T SG21 Q5 的 8 月份报告人会议,等待 10 月份 SG21 全会审批通过。


AI 自动化工具层面,FlagOS 1.5 上线了全球首个 Triton 算子自动生成工具 Triton-Copilot,支持从算子需求解析、代码自动生成、到自动验证测试的自动化全流程,让无经验开发者也能在 1-2 小时内完成过去专家 1-2 天才能完成的算子开发任务。Triton-Copilot 正在支持多种芯片后端的算子自动生成,并通过直接连通多种硬件后端,提供自动化验证和优化能力。


FlagRelease 大模型多芯片迁移和自动发版工具结合 AI Agent、基于 FlagOS 的全栈能力,实现了主流大模型跨芯片自动迁移,效率与上一版本相比实现了 4 倍的迁移效率提升。FlagRelease 支持了 DeepSeek、Qwen2.5/3、Ernie4.5、Kimi-K2、MiniCPM、phi-4、Grok2、GPT-oss、MiniMax 等近半年几乎所有主流开源大模型,在寒武纪、华为昇腾、海光、昆仑芯等八家厂商的芯片上的迁移和版本发布。为广大开发者提供了一站式最新模型、多种芯片的统一版本,用户开箱即用,三步即可完成安装。FlagRelease 在魔搭和 Hugging Face 初步上线的多个跨芯片版本模型,已经支持了上千用户的下载和使用,大大降低了开发者在各种 AI 硬件上使用大模型的门槛。


为迎接 AI 机器人和具身智能时代,FlagOS 1.5 首次实现了具身“大脑”(如智源 RoboBrain)与“小脑”(VLA)模型的训练、微调、推理的全链路支持和全链路优化,并支持了高效的端云协同。



FlagOS 1.5 也支持了浪潮、海光等“超节点”新架构。在高性能算力互联集群“北京方案”中,FlagOS 1.5 实现了在浪潮信息元脑超节点 SD200 上的高效训练和推理,帮助 SD200 成为首个实现 DeepSeek-R1 每 token 推理延迟低于 10ms 的国产硬件系统。在海光 Nebula 超节点上,通过 FlagOS 的自动优化能力,分钟级搜索出优化策略,在千卡上轻松获得超过 98%的弱扩展效率。


全球生态之声:共建开放计算共同体


众智 FlagOS 的成功离不开一个强大而开放的生态系统。大会上,多位来自全球顶级机构和产业界的代表分享了他们对开放计算的见解。



包云岗,中国科学院计算所研究员,RISC-V 国际基金会理事:“开放的硬件标准(如 RISC-V)与开放的软件系统(如众智 FlagOS)是天作之合。当底层硬件指令集变得开放,上层再有一个统一的软件栈来屏蔽硬件差异,这将极大地激发从芯片设计到上层应用的创新大爆发。FlagOS 为整个开放硬件生态提供了一片肥沃的土壤,让创新的种子能够更快地生根发芽。”



尹首一,清华大学教授、集成电路学院院长:“对于新兴的 AI 芯片架构而言,最大的挑战之一就是构建一个成熟、易用的软件生态。众智 FlagOS 的出现,极大地降低了这一门槛。新的芯片公司可以专注于硬件架构的创新,而软件生态则可以快速接入 FlagOS,直接得到对主流 AI 框架和模型的支持。这无疑会加速新架构芯片的商业化进程,促进整个行业的良性竞争与发展。”



Linux 基金会代表李昊阳:“FlagOS 的故事,让我们想起了 Linux 在服务器领域所扮演的角色——通过一个开放、中立的内核,统一了碎片化的硬件世界。开放的治理模式、社区驱动的开发以及对标准化的承诺,是开源项目取得全球性成功的关键。我们赞赏 FlagOS 所走的道路,并相信它有潜力成为人工智能时代的关键基础设施。”



PyTorch 基金会代表宗泽升:“非常高兴看到 FlagOS 开源社区,为开发者、AI 生态带来的巨大价值。以及 PyTorch 生态中的 FlagGems 算子库,为全球 AI 开发者提供了高效、后端无感的开发方式,可以将模型无缝部署到更多样化的硬件上,这也与 PyTorch 社区不断努力推动 AI 民主化和开放性的目标一致。期待后续与 FlagOS 社区进行更深入的合作。”



CSDN 创始人蒋涛:“开源是中国的 AI 方案,FlagOS 开源体系是中国在 DeepSeek 开源大模型之后另一个重大开源贡献。CSDN 也加入了 FlagOS 社区,期待在人才培养,gitcode 平台等多个角度与 FlagOS 社区进行更深入的合作。”



元始智能(RWKV)联合创始人罗璇:“作为一种创新的非 Transformer 架构,RWKV 在推广和应用中的一个核心挑战,就是如何高效适配多样化的硬件算力。FlagOS 的出现完美回应了这一需求,它提供了一个统一的软件栈,让我们能够便捷地将 RWKV 部署到不同的 AI 芯片上,并通过其强大的优化能力实现了显著的加速。这不仅极大地降低了新架构的落地门槛,更是对 AI 技术路线多样性探索的巨大鼓舞。我们非常期待与 FlagOS 社区继续合作,共同推动一个更加开放和繁荣的 AI 硬件与算法生态。”


聚焦具身智能:开发者日加速生态协同创新


9 月 27 日上午,FlagOS 开发者日以“具身智能开放技术研讨”为主题,聚焦 AI 机器人与智能体领域的最新技术突破和生态协同。智源研究院副院长兼总工程师林咏华发布了《FlagOS 具身方向工作计划》,系统阐释了 FlagOS 未来在机器人、仿真等新兴场景下的技术路线和生态布局。


会议现场,安谋、华为、地瓜、星智源、智平方、软通天擎、谋先飞、无问芯穹、松应科技等多家具身智能产业链上下游公司分享了他们在多芯片环境下实现大规模智能体训练、端到端感知决策闭环、高效推理部署的最新应用实践,讨论了与 FlagOS 结合的 AI 系统软件堆栈构建的技术路径。这些产业一线的经验,为开发者社区提供了具身智能落地的技术范式和可复用的解决方案。



圆桌论坛环节气氛热烈,学界专家、企业代表与 FlagOS 核心开发者围绕“AI 模型-系统-机器人本体”的纵深融合,深度探讨了产业端对开源开放软件栈的实际诉求,以及未来软硬件协同创新的突破口和生态共建模式。


通过本次开发者日,FlagOS 不仅以产业级技术路线加速 AI 与机器人生态协同创新,也以端到端的系统能力,引领中国在具身智能领域的自主创新和国际合作。


生态聚力,人才先行:构筑可持续发展的未来


在生态建设层面,智源研究院为最新一批“FlagOS 开源技术社区”生态合作伙伴授牌,社区核心共建单位已壮大至超过 60 家,电子技术标准化研究院、无问芯穹、苏州大学、CSDN、元始智能(RWKV)、面壁智能、中科软、东华软件、软通动力、澎峰科技等行业中坚力量正式加入,为 FlagOS 社区注入更强的产业资源与技术协同力。


FlagOS 开源社区新成员加入


FlagOS 卓越适配单位授牌仪式


面向人才培养与技术普及,智源研究院同步启动两大计划。首先是联合清华大学、北京大学、中国科学院计算所、北京航空航天大学、北京邮电大学、北京理工大学、北京中关村学院、哈尔滨工业大学、南开大学、天津大学等十余所顶尖高校及研究机构与清华大学出版社,启动“AI 高校公益行”,以自主研发的《AI 高性能计算软件编程》课程为核心,搭建从理论到实践的全链条人才培养体系,为行业持续输送复合型 AI 开发人才。


FlagOS 高校计划发布


其次,拟与 CSDN、魔乐社区、魔搭社区、Kaggle、天池等国内外知名技术社区和赛事平台合作,面向全球开发者举办“FlagOS 开放计算全球大赛”,以实战推动创新,发掘顶尖技术人才。


FlagOS 1.5 的发布,是迈向“人工智能+”时代的关键集结号。它所代表的“开放计算”理念,正在汇聚全球的力量,共同建设一个更加开放、高效、繁荣的人工智能新未来。


关于北京智源人工智能研究院(BAAI)


北京智源人工智能研究院(简称“智源研究院”)是 2018 年 11 月成立的非营利性新型研发机构,致力于成为人工智能创新引领者,营造全球最佳的学术和技术创新生态,挑战最基础的问题和最关键的难题,成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头,促进人类、环境和智能的可持续发展。

关于 FlagOS 开源社区


为解决不同 AI 芯片大规模落地应用,智源研究院联合芯片企业、系统厂商、算法和软件相关单位、科研机构等十多家国内外机构共同发起并创立了面向多种 AI 芯片的开源、统一系统软件栈 FlagOS。围绕多种 AI 芯片使用的核心痛点问题,FlagOS 社区打造了全球在 AI 系统软件全栈上覆盖 AI 芯片种类最多的技术栈,包括通用算子库 FlagGems、统一编译器 FlagTree、并行训推一体框架 FlagScale、统一通信库 FlagCX、自动迁移部署平台 FlagRelease、AI 驱动的自动算子生成工具 Triton-Copilot 和多芯片评测工具 FlagPerf 的一套系统软件生态。FlagOS 让产业界看到了打破不同芯片软件栈之间生态隔离的可能性,将有效降低开发者的迁移成本。


FlagOS 开源地址:

  • https://github.com/FlagOpen/FlagGems

  • https://github.com/FlagOpen/FlagScale

  • https://github.com/FlagOpen/FlagCX

  • https://gitee.com/flagtree/flagtree

用户头像

还未添加个人签名 2024-05-11 加入

北京智源人工智能研究院聚焦人工智能原始创新和核心技术,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破,支撑北京建设成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头

评论

发布
暂无评论
从云端到终端,从大模型到机器人:智源众智FlagOS 1.5引领开放计算生态迈向成熟_智源研究院_InfoQ写作社区