稳定、高效、安全:百度智能云智算底座 BaiduLinux Cloud OS,赋能企业 AI 应用
日前,以“智跃无界,开源致远”为主题的操作系统大会 2025(以下简称“大会”)在北京中关村国际创新中心成功举办。大会由开放原子开源欧拉(OpenAtom openEuler,简称“开源欧拉”或“openEuler”)社区协同数十家产业伙伴共同举办。
百度智能云分享了在操作系统和智算领域的挑战与实践,介绍了基于全国产算力构建的 3.2 万卡超大规模智算集群,并系统性展示了支撑这一集群的智能化操作系统——BaiduLinux Cloud OS 的重要作用。
百度智能云 AI 基础设施新突破,百度 Linux 构筑智算新基石
今年 4 月,百度正式点亮了采用全国产算力构建的 3.2 万卡超大规模智算集群,实现了核心技术的自主创新。该集群可提供超万 P 算力,在万卡有效训练时间以及能效等方面均达到领先水平,建成后运行稳定,获得了唯一的万卡规模智算集群服务稳定性五星级认证。
BaiduLinux Cloud OS 作为上述智算底座的重要组件,为整个集群提供稳定、高效的运行时环境,支撑从机房建设到算力调度的全生命周期服务。百度 Linux 服务器操作系统 5.0 基于 openEuler 24.03 构建,深度融合百度自研技术,具备优秀跨架构兼容性,支持 Intel、AMD、海光、鲲鹏等主流硬件平台。系统针对云原生混部场景优化了 CPU 调度与内存回收机制,提升资源利用率并抑制性能抖动,保障业务稳定运行。通过构建内核与应用一体化的内生安全体系,实现全栈国密、身份认证与访问控制,全面抵御外部威胁,为企业应用提供稳定、安全、高效的操作环境。
架构创新驱动性能突破
面对算力规模持续扩张的挑战,百度在架构层面实现双向突破:
• 在横向扩展(Scale Out)领域,创新推出跨园区 RDMA 长传方案,实现 150 公里无损传输,将大模型训练损耗严格控制在 3%以内。通过路由聚合与多平面组网等前沿技术,构建了支持十万卡规模的高性能集群架构。
• 在纵向扩展(Scale Up)方向,推出多款超节点产品,显著提升卡间互联带宽与性能。其中,单个超节点即可独立完成万亿参数模型训练。依托与 openEuler 的深度协作,BaiduLinux Cloud OS 通过统一内存管理、异构调度框架等核心技术,实现数据零拷贝流动,将分布式硬件集群融为统一的超级计算机。
全链路优化释放算力潜能
百度通过全链路优化与智能运维的双轮驱动,确保算力资源高效转化为 AI 生产力:
• 在基础设施层,BaiduLinux Cloud OS 凭借异构算力协同技术,实现单机推理性能倍增;在资源管理层,基于云原生底座与智能调度优化,达成毫秒级操作响应;在 AI 任务层,通过模型结构与推理引擎的协同优化,全面提升单卡吞吐性能。
• 基于与 openEuler 共建的一站式运维平台,实现了跨层数据的统一采集与智能分析,能够自动定位 95%以上的慢节点问题,将性能问题定位时间缩短至小时级,并通过全景可视化界面助力运维团队实时掌握集群状态。
异构机密计算筑牢安全屏障
百度通过 BaiduLinux Cloud OS 与 openEuler 的深度融合,打造了“高安全、高易用、低开销”的异构机密计算解决方案。该方案采用硬件级隔离与内存加密技术,确保数据在计算全生命周期的安全;原生支持机密虚拟机,显著降低迁移成本;创新性“机密直通”技术实现虚拟机直接访问加速卡,在保障安全性的同时保持卓越性能。
百度智能云的这一系列技术突破,充分展现了国产算力基础设施的建设成果,为各行业的智能化转型提供了坚实可靠的技术底座。
深化开源合作,共创智能未来
百度与 openEuler 社区的合作始于 2021 年,双方携手发布并持续演进 BaiduLinux 智能云操作系统,现已升级为智算原生底座 BaiduLinux Cloud OS。该系统全面支撑千帆大模型平台与百舸异构智算平台,已在多场景规模部署超 2 万套,展现出卓越的稳定性和兼容性。
展望未来,百度将持续深化与 openEule 的合作,重点推进三大方向:联合发布业界首个 ARM CCA 机密计算解决方案,推动技术从通用计算迈向智能计算;作为异构融合产学研联盟首批成员,共建行业软件标准;积极参与 AI 工作组,打造智能化平台生态。
在技术联创层面,百度将聚焦超节点 OS 核心技术攻关、操作系统智能化升级及全栈安全方案构建,致力于打造操作系统领域旗舰产品,为国产算力基础设施建设注入新动能。







评论