写点什么

共建高效算力基础设施体系,龙蜥大会智算分论坛全回顾

  • 2025-12-16
    陕西
  • 本文字数:2269 字

    阅读完需:约 7 分钟

近日,2025 龙蜥操作系统大会在京顺利落幕,由阿里云资深技术专家、龙蜥智算基础设施联盟主席宋卓,英特尔中国软件技术事业部研发总监、龙蜥社区副理事长王庆,龙蜥社区运营委员会副主席、龙蜥智算基础设施联盟秘书处负责人金美琴联合出品的智算新基础设施分论坛也圆满举办。本论坛以“共建智算新基础设施”为主题,汇聚了国内外顶尖企业、科研机构及产业生态多方力量,共同探讨“云+智能计算”的前沿技术创新、生态建设和产业前景。


(图/现场嘉宾合影)


会议伊始,阿里云资深技术专家、龙蜥智算基础设施联盟主席宋卓发表致辞。当前,全球正加速迈入以人工智能为核心的智算时代,智算基础设施已成为推动科技进步和产业变革的核心驱动力。依托深厚的技术底蕴和开放协作的开源精神,龙蜥社区在稳定性提升、性能优化等方面持续突破,为云基础设施的软件协同优化和复杂的云场景的支持提供了坚实的底座。未来,围绕智算新基础设施的建设仍面临诸多挑战,龙蜥社区智算基础设施联盟将继续深耕基础软件核心技术,联合社区伙伴及上下游协同,推动面向“芯片+基础软件+模型+应用”的全栈创新,构建高效算力基础设施体系。


(图/阿里云资深技术专家、龙蜥智算基础设施联盟主席宋卓)


清程极智副总裁何万青博士在主题为《阿里云龙蜥生态上的赤兔推理与八卦炉性能交付》的分享中介绍,清程极智依托八卦炉 Turnkey 交付平台,实现 Chitu 推理引擎与其他八卦炉训练加速模块在阿里云上的镜像服务,不仅完成了 PD(计算/存储)分离架构,并深度集成阿里云容器 RBG 调度能力,支持大规模 PD 分离部署;同时,在龙蜥操作系统软件生态环境中,与 Mooncake 等第三方生态组件实现上下层协同,构建起一套端到端、高效可靠的 AI 推理与性能交付解决方案。


(图/清程极智副总裁何万青博士)


IOMMUFD 是一种全新的用户态 API,用于从用户态管理 I/O 页表,旨在解决传统 VFIO_TYPE1 在设备直通场景中的多项局限性。英特尔高级软件工程师刘肄、阿里云智能集团技术专家薛帅联合分享了《Landing IOMMUFD to Anolis》。刘肄详细介绍了 IOMMUFD 的设计背景、相比 VFIO 的优势以及上游社区的最新进展。薛帅则分享了 IOMMUFD 在 Anolis OS 6.6 内核中的实践经验,包括在 Arm、Intel、AMD、RISC-V 等多架构平台的适配情况,介绍了 QAT 使用 IOMMUFD 加速 VF 热迁移的优势。同时也与现场参会嘉宾一起深入探讨了实际应用中的挑战。



针对当前智算基础设施在可用性与可靠性方面日益凸显的挑战,龙蜥社区智算联盟 RAS 技术组(TG)负责人、可信计算 SIG Owner 吴保锡在题为《智算基础设施 RAS 能力增强探索与实践》的分享中指出,浪潮信息基于龙蜥操作系统,联合 GPU 厂商与整机厂商,开展多项 RAS(可靠性、可用性、可服务性)关键技术攻关。通过这些实践,不仅显著缩短了故障定位时间,还有效提升了系统可用性与算力利用率,为大规模 AI 训练与推理业务提供了坚实稳定的底层支撑。


(图/龙蜥社区智算联盟 RAS 技术组(TG)负责人、可信计算 SIG Owner 吴保锡)


安谋科技主任软件工程师蔡亦波分享了主题为《在 Arm 平台上优化 llama.cpp 量化模型推理》的技术内容。他系统介绍了在 Arm CPU 上优化 llama.cpp 的实践路径,内容涵盖大语言模型(LLM)CPU 推理的基本原理、llama.cpp 的性能瓶颈分析、量化模型的核心原理,并深入解析了 Arm I8MM 整数矩阵计算指令的技术特性,展示了如何通过硬件指令级优化显著提升 llama.cpp 在 Arm 平台上的推理效率。


(图/安谋科技主任软件工程师蔡亦波)


ModelSight 是龙蜥社区自研 AI 性能分析工具,通过全栈集实现 GPU、CPU 事件一体化观测。阿里云智能集团性能分析专家常怀鑫、阿里云智能集团性能分析专家王鹏在主题为《PAS-ModelSight:端到端 AI 性能分析工具在 Qwen3-235B 大模型推理中的落地实践》的分享中,介绍了如何利用 ModelSight 对 235B 参数的 Qwen3 推理链路进行线上压测、热点定位与瓶颈可视化,并结合 PD 分离、TP/DP/EP 并行策略在 SGLang 推理框架中的落地,给出 2 倍 token/s 提升的量化结果。



智算产业如今已成为数字经济的核心驱动力,大模型训练对高性能算力需求的爆发式增长,促使算力革命进入全新阶段。全球范围内,超大规模智算集群建设竞争炽热化。云计算与大数据研究所云计算部高级业务主管刘天赐分享了《大规模智算集群服务关键技术及未来趋势洞察》,围绕全球超大规模智算集群发展现状以及我国在超大规模智算集群建设核心技术展开深度探讨。同时,刘天赐也介绍了中国信通院在智算集群方面相关工作和见解,为大规模智算集群的研究与发展提供思路和方向。


(图/云计算与大数据研究所云计算部高级业务主管刘天赐)


中兴通讯智算云底座产品运维域规划经理柳巍分享了《智算基础设施运维:架构解析与能力展望》。他聚焦智算基础设施的运维挑战,深入剖析了通用计算与智能计算在运维层面的核心差异及当前痛点;系统阐述了面向未来的智算运维目标架构,梳理了覆盖端到端的运维功能体系,并对“AI+运维”的演进方向与能力升级进行了前瞻性展望。


(图/中兴通讯智算云底座产品运维域规划经理柳巍)


随着 AI 大模型与智算中心的普及,操作系统需要重构以支撑 GPU 异构算力、统一调度与资源隔离。AMD 产品工程师何亚豪分享了《面向 AI 原生操作系统的算力生态重构:ROCm 7 的演进与实践》,何亚豪详细介绍了 ROCm 7 在编译、驱动、调度和生态层的关键演进,包括 PyTorch ROCm,vLLM ROCm,Aiter,MoRI 等开源以及自研软件栈的集成优化。


(图/AMD 产品工程师何亚豪)


感谢本论坛的工作人员:马腾、贺迪、刘寅、张旭芳。

视频回放链接:https://openanolis.cn/openanolisconference2025

发布于: 14 分钟前阅读数: 2
用户头像

还未添加个人签名 2021-07-20 加入

OpenAnolis龙蜥社区 由国内外头部企业联合建立的操作系统开源社区。加入我们,一起打造面向未来的开源操作系统。 社区官网:openanolis.cn|微信公众号:OpenAnolis龙蜥

评论

发布
暂无评论
共建高效算力基础设施体系,龙蜥大会智算分论坛全回顾_操作系统_OpenAnolis小助手_InfoQ写作社区