如何使用龙蜥衍生版 KOS,2 步实现大模型训练环境部署
编者按:在大模型快速发展背景下,用户对 AI 的关注已从“是否存在能力”转向“如何高效应用”,大模型的训练环境越来越复杂。因此,如何提升大模型应用和训练环境部署效率变得越来越重要。今天,浪潮信息操作系统开发工程师窦志冲分享了龙蜥衍生版 KeyarchOS(以下简称 KOS)在 AI 场景下做的一些优化和应用实践,解决了大模型应用效率低和部署大模型训练环境中遇到的硬件兼容适配、依赖项庞杂及安装部署流程繁琐等问题,让大模型训练和应用化繁为简。本文整理自龙蜥大讲堂 136 期,以下为本次分享内容:

当前,随着生成式人工智能和各行业的应用快速融合,大模型在企业端的应用越来越多,大模型的开发和优化也如火如荼,如何提升大模型部署和训练环境部署效率变得越来越重要。
大模型部署,最重要的是解决软件依赖问题,如何能够根据硬件环境信息选择合适的驱动和软件,且处理好软件之间的依赖问题,成为大模型部署需要面对的挑战;大模型开发和优化,首先要解决的是训练环境的搭建问题,在算力多元异构、依赖库众多、配置步骤繁琐的情况下,如何快速搭建满足要求的训练环境,为底层算力平台匹配最佳驱动,避免依赖库及配置庞杂导致训练环境鲁棒性低的问题,成为各类大模型开发企业需要面对的挑战。
大模型部署面临多软件选型,复杂依赖处理等多项挑战
高效部署大模型并开发相关应用成为许多企业和开发者的迫切需求,但传统的部署方式存在依赖库安装复杂、环境配置繁琐等诸多不便,限制了大模型应用的快推广。KOS 升级版通过整合系统环境及相关组件,极大简化了大模型部署复杂度,让大模型应用部署变得简单高效。

以智能 AI 助手 YuanChat 安装为例,KOS 将 NV 底层组件、Miniconda 相关 Linux 命令及研发所需环境、源 2.0 大模型及运行的依赖软件、容器相关组件以及 YuanChat 官方软件分别打包为 rpm 包,融入基础 ISO 镜像中,固化默认最优配置,形成开箱即用的 YuanChat 的 ISO 镜像。相比原来复杂繁琐的安装流程,实现了极度简化,让大模型应用变得简单易部署,开箱即用。
大模型训练环境复杂面临兼容适配等多项挑战
当前阶段,大模型的发展仍然遵循 Scaling Law,不断增加的参数规模、训练数据量以及计算资源,也让大模型的部署环境变得十分复杂。大模型部署是一个系统性的问题,涉及到算力设备兼容、依赖库配置、繁琐的安装步骤等等多个方面。
■ 在硬件方面,算力设备的多样性增加了兼容适配复杂性。在大模型训练环境中,集成了多种类型和规格的算力设备,如不同型号的 GPU、高速互连网络、高性能分布式存储等。这些设备在硬件架构、指令集和接口标准上存在差异,导致与操作系统、应用软件以及其他硬件设备的兼容适配变得极为复杂,同时驱动和应用软件选型不当将影响算力输出效率。
■ 在软件方面,依赖库及配置的庞杂性对训练环境的鲁棒性构成威胁。大模型训练依赖大量的软件库、框架和配置参数,这些依赖项之间存在着复杂的依赖关系和严格的版本兼容性要求。一旦某个依赖项出现问题,如版本不匹配、配置错误或缺失,都可能导致训练环境崩溃或性能急剧下降。
■ 在部署方面,大模型训练环境搭建流程比较繁琐。算力支持层面,在确定 GPU、网卡等硬件设备基础上,需要安装操作系统、下载硬件驱动并对驱动进行编译;应用软件方面,下载安装 CUDA、Cudnn、DCGM 等 AI 软件栈,以及相关管理和监控软件。最后,还要运行相关 Benchmark 对系统进行性能摸底。
KOS Al 定制版 “2 步”搞定大模型训练环境部署
针对用户在大模型部署中遇到的困难,浪潮信息推出 KOS Al 定制版,实现了覆盖驱动和应用软件编译、镜像文件构建、系统发布与部署的镜像开发全流程创新,解决了部署大模型训练环境中遇到的硬件兼容适配、依赖项庞杂及安装部署流程繁琐等问题,让大模型部署化繁为简。
针对硬件兼容适配挑战,浪潮信息 KOS 技术团队凭借深厚的技术沉淀和经验积累,遴选出十余款 GPU 和 infiniband 卡的最佳驱动,验证不同硬件环境下的软件兼容性,优化 BIOS、底层驱动、文件系统和网络等多项指标,实现平台资源利用效率最大化。目前 KOS 已经与 1200+ 硬件板卡、250+ 服务器整机、400+ 数据库中间件完成兼容性认证。
面对软件依赖库庞杂的问题,KOS Al 定制版对镜像构建过程中的软件包安装列表进行了扩展,并优化了软件包的集成范围和安装顺序,解决软件安装依赖问题,确保在集成大量软件的情况下,操作系统能够顺利完成安装,且保证系统安装完成后,驱动和应用软件能够正常进行编译和安装。同时,面对 AI 大模型训练过程中某些应用软件体积庞大,无法直接构建为 rpm 包集成至镜像的挑战,采用“软件切割与再聚合”技术,将超大型软件包进行分割,并在聚合后校验其哈希值,以确保软件的一致性,从而有效解决了超大软件集成难题,实现了超大应用软件的自动化安装。
大模型部署的关键是单节点环境配置。在简化发布与部署方面,为了解决大模型训练集群单节点环境配置复杂的问题,KOS 技术团队开发了一套环境配置自动化部署脚本。该脚本能够智能检测操作系统的启动状态,只在系统安装完成后的首次重启时自动运行,确保在不同节点上快速部署大模型运行环境。在此之后的系统启动中,该脚本将不再执行,从而实现集群环境中单节点环境的自动部署。

用户依托 KOS AI 定制版,仅需 2 步即可实现大模型训练环境快速部署。
步骤 1:利用 PXE 实现自动化系统部署
KOS AI 定制版集成了大模型训练环境部署所需的驱动、应用软件和依赖库等,用户只需要把该定制版镜像当作普通镜像一样进行自动化部署,通过 PXE 方式实现操作系统自动化安装。
步骤 2:正常开机启动,完成环境部署
定制版镜像安装完成后,通过管理节点向计算节点下发重启指令,计算节点重启后,大模型训练环境部署即可完成。
面对操作系统与 AI 结合的趋势,KOS 定位智算时代更 AI 的操作系统,全面优先拥抱 AI,深度融合 AI 能力。KOS Al 定制版简化了大模型部署和训练环境部署流程,通过 KOS Al 定制版部署大模型和搭建训练环境具有简单高效、广泛兼容和运行稳定等特点,大幅降低了用户开发和应用大模型的技术门槛。
—— 完 ——
版权声明: 本文为 InfoQ 作者【OpenAnolis小助手】的原创文章。
原文链接:【http://xie.infoq.cn/article/6c5ddc8467c03fd4934b387f1】。文章转载请联系作者。
评论