异构算力管理与调度:高效利用计算资源

大模型的爆发式发展正将算力推至数字经济的核心战略地位。GPT-4o 与 DeepSeek-R1 等模型的多模态突破,不仅标志着 AI 进入"参数爆炸"时代(GPT-4 单次训练需 2.15×10^25 FLOPs,等同 3 万台 A100 全年运转),更暴露出算力供需的尖锐矛盾——据智源研究院的报告预估国内大模型训练算力缺口已达 109EFLOPS(约 20 个太湖之光年产能)。在新技术广泛应用和全球算力短缺的背景下,信创国产化率要求倒逼华为昇腾、海光 DCU 等替代方案落地。芯片类型、架构和供应商方面都呈现出多元化的趋势。
01 异构算力现状分析
根据中国信通院《数据中心算力技术图谱(2023)》及 IDC《全球异构计算白皮书》,异构算力可分为以下几大层级:

根信通院公布数据显示,算力主要集中在数据中心、运营商网格。在这两大主力中存在明显的算力异构分布,运营具体情况如下:

从上信通院发表文章和数字中国万里行的洞察中发现,国内数据中心、运营商等均存在多元异构算力。但多元算力的开发生态体系相对独立,无标准和统一规范,应用的跨架构开发和迁移困难,亟需通过开源、开放的方式建立可屏蔽底层硬件差异的统一异构开发平台。
从东数西算下新型算力基础设施发展白皮书整理和业务场景梳理,我们发现异构算力管理和调度存在以下核心的难点问题:
硬件多样性与兼容性问题:数据中心采用多种硬件设备(如 CPU、GPU、NPU、TPU 等),不同架构的硬件设备(如 x86、ARM 等)难以兼容,不同的硬件底座具备的算力发现和监控方法不一致,导致管理和调度复杂;
算力服务的标准化与规范化不足:目前的算力接口较为复杂,缺乏统一的标准和规范,导致算力资源的输出和服务质量参差不齐,业务跨架构迁移难度大,无法有效在异构算力资源上进行调度,跨架构任务迁移成本激增(某金融云平台改造耗时 6 个月),算法研发周期被非必要工程化拖累;
算力调度接口不一致,资源错配导致的资源浪费:不同算力的调度接口不一致,错误的调度方式无法使用资源,导致混合架构的集群资源闲置;
异构架构依赖的技术栈不同,对人力技术要求大,导致异构接入难,新硬件资源难快速赋能业务,需要庞大的生态支撑,推广难。
02 异构算力调度方案
在面对以上异构算力管理和调度的难点和问题,我们探索了更优的异构资源的管理和调度解决方案。旨在提高资源利用率和管理效率。本方案通过三个关键层次实现对异构资源的有效管理和高效调度。
首先,在底层异构纳管层,我们实现了对多种硬件(如 CPU、GPU、FPGA 等)的适配,确保系统的算力发现和资源监控功能能够精准识别并管理所有可用计算资源。这不仅为后续的资源分配提供了坚实的基础,还极大地增强了系统对不同硬件平台的支持能力。
其次,在调度层,我们开发了一款统一的异构调度工具,该工具通过一个统一调度接口将各类异构算力整合起来,显著降低了资源调度的复杂度。同时,利用先进的协同技术和精细化调度算法,我们在多维度上提升了资源的使用效率,实现了负载均衡和动态资源调整,从而提高了服务响应速度和服务质量。
最后,在异构适配层,我们针对常用模型进行了定向适配,并提供了强大的模型转换工具,大幅简化了业务迁移过程中的兼容性问题。这些措施不仅减少了迁移成本,还加快了新应用的部署速度,使得企业能够更快地适应市场变化和技术更新。整体方案架构如下:

异构资源统一管理与运维
针对异构资源统一管理和运维,主要围绕异构资源的接入、算力发现和算力使用情况的监控三个维度展开,特别强调在异地资源纳管策略时需要重点考虑主机之间的带宽情况。
首先在异地资源纳管策略层面会考虑主机之间的带宽清单,当异构资源在同一机房或者带宽较大的网络里面,低延迟和高带宽有助于更高效的数据传输和任务调度。这种情况一般会考虑一个集群纳管,这样节省管理节点的资源消耗,如果时高可用部署方式需要 3 个管理节点,如两种异构统一到一个集群管理则可以节省 3 个管理节点的资源消耗。
异构资源统一纳管,利用 Kubernetes 插件扩展机制来对接异构底层算力发现。通过扩展插件,系统可以识别并管理异构硬件 GPU 资源。通过插件适配系统具备自动扫描网络中所有连接的计算设备的能力,识别其类型、型号及性能参数(如核心数、频率、内存大小等)。通过算力发现机制将新接入的硬件设备将被自动注册到系统中,降低人工信息填写错误导致的调度偏差。
在资源管理层面利用算力专用的监控代理,实时采集硬件设备的运行数据,如 CPU 使用率、内存使用率、显存使用量和算力使用量等参数,确保数据的准确性和及时性,帮助算力正常调度。将采集的监控数据在一个平台展示,助力管理员从多维度查看平台资源使用状况,更清晰地了解平台资源运维问题,从而指导管理员进行资源规划调整,有效避免因分配不当而引发的资源过载和闲置现象。
异构算力硬软件智能适配调度
AI 模型运行环境与底层驱动之间存在依赖关系,不适配的资源会致使模型运行出现故障。为降低因错误调度引发的资源浪费和部署困难的问题,平台对任务类别、模型运行环境依赖、硬件依赖等信息加以管理,以保障任务能够正常使用资源。
那么平台底层是如何调度的呢?首先为资源主机添加标签,标签信息涵盖:芯片型号、网络特性、驱动版本等。其次对模型运行环境依赖进行管理,如 CUDA/CANN/PyTorch 版本等信息。平台内部维护一套任务、环境依赖与驱动版本的适配关系表。当平台部署模型时,在指定模型镜像和资源规格后,系统会自动获取依赖信息,并得到该模型需要的部署资源标签,调度器依据标签进行调度。通过上述过程,即可实现芯片硬软件的智能适配,通过自动调度减少因错误指令启动不合符任务需求的算力导致的资源浪费。具体的自动适配流程示意如下。

标准服务 API 屏蔽异构调度差异
每种芯片均具备其独有的编程接口与使用规范,开发者在运用资源时,必须针对每一种芯片类型予以适配。如此一来,不仅加大了开发的难度,还延长了开发的周期。伴随芯片技术的持续发展,新的接口与功能不断涌现,开发者需要不断追踪并适应这些变化,这会耗费大量的人力和时间。为应对上述挑战,对接入的异构资源进行统一适配,构建形成标准服务 API,其设计如下:
1)提供标准统一 API,将硬件类型作为输入参数中的一部分,底层获取 API 中的硬件信息并自动调度到匹配硬件,这样屏蔽了底层硬件接口差异,业务侧在调用时无需关注具体的硬件调度,仅需关注需要的硬件设备即可。
2)指定标准的资源配额信息,通过指定芯片类型和配额信息作为调度参数传入标准 API,由平台依据参数智能调度最为适宜的计算资源。这一设计使业务开发者只需适配一次 API,便能调用多种算力资源。
模型的适配和转换提效
为了业务更好的使用异构算力,能达到快速迁移的目标,智算平台针对当前主流模型(如 qwen、LLama、deepseek、 ResNet、BERT、YOLO 等)进行定向适配,从模型运行环境构建、模型文件转换、推理服务部署到模型的微调训练进行各种硬件的适配,形成开箱即用的工具,用户即可通过页面的配置,实现对这些适配过模型的使用,单次模型适配的投入即可实现多用户的赋能。
同时在算子层,集成各异构算力的转换工具,支持用户使用工具快速转换出自定义模型的格式,实现异构算力的快速迁移。
03 建设成效
通过部署异构纳管调度解决方案,我们实现了显著的运营优化和效能提升,具体表现在以下几个方面:
1)运维成本与复杂度大幅削减:构建统一管理平台,一个界面可查看分布在 11 个不同地市的资源监控情况。这极大地简化了运维流程,通过集中化管理减少了运维工作量,从而有效降低了总体运维成本。
2)资源调度可靠性增强:借助硬软件智能适配技术,实现了更为精准、高效的资源分配。有效地预防了因硬软件不兼容而引发的故障,确保了资源调度过程中的稳定性和可靠性。
3)业务开发效率跃升:引入标准服务 API 接口,屏蔽了底层硬件的复杂性,使开发人员无需关心具体的算力调度,仅适配一次 API,即可获取所需计算资源,大大简化了开发流程,缩短了产品迭代周期。
4)模型异构适配层:我们的目标是通过针对常用模型的定向适配和提供强大的模型转换工具,大幅简化业务迁移过程中的兼容性问题。
版权声明: 本文为 InfoQ 作者【鲸品堂】的原创文章。
原文链接:【http://xie.infoq.cn/article/0d6ff6587cfb3272ee5c744c0】。文章转载请联系作者。
评论