系统化解析超智融合算力中心的搭建路径 | 干货推荐
编者按:在数字经济蓬勃发展的今天,算力已成为推动社会进步的核心驱动力。超智融合这种新型的异构算力,正成为破解算力瓶颈、释放数据潜能的关键。联科集团加入龙蜥社区多年,一直与龙蜥保持深度合作,其超智融合算力管理平台 CHESS 与 Anolis OS 的完成了兼容适配认证。今天,联科集团联席合伙人付鸿雁结合联科集团 25 年深耕高性能计算的经验,系统化解析超智融合算力中心的搭建路径,实现整套集群从芯片、存储、网络到操作系统、算力调度、系统运维完成超算和智算真正的融合。本文整理自龙蜥大讲堂第 138 期,以下为本次分享内容:

一、为何需要超智融合
随着人工智能、大数据、云计算等技术的深度融合,传统单一算力架构已难以满足复杂多变的计算需求。超智融合算力——这一集超算(HPC)与智算(AI)于一体的新型计算架构,既可以处理复杂的科学计算任务,又能高效支持人工智能大模型训练和推理,并支撑这两类任务在同一套集群里无缝衔接、按需调度算力。
1. 超算与智算的“和而不同”
超算(HPC):以双精度浮点(FP64)高精度计算为核心,支持数十万计算核心协同工作和大规模并行处理。擅长模拟现实世界中无法实验的场景(如气象预测、航空航天、基因测序、新材料研究、能源勘探、芯片设计等),解决极端复杂的科学计算和工程仿真问题,推动基础科学突破和国家重大工程建设,是国家高精尖技术发展的保障。
智算(AI):以低精度(FP16/INT8)混合计算为特色,低延迟和高弹性,通过 GPU/TPU 加速矩阵运算,支持实时数据处理和快速响应。从非结构化数据中提取规律、挖掘价值,与物理世界实时交互,实现毫秒级决策,支持模式识别与精准预测,赋能自动驾驶、检测识别、语音交互、医疗影像、应急管理等实时决策场景。
2. 融合的必然性

传统算力架构大多为了解决单一类型的任务,比如超算主要处理复杂科学计算,智算则侧重于人工智能相关任务,互相独立、各自为政,导致数据孤岛、算力闲置、成本高企。但现实中很多任务是复杂计算需求,传统的单一架构有点力不从心,需要超算、智算这两种高端算力“混合发力”。HPC/AI 融合的异构算力通过统一架构、统一调度、统一运维,实现:
性能互补:超算的高精度计算能力与智算的快速学习能力深度协同,不仅能够满足超算和大模型训练对算力性能、稳定性的要求,还能实现模型开发与推理场景对灵活性和弹性的需求;
资源优化:跨平台算力调度提升利用率,降低重复建设成本;
场景拓展:从科研模拟到 AI 大模型训练/推理,覆盖全链条计算需求。
二、如何从规划到落地建设超智融合算力集群
1. 建设过程的诸多痛点
尽管超智融合算力中心具有巨大的价值,但在建设过程中却面临着诸多痛点:
首先,在硬件选择上,面对众多的服务器、存储阵列、网络设备等,用户往往难以确定适合其应用及业务场景的配置。如何结合使用场景设计体系结构,避免应用性能瓶颈,成为建设过程中的关键问题。
其次,操作系统、集群调度软件、并行文件系统等软件的选型、兼容性适配、性能优化、安全与合规性等痛点也需要高度重视。
此外,集群搭建完成后,如何实现资源的统一管理、性能的持续优化、故障的及时解决,以及如何通过专业技术团队进行全方位运维管理,都是亟待解决的难题。
2.联科超智融合算力集群建设全流程方案
联科集团作为一家专业从事高性能计算解决方案的高新技术企业,在超算领域拥有 25 年的行业积淀,其与国内外 40 余家生态合作伙伴实现产品互认证,保证通用设备适配的同时,实现多业务、跨平台技术整合。凭借深厚的技术积累和广泛的生态融合,联科集团能够为高等院校、科研院所、各行业企事业用户提供从需求咨询、方案设计、部署实施、应用优化到运维服务的一站式集群建设解决方案。

3.系统化搭建超智融合算力集群四步走
第一步:明确需求与场景,精准规划
在方案咨询与设计阶段,联科集团根据用户的具体需求,结合业务场景,为用户量身定制软硬件配置方案。通过分析用户的应用需求、数据量、用户数、计算任务类型等因素,确定合适的服务器、存储阵列、网络设备等硬件选型,选配合适的操作系统、调度系统、文件系统等软件,确保整个集群的性能均衡,避免出现性能瓶颈。同时,联科集团还为用户提供详细的方案设计流程,包括需求分析、方案设计、成本评估、POC 测试等环节,验证方案的科学性和可行性。
需求分析:结合行业特性(如科研计算、工程仿真、大模型训练、大模型推理)确定算力规模、精度要求及业务场景。
硬件选型:
CPU/GPU:支持 Intel/AMD/国产 CPU,适配 NVIDIA 及昇腾等其他国产 GPU;
网络架构:采用 InfiniBand/RoCE 高速互联,保障低延迟、高带宽;
存储系统:分布式文件系统的架构设计、部署、调优、维护与支持升级服务工作,提供一篮子集群文件系统解决方案,保障用户数据安全,满足 PB 级数据吞吐。
软件生态:
操作系统:选择 Linux 操作系统、Windows 操作系统或国产操作系统(如龙蜥 Anolis OS);
调度系统:支持 Slurm、openPBS 等开源调度系统,支持 Platform LSF 调度,并自研国产调度系统 CHESS CAS;支持 SLURM+K8s 融合调度,兼顾裸金属大算力与容器化管理;
并行文件系统:部署 Lustre/GPFS/BeeGFS 等并行文件系统,提升 I/O 性能;
兼容适配,构建国产生态。

联科集团加入龙蜥社区多年,与龙蜥保持深度合作,完成超智融合算力管理平台 CHESS 与 Anolis OS 的兼容性认证,实现:
硬件兼容:支持 X86、ARM 等架构的协同;
软件互通:从操作系统到应用层的全栈自主可信;
安全加固:满足安全标准,构建数据安全防护体系。
第二步:集群软硬件部署,高效建设
在集群建设阶段,联科集团提供全面的集群建设服务,包括硬件部署、操作系统部署、集群软件安装、应用集成及优化等。通过专业的技术团队和丰富的建设经验,确保集群的搭建过程高效、稳定、可靠。
硬件部署:包括服务器、存储、交换机等硬件上架,以太网、IB 网络、存储网络等网络连接,配置 Raid 策略,配置 IPMI 管理地址
软件部署:操作系统、集群管理平台、文件系统、驱动软件、监控软件、数据库、作业调度软件及应用软件等
第三步:系统全面诊断优化,保障性能
在系统性能优化方面,联科集团技术团队帮助用户集群系统进行 CPU、GPU、内存、网络、IO、编译、运行参数等各项性能指标的诊断,针对用户应用进行性能瓶颈分析和优化,从硬件性能优化、系统性能优化到应用性能优化,自下而上全方位提升集群的性能表现。
性能调优:
硬件层:优化 BIOS 参数、内存带宽、网络拓扑;
系统层:内核参数、I/O 参数、调度策略定制;
应用层:编译器优化、数学库调优、并行参数调整。

第四步:集群持续运维管理,稳定运行
在运维管理阶段,联科集团提供三级运维服务体系,包括驻场服务、本地支持和深度支持,确保集群稳定运行。通过定期的系统巡检和性能诊断,快速定位故障,及时发现并解决潜在问题,保障集群的安全运行。此外,联科集团还提供用户培训服务,帮助用户掌握集群的使用和管理方法,提高用户的自主运维能力。
智能监控:实时预警、性能分析、成本统计;
策略优化:在集群使用过程中,逐步优化各种策略,以优化集群使用效率;
故障解决:解决系统整体运行过程中出现的故障,以及运行业务软件遇到的问题;
系统巡检:定期进行系统巡检和性能诊断,预防系统故障。
三、联科自主研发的超智融合算力管理平台 CHESS:异构算力高效协同的核心利器
联科超智融合算力管理平台 CHESS 是联科集团自主研发的核心产品,也是超智融合算力建设方案及算力中心运维管理所依托的关键平台。CHESS 发布于 2001 年,多年来持续新增、完善多项功能,是经过 20 余年迭代、经过上千家用户打磨的成熟软件。
CHESS 将 HPC 多种应用与 AI 数据集管理、数据标注、模型开发与训练、模型推理等业务无缝集成,支持传统 SLURM 作业调度的同时,也支持 Kubernetes 容器模式下的编排调度,打造符合 HPC 应用和 AI 业务的一体化通用算力平台,应对 HPC、AI 工作负载间的资源分配、作业调度,满足超算/智算两种异构算力的集中纳管、高效利用、多元协同,帮助基础科研、公共服务、气象海洋、石油石化、航天航空、武器军工、汽车制造、芯片设计、生命科学、人工智能、超智融合、大模型训推一体等领域的教育、政府、企业用户降低异构集群建设难度,消除应用与算力不匹配的瓶颈,解决集群管理、运维的高昂成本和复杂需求,保障用户集群安全运行、业务稳定发展。

CHESS 平台涵盖用户管理、资源管理、应用管理、作业管理、数据管理、多集群管理、混合云管理、许可证管理、集群监控、告警管理、报表系统、三维可视化、AI 数据集管理和模型管理等数十个功能模块,同时支持 HPC 和 AI 的融合应用,能够满足用户在科学计算、工程仿真及大模型训练/推理等不同业务场景下的多样化需求。CHESS 结合了 Slurm 的稳定高效与 K8s 的弹性灵活,真正实现超算(HPC)与智算(AI)在硬件层、软件层、应用层的无缝融合。CHESS 分为“管理员”和“用户”双角色界面,保证权责分离,满足个性化使用需求:
管理员端功能模块——保障集群高效、稳定、安全运行的“基石”:通过统一的集群管理门户界面,管理员可以快速配置系统、分配用户权限、全面监控资源、及时排查故障、有效掌控全局,方便地进行整套集群资源、作业、用户的管理和监控。

用户端功能模块——资源高效利用与任务敏捷执行的“桥梁”:用户通过 web 端登录集群门户,自助提交作业/申请资源、自主管理数据、实时查看使用情况,向最终用户(如科研人员、开发者、业务团队)提供便捷、直观的操作界面和丰富的信息服务,简化业务流程。

CHESS 融合了 Slurm 与 Kubernetes 之力,满足 HPC/AI 融合集群在不同需求场景下的算力调度与管理,提高资源利用率,且安全可靠、使用方便、兼容性好、功能全面。作为拥有自主知识产权的国产集群管理平台,CHESS 核心技术完全自主研发,能够确保用户数据和系统的安全性。同时,CHESS 支持异品牌、异构资源的统一管理,适配多种 CPU/GPU、操作系统和 AI 框架,能够满足不同用户的个性化需求。也可根据用户业务对算力的动态扩展需求,对接公有云、私有云、超算集群、智算集群等公共算力,轻松构建混合云集群,随取随用。
超智融合算力中心作为未来计算领域的重要发展方向,正以其强大的算力和高效的任务调度能力,为各行业构建更高效、灵活、安全的算力底座。超智融合算力建设作为一项高度复杂的系统性工程,其推进过程需兼顾技术前瞻性与落地可行性。联科凭借在集群建设领域积累的实践经验,致力于为用户及行业伙伴提供一套经过验证的标准化实施路径,助力各方规避单纯追求算力规模扩张的粗放模式,杜绝非理性投资导致的资源浪费,从而在智能计算时代构建起科学化、可持续的算力资源管理体系,实现算力效能与成本控制的平衡。
本次龙蜥大讲堂回顾视频已上传,欢迎点击观看:https://openanolis.cn/video/1391106230571466758
更多联科超智融合算力管理平台信息点击下方链接了解:http://www.lianzhitech.cn/
—— 完 ——
版权声明: 本文为 InfoQ 作者【OpenAnolis小助手】的原创文章。
原文链接:【http://xie.infoq.cn/article/1c410147127751e07eb84a4a2】。文章转载请联系作者。
评论