写点什么

系统化解析超智融合算力中心的搭建路径 | 干货推荐

  • 2025-07-22
    陕西
  • 本文字数:4369 字

    阅读完需:约 14 分钟

编者按:在数字经济蓬勃发展的今天,算力已成为推动社会进步的核心驱动力。超智融合这种新型的异构算力,正成为破解算力瓶颈、释放数据潜能的关键。联科集团加入龙蜥社区多年,一直与龙蜥保持深度合作,其超智融合算力管理平台 CHESS 与 Anolis OS 的完成了兼容适配认证。今天,联科集团联席合伙人付鸿雁结合联科集团 25 年深耕高性能计算的经验,系统化解析超智融合算力中心的搭建路径,实现整套集群从芯片、存储、网络到操作系统、算力调度、系统运维完成超算和智算真正的融合。本文整理自龙蜥大讲堂第 138 期,以下为本次分享内容:



一、为何需要超智融合

随着人工智能、大数据、云计算等技术的深度融合,传统单一算力架构已难以满足复杂多变的计算需求。超智融合算力——这一集超算(HPC)与智算(AI)于一体的新型计算架构,既可以处理复杂的科学计算任务,又能高效支持人工智能大模型训练和推理,并支撑这两类任务在同一套集群里无缝衔接、按需调度算力。

1. 超算与智算的“和而不同”

  • 超算(HPC):以双精度浮点(FP64)高精度计算为核心,支持数十万计算核心协同工作和大规模并行处理。擅长模拟现实世界中无法实验的场景(如气象预测、航空航天、基因测序、新材料研究、能源勘探、芯片设计等),解决极端复杂的科学计算和工程仿真问题,推动基础科学突破和国家重大工程建设,是国家高精尖技术发展的保障。

  • 智算(AI):以低精度(FP16/INT8)混合计算为特色,低延迟和高弹性,通过 GPU/TPU 加速矩阵运算,支持实时数据处理和快速响应。从非结构化数据中提取规律、挖掘价值,与物理世界实时交互,实现毫秒级决策,支持模式识别与精准预测,赋能自动驾驶、检测识别、语音交互、医疗影像、应急管理等实时决策场景。

2. 融合的必然性



传统算力架构大多为了解决单一类型的任务,比如超算主要处理复杂科学计算,智算则侧重于人工智能相关任务,互相独立、各自为政,导致数据孤岛、算力闲置、成本高企。但现实中很多任务是复杂计算需求,传统的单一架构有点力不从心,需要超算、智算这两种高端算力“混合发力”。HPC/AI 融合的异构算力通过统一架构、统一调度、统一运维,实现:

  • 性能互补:超算的高精度计算能力与智算的快速学习能力深度协同,不仅能够满足超算和大模型训练对算力性能、稳定性的要求,还能实现模型开发与推理场景对灵活性和弹性的需求;

  • 资源优化:跨平台算力调度提升利用率,降低重复建设成本;

  • 场景拓展:从科研模拟到 AI 大模型训练/推理,覆盖全链条计算需求。

二、如何从规划到落地建设超智融合算力集群

1. 建设过程的诸多痛点

尽管超智融合算力中心具有巨大的价值,但在建设过程中却面临着诸多痛点:

首先,在硬件选择上,面对众多的服务器、存储阵列、网络设备等,用户往往难以确定适合其应用及业务场景的配置。如何结合使用场景设计体系结构,避免应用性能瓶颈,成为建设过程中的关键问题。

其次,操作系统、集群调度软件、并行文件系统等软件的选型、兼容性适配、性能优化、安全与合规性等痛点也需要高度重视。

此外,集群搭建完成后,如何实现资源的统一管理、性能的持续优化、故障的及时解决,以及如何通过专业技术团队进行全方位运维管理,都是亟待解决的难题。

2.联科超智融合算力集群建设全流程方案

联科集团作为一家专业从事高性能计算解决方案的高新技术企业,在超算领域拥有 25 年的行业积淀,其与国内外 40 余家生态合作伙伴实现产品互认证,保证通用设备适配的同时,实现多业务、跨平台技术整合。凭借深厚的技术积累和广泛的生态融合,联科集团能够为高等院校、科研院所、各行业企事业用户提供从需求咨询、方案设计、部署实施、应用优化到运维服务的一站式集群建设解决方案。



3.系统化搭建超智融合算力集群四步走

第一步:明确需求与场景,精准规划

在方案咨询与设计阶段,联科集团根据用户的具体需求,结合业务场景,为用户量身定制软硬件配置方案。通过分析用户的应用需求、数据量、用户数、计算任务类型等因素,确定合适的服务器、存储阵列、网络设备等硬件选型,选配合适的操作系统、调度系统、文件系统等软件,确保整个集群的性能均衡,避免出现性能瓶颈。同时,联科集团还为用户提供详细的方案设计流程,包括需求分析、方案设计、成本评估、POC 测试等环节,验证方案的科学性和可行性。

  • 需求分析:结合行业特性(如科研计算、工程仿真、大模型训练、大模型推理)确定算力规模、精度要求及业务场景。

  • 硬件选型: 

    CPU/GPU:支持 Intel/AMD/国产 CPU,适配 NVIDIA 及昇腾等其他国产 GPU;

    网络架构:采用 InfiniBand/RoCE 高速互联,保障低延迟、高带宽;

    存储系统:分布式文件系统的架构设计、部署、调优、维护与支持升级服务工作,提供一篮子集群文件系统解决方案,保障用户数据安全,满足 PB 级数据吞吐。

  • 软件生态: 

  • 操作系统:选择 Linux 操作系统、Windows 操作系统或国产操作系统(如龙蜥 Anolis OS);

    调度系统:支持 Slurm、openPBS 等开源调度系统,支持 Platform LSF 调度,并自研国产调度系统 CHESS CAS;支持 SLURM+K8s 融合调度,兼顾裸金属大算力与容器化管理;

    并行文件系统:部署 Lustre/GPFS/BeeGFS 等并行文件系统,提升 I/O 性能;

    兼容适配,构建国产生态。



联科集团加入龙蜥社区多年,与龙蜥保持深度合作,完成超智融合算力管理平台 CHESS 与 Anolis OS 的兼容性认证,实现:

  • 硬件兼容:支持 X86、ARM 等架构的协同;

  • 软件互通:从操作系统到应用层的全栈自主可信;

  • 安全加固:满足安全标准,构建数据安全防护体系。

第二步:集群软硬件部署,高效建设

在集群建设阶段,联科集团提供全面的集群建设服务,包括硬件部署、操作系统部署、集群软件安装、应用集成及优化等。通过专业的技术团队和丰富的建设经验,确保集群的搭建过程高效、稳定、可靠。

  • 硬件部署:包括服务器、存储、交换机等硬件上架,以太网、IB 网络、存储网络等网络连接,配置 Raid 策略,配置 IPMI 管理地址

  • 软件部署:操作系统、集群管理平台、文件系统、驱动软件、监控软件、数据库、作业调度软件及应用软件等

第三步:系统全面诊断优化,保障性能

在系统性能优化方面,联科集团技术团队帮助用户集群系统进行 CPU、GPU、内存、网络、IO、编译、运行参数等各项性能指标的诊断,针对用户应用进行性能瓶颈分析和优化,从硬件性能优化、系统性能优化到应用性能优化,自下而上全方位提升集群的性能表现。

  • 性能调优: 

    硬件层:优化 BIOS 参数、内存带宽、网络拓扑;

    系统层:内核参数、I/O 参数、调度策略定制;

    应用层:编译器优化、数学库调优、并行参数调整。



第四步:集群持续运维管理,稳定运行

在运维管理阶段,联科集团提供三级运维服务体系,包括驻场服务、本地支持和深度支持,确保集群稳定运行。通过定期的系统巡检和性能诊断,快速定位故障,及时发现并解决潜在问题,保障集群的安全运行。此外,联科集团还提供用户培训服务,帮助用户掌握集群的使用和管理方法,提高用户的自主运维能力。

  • 智能监控:实时预警、性能分析、成本统计;

  • 策略优化:在集群使用过程中,逐步优化各种策略,以优化集群使用效率;

  • 故障解决:解决系统整体运行过程中出现的故障,以及运行业务软件遇到的问题;

  • 系统巡检:定期进行系统巡检和性能诊断,预防系统故障。

三、联科自主研发的超智融合算力管理平台 CHESS:异构算力高效协同的核心利器

联科超智融合算力管理平台 CHESS 是联科集团自主研发的核心产品,也是超智融合算力建设方案及算力中心运维管理所依托的关键平台。CHESS 发布于 2001 年,多年来持续新增、完善多项功能,是经过 20 余年迭代、经过上千家用户打磨的成熟软件。

CHESS 将 HPC 多种应用与 AI 数据集管理、数据标注、模型开发与训练、模型推理等业务无缝集成,支持传统 SLURM 作业调度的同时,也支持 Kubernetes 容器模式下的编排调度,打造符合 HPC 应用和 AI 业务的一体化通用算力平台,应对 HPC、AI 工作负载间的资源分配、作业调度,满足超算/智算两种异构算力的集中纳管、高效利用、多元协同,帮助基础科研、公共服务、气象海洋、石油石化、航天航空、武器军工、汽车制造、芯片设计、生命科学、人工智能、超智融合、大模型训推一体等领域的教育、政府、企业用户降低异构集群建设难度,消除应用与算力不匹配的瓶颈,解决集群管理、运维的高昂成本和复杂需求,保障用户集群安全运行、业务稳定发展。



CHESS 平台涵盖用户管理、资源管理、应用管理、作业管理、数据管理、多集群管理、混合云管理、许可证管理、集群监控、告警管理、报表系统、三维可视化、AI 数据集管理和模型管理等数十个功能模块,同时支持 HPC 和 AI 的融合应用,能够满足用户在科学计算、工程仿真及大模型训练/推理等不同业务场景下的多样化需求。CHESS 结合了 Slurm 的稳定高效与 K8s 的弹性灵活,真正实现超算(HPC)与智算(AI)在硬件层、软件层、应用层的无缝融合。CHESS 分为“管理员”和“用户”双角色界面,保证权责分离,满足个性化使用需求:

  • 管理员端功能模块——保障集群高效、稳定、安全运行的“基石”:通过统一的集群管理门户界面,管理员可以快速配置系统、分配用户权限、全面监控资源、及时排查故障、有效掌控全局,方便地进行整套集群资源、作业、用户的管理和监控。



  • 用户端功能模块——资源高效利用与任务敏捷执行的“桥梁”:用户通过 web 端登录集群门户,自助提交作业/申请资源、自主管理数据、实时查看使用情况,向最终用户(如科研人员、开发者、业务团队)提供便捷、直观的操作界面和丰富的信息服务,简化业务流程。



CHESS 融合了 Slurm 与 Kubernetes 之力,满足 HPC/AI 融合集群在不同需求场景下的算力调度与管理,提高资源利用率,且安全可靠、使用方便、兼容性好、功能全面。作为拥有自主知识产权的国产集群管理平台,CHESS 核心技术完全自主研发,能够确保用户数据和系统的安全性。同时,CHESS 支持异品牌、异构资源的统一管理,适配多种 CPU/GPU、操作系统和 AI 框架,能够满足不同用户的个性化需求。也可根据用户业务对算力的动态扩展需求,对接公有云、私有云、超算集群、智算集群等公共算力,轻松构建混合云集群,随取随用。


超智融合算力中心作为未来计算领域的重要发展方向,正以其强大的算力和高效的任务调度能力,为各行业构建更高效、灵活、安全的算力底座。超智融合算力建设作为一项高度复杂的系统性工程,其推进过程需兼顾技术前瞻性与落地可行性。联科凭借在集群建设领域积累的实践经验,致力于为用户及行业伙伴提供一套经过验证的标准化实施路径,助力各方规避单纯追求算力规模扩张的粗放模式,杜绝非理性投资导致的资源浪费,从而在智能计算时代构建起科学化、可持续的算力资源管理体系,实现算力效能与成本控制的平衡。


本次龙蜥大讲堂回顾视频已上传,欢迎点击观看:https://openanolis.cn/video/1391106230571466758

更多联科超智融合算力管理平台信息点击下方链接了解:http://www.lianzhitech.cn/

—— 完 ——

发布于: 刚刚阅读数: 3
用户头像

还未添加个人签名 2021-07-20 加入

OpenAnolis龙蜥社区 由国内外头部企业联合建立的操作系统开源社区。加入我们,一起打造面向未来的开源操作系统。 社区官网:openanolis.cn|微信公众号:OpenAnolis龙蜥

评论

发布
暂无评论
系统化解析超智融合算力中心的搭建路径 | 干货推荐_操作系统_OpenAnolis小助手_InfoQ写作社区