基于 GPU 的并行集群系统在中国的发展状况
一、前言
GPU 集群的高性能主要归功于其大规模并行多核结构、多线程浮点算术中的高吞吐量,以及使用大型片上缓存显著减少了大量数据移动的时间。我们可以这样说:GPU 集群比传统的 CPU 集群具有更好的成本效益。GPU 集群不仅在速度性能上有巨大飞跃,而且显著降低了对空间、能源和冷却的要求。基于 GPU 的并行集群系统的各类产品遍布我国的生产,生活。本文将介绍 GPU 的并行集群的技术和其在我国的发展状况。
二、GPU 集群
图形处理器 GPU 善于处理大规模密集型数据和并行数据,通用并行架构 CUDA 让 GPU 在通用计算领域越来越普及。
基于 GPGPU 的高性能计算主要应用与云计算吧,企业对成本以及效率的要求越来越高,随着产品的不断升级,越发的对横向和纵向都提出了更高的要求,横向要求平台化流程化自动化,纵向要求产品自身性能高端。
服务器的稳定非常重要,一旦出现崩溃等重大异常,将对企业的应用生产和交付产生巨大的影响。
管理 GPU 集群有助于实现最高的目标 GPU 利用率以及帮助用户获得最佳性能。GPU 集群的构建采用了大量的 GPU 芯片。在一些 Top500 系统中,GPU 集群已经证实能够达到 Pflops 级别的性能。
大多数 GPU 集群由同构 GPU 构建,这些 GPU 具有相同的硬件类型、制造和模型。GPU 集群的软件包括操作系统、GPU 驱动和集群化 API,如 MPI。由于 GPU 集群的高性价比,高性能计算领域中 GPU 集群的使用越来越普遍。
GPU 集群相较于 CPU 集群,能够在使用较少操作系统镜像的情况下正常工作。在电力、环境和管理复杂性方面的降低使得 GPU 集群在未来高性能计算应用中非常有吸引力由于 GPU 集群的高性价比,高性能计算领域中 GPU 集群的使用越来越普遍,但 GPU 集群并行编程并没有一个标准的通信模型,绝大多数集群应用采取 CUDA+MPI 的方法实现,而 CUDA 和 MPI 编程都非常困难,需要程序员了解 GPU 硬件架构和 MPI 消息传递机制,显式控制内存与显存、节点与节点间的数据传输。因此,对编程人员来说,GPU 集群并行编程仍是一个复杂的问题。
三、GPU 的并行集群
目前很成功的产品出现在市场上,如:
1、Platform HPC 由 Platform Computing 公司开发,旨在让技术应用程序的用户能够轻松利用 GPU 高性能计算集群的处理能力和扩展能力。
2、Bright Cluster Manager 是一款完全集成的解决方案,用于部署、测试、提供 (provisioning)、监控以及管理 GPU 集群。 凭借 Bright Cluster Manager,集群管理员能够同时轻松安装和管理多个集群。
3、PBS Professional 是 Altair 公司的 EAL3+ 安全认证商用级高性能计算工作负荷管理解决方案。 PBS Professional 是所有 PBS Works 解决方案的基础,让开发者能够轻松创建智能政策,以管理分布式多厂商计算资产。
4、Bright Cluster Manager 是一款完全集成的解决方案,用于部署、测试、提供 (provisioning)、监控以及管理 GPU 集群。 凭借 Bright Cluster Manager,集群管理员能够同时轻松安装和管理多个集群。
5、Ganglia 是一款开源可扩展分布式监控系统,用于集群与网格 (Grid) 等高性能计算系统。 该系统经过了精心的工程设计,可让每个节点实现极低的系统总开销以及极高的并发性。 Ganglia 目前已运用在全球数以千计的集群当中,该系统可以扩展,能够处理具备数千个节点的集群。
6、吉浦迅科技与英伟达(NVidia)、惠普(HP)共同合作推出 的 HP GPU Starter Kit 超算集群测试环境,提供最高四节点/8-GPU/4096 核,浮点计算能力高达 10 万亿次的测试环境,针对国内高校、科研单位能够快速体验超强的运算速度。
四、结束语
GPU 集群比传统的 CPU 集群具有更好的成本效益。GPU 集群不仅在速度性能上有巨大飞跃,而且显著降低了对空间、能源和冷却的要求。搭建 CPU-GPU 集群并行计算平台,集群中每个计算节点都以 CPU 为主处理器 GPU 为协处理器,将并行数值计算部分由 GPU 完成,其余操作由 CPU 完成。这种技术已经当前行业的必然发展方向,高性能计算领域中 GPU 集群的会越来越普遍,为我们的生产,生活带来更好的方向。
评论