英伟达 NVIDIA 为何可以在高性能计算 GPU 中处于不败地位？

2022 年 9 月 22 日
北京
本文字数：3123 字
阅读完需：约 10 分钟

英伟达 | GTC2022 | 高性能计算

NVIDIA | RTX4090 | 液冷服务器

在东数西算、生命科学、遥感测绘、地质勘探、真空羽流、冷冻电镜等技术的快速发展下，高性能计算的发展逐渐被人们所重视。GTC 2022 会上指出高性能计算是推动科学发展的关键工具之一。

昨天 GeForce RTX 4090 显卡正式公布，是全新 GeForce RTX 40 系列的旗舰产品，也是全球首款基于全新 NVIDIA Ada Lovelace 架构。与上一代采用 DLSS 2 的 RTX 3090 Ti 相比，采用 DLSS 3 的 RTX 4090 的性能提升可达 4 倍。RTX 4090 具有 760 亿个晶体管、16384 个 CUDA 核心和 24GB 高速美光 GDDR6X 显存。

本文将从英伟达为何在高性能计算中处于不败地位、高性能计算发展趋势、以及高性能计算解决方案为大家解读。

高端 GPU 英伟达独角戏？

作为通用计算的“加速神器”——高端 GPU 正在成为大型数据中心、人工智能、超算等领域的刚需。英伟达在高端 GPU 市场长期占据主导地位，市场份额一度超过 90%。目前国内企业要突破英伟达等国外公司的垄断还有很长的路要走。而国内基于架构创新的 DSA（针对特定领域的可编程处理器）芯片产品日益丰富，可能会带来一些曙光。

高端 GPU 与传统 GPU“泾渭分明” 传统 GPU 聚焦图像学，关注帧数、渲染逼真度、对于真实场景的映射程度等指标，主要用于运行游戏、专业图像处理、加密货币处理等场景。而高端 GPU 是用于计算加速的芯片产品，专注于基础科学等超算领域和训练、推理等大规模人工智能计算场景。衡量高端 GPU 的主要维度是通用性、易用性和高性能。通用硬件架构应该足够灵活，以适应人工智能的迭代算法和场景。易用性是指开发门槛更低，开发者更容易上手，结合实际场景进行定制化开发。高性能是指芯片产品的基本性能和性价比必须达到国际先进水平，才能进行市场开拓。

2022 年第二季度独立 GPU 市场（包括 AIB 合作伙伴显卡）份额

来源：Jon Peddie Research

算力往往是市场对 GPU 性能优劣的“第一印象”。但高端 GPU 的性能不等于纸面性能，尤其不能用单一性能的纸面数据来衡量。

在实际使用的过程中，GPU 的通用性、易用性、实际性的重要程度远大于纸面标出的算力这一单一性能。纸面指标标得再高，也要关注内存和带宽够不够，以及芯片之间的互联等问题解决得好不好。用单一性能来衡量 GPU 是否高端，是一个常见的误区。

高性能计算将是主要“竞技场”

长期以来，英伟达一直主导着高端 GPU 市场，市场份额超过 90%，尤其是在人工智能计算领域。到目前为止，英伟达已经推出 Volta、Ampere、Hopper 等用于高性能计算和 AI 训练的架构，并在此基础上推出了 V100、A100、H100 等高端 GPU。面向向量的双精度浮点运算能力从 7.8 TFLOPS 一路走到 30 TFLOPS。

作为全球第二大独立 GPU 供应商，AMD 虽在高端 GPU 的整体份额与英伟达存在差距，但在超算领域闯出了一片天。在最新全球超级计算机 TOP500 榜单上，世界上最快的超级计算机橡树岭国家实验室（ORNL）前沿、世界排名第三的超级计算机 LUMI，都采用了 AMD EPYC 处理器和 AMD Instinct MI250X GPU 加速器。

AMD 在超算领域的亮眼表现，是建立在针对性的软硬件设计上，基于 CDNA 2 架构的 GPU 加速器、ROCm 软件平台与开源应用程序资源中心 AMD Infinity Hub 的组合，构成了对于科研人员更加友好的硬件性能和编程环境。

虽然直接使用 GPU 进行高性能或 AI 计算更方便，但上层应用降本增效的核心需求对底层算力提出了更高的要求。国外 AI 创业公司推出的 AI 芯片往往基于一种新的架构，全面提升并侧重优化并行计算能力。国内领先的 AI 芯片公司也出于同样的考虑，推出了一系列基于 DSA 架构的人工智能计算芯片。

在国内市场，基于架构创新的 DSA 芯片产品日益丰富。如华为自研的面向 AI 计算的架构特色达芬奇，昆仑芯科技推出的第一代架构 XPU-K 和第二代架构 XPU-R，燧原科技的自研架构 GCU-CARA 等，都已经进入规模落地阶段。随着 AI 计算的应用场景越来越细分和复杂，定制化和异构化 DSA 有望在下一代计算平台中发挥更大的作用。

高性能计算 HPC 发展趋势

新应用领域层出不穷

全球灾难性气候事件正在不断增加，提前预测此类事件对保护人类安全越来越重要，因此未来一年与气候预测相关的应用程序将在 HPC 领域备受关注。此外，随着 HPC 在云端的使用，将有更多 HPC 应用于消费导向的软件程序开发，虚拟世界和元宇宙概念的出现，也让 HPC 迎来新的发展机遇，既可用于游戏（AR/VR）等娱乐应用，也可用于数字孪生等模拟应用。

HPC 市场正在扩展新的领域，在传统的模拟和建模过程中加入人工智能（AI）和数据分析技术。新冠疫情的爆发增加了对灵活、可扩展的云端 HPC 解决方案的需求，这一需求连同各个垂直行业（生命科学、汽车、金融、游戏、制造业、航空航天等）对快速处理数据和高精度日益增长的需求，将会是未来几年推动 HPC 应用增长的主要因素。AI、边缘计算、5G 等技术将拓宽 HPC 的功能，从而形成新的芯片/系统架构，为各个行业提供高效处理和分析能力。

提高 HPC 安全性将成为关键

当市场整体的数字化程度提升，则安全风险也将随之增加。越来越多的高性能计算正在远离数据中心，将直接导致无法通过软件补丁处理的攻击数量增加。这给开发团队带来巨大压力，迫使他们紧急推出硬件来解决这些问题，由此缩短硬件设计周期。因此提高开发者的生产效率以紧跟上市需求的步伐将成为下一步布局重点。

HPC 处理器架构多样化

随着数据量增加，不仅是安全性，基础设施存储以及数据处理的计算能力必须得到提升。此外，新的架构包括芯片间的连接也是推动新需求所必需的。

受到不断变化的 AI 工作负载、灵活的计算（CPU、GPU、FPGA、DPU 等）、成本、内存和 IO 吞吐量等因素共同驱动，HPC 架构正在经历巨变。微架构层面变得互连更快、计算密度更高存储可拓展、基础设施效率更高、生态友好性、空间管理和安全性更高。从系统的角度来看，下一代 HPC 架构将出现分解架构和异构系统的爆炸式增长，不同的专用处理架构将集成在单个节点中，在模块之间实现精密、灵活的切换。如此复杂的系统也带来了巨大的验证挑战，尤其是系统的 IP 或节点、软硬件动态协调、基于工作负载的性能、电源等相关验证。要满足这些验证需求，需要开发新的软硬件验证方法。

移动数据对电力和时间有很大的需求，这是系统管理者现在面临的挑战之一，减少数据移动量将成为未来的一种趋势。我们需要继续扩展资源，利用高级封装和芯片间接口来支持更高性能的设备，即通过使用多裸晶来扩展设备内的处理能力，这在未来一年内有望真正实现。

高性能计算

液冷解决方案

在深度学习、视觉计算、图像渲染、数据科学、机器学习的迅猛发展的大背景下，高性能计算 HPC、液冷散热已经不再是少数大公司或大型科研机构的专属要求，而是被越来越多的包括政府、教育科研、遥感测绘、医药研发、小分子研究、细胞治疗、图像识别的客户所需要和接受。

蓝海大脑为满足客户需求，结合行业特点从计算节点、网络、存储、功耗、扩展、散热等方面出发，提出完善的解决方案。

产品特性

机架式液冷设计，即插即用，快速轻松投入使用；
支持最多 9 块 GPU 图形卡和 2 颗 CPU 处理器；
机架的存储空间可大大扩展，可用于云存储服务；
液冷系统密度更高、更节能、防噪音效果更好；
高效节能、绿色环保

客户收益

超融合架构承担着计算资源池和分布式存储资源池的作用，极大地简化了数据中心的基础架构，通过软件定义的计算资源虚拟化和分布式存储架构实现无单点故障、无单点瓶颈、弹性扩展、性能线性增长等能力。
通过简单方便的统一管理界面，实现对数据中心计算、存储、网络、虚拟化等资源的统一监控、管理和运维。
超融合基础架构形成的计算资源池和存储资源池直接可以被云计算平台进行调配，服务于 OpenStack、EDP、Docker、Hadoop、R、HPC 等 IaaS、PaaS、SaaS 平台，对上层的应用系统或应用集群等进行支撑。
分布式存储架构简化容灾方式，实现同城数据双活和异地容灾。现有的超融合基础架构可以延伸到公有云，可以轻松将私有云业务迁到公有云服务。

发布于: 刚刚阅读数: 5

蓝海大脑GPU

关注

还未添加个人签名 2021.11.25 加入

深度学习GPU液冷服务器，大数据一体机，图数据库一体机

发布

暂无评论

创作场景

英伟达 NVIDIA 为何可以在高性能计算 GPU 中处于不败地位？

新应用领域层出不穷

提高 HPC 安全性将成为关键

HPC 处理器架构多样化

蓝海大脑GPU

评论