AWS 计算和网络副总裁 Dave Brown:亚马逊 AWS 为什么同意 Nvidia 的云端合作?
亚马逊网络服务上周宣布,将允许 Nvidia 在 AWS 数据中心运营云服务,使得 AWS 成为最后一个提供此服务的主要云供应商。根据《The Information》的报道,通过这项名为 DGX 云服务的新服务,Nvidia 将从 AWS 租用包含其图形处理单元的服务器,然后向其自己的客户出售服务器的访问权限。
作为交易的一部分,AWS 表示将成为首个将 Nvidia 最新的图形处理单元(称为 Grace Hopper 超级芯片或 GH200 芯片)引入云端的云供应商,并使用 Nvidia 的网络设备将芯片连接在一起。GH200 芯片将 GPU 与 Nvidia 的通用计算芯片(称为中央处理单元)组合在一起,以增加内存。谷歌、微软和甲骨文通过 DGX 云服务提供 Nvidia 的 H100 芯片,预计他们也会购买 GH200 芯片。
总结
亚马逊网络服务将提供 Nvidia 的 DGX 云服务
AWS 是最后一个提供此服务的主要云供应商
公司之间的关系很复杂:亚马逊正在制造芯片,而 Nvidia 正在提供云服务
云服务提供商如 AWS 是 Nvidia GPU 的最大买家之一,但两家公司之间的关系非常复杂。AWS 正在开发自己的 AI 芯片 Trainium 和 Inferentia,与 Nvidia 的芯片竞争。同时,Nvidia 的 DGX Cloud 是芯片制造商为了更靠近用户并产生额外收入而做出的努力,这对 AWS 等云服务提供商构成了潜在威胁,据《The Information》报道。
在 AWS 的 Re:Invent 大会上,《The Information》采访了 AWS 计算和网络副总裁 Dave Brown,以了解为什么云服务提供商同意 DGX Cloud 交易的信息,这是此前未曾报道的。在采访中,Brown 还讨论了 AWS 如何缓解芯片和电力短缺问题。
以下采访经过了编辑,以缩短长度并提高清晰度。
The Information:为什么 AWS 和 Nvidia 合作推出 DGX Cloud 以部署新的 GH200 芯片?
这是一个非常非常困难的工程问题。因此,我们相信这两家公司最有能力解决这个问题。
目前 GPU 的规模已经超过了服务器。即使是今天,运行 GPU 也非常复杂。这就是为什么大多数公司不在自己的数据中心内部进行 GPU 运算的原因,这是不可能的。因此他们转向云服务提供商,但我认为我们现在进入了一个需要最优秀的云服务提供商才能以高可用性的方式实现的世界。
AWS 是最后一个与 Nvidia 签署 DGX Cloud 协议的主要云服务提供商。为什么会这样?
我们最初没有参与。我们只是认为现在不是合适的时机。我们希望能够在 AWS 上真正区别于市场上可获得的产品。
你们不能用备受追捧的 H100 芯片来创造差异吗?
这需要一些时间,这需要真正理解,“我们如何一起创造差异化?”与合作伙伴的差异化需要时间。您需要确切地了解他们所提供的内容,他们也需要了解您所提供的内容。您需要深入了解对方的技术,并了解彼此的优势组合可以为最终客户创造出更好的产品。
我们选择了不参与首次合作,但这并不意味着我们曾说过不会在未来参与。实际上只是一个时间问题,我们是否能找到差异化的产品。
AWS 的 DGX Cloud 与其他云服务提供商提供的产品有何不同?
[其他云服务提供商]可能也有 GH200 芯片,但他们没有多节点[NVLink,这是 AWS 将用于将 32 个 GH200 芯片连接在一个服务器机架上的技术]。这是首次有人在云中使用水而不是空气来冷却 Nvidia GPU。
今天,我们的服务器有八个 GPU。使用八个 GPU,可以使用空气进行冷却。但当你开始使用 32 个 GPU 时...密度太高,无法再用空气冷却[GPU 服务器]。这带来了许多工程复杂性,而 AWS 在这方面处于最佳位置。
我们有 Nitro 系统[可以将部分计算工作外置到服务器之外的芯片],我们知道 Nitro 系统不仅提供更好的安全性,还提供更好的性能。然后我们还有弹性布线适配器[Elastic Fabric Adapter,AWS 的网络系统]。弹性布线适配器与 InfiniBand 非常相似,其他提供者也在使用,但基于以太网。[弹性布线适配器]是我们自己开发的协议,并且这是我们在所有实时 GPU 集群中使用的协议。
当您看整个解决方案时,它是完全有差异的。
通过 DGX Cloud,谁将能够访问这些 GPU 集群?
Nvidia 将用该集群进行[其]内部工作负载,然后他们还希望帮助客户进行模型训练。这就是 DGX Cloud。我们还将为最终客户提供这些 GPU,就像我们今天有 P5 服务器[Nvidia H100s]一样,您将能够在 DGX Cloud 之外获得对此集群的访问。因此,DGX Cloud 有 16384 个 GPU,除此之外,我们还将为 AWS 上的客户提供更多的 GPU。
您对 Advanced Micro Devices(AMD)最新的 GPU 感兴趣吗?这些 GPU 被称为 MI300 系列,被认为与 Nvidia GPU 竞争,并在某些任务上可能更好。
在将芯片引入 AWS 之前,我们会考虑很多因素,其中一部分是如何确保该芯片在 AWS 上运行得无缺陷?我们如何确保在 GPU 领域有一个完整的生态系统,能够支持我们拥有的芯片?
目前,我们选择将重点放在 Nvidia 和 Trainium [AWS 的内部 AI 训练芯片]上,但这当然不意味着我们不会考虑其他加速器 - 英特尔、新创企业或其他什么。如果有我们认为客户真正想要的东西,我们绝对会将其引入 AWS。
部署 GPU 的最大瓶颈之一是数据中心的电力供应,因为 GPU 非常耗电。AWS 是如何解决这个问题的?
在我们的区域,某个地理区域可用的电力是有限的。几年前我们建立了本地区域[靠近终端用户的数据中心]。我们从洛杉矶开始,现在全球有大约 40 个本地区域。这是一个远离[具有多个数据中心的区域枢纽]的 AWS 数据中心。
通常出于延迟的原因而这样做,以便靠近用户。但在 GPU 的情况下,我们能够将本地区域用于电力资源充足的地方。亚利桑那州就是一个很好的例子。我们在亚利桑那州建立了一个本地区域。现在,那里有很多的[GPU]。
我们不必像其他云服务提供商那样寻找其他供应商。[微软最近与 CoreWeave 和 Oracle 达成了协议。]我们能够寻找数据中心,找到电力,然后快速将其作为本地区域投入使用。这需要几个月的时间。
几周前,您宣布了一项名为 Capacity Blocks 的服务,旨在使客户更容易租用带有 GPU 的服务器。是什么促使您创建这项服务?
对我们来说,这是一个非常快节奏的领域。我们在几个月内建立了 Capacity Blocks[这项新服务]。我们意识到,在供应受限的环境中,目前的云服务器销售方式对于 GPU 来说效果不佳。
情况是,只要有任何可用的 GPU,它就会马上被抢购。对于创业公司来说,实际上很难获得这些 GPU。通常情况下,只有一些更大、更有资金的组织才会一直寻找 GPU。因此,即时服务的模式并不适用。
即使在不受限制的情况下...你愿意为你不需要的 GPU 花钱吗?我认为组织们正在努力应对这样的问题:“我如何在需要时获得 GPU?”
然后另一个挑战是您需要将它们部署在一个网络中,所有 GPU 都在同一个集群中。竞价市场在训练中实际上并不起作用,因为您可能会在这里有一个 GPU,在那里有一个 GPU,这不是一个集群解决方案。
Capacity Blocks 可以保证访问这些 GPU,并且定价有所不同。如果您在周末运行,价格会更低。
我们应该期待在这方面看到更多吗?
您将看到我们非常快速地进行迭代 - 不同的区域、不同的实例类型、不同的购买方式。您将看到我们与其他创业公司合作,并且在这个领域将会有很多机会。所以请密切关注。
评论