写点什么

亚马逊云科技与英伟达扩展合作 持续推进生成式 AI 创新

作者:财见
  • 2024-03-20
    北京
  • 本文字数:2817 字

    阅读完需:约 9 分钟

亚马逊云科技和英伟达宣布,英伟达在 2024 年 GTC 大会上推出的新一代 NVIDIA Blackwell GPU 平台即将登陆亚马逊云科技。亚马逊云科技将提供 NVIDIA GB200 Grace Blackwell Superchip 和 B100 Tensor Core GPU,这一举措延续了双方长期的战略合作伙伴关系,旨在为客户提供安全、先进的基础设施、软件及服务,助力客户开启新一代生成式 AI 的能力。

英伟达与亚马逊云科技继续汇聚各自的领先技术,包括具备英伟达最新多节点系统的下一代 NVIDIA Blackwell 平台和 AI 软件,以及亚马逊云科技的 Nitro 系统、具备领先安全性的 Amazon KMS 密钥管理服务、千万亿比特级的 Elastic Fabric Adapter(EFA)网络和 Amazon EC2 UltraCluster 超大规模集群等技术。基于上述技术打造的基础设施和工具,使客户能够在 Amazon EC2 上以更快速度、更大规模、更低成本地对其构建和运行数万亿参数的大型语言模型(LLMs)进行实时推理,性能相较于配备前一代英伟达 GPU 的 EC2 实例有显著改进。

亚马逊云科技首席执行官 Adam Selipsky 表示:“我们双方的深入合作可以追溯到 13 年前,当时我们共同推出了世界上第一个亚马逊云科技上的 GPU 云实例,而今天我们为客户提供了最广泛的英伟达 GPU 解决方案。英伟达的下一代 Grace Blackwell 处理器是生成式 AI 和 GPU 计算领域的标志性事件。当结合亚马逊云科技强大的 EFA 网络、Amazon EC2 UltraClusters 的超大规模集群功能,以及我们独有的 Amazon Nitro 高级虚拟化系统及其安全功能时,我们就能够使客户更快、更大规模且更安全地构建和运行具有数万亿参数的大型语言模型。”

英伟达创始人兼首席执行官黄仁勋表示:“人工智能正在以前所未有的速度推动新应用、新商业模式和跨行业的创新。我们与亚马逊云科技的合作正在加速新的生成式 AI 能力的发展,并为客户提供前所未有的计算能力,以开创无限可能。”

亚马逊云科技与英伟达的新合作将显著加快超万亿参数前沿大型语言模型的训练

亚马逊云科技将提供配置 GB200 NVL72 的英伟达 Blackwell 平台,它配备 72 颗 Blackwell GPU 和 36 颗 Grace CPU,通过第五代 NVIDIA NVLink™互连。当与亚马逊云科技强大的 EFA 网络、Amazon Nitro 高级虚拟化系统和 Amazon EC2 UltraClusters 超大规模集群等技术结合时,客户能够轻松扩展至数千个 GB200 Superchips。英伟达 Blackwell 在亚马逊云科技上的应用,使得该平台在应对资源密集型和数万亿参数语言模型等推理工作负载加速方面实现了巨大飞跃。

基于此前搭载英伟达 H100 的 Amazon EC2 P5 实例的成功(客户短期使用这些实例可通过 Amazon EC2 Capacity Blocks for ML 功能),亚马逊云科技计划提供配备 B100 GPUs 新的 Amazon EC2 实例,并支持在 Amazon EC2 UltraClusters 中部署以加速超大规模生成式 AI 的训练和推理。GB200 也将在 NVIDIA DGX™ Cloud 上可用,这是一个在亚马逊云科技上双方共同开发的 AI 平台,为企业开发者提供了构建和部署先进生成式 AI 模型所需的专用基础设施和软件。在亚马逊云科技上推出的基于 Blackwell 的 DGX Cloud 实例将加速前沿生成式 AI 和超过 1 万亿参数的大语言模型的开发。

提升 AI 安全性:亚马逊云科技 Nitro 系统、Amazon KMS、EFA 加密与 Blackwell 加密技术紧密集成

随着 AI 技术应用越来越广泛,企业需要确信,在整个训练流程中,他们的数据都得到了安全的处理。保护模型权重的安全至关重要,模型权重是模型在训练过程中学习到的参数,对于模型做出预测的能力至关重要。确保模型权重的安全对保护客户的知识产权、防止模型被篡改以及维护模型的完整性都是非常重要的。

亚马逊云科技的 AI 基础设施和服务已经实现了安全特性,使客户能够控制其数据,并确保数据不会与第三方模型提供者共享。Amazon Nitro 系统和英伟达 GB200 的结合将能够阻止未授权个体访问模型权重,从而把 AI 安全性提升到新的高度。GB200 支持对 GPU 之间 NVLink 连接进行物理加密,以及对 Grace CPU 到 Blackwell GPU 的数据传输进行加密,同时 EFA 也能够对服务器之间的分布式训练和推理过程的数据进行加密。GB200 还将受益于 Amazon Nitro 系统,该系统将主机 CPU/GPU 的 I/O 功能卸载至专门的硬件上,以提供更加一致的性能,其增强的安全性可以在客户端和云端全程保护客户的代码和数据在处理过程中的安全。这一独有的功能已经获得了领先的网络安全公司 NCC Group 的独立验证。

通过在 Amazon EC2 上使用 GB200,亚马逊云科技将使客户能够使用 Amazon Nitro Enclaves 和 Amazon KMS,在其 EC2 实例旁创建一个可信执行环境。Amazon Nitro Enclaves 允许客户使用 Amazon KMS 控制下的密钥来加密他们的训练数据和权重。从 GB200 实例内部可以加载安全区(enclave),并且可以直接与 GB200 Superchip 通信。这使得 Amazon KMS 能够以加密安全的方式直接与安全区通信,并直接传递密钥材料。然后,安全区可以将该材料传递给 GB200,这样做能够保护客户实例中的数据,防止亚马逊云科技操作人员访问密钥或解密训练数据或模型权重,从而赋予客户对其数据的无与伦比的控制权。

“Ceiba 项目”利用 Blackwell 在亚马逊云科技上推动英伟达未来生成式 AI 创新

在 2023 年亚马逊云科技 re:Invent 大会上宣布的“Ceiba 项目”,是英伟达与亚马逊云科技合作建造的世界上最快的 AI 超级计算机之一。这台专为英伟达自身的研究和开发而设的超级计算机,独家托管在亚马逊云科技上。这台首创的拥有 20,736 颗 GB200 GPU 的超级计算机,采用新型 NVIDIA GB200 NVL72 配置构建,其特有的第五代 NVLink 将连接 10,368 颗 NVIDIA Grace CPU。系统通过亚马逊云科技第四代 EFA 网络进行扩展,为每个 Superchip 提供高达 800 Gbps 的低延迟、高带宽网络吞吐量——能够处理高达 414 exaflops 的 AI 计算量,与之前计划在 Hopper 架构上构建 Ceiba 相比,性能提升了 6 倍。英伟达的研发团队将利用 Ceiba 推进大语言模型、图形(图像/视频/3D 生成)与仿真、数字生物学、机器人技术、自动驾驶汽车、NVIDIA Earth-2 气候预测等领域的 AI 技术,以帮助英伟达推动未来生成式 AI 的创新。

亚马逊云科技与英伟达的合作推动生成式人工智能应用开发及医疗健康与生命科学领域的应用进展

亚马逊云科技与英伟达联手,通过 Amazon SageMaker 与 NVIDIA NIM 推理微服务的整合,提供了高性能、低成本的生成式 AI 推理解决方案,该服务作为 NVIDIA AI 企业版的一部分提供。客户可以利用这一组合在 Amazon SageMaker 中快速部署和运行已预编译且对 NVIDIA GPU 进行优化的基础模型,缩短生成式 AI 应用的推出时间。

亚马逊云科技与英伟达还在利用计算机辅助的药物发现领域进行合作拓展,推出了新的 NVIDIA BioNeMo™基础模型,用于生成化学、蛋白质结构预测,以及理解药物分子与目标的相互作用。这些新模型将很快在 Amazon HealthOmics 上提供,这是一个专为帮助医疗保健和生命科学组织存储、查询和分析基因组、转录组及其他组学数据而设计的专用服务。

Amazon HealthOmics 和英伟达医疗保健团队还合作推出生成式 AI 微服务,以推进药物发现、医疗技术和数字健康领域的发展,该服务提供一个新的 GPU 加速的云端服务目录,涵盖生物学、化学、成像和医疗保健数据,以便医疗企业能够在亚马逊云科技上利用生成式 AI 的最新成果。

发布于: 刚刚阅读数: 4
用户头像

财见

关注

还未添加个人签名 2023-11-21 加入

还未添加个人简介

评论

发布
暂无评论
亚马逊云科技与英伟达扩展合作 持续推进生成式AI创新_财见_InfoQ写作社区