写点什么

探秘英伟达显卡的制造之路 | 英伟达断供 GPU,中国大模型何去何从?

作者:蓝海大脑GPU
  • 2023-11-03
    北京
  • 本文字数:5892 字

    阅读完需:约 19 分钟

探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?

★AI,人工智能;大数据;L40S;H100;H800;A100;A800;Gaudi 2;Gaudi 3;MI250X;MI300;L40;Ascend 910;美光;DRAM;DUV;芯片禁令;数据湖;数据仓库;通用大模型;行业大模型;CV 大模型;多模态大模型;台积电;TSMC


在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能 GPU 扮演着至关重要的角色。在这个领域,英伟达的 H100 无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的 AI 训练和推理任务。


然而,最近美国政府宣布的对半导体制造和人工智能技术的限制措施,特别是针对中国的严格限制,给中国半导体产业和人工智能技术的应用带来了重大影响。为了应对这些限制,中国需要采取一系列对策,包括加强自主研发、推动产业升级、拓展市场空间等。


蓝海大脑大模型训练平台是一款基于高性能计算技术的 AI 训练平台,帮助用户快速构建和训练大型 AI 模型。该平台采用先进的计算和存储技术,提供高达数十 TB 的内存容量和数千个计算核心,显著提高训练效率。此外,还提供丰富的工具和库,以帮助用户更好地管理和优化训练过程。


英伟达显卡是如何制造?


英伟达 H100 是一款针对高性能计算和人工智能应用的高端 GPU 产品,具有强大的计算能力和高内存容量,以及先进的互连技术,可以提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的 AI 训练和推理等计算密集型任务。


H100 采用全新的 Hopper 架构,拥有高达 800 亿个晶体管,相比上一代 A100,其 SM 数量从 108 个提升到 132 个,带来 2 倍的性能增益。每个 SM 配备 128 个 FP32 CUDA Core,并配备第四代 Tensor Core,相比于 A100 的稠密或稀疏运算的原始性能提升 2 倍。内存容量高达 40GB,支持第四代 NVIDIA NVLink 和 PCIe 5.0,具备更高的数据传输带宽和更快的计算速度,可以实现快速的 GPU 到 GPU 通信,提升大型模型的训练速度。相比上一代 A100,H100 的 FP8 算力提升 4 倍,高达 4000TFlops(每秒 4000 万亿次)。


那么 H100 是如何制造的呢?让我们一起探究 H100 显卡的制造过程和它如何成为全球热门的商品。


一、H100 显卡的基本构成


H100 显卡主要由四个部分组成:逻辑芯片、HBM 储存芯片、供电模块和散热模块。


逻辑芯片是 H100 显卡的核心部分。814 平方毫米,比一个眼镜片略小。主要负责处理图形运算和计算任务。这个小小的芯片集成了数十亿个晶体管,是现代科技的结晶。


围绕着逻辑芯片的是六块 HBM 储存芯片(由韩国厂商 SK 海力士独家提供),每块储存芯片的大小跟指甲盖差不多,共同为显卡提供大量的存储空间和数据传输速度。


除此之外,供电模块和散热模块也是 H100 显卡不可或缺的部分。高效的供电模块能够确保显卡在运行时拥有稳定的电力供应,而强大的散热模块则能够确保显卡在长时间高负荷运行时不会过热,从而保持良好的性能。


二、H100 显卡是如何被制造的?


H100 显卡的核心部分是逻辑芯片,由英伟达位于美国加利福尼亚州圣克拉拉的总部设计和制造。这座科技感十足的大楼占地约 125 万平方英尺,造价高达 9.2 亿美元。在这里,平均年薪 20 万美元的软硬件工程师负责设计英伟达的所有 GPU,从 Tesla 到 Hopper 架构,从 V100 到 H100。


在完成核心逻辑芯片的设计和制造后,英伟达将接力棒交给位于台湾的台积电。台积电是全球最大的半导体制造公司之一,负责制造 H100 的核心逻辑芯片。台积电的制造工艺非常先进,采用 5nm 制程工艺,由位于台南科学园区北园二路的台积电 18 号工厂生产。


台积电使用 CoWoS 技术将一颗核心逻辑芯片和六颗 HBM 芯片编成一组,然后将它们封装到一张 12 寸的硅片上。这个过程非常复杂,需要高超的工艺技巧和精密的操作。


台积电将封装好的一大六小的芯片交给另一家公司富士康,由富士康把外围的电路和芯片装好后,一块价值堪比等重量黄金的 H100 板卡就出炉了。根据上面的流程,我们可以计算一下 H100 的纯物料成本:核心逻辑芯片 200 美元,HBM 内存芯片 1500 美元,CoWoS 封装 700 美元,其他物料大概 500 美元,加起来大概在 3000 美元左右。现在一张 H100 官方售价是 35000 美元,黑市上一度可以卖到 5 万美金,加价十几倍,毛利率超过了 90%。


三、H100 显卡为何如此受欢迎?


英伟达凭借其精湛的技术和卓越的制造能力,成为全球领先的芯片制造商之一。H100 显卡是英伟达最先进的显卡之一,同时也是目前市场上最热门的显卡之一。其高昂的价格和稀缺性使得其成为一种硬通货。


在 2023 年 8 月 3 日,美国初创公司 Coreweave 宣布了一项令人瞩目的融资,他们通过抵押手中的 H100 显卡向华尔街获得了 23 亿美元的债务融资。Coreweave 这家公司,自 2017 年由三位大宗商品交易员创立以来,便在挖矿领域表现出色,后转型为自建数据中心,为客户提供算力服务。他们与英伟达建立了深厚的合作关系,并能够获取 H100 的供货。


令人瞩目的是,居然可以用 H100 这种本质上是电子产品的抵押物来借到资金,这无疑凸显了 H100 的硬通货属性。不止如此,Coreweave 之前通过股权融资累计融到 5.8 亿美元。然而,他们的账上不可能有价值 23 亿美金的 H100 显卡来做抵押。但华尔街敢于放贷的原因在于他们手上有英伟达的 H100 承诺供货合同,凭借此合同便能从银行套出巨额贷款,不禁让人联想到当年通过拿地合同就能套出银行资金的房地产开发商。


从货币经济学的角度来看,H100 不仅具备硬通货属性,还具备货币创造属性。英伟达通过扶持像 Coreweave 这样的 GPU 云服务商,通过供货合同让他们从银行套取资金,进而购买更多的 H100 显卡,锁定未来的显卡需求量。这种模式已经超越传统硬件公司的商业模式,马克思曾言:“货币天然不是 H100,但 H100 天然是货币”,一款科技硬件竟能达到如此高度,可以说是前无古人,后无来者。


在 AI 财富的分配中,黄仁勋独占八斗。英伟达的巨大财富无人能撼动。唯一可能让黄仁勋感到忧虑的地方是一个客户需求众多、愿意花钱,但由于种种原因,H100 无法进入的市场。这个市场在哪里呢?


解读人工智能和半导体制造

最新限制及中国对策


10 月 17 日,美国推出新一轮针对 21 世纪中美技术冷战的举措,主要集中在限制对中国芯片和芯片制造设备的出口。下面主要来谈谈这些举措的影响,包括美国具体设置哪些出口管制措施,中国又采取哪些应对手段来化解这些限制。


一、AI 半导体限制


美国最近针对中国的人工智能芯片出口管制措施已经相当严格,充分填补之前政策可能存在的漏洞。此前的测试显示,当前人工智能芯片的聚合双向传输速率可以达到 600GB/s,聚合运算吞吐量超过 4800TOPs。这意味着芯片公司可以通过稍微降低芯片的双向带宽来规避管



Lennart Heim


填补先前政策中的漏洞意味着需要完全取消对芯片双向带宽的限制,直接影响像 A800、H800 这样的芯片发挥最大效能,也意味着英特尔的 Gaudi 2、Gaudi 3、以及 AMD 的 MI250X、MI300 等芯片都会被管制禁止出口。在运算吞吐量达到 4800TOPs 时,人工智能计算需求大致保持不变,这被称为“总处理性能”(TPP)。


尽管对芯片总体性能的限制非常重要,但政府意识到这仍然存在多个漏洞。例如,可以很容易设计出单个芯片性能低于阈值,但当大量芯片在高带宽互联时,整体系统轻松超过性能阈值。


因此,新增一个性能密度(TPP 除以芯片面积)阈值的限制,防止芯片面积较小、绝对计算能力较低但计算密度、效率仍高的芯片出口。绝对限制性能密度为 5.92,允许的密度为 3.2。并设置多级的性能密度控制级别。



CSIS


对 GPU 芯片施加的严格限制新规完全出乎市场和芯片厂商(如英伟达)的意料。诸如 L40S 之类的芯片被完全禁止,这些芯片原本利用买家只关注顶级规格的心理。几个月前的预测显示,CPO、HBM 和英伟达的部分芯片将在第四季度被禁止。令人惊讶的是,限制还包括 L4 GPU。对于 4090、L40 和 AMD MI210 等 GPU,设置一个较低的标准需要申请许可证。据观察,4090 有可能获得许可。



此外,新规定要求 FP8 matmul+ FP16 达到 320 TFLOPS 的累积浮点运算量已经超过 RTX 4080 的限制标准,因此需要申请许可证。根据密度规则,英伟达需要回退到 2017 年基于 12nm 工艺的 V100 芯片。不能靠填充一堆空白硅片来规避密度规则,因为法规对此有规定。它从根本上禁止了人们目前正在开发的所有高性能 ASIC,这意味着大型 Transformer 模型无法在任何法规允许的硬件上高效运行。


业界已经适应在现有芯片上运行人工智能技术,如英伟达 GPU 和谷歌 TPU。然而,随着对华制裁的实施,一个有趣的结果可能是中国将探索不同于世界其他国家的人工智能技术思路。毕竟,大脑和其中传递的信号也与当前的硬件/软件架构不同。



Jim Keller – TensTorrent, interesting talk he gave, even if we don’t agree with the premise


中国将加强对内存计算、神经形态计算等模拟计算方法的投资。尽管这些方法在 Transformer 或扩散模型上尚未取得突破,但新的模型架构仍值得期待。短期内,华为将发挥关键作用。华为已在中芯国际的 N+2 工艺节点上推出一款 7nm 的 ASIC 芯片,该芯片继承 2019 年发布的 Ascend 910。据传,这款芯片采用分散的小芯片配备 HBM 存储。



华为的 Ascend 910 已经超出当前规定的范围,因此国产后续产品也将超越英伟达合法进入中国的任何产品。尽管有人认为中芯国际不具备相应能力,但其 14nm 工艺已经用于百亿亿级超级计算机的制造。新的 N+2 工艺(7nm)产能接近每月 20,000 片,足以在 50%产量下用于数百万个 AI 加速器。此外,中国正在迅速获得国内生产 HBM 的能力。


二、晶圆制造设备控制


美国对半导体设备出口管制的调整对人工智能芯片的影响相对较小。尽管在某些方面加强管制,但仍存在一些漏洞,使得应用材料、蓝富利、东京电子、国际集成电路、KLA、安拓、Screen、ASML 等设备供应商能够继续向中国出口数百亿美元的设备,其中包括超过 70 亿美元的 DRAM 制造设备将运往长江存储。这一数字甚至超过了总部在美国的美光公司在同一制程技术上的投入。长江存储显然也在开发被美国视为受限制的技术。



美光 D1 Beta 是最密集的出货 DRAM,它采用 DUV SAQP。CXMT 在他们的路线图上有 D1 Beta


美国的新规定进一步将限制扩大到 2.4 纳米及以下的覆盖层工具,这影响到 ASML 用于台积电、英特尔和中芯国际 7 纳米工艺的 1980-i 系列机型。美国通过不设最小含量要求的方式,将这些工具的卡盘覆盖层限制在 1.5 纳米到 2.4 纳米之间。这意味着如果工具中含有任何美国内容,都将受到限制。通常美国内容的标准是 25%,但在这种情况下,只要有任何美国内容就受限。即使 ASML 试图重新设计工具,也需要多年时间才能摆脱与覆盖、光源相关的美国技术。此规定仅适用于用于“开发”或“生产”“先进节点集成电路”的情况。


三、仅适用于“高级”晶圆厂


这些限制主要针对“先进晶圆厂”,存在漏洞,因为大多数晶圆厂不会被归类为“先进”。因此,晶圆厂可以先表面上建成“成熟”工艺的车间,然后转变为“先进晶圆厂”,如长江存储。这意味着 ASML 最新型的 TWINSCAN NXT:1980Di 和 Fi 系列浸没式光刻机等仍可以出货给成熟工艺的客户。此外,像中芯国际这样的公司可以在 SN1 和 SN2 以外的所有晶圆厂接收这些工具,用于 7nm 制造。未来两年内,中国应当能够实现这些工具的国内维修。除针对“先进晶圆厂”的限制外,一些关键技术如混合键合、封装光学器件、TSV 形成和 DRAM 制造仍处于开放状态。


四、规则协调


许多新规定与荷兰和日本的关键制造设备出口管制相配合。使得美国的出口管制与这些规定保持一致,同时也扩大了对符合最低要求的美国公司或产品的覆盖范围。荷兰开始管制覆盖层小于 1.5 纳米和多重曝光的光刻机,而美国规定将覆盖层扩大到 2.4 纳米。荷兰法规还控制其他生产设备,如 EUV 薄膜和制膜设备、ALD 工具;日本的管制措施针对与日本企业相关的工具,如光刻胶/显影剂、掩模检查、蚀刻机、沉积设备、外延生长、清洗工具以及光刻机。美国的新限制已与日本规则保持一致。


蓝海大脑大模型训练平台


蓝海大脑大模型训练平台提供强大的算力支持,包括基于开放加速模组高速互联的 AI 加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能 I/O 扩展,同时可以扩展至万卡 AI 集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当 BMC 收到 PSU 故障或错误警告(如断电、电涌,过热),自动强制系统的 CPU 进入 ULFM(超低频模式,以实现最低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI 及大数据等领域。


在最底层,构建基于英伟达 GPU 的全场景 AI 基础设施方案,适用于“端、边、云”等各种应用环境。帮助开发者更快速、更高效地构建和部署 AI 应用。



一、为什么需要大模型?


1、模型效果更优


大模型在各场景上的效果均优于普通模型。


2、创造能力更强


大模型能够进行内容生成(AIGC),助力内容规模化生产。


3、灵活定制场景


通过举例子的方式,定制大模型海量的应用场景。


4、标注数据更少


通过学习少量行业数据,大模型就能够应对特定业务场景的需求。



二、平台特点


1、异构计算资源调度


一种基于通用服务器和专用硬件的综合解决方案,用于调度和管理多种异构计算资源,包括 CPU、GPU 等。通过强大的虚拟化管理功能,能够轻松部署底层计算资源,并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力,以加快模型的运行速度和生成速度。


2、稳定可靠的数据存储


支持多存储类型协议,包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通,提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制,确保模型和数据的安全稳定运行。


3、高性能分布式网络


提供算力资源的网络和存储,并通过分布式网络机制进行转发,透传物理网络性能,显著提高模型算力的效率和性能。


4、全方位安全保障


在模型托管方面,采用严格的权限管理机制,确保模型仓库的安全性。在数据存储方面,提供私有化部署和数据磁盘加密等措施,保证数据的安全可控性。同时,在模型分发和运行过程中,提供全面的账号认证和日志审计功能,全方位保障模型和数据的安全性。


三、常用配置


1、CPU:


Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W


Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W


Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W


Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W


AMD EPYC™ 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W


AMD EPYC™ 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W


2、GPU:


NVIDIA L40S GPU 48GB


NVIDIA NVLink-A100-SXM640GB


NVIDIA HGX A800 80GB


NVIDIA Tesla H800 80GB HBM2


NVIDIA A800-80GB-400Wx8-NvlinkSW×8

用户头像

还未添加个人签名 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?_蓝海大脑GPU_InfoQ写作社区