写点什么

多 GPU 训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片 HGX H20、L20 PCIe、L2 PCIe

作者:蓝海大脑GPU
  • 2023-11-16
    北京
  • 本文字数:10662 字

    阅读完需:约 35 分钟

多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe

★大模型、人工智能;数据并行;模型并行;流水线并行;混合精度训练、梯度累积;模型卸载 CPU;重算;模型压缩;内存优化版优化器;Nvidia;A100;H100;A800;H800;L40s;混合专家;910B;HGX H20;L20 PCIe;L2 PCIe


在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国 AI 计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的 AI 芯片,以应对美国出口限制。本文将探讨如何在多个 GPU 上训练大型模型,并分析英伟达禁令对中国 AI 计算行业的影响。


如何在多个 GPU 上训练大型模型?


神经网络的训练是一个反复迭代的过程。在每次迭代中,数据首先向前传播,通过模型的各层,为每个训练样本计算输出。然后,梯度向后传播,计算每个参数对最终输出的影响程度。这些参数的平均梯度和优化状态被传递给优化算法,如 Adam,用于计算下一次迭代的参数和新的优化状态。随着训练的进行,模型逐渐发展以产生更准确的输出。


然而,随着大模型的到来,单机难以完成训练。并行技术应运而生,基于数据并行性、管道并行性、张量并行性和混合专家等策略,将训练过程划分为不同的维度。此外,由于机器和内存资源的限制,还出现了混合精度训练、梯度累积、模型卸载 CPU、重算、模型压缩和内存优化版优化器等策略。


为进一步加速训练过程,可以从数据和模型两个角度同时进行并行处理。一种常见的方式是将数据切分,并将相同的模型复制到多个设备上,处理不同数据分片,这种方法也被称为数据并行。另外一种方法是模型并行即将模型中的算子划分到多个设备上分别完成(包括流水线并行和张量并行)。当训练超大规模语言模型时,需要对数据和模型同时进行切分,以实现更高级别的并行,这种方法通常被称为混合并行。通过这些并行策略,可以显著提高神经网络的训练速度和效率。


一、数据并行


在数据并行系统中,每个计算设备都有完整的神经网络模型副本,在进行迭代时,每个设备仅负责处理一批数据子集并基于该子集进行前向计算。假设一批次的训练样本数为 N,使用 M 个设备并行计算,每个设备将处理 N/M 个样本。完成前向计算后,每个设备将根据本地样本计算误差梯度 Gi(i 为加速卡编号)并进行广播。所有设备需要聚合其他加速卡提供的梯度值,然后使用平均梯度(ΣN i=1Gi)/N 来更新模型,完成该批次训练。



数据并行训练系统通过增加计算设备,可以显著提高整体训练吞吐量和每秒全局批次数。与单计算设备训练相比,最主要的区别在于反向计算中梯度需要在所有计算设备中进行同步,以确保每个计算设备上最终得到所有进程上梯度平均值。


二、模型并行


模型并行可以从计算图的角度出发,采用流水线并行和张量并行两种方式进行切分。



1、流水线并行


流水线并行(Pipeline Parallelism,PP)是一种计算策略,将模型的各层划分为多个阶段,并在不同计算设备上进行处理,实现前后阶段的连续工作。PP 广泛应用于大规模模型的并行系统,以解决单个设备内存不足问题。下图展示了由四个计算设备组成的 PP 系统,包括前向计算和后向计算。其中 F1、F2、F3、F4 代表四个前向路径,位于不同设备上;B4、B3、B2、B1 代表逆序后向路径,位于四个不同设备上。然而,下游设备需要等待上游设备计算完成才能开始计算任务,导致设备平均使用率降低,形成模型并行气泡或流水线气泡。



朴素流水线策略会导致并行气泡,使系统无法充分利用计算资源,降低整体计算效率。为减少并行气泡,可以将小批次进一步划分为更小的微批次,并利用流水线并行方案处理每个微批次数据。在完成当前阶段计算并得到结果后,将该微批次的结果发送给下游设备,同时开始处理下一微批次的数据,在一定程度上减少并行气泡。如下图所示,前向 F1 计算被拆解为 F11、F12、F13、F14,在计算设备 1 中完成 F11 计算后,会在计算设备 2 中开始进行 F21 计算,同时计算设备 1 中并行开始 F12 的计算。与原始流水线并行方法相比,有效降低并行气泡。



2、张量并行


张量并行需要针对模型结构和算子类型处理参数如何在不同设备上进行切分,并确保切分后的数学一致性。大语言模型以 Transformer 结构为基础,包含三种算子:嵌入表示、矩阵乘和交叉熵损失计算。这三种算子具有较大差异,因此需要设计相应的张量并行策略,以便将参数分配到不同设备上。对于嵌入表示层参数,可按照词维度进行划分,每个计算设备只存储部分词向量,然后通过汇总各个设备上的部分词向量来获得完整的词向量。



矩阵乘的张量并行可以利用矩阵分块乘法原理来优化计算。以矩阵乘法 Y = X × A 为例,其中 X 是 M × N 维的输入矩阵,A 是 N × K 维的参数矩阵,Y 是 M × K 维的结果矩阵。当参数矩阵 A 过大超出单张卡的显存容量时,可以将 A 切分到多张卡上,并通过集合通信汇集结果,确保最终结果的数学计算等价于单计算设备的计算结果。参数矩阵 A 有两种切分方式:


1)按列切分


将矩阵 A 按列切成 A1 和 A2,分别放置在两个计算设备上。两个计算设备分别计算 Y1 = X × A1 和 Y2 = X × A2。计算完成后,多计算设备间进行通信,拼接得到最终结果矩阵 Y,其数学计算与单计算设备结果等价。



2)按行切分


将矩阵 A 按行切成 B1,B2,...,Bn,每个 Bi 为 N*(K/n)即(K/n)N 维。将这 n 个切分后的矩阵分别放到 n 个 GPU 上,则可并行执行矩阵乘法 Y=XB1,Y=X*(B1+B2),...,Y=X*(B1+B2+...+Bn)。每步并行计算完成后,各 GPU 间进行通信,拼接得到最终结果矩阵 Y。



在 Transformer 中 FFN 结构包含两层全连接(FC)层,每层都涉及两个矩阵乘法。这两个矩阵乘法分别采用上述两种切分方式。对于第一个 FC 层的参数矩阵,采用按列切块方式,而对于第二个 FC 层参数矩阵,则采用按行切块方式。这样的切分方式使得第一个 FC 层输出能够直接满足第二个 FC 层输入要求(按列切分),从而省去了第一个 FC 层后汇总通信操作。



多头自注意力机制张量并行与 FFN 类似,由于具有多个独立的头,因此相较于 FFN 更容易实现并行。其矩阵切分方式如图所示。



在分类网络最后一层,通常会使用 Softmax 和 Cross_entropy 算子来计算交叉熵损失。然而,当类别数量非常大时,单计算设备内存可能无法存储和计算 logit 矩阵。针对这种情况,可以对这类算子进行类别维度切分,并通过中间结果通信来获得最终的全局交叉熵损失。首先计算的是 softmax 值,其公式如下:



在计算交叉熵损失时,可以采用张量并行的方式,按照类别维度对 softmax 值和目标标签进行切分,每个设备计算部分损失。最后再进行一次通信,得到所有类别的损失。整个过程中,只需要进行三次小量的通信,就可以完成交叉熵损失的计算。


3、管道并行


管道并行性将模型按层“垂直”分割。同时,还可以“水平”分割层内的某些操作,称为张量并行训练。对于现代模型(如 Transformer)的计算瓶颈,即将激活批矩阵与大权重矩阵相乘,可以在不同 GPU 上计算独立的点积或每个点积的一部分并对结果求和。无论采用哪种策略,都可以将权重矩阵分割成均匀大小的分片,托管在不同的 GPU 上,并使用分片计算整个矩阵乘积的相关部分,再通过通信组合结果。Megatron-LM 是一个例子,在 Transformer 自注意力层和 MLP 层中实现矩阵乘法的并行化。PTD-P 结合张量、数据和管道并行性,通过为每个设备分配多个非连续层以减少气泡开销,但增加了网络通信成本。有时,输入可以跨维度并行化,并通过更细粒度的示例进行计算,以减少峰值内存消耗。序列并行是一种思想,将输入序列在时间上分割成多个子示例,从而按比例减少内存消耗。


四、混合专家 (MoE)


随着研究人员试图突破模型大小限制,混合专家 (MoE) 方法引起广泛关注。其核心思想是集成学习,即多个弱学习器组合可生强大的学习器。使用 MoE 方法时,仅需使用网络一小部分即可计算任何输入的输出。一种示例方法是拥有多组权重,网络可以在推理时通过门控机制选择使用哪一组权重。这可以在不增加计算成本的情况下启用更多参数。每组权重都被称为“专家”,希望网络能够学会为每个专家分配专门的计算和技能。不同专家可以托管在不同 GPU 上,从而提供一种清晰方法来扩展模型所使用的 GPU 数量。恰好一层 MoE 包含作为专家前馈网络 {E_i}^n_{i=1} 和可训练门控网络 G 学习概率分布 n “专家”,以便将流量路由到少数选定的 “专家”。当 “专家” 数量过多时,可以考虑使用两级分层 MoE。



GShard(Google Brain 团队开发的一款分布式训练框架

)通过分片将 MoE 变压器模型扩展至 6000 亿个参数。MoE 变压器用 MoE 层替换所有其他前馈层。分片 MoE 变压器仅具有跨多台机器分片的 MoE 层,其他层只是简单地复制。Switch Transformer(Transformer 类的万亿级别模型

)通过稀疏开关 FFN 层替换密集前馈层(其中每个输入仅路由到一个专家网络),将模型大小扩展到数万亿个参数,并具有更高的稀疏性。


五、其他节省内存的设计


1、混合精度计算(Mixed Precision Training)


混合精度训练(Mixed Precision Training)是指在训练模型时同时使用 16 位和 32 位浮点类型,以加快运算速度和减少内存使用。在 NVIDIA GPU 上,使用 float16 进行运算比使用 float32 快一倍多,大大提高了算力的上限。然而,将模型的运算转换为 FP16 并不能完全解决问题,因为 FP16 的数值范围远小于 FP32 和 TF32,限制模型的运算能力。为确保模型能够收敛到与 FP32 相同结果,需要采用额外的技巧。

1)权重备份(Weight Backup)


其中一种避免以半精度丢失关键信息的技术是权重备份。在训练时,权重、激活值和梯度都使用 FP16 进行计算,但会额外保存 TF32 的权重值。在进行梯度更新时,对 TF32 的权重进行更新。在下一步训练时,将 TF32 的权重值转换为 FP16,然后进行前向和反向计算。


2)损失缩放(Loss Scaling)

在训练模型时,由于梯度量级往往非常小,使用 FP16 格式可能会导致一些微小梯度直接被归零。大部分非零梯度实际上并不在 FP16 表示范围内。由于 FP16 格式右侧部分并未被充分利用,我们可以通过将梯度乘以一个较大系数,使整个梯度分布向右移动并完全落在 FP16 表示范围内。一种简单方法是在计算梯度之前先将损失乘以一个较大值,以此放大所有梯度。在进行梯度更新时,再将其缩小回原来的并使用 TF32 进行更新。


3)精度累加(Precision Accumulation)

在 FP16 模型中,一些算术运算如矩阵乘法需要用 TF32 来累加乘积结果,然后再转换为 FP16。例如,Nvidia GPU 设备中的 Tensor Core 支持利用 FP16 混合精度加速,同时保持精度。Tensor Core 主要用于实现 FP16 的矩阵相乘,并在累加阶段使用 TF32 大幅减少混合精度训练的精度损失。



2、梯度累积(Gradient Accumulation)


梯度累积是一种神经网络训练技术,通过将数据样本按批次拆分为几个小批次,并按顺序计算。在每个小批次中,计算梯度并累积,在最后一个批次后求平均来更新模型参数。神经网络由许多相互连接的神经网络单元组成,样本数据通过所有层并计算预测值,然后通过损失函数计算每个样本的损失值(误差)。神经网络通过反向传播算法计算损失值相对于模型参数的梯度,并利用这些梯度信息来更新网络参数。梯度累积每次获取一个批次的数据,计算一次梯度(前向),不断累积梯度,累积一定次数后根据累积的梯度更新网络参数,然后清空所有梯度信息进行下一次循环。



3、卸载 CPU(CPU Offloading)


CPU Offloading 是指将未使用的数据暂时卸载到 CPU 或不同的设备之间,并在需要时重新读取回来。由于 CPU 存储相比 GPU 存储具有更大的空间和更低的价格,因此实现双层存储可以大大扩展训练时的存储空间。然而,简单的实现可能会导致训练速度降低,而复杂的实现需要实现预取数据以确保设备无需等待。ZeRO 是一种实现这一想法的方式,它将参数、梯度和优化器状态分配到所有可用的硬件上,并根据需要进行具体化。


4、激活重新计算(Activation Recomputation)


Recompute 是一种在前向计算中释放 tensor,在反向传播时需要重新计算的方法,适用于占用内存大但重新计算量小的 tensor。重新计算的方式有三种:


Speed Centric 会保留计算出的 tensor 以备后续使用;

Memory Centric 会在计算完成后释放 tensor,需要时再重新计算;

Cost Aware 会在计算完成后判断是否保留 tensor,若可能导致内存峰值则释放。


可以将 swap 和 recompute 结合使用,针对特定 op 采用不同方式。还可以预先迭代几次,收集内存和运行时间信息,判断哪些 tensor 该 swap,哪些该 recompute。



5、模型压缩(Compression)


模型压缩是通过裁剪、权重共享等方式处理大模型,以减少参数量。然而,这种方式容易降低模型精度,因此使用较少。常见的模型压缩方法包括修剪、权重共享、低秩分解、二值化权重和知识蒸馏。


修剪可以采用对连接、kernel、channel 进行裁剪的方式;权重共享是通过共享模型参数来减少参数量;低秩分解将矩阵分解为低秩形式,从而减少参数量;二值化权重是将权重从 32 位降至 8 位或 16 位,实现混合精度训练;知识蒸馏是使用训练好的教师模型指导学生模型训练。



6、高效内存优化器(Memory Efficient Optimizer)


优化器在模型训练中的内存消耗是一个重要问题。以 Adam 优化器为例,它需要存储动量和方差,与梯度和模型参数规模相同,内存需求增加。为减少内存占用,已经提出了几种优化器,如 Adafactor 和 SM3,采用不同的方法估计二阶矩或大幅减少内存使用。


ZeRO 优化器是一种针对大型模型训练的内存优化方法。通过观察模型状态和激活临时缓冲区及不可用碎片内存的消耗,采用两种方法:ZeRO-DP 和 ZeRO-R。ZeRO-DP 通过动态通信调度来减少模型状态上的冗余,而 ZeRO-R 则使用分区激活重新计算、恒定缓冲区大小和动态内存碎片整理来优化残留状态的内存消耗。


英伟达禁令之后,中国 AI 计算何去何从?

在 10 月 17 日,美国强化对中国市场的 AI 芯片禁令,将性能和密度作为出口管制标准,禁止出口单芯片超过 300teraflops 算力、性能密度超过每平方毫米 370gigaflops 的芯片。由于限制 AMD、英特尔等公司的高端 AI 芯片,尤其是英伟达的主流 AI 训练用 GPU A100 和 H100,该禁令又被称为“英伟达禁令”。


针对新的芯片禁令,AI 产业议论纷纷,焦点主要集中在实施时间、缓冲地带、涉及的 GPU 型号和禁令期限等方面。尽管存在争议,但针对中国的高端 AI 芯片禁令仍在坚定推行。


现在,AI 行业必须形成共识应对挑战。与其过分关注被禁的 GPU,我们应更深入思考在芯片铁幕时代下中国 AI 计算未来发展路径。下面将探讨当前产业形势并共同探讨 AI 计算前行之路。


一、目前现状


与之前情况相比,英伟达禁令出台后大众舆论与 AI 行业反应似乎更为冷静。仅在消费级显卡 RTX 4090 是否被禁问题上引发游戏玩家和商家争论。尽管行业不希望看到高端 AI 芯片被禁售,但对此局面已有预期。美国对华芯片封锁已持续多年,英伟达部分高端 GPU 已被禁止出售,产业界的反应也从惊讶转变为冷静应对。加上 ChatGPT 的火爆导致全球高端 GPU 市场行情上涨,美国方面多次表示要推动对华整体性的高端 AI 芯片禁售。


为应对禁令并受到大模型发展的推动,去年年底到今年上半年,众多中国科技、金融、汽车等企业集中购买英伟达高端 GPU,导致市场上 GPU 供不应求。对于许多中国中小型科技企业和 AI 创业公司来说,原本就很难买到高端 GPU,禁售并未带来太大变化。实际上,国内 AI 芯片产业在贸易摩擦初期便开始加速发展,虽然英伟达的高端 GPU 在 AI 训练需求方面难以替代,但并非不可替代。


此外,AI 芯片与手机芯片不同,并不关乎大众消费者。华为已在手机芯片领域取得突破。因此,无论是大众还是行业,对禁令都持坦然态度,甚至有些习以为常。然而,必须承认的是,禁令对中国 AI 行业仍造成了一定程度的伤害:短期内更换英伟达 GPU 面临芯片产能和生态兼容性等难题;禁令还将直接损害使用英伟达产品的 AI 服务器等领域的厂商。


长期禁令可能使中国 AI 计算与全球高端芯片脱钩,可能带来复杂的负面影响,包括:中国 AI 算力发展可能落后于英伟达高端 GPU 的更新迭代;在底层算力发展分歧下,中国 AI 产业可能在软件技术方面掉队;科技封锁可能从 AI 芯片扩展到通用算力、存储、基础软件等数字化基础能力。因此,需要制定三项同时发力的“突围方案”:加快国产 AI 芯片的自主研发和生态建设;加大力度投资大模型等软件技术,降低对英伟达等公司的依赖;加强与国际科技合作,推动中国 AI 计算的全球化发展。


二、解决方案一:用好买家身份


作为全球芯片市场最大买家,中国企业应该利用好这个身份,摆脱中美科技贸易中的思维误区。我们往往认为游戏规则是由美国政府和企业制定的,只能被动接受,但实际上作为买家应该拥有更多话语权。针对中国市场的 AI 芯片禁令,最直接伤害的是以英伟达为代表的美国科技巨头,因为中国市场对他们的 AI 芯片需求最大。英伟达 CEO 黄仁勋曾表示,如果被剥夺了中国市场,他们将没有应急措施,世界上没有另一个中国。因此,我们应该认识到作为买家的力量,并利用好这个身份来维护自己的利益。



我们可以看到美国科技公司和政府之间的矛盾。科技公司追求商业利益,而政府则追求政治利益。美国科技公司一直在尝试反对和绕过禁令,例如英伟达推出针对中国市场的特供版 GPU。


三、解决方案 2:以云代卡,算力集中


在可见的较长时间里,美国对中国 AI 芯片封禁只会加强,这给 AI 大模型发展带来挑战。许多业内人士认为,大模型发展虽快,但没有呈现此前科技风口的迅猛局面,投资缺钱、计算缺卡是主要原因。


为解决中国 AI 产业在禁令之下的算力缺口问题,企业需要加大云端 AI 算力配置和投入,推动以云代卡。事实上,在高端 AI 芯片可能被禁的大趋势下,中国几大公有云厂商都开始加强囤积英伟达高端 GPU。这不仅因为自身需要加大大模型投入,打开 MaaS 市场,也对 AI 算力有直接需求。此外,GPU 转化为云资源池后可以长期复用,对云厂商来说具有进可攻、退可守的优势。因此,今年上半年出现高端 AI 芯片流向云厂商、中小企业难以获得芯片的局面。


客观来看,这种高端 AI 芯片集中向云的举动有利于中国市场统筹应对 AI 芯片禁令,也符合东数西算战略思路。另一趋势是,随着大模型参数和使用数据量不断加大,本地化卡池训练已经越来越紧张,在云端进行千卡、万卡训练成为未来主要发展方向,因此企业用户会更加积极地走向云端。



同时,云端 AI 算力不仅限于囤积英伟达 GPU。随着政策推动和自主 AI 芯片采购力度的加大,云端化和自主化结合的 AI 算力将成为发展趋势。根据 IDC 数据,2023 上半年中国 AI 服务器已经使用 50 万块自主开发的 AI 加速器芯片。华为已经推出昇腾 AI 云服务,提供自主 AI 算力服务。在东数西算背景下,各地建立一批采用自主 AI 算力的 AI 计算中心,保障云端 AI 算力稳定可靠供给。


然而,很多企业仍然倾向于采购本地 AI 算力。一方面是因为英伟达 GPU 市场紧缺,保值性高,甚至可以作为企业的核心资产。另一方面是因为云端 AI 算力存在排队、宕机、软件服务缺失等问题,影响开发者体验。为进一步提高开发者的云端 AI 算力使用体验,公有云厂商需要进一步努力。


四、方案三:让国产 AI 算力爆发式成长


面对新一轮 AI 芯片禁令,中国 AI 产业并非依赖英伟达的高端 GPU,而是经过多年发展,AI 芯片产业已经得到巨大发展。虽然英伟达市场份额仍占主导,国产 AI 算力已经具备一定市场占比,但在核心性能、软件生态和出货能力方面仍需不断提升。客观上,禁令的倒逼将加速国产 AI 算力的成长与成熟周期。


为了实现这个目标,有几件事非常重要:


1、形成产业共识,避免概念混淆


虽然 AI 芯片市场呈现出众多品牌和类型参与者,但其中存在的问题也不容忽视。对于类脑芯片等前沿技术,目前仍处于畅想阶段,而一些 AI 芯片厂商仅能自用,无法面向市场出货,同时还有大量厂商处于早期建设阶段,短期内对 AI 计算自主化贡献有限。

为应对英伟达高端 GPU 禁售问题,需要将关注点集中在可行、有效的 GPU 替代方案上,避免过多的联想和发散。只有形成产业共识,才能更好地解决问题。


2、走向规模化商用,避免 PPT 造芯


目前国内能够出货的 AI 芯片厂商主要集中在华为、百度、燧原科技和海光信息等少数几家。大量半导体厂商与 AI 企业还停留在打造芯片的计划与愿景上,导致政策支持与投资市场期待的国产 AI 芯片发展停滞,甚至有些企业可能只是在这一阶段享受金融市场红利而缺乏实质性进展。


为推动产业发展,未来的产业导向应该重将 AI 芯片从计划转向出货,帮助厂商获得直接商业回馈,让产品与产能接受市场检验,逐步塑造正向现金流。


3、加强软件生态,强化迁移能力


英伟达 GPU 重要性不仅在于硬件性能,更在于其 CUDA 和 PyTorch 等软件生态的强大能力。因此,发展国产 AI 芯片不能忽视软件能力的提升。在加强自主软件生态建设的同时,还需要关注基于英伟达生态的 AI 模型迁移能力和迁移成本。


许多厂商已经在这方面进行探索,例如海光信息的 DCU 与 CUDA 在生态和编程环境上高度相似,使得 CUDA 用户能够以较低代价快速迁移到海光的 ROCm 平台。此前,PyTorch2.1 版本宣布支持华为昇腾,显示出国产 AI 芯片已经具备一定的规模化影响力,可以更多地融入全球软件生态。未来要实现国产 AI 计算的爆发,离不开国产 AI 基础软件生态的蓬勃发展。



4、加大对“主品牌”支持,形成规模化效应


在中国,为加速 AI 计算的成熟并实现自主化替代,应尽快形成一超多强的市场格局,避免生态割裂和 IT 投资浪费。在这个过程中,市场机制将起到决定性作用。然而,在当前芯片禁令背景下,国产 AI 计算崛起已刻不容缓,应加速形成一个“主品牌”来快速替代英伟达等进口芯片。


目前看来,华为昇腾系列是最有可能成为国产 AI 算力的主品牌之一。科大讯飞董事长刘庆峰曾表示,华为 GPU 已经与英伟达 A100 并驾齐驱。数据显示,昇腾 310 的整数精度算力达到 16TOPS,而昇腾 910 的整数精度算力更是高达 640TOPS,这意味着昇腾 910 的性能已接近英伟达 A100。



同时,昇腾是目前唯一在市场上占据一定份额的国产 AI 算力品牌,并在软件方面培育类似英伟达 CUDA 的异构计算架构 CANN 和 AI 计算框架 MindSpore。从核心性能、软件生态和市场占有率三个角度来看,昇腾已经具备加快成长并实现 AI 算力大规模国产化替代的可能性。


短期内推动国产 AI 算力快速成长的主要途径包括规范行业标准、强化软件建设以及提高自主品牌的支持。英伟达禁令是中国 AI 行业不愿面对、尽力避免,但又讳莫如深的问题。


英伟达将针对中国市场推出新的 AI 芯片,以应对美国出口限制

据知情人士透露,NVIDIA 已研发出为中国市场量身打造的新型改良 AI 芯片系列,包括 HGX H20、L20 PCle 和 L2 PCle。在美国政府针对中国高科技行业加强出口限制的大背景下,NVIDIA 的这一举动被业界视为对相关政策调整的直接回应。此举可能暗示该公司正在寻找遵守规定的同时保持市场竞争力的策略。



据业内人士透露,英伟达为中国市场研发新一代改进型 AI 芯片系列,包括 HGX H20、L20 PCIe 和 L2 PCIe。这些芯片都基于英伟达的 H100 系列芯片,并采用了不同的架构。


HGX H20 采用 NVIDIA Hopper 架构,并配备高达 96 GB 的 HBM3 内存,提供 4TBB/s 的带宽。适用于要求极高的计算场景,展现出了卓越的性能。


L20 PCIe 和 L2 PCIe 则采用 NVIDIA Ada Lovelace 架构,并针对不同计算需求提供多样化的选择。L20 PCIe 配备 48 GB GDDR6 w/ ECC 内存,而 L2 PCIe 则拥有 24 GB GDDR6 w/ ECC 内存。特别值得注意的是,H20 型号没有 RT Core,而 L20 和 L2 PCIe 则增加了这一功能,表明它们在光线追踪能力上有所加强。


这些新系列芯片可能通过调整性能参数来满足中国市场的特殊要求并规避某些出口禁令中的敏感技术。虽然这样的产品定制化可能会带来技术创新,但同时也可能带来技术分裂的风险,引发行业对技术标准分化的担忧。


分析人士认为,NVIDIA 的这一举措是其全球供应链战略的重要组成部分,反映出公司对全球经济形势的灵活适应。此举将有助于 NVIDIA 维持在中国市场的业务活动和客户关系,同时也可能推动中国本土厂商加速技术自立自强的步伐。


尽管美国的出口限制给中国市场的技术产品带来了挑战,但据知情人士透露,英伟达已经采取了针对性的技术调整,以符合出口规则,确保其产品可以顺利进入中国市场。据悉,英伟达预计将在 11 月 16 日之后宣布这一新系列产品,届时将有更多细节公布。尽管英伟达尚未对此消息作出官方回应,但市场对这些可能的新产品已经充满期待。


蓝海大脑大模型训练平台

蓝海大脑大模型训练平台提供强大的算力支持,包括基于开放加速模组高速互联的 AI 加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能 I/O 扩展,同时可以扩展至万卡 AI 集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当 BMC 收到 PSU 故障或错误警告(如断电、电涌,过热),自动强制系统的 CPU 进入 ULFM(超低频模式,以实现最低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI 及大数据等领域。



一、为什么需要大模型?


1、模型效果更优


大模型在各场景上的效果均优于普通模型


2、创造能力更强


大模型能够进行内容生成(AIGC),助力内容规模化生产


3、灵活定制场景


通过举例子的方式,定制大模型海量的应用场景


4、标注数据更少


通过学习少量行业数据,大模型就能够应对特定业务场景的需求


二、平台特点


1、异构计算资源调度


一种基于通用服务器和专用硬件的综合解决方案,用于调度和管理多种异构计算资源,包括 CPU、GPU 等。通过强大的虚拟化管理功能,能够轻松部署底层计算资源,并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力,以加快模型的运行速度和生成速度。


2、稳定可靠的数据存储


支持多存储类型协议,包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通,提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制,确保模型和数据的安全稳定运行。


3、高性能分布式网络


提供算力资源的网络和存储,并通过分布式网络机制进行转发,透传物理网络性能,显著提高模型算力的效率和性能。


4、全方位安全保障


在模型托管方面,采用严格的权限管理机制,确保模型仓库的安全性。在数据存储方面,提供私有化部署和数据磁盘加密等措施,保证数据的安全可控性。同时,在模型分发和运行过程中,提供全面的账号认证和日志审计功能,全方位保障模型和数据的安全性。


三、常用配置


1、处理器 CPU:


  • Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

  • Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

  • Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

  • Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

  • AMD EPYC™ 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

  • AMD EPYC™ 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W


2、显卡 GPU:


  • NVIDIA L40S GPU 48GB

  • NVIDIA NVLink-A100-SXM640GB

  • NVIDIA HGX A800 80GB

  • NVIDIA Tesla H800 80GB HBM2

  • NVIDIA A800-80GB-400Wx8-NvlinkSW

用户头像

还未添加个人签名 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe_蓝海大脑GPU_InfoQ写作社区