全面解析 | 大模型时代如何利用弹性计算服务应对大算力挑战
![全面解析 | 大模型时代如何利用弹性计算服务应对大算力挑战](https://static001.geekbang.org/infoq/7c/7ca6b59ac13eb8f1213040dd132d730f.jpeg)
![](https://static001.geekbang.org/infoq/54/540f0039448cfe1902a3fafd70a8dad4.png)
2023 年 6 月 20 日,阿里云弹性计算团队与智东西公开课联合出品的系列课程「阿里云弹性计算技术公开课」正式播出,阿里云弹性计算产品专家张新涛作为该系列课程首位主讲人,带来了主题为《大模型时代如何应对大算力挑战》的课程分享,本次课程也在阿里云官网、钉钉视频号、阿里云官方视频号、阿里云开发者视频号、阿里云创新中心直播间 &视频号等多平台同步播出。
大模型开启了人工智能的新时代,但其动辄千亿规模的参数量,极大的算力需求也对计算基础设施提出了更高的要求和挑战。阿里云弹性计算基础设施,通过从底层到中间件的全系优化,能够为大模型提供软硬一体的、弹性灵活的 AI 算力支持。
https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/417411486311.mp4?SBizCode=xiaoer
本篇文章根据张新涛的课程整理而成,供读者阅览:
关于 AI,在今年大家比较关注的两件事应该就是:AI 是否会替代我们的工作以及我们如何借助 AI 获得竞争优势,今天我的分享将会帮助大家解答第二个问题。相信大家也非常好奇,几年前人们口中的“人工智障”为何摇身一变成了如今的人工智能,现如今的 ChatGPT 和 GPT4 是不是真的很惊艳?相关的内容,我会在接下来的课程中分享给大家。
一、大模型带来的变化和机会
![](https://static001.geekbang.org/infoq/b6/b6afee06bc8720dea98525ddd2d866bc.png)
首先我们简单梳理一下,这次大模型带来了哪些变化?
首先,AI 智能从感知智能转变为认知智能,这是跨越式的进步。感知智能最典型的应用就是各种 AI 音箱,虽然机器可以通过语音识别听懂每一句话,但却不能给出聪明的回答。而现在的机器则变得十分聪明,可以分析、推理、概括、总结,你能明显的体会到科幻中的人工智能到来了。
其次,AI 的应用方式有了巨大变化。AI 技术的使用者再也不用从头训练一个模型,且也不用生产和存储非常多的训练数据集,AI 技术开发者和使用者如果需要,只需下载预训练模型并且使用少量的微调数据样本就可以练出自己需要的专业模型。
最后的变化是模型参数规模变大了,这也是最根本的变化。
![](https://static001.geekbang.org/infoq/f4/f43a0bd16b5143dbda1f9c9e85e64d36.png)
当模型的规模大到一定程度,AI 的使用模式就会产生一些微妙的变化。可以使用预训练模型+少量训练样本微调训练,即可实现更好的智能表现,这在业内也称之为“涌现”。
在目前看,通常模型规模突破 1000 亿参数后,涌现出来的智能就非常强了。这里我们来记住一个模式,预训练模型+微调,这种方式可以大大降低 AI 应用的技术门槛,后面的分享也会再次提到。
总结以上,大模型带来了三个变化:
1、智能从感知智能进化到了认知智能;
2、AI 进入了广泛应用的低门槛时代;
3、模型参数量变大了。
以上就可以得出“大模型开启了 AI 新时代“这样的结论,但要迎接这个新时代,我们还要迎接伴随而生的挑战。
![](https://static001.geekbang.org/infoq/88/8844e0dd1be12dee98f6ebaf7483913c.png)
这个挑战来自哪里呢?主要来自模型参数规模的快速增长,以至于在工程上极难处理,且已经成为趋势。
从上面两张图可以看到,2018 年开始,无论是大语言模型和还是预训练模型,他们的参数规模都在快速增长,斜率很大,甚至到了 2020 年开始出现超过 1000 亿参数的模型,代表就是 GPT-3。
前面讲过,这种规模的模型有了新的特征,即预训练+微调就可以产生智慧涌现。因此,在这个新发现之后,大家从图上可以看到,从 2021 年开始,大模型爆发式增长,而且模型规模已经开始向万亿参数挑战。
总的来说,大模型和超大模型是产业发展方向。但这种发展趋势也带来了巨大的计算挑战。
![](https://static001.geekbang.org/infoq/0a/0a417f52a132c189b9cbcfc4b5398814.png)
实际上大模型在训练,微调和应用上线的阶段是最消耗算力的。我们拿 GPT-3 举例,整个预训练阶段 GPT-3 的总算力需要 3640PFlops*天,换个算法就是需要 1024 片 A100(GPU)连续跑 1 个月。
当然预训练之后的模型还不能直接用,至少还需要一个 Finetune,那 Finetune 需要多少算力呢?类比 GPT-3 这种规模的模型,如果要做微调,就需要超过 1000PFlops*天的算力,也需要数百片 A100(GPU)跑一个月。
最后,Finetune 完成的模型上线运营需要多少算力呢?我们还以 ChatGPT 举例,仅使用完成量化优化的模型,仍然需要巨大算力来支撑,具体的数字表现大家可以看图中所示。
所以我们看到了,大模型业务的几个关键环节,对应算力的需求都十分惊人。虽然算力需求如此惊人,带来的算力挑战不小,但是大模型给产业带来的新机会也更多。
![](https://static001.geekbang.org/infoq/03/03d64f4cc71e57c3654613e6735ccb54.png)
大模型也带来了应用场景的蓬勃发展。不仅可以生成文本,还可以生成音频、图像、视频以及 3D 空间,甚至可以综合音视频和 3D 生成 AI 游戏剧情和人物,还可以生成数字人。
结合前面讲到的 AI 应用技术门槛的降低,AI 不仅可以便利的服务于更多行业,还会产生更多新的应用场景。
二、大模型对计算设施演进的影响
![](https://static001.geekbang.org/infoq/2f/2f6278ad3fc1054992ea8fee6b9864f3.png)
假设我们大家对于 GPT 模型的发展过程已经了解的很详细了,那么在这个过程中,我们就能看到一个很明显的趋势,即 GPT 模型的参数量以几何级数增长。这种增长给计算基础设施也带来了很大的压力,主要体现在三个方面:
1、对计算能力的需求。这个表现最为直接,尤其是训练场景,模型对计算需求实际上已经快于芯片性能的提升。
2、对于芯片显存的需求。最典型的就是语言模型对于显存尺寸的需求,已经远远快于硬件的增长速度。
3、并行通信的需求。前面讲到了芯片算力性能的提升是慢于模型的需求的,所以只好通过并行计算堆叠更多的计算芯片来实现,因此对于并行通信的需求就越来越多。我们看到了显存带宽增长,GPU 之间总线的带宽在增长,但是这些也远低于芯片算力的增长。
综上可以得出,大模型的快速增长给计算基础设施带来了巨大压力。相比于传统计算基础设施,逐步发展起来的 AI 和大模型促使计算基础设施产生了变化。
![](https://static001.geekbang.org/infoq/18/18ee34b5ce582396822aa97f8b705af7.png)
如上图所示,我们来一起回顾一下过去 20 年计算的变化。
我们使用的计算终端,初始以 PC 为主,后续逐步过渡到手持设备为主,再逐步过渡到更多终端,比如:手机、平板、个人电脑、汽车、机器人以及其他智能硬件。
终端需求牵引导致数据中心计算产生巨大变化 ,从单服务器、单核 CPU,到分布式、多核 CPU,又过渡到异构计算,到了今天我们对于异构计算需求依赖变得越来越明显,很多企业的业务如果缺少异构计算或者 GPU 的计算芯片,其实是无法进行下去的。
因此,如果我们在业界工作时间稍长,其实就有强烈体会,20 年前如日中天的公司是做系统软件和 CPU 芯片的,而当下如日中天的公司是做大模型和 AI 芯片的。这里发生了一个很明显的改变,即技术变革让我们进入到了智能计算时代。
三、阿里云如何应对大模型的挑战
![](https://static001.geekbang.org/infoq/57/57bbafa0f6dce8b2f3ce05775c10c68a.png)
接下来我们一起看一下,产业是如何选择 AI 芯片的,以及阿里云是如何使用这些芯片去实现自己的 AI 基础设施的。
首先和大家分享一下面对 AI 大模型这种需求,我们是如何选择芯片的。我们大家应该经常可以听到 CPU、GPU、TPU、FPGA、ASIC 等等概念,那么它们在计算特性上有什么不同呢?
今天,我们就花稍长时间用一页把他们讲明白,都是干货,大家认真来听。
我们首先需要知道 AI 计算的数据特征和计算操作是什么。AI 计算通常做的都是概率计算,因此通常使用浮点数,比如:32 位的单精度或者 16 位的半精度。
而计算的数据结构通常是张量,张量可以使用 CPU 来计算,也可以通过 GPU 或者 TPU 来计算,但是计算时效和成本相差巨大。比如:使用 CPU 来计算,每个操作只能计算两个操作数,效率很低。而使用 GPU,每次就可以计算两组操作数,效率就有数倍提升,但是相对于计算需求的增长,也捉襟见肘。
因此出现了一次计算两个矩阵的芯片,比如 TPU,效率比 GPU 有了数倍提升,相比于 CPU 则有了百倍提升。当然,从 V100(GPU)开始,GPU 也引入了 Tensor Core(张量计算核心)这种 DSA 单元,每个操作也是两个以上的矩阵在计算。因此后续 GPU 就有了两个性能指标:CUDA 性能指标和 Tensor 性能指标。
而 FPGA 和 ASIC 芯片则是两个极端,FPGA 追求软件定义的灵活性,而 ASIC 追求极致性能和极致性价比。例如:在自动驾驶业务初期,为了寻找到低功耗芯片,许多厂商开始用 FPGA 来实现车载推理计算机。也就是把车载的摄像头和雷达的数据拿到 FPGA 芯片上,通过事先软件定义好的硬件计算单元使 FPGA 芯片可以运行 AI 算法,处理视频或雷达图像。
后来,在算法和算子逐步稳定后,我们就将 FPGA 的实现硬化成 ASIC 芯片来实现,这个的好处是效率更高,功耗更低了。当然,车载自动驾驶芯片是个 SOC,除了 AISC 的 AI 加速,还有 CPU 带来的控制灵活性。
所以我们选用什么样的芯片来做 AI 大模型呢?相比而言 GPU 芯片面对 AI 业务挑战应对更为积极也更有预见性。
![](https://static001.geekbang.org/infoq/17/174f4e883f4468e7960485285d4a880d.png)
下面我们来看下主流 GPU 芯片做了哪些架构和工艺上的跃迁来带性能的急速增长,这里面 GPU 芯片有很多,我们着重看几个比较有代表性的芯片。
1、Kepler 架构,从这代 GPU 开始,GPU 开始大规模的用于深度学习的训练和推理。我们国内有很多友商也是从这一代芯片开始把他们引入到自己的公共云上来,为 AI 用户提供算力支持。
2、Pascal 架构,从这代 GPU 开始,英伟达开始针对深度学习的计算负载做了专门的增强,比如:使用带宽更高的 HBM 显存和 NVLink 互联以及使用性能高一倍的 FP16 计算引擎。
3、Volta 架构,从这代 GPU 开始,英伟达正式发布了 Tensor Core 用于进一步提升 GPU 的 Tensor 计算能力来应对语言模型规模不断增长的挑战。
4、Hoper 架构,从这代 GPU 开始,英伟达开始通过面对大模型做了很多优化,比如优化了计算能力,访存效率和组网带宽比都有了跨越式发展,更加适合大模型训练和推理的负载。
实际上每一代 GPU 架构的进化,都融入了更多性能提升的创新,这里不再赘述。了解完 GPU 迭代的驱动逻辑,就更容易理解阿里云异构计算产品体系。
![](https://static001.geekbang.org/infoq/bf/bfe4dee7115cf8b9046f82c083463ea6.png)
阿里云异构计算产品的体系是面向加速计算全场景的,所以有面向人工智能场景的实例,有面向视觉计算场景的实例,以及面向定制计算场景的实例。但我们今天的主题是大模型,所以主要来看人工智能的场景。
上图主要显示的是当前最新一代产品,也就是基于 A100(GPU)的训练实例和基于 A10 的推理实例。但实际上在之前我们还有 V100 的实例、T4 的推理实例、P100 的实例、P4 的实例等等非常丰富的实例。
那么我们除了实例之外,还有面向帮助用户提升计算效率、提升易用性和业务效率的软件产品。这里值得注意的是,我们一直在探索的软硬一体的实例产品:EAIS 加速实例。我们正在将 EAIS 做成超级弹性的计算基础设施,来解决巨大算力需求与业务成本降低之间的矛盾。新版的 EAIS 产品敬请大家期待。
四、面向 AI 大模型的解决方案
![](https://static001.geekbang.org/infoq/1d/1d365a94850d1ea8ed92317b3da4922b.png)
我们针对 AIGC 和大语言模型的客户提供了有针对性的解决方案。前面介绍过,新的 AI 技术应用模式与以往的 AI 有很大区别,我们只需要使用开源或者商业化的预训练模型加上少量个性化数据,就可以微调训练出来具备垂直领域知识和能力的 AI 模型来。
比如,我们可以使用开源的某个大语言模型加上某个行业或者企业特有的业务数据就可以训练出这个行业或者企业所需的大语言模型,诸如企业写标书,合同审核等等耗时业务都可以高效处理。
具体过程如下:
首先,需要收集足够丰富的行业或者企业分门别类的知识信息,将其整理成语料数据;
其次,基于阿里云的 IaaS 产品、AI 性能分析及优化软件,资源编排服务以及配合开源的开源微调工具集等,在极短时间内就可以微调训练出自有的语言模型。
最后,用户可以将模型部署于阿里云上,阿里云提供全球网络投送能力,同时针对大模型部署面临的性能与成本挑战,提供相对应的性能优化工具,易用性等工具。
以上是我们大致的解决方案,当我们决定要微调训练一个大模型时,第一件事情还是 GPU 实例的选型,接下来我们一起来看一下。
![](https://static001.geekbang.org/infoq/0d/0d55aa7171c5f41be2157cae81345831.png)
大语言模型和 AIGC 由于参数与数据类型不同,对于 GPU 实例选择还是有比较大的差异。因此,我们把大语言模型的选型与 AIGC 的选型分开来看。
首先,看一下大语言模型,它除了有预训练的需求以外,更多的是微调训练,二者需要的 GPU 实例区别不大,但是数量有较大差异。
到了大语言模型推理阶段,选型的问题就更复杂了,除了显存限制,计算能力需求,还需要考虑大规模部署的性价比,目前我们在市场上见到最多的模型是 130 亿到 2000 亿参数的模型,但是更多集中在 130 亿到 650 亿,因此我们在这里可选的 GPU 实例还是非常多的。
其次,我们看 AIGC 模型,由于参数规模相比大语言模型较小,对于显存和计算能力的需求就没有那么突出,用户更多会关注大规模部署的成本和业务效率等问题,同样,在这里我们的可选型也会非常多。后面我们具体看看我们选型的 GPU 实例以及相配套的服务和软件。
![](https://static001.geekbang.org/infoq/93/9325c24c4d7f85c67b5c4957c7449813.png)
上图展示了我们面向大模型训练的高性能计算集群的产品。
这个产品围绕提升集群并行性能展开,GPU 之间使用了 NV-Switch 的互联方式,也是目前最高效的互联方式。节点之间使用了非阻塞式的 RDMA 网络,同时节点间还有 VPC 网络互联,以及集群方面还用了高性能的集群存储 CPFS 和块存储。
除了这种更强计算的需求,还有更细粒度的计算需求。
![](https://static001.geekbang.org/infoq/e8/e8cb08259dc13f34e46189f2136cc1d4.png)
我们还可以提供更小的 GPU 计算粒度,通过池化的方式来提升资源使用效率。比如,我们通过 cGPU 技术实现 GPU 的资源切割和跨主机资源池,来解决 GPU 资源的使用不充分、或者更加夸张的计算资源配比需求等等,帮助用户获得更有效率和更有性价比的 GPU 计算资源。
当然,除了充分利用 GPU 计算资源外,我们还有帮助用户提升各类 AI 负载的加速软件。
![](https://static001.geekbang.org/infoq/ea/ea452c67b8ee4d494b1d7da28d86d57d.png)
我们提供的 AI 加速套件在业界十分有名。比如,我们通过结合 IaaS 优势,也实现非常可观的性能优化,而通过这套加速软件,我们也帮助用户的业务在不同业务负载上提升 40%到 80%的性能。换句话说,可以帮助用户节省这么多的 TCO 支出或者时间支出。
![](https://static001.geekbang.org/infoq/6c/6c0999e2cff1f874cec8d4c3e6a8a230.png)
最后和大家分享一下阿里云的全栈 AI 技术体系。我们从 AI IaaS 层到模型层面,给用户提升全栈的 AI 技术和产品能力,帮助不同用户建设更加贴合业务实际的 AI 业务。以上就是我本次的分享。
想要关注更多精彩直播/观看课程回放的同学,可以点击下方海报/扫描二维码均可观看
![](https://static001.geekbang.org/infoq/6c/6c1b3e899a3f20aed78aacc8d15e4a3f.jpeg?x-oss-process=image%2Fresize%2Cp_80%2Fauto-orient%2C1)
版权声明: 本文为 InfoQ 作者【阿里云弹性计算】的原创文章。
原文链接:【http://xie.infoq.cn/article/6d18a69f89f73da52cbfdabf5】。文章转载请联系作者。
评论