写点什么

ChatGPT 搅动 AI 芯片的“一池春水”

作者:IC男奋斗史
  • 2023-10-16
    上海
  • 本文字数:1768 字

    阅读完需:约 6 分钟

ChatGPT搅动AI芯片的“一池春水”

这是 IC 男奋斗史的第 37 篇原创

本文 1520 字,预计阅读 4 分钟。

ChatGPT 是什么以及它的发展历程,相信各位老铁们都已经很清楚,杰哥便不再赘述。大家都知道,杰哥是做 AI 芯片的,ChatGPT 与杰哥的职业发展可谓是息息相关。今天杰哥想研究一下 ChatGPT 与 AI 芯片之间的关系。

ChatGPT 的算力成本

有数据表明,ChatGPT 训练需要消耗的算力大约为 3640PF-days。也就是说,每秒运算一千万亿次的话需要运行 3640 天。假设我们有一个 500P 算力 (每秒可以进行 500 千万亿次运算) 的超算中心,完成 ChatGPT 训练需要花费 7 到 8 天时间。如果我们有 7 到 8 个这样的超算中心并行运算,完成训练就只需要花费 1 天时间。

参考近期超算中心的建设投资规模,一个算力约 500P 的超算中心总投资约为 30 亿人民币。要支撑 ChatGPT 的运行,至少需要 7 到 8 个这样的数据中心。也就是说,对于 ChatGPT 来说光基础设施的投入就要两百亿以上。

作为一家创业公司,OpenAI 选择的还是一种相对轻快的数据存储和运行方法——上云。目前 ChatGPT 的训练都是基于微软的超算基础设施完成的。微软的超算设施主要是由英伟达 V100 和 A100 GPU 组成的高带宽集群。后续应该会升级到性能更强大的英伟达 H100 GPU 计算集群。

2023 年 1 月 23 日,微软宣布向 OpenAI 追加 100 亿美元的投资,以支持其在 ChatGPT 领域的开发与拓展。2 月 3 日,谷歌向人工智能初创公司 Anthropic AI 投资约 4 亿美元,后者正在测试 ChatGPT 的竞品 Claude。ChatGPT 背后巨大的算力需求将会给高性能计算领域带来巨大的市场需求,这其中收益最大的当属以英伟达为代表的云端 AI 芯片企业。

ChatGPT 背后的 AI 芯片

英伟达目前能支持 ChatGPT 运行的主要产品有 V100、A100 和 T100 三个系列。同样的,国产 AI 芯片也拥有训练能力,也可以支持 ChatGPT 的运行。代表产品有寒武纪思元 290、壁仞科技 BR100、燧原科技的邃思 2.0 以及百度昆仑芯 2 代等。

1 英伟达 V100/A100/H100

V100:单颗芯片可以提供 125TFLOPS 的算力 (以 FP16 计算) ,可以使用新一代 NVIDIA NVLink 技术以高达 300 GB/s 的速度连接多个 V100 GPU,从而打造出功能极其强大的计算服务器。

A100:单颗芯片可以提供 624TFLOPS 的算力 (以 FP16 计算) ,与 NVIDIA NVLink、NVIDIA NVSwitch、PCIe 4.0、NVIDIA InfiniBand 和 NVIDIA Magnum IO SDK 结合使用时,它能扩展到数千个 A100 GPU。2048 个 A100 GPU 可在一分钟内成规模地处理 BERT 之类的训练工作负载,这是非常快速的解决问题速度。

H100:单颗芯片可以提供 2000TFLOPS=2PFLOPS 的算力 (以 FP16 计算) ,使用 NVIDIA NVLink Switch 系统,可连接多达 256 个 H100 来加速百亿亿级 (Exascale)工作负载,另外可通过专用的 Transformer 引擎来处理万亿参数语言模型。与上一代产品相比,H100 的综合技术创新可以将大型语言模型的速度提高 30 倍,从而提供业界领先的对话式 AI。

2 寒武纪思元 290

思元 290:单颗芯片可以提供 256TOPS (以 INT16 计算),寒武纪玄思 1000 智能加速器整机在 2U 机箱内集成了 4 颗思元 290 智能芯片,最大可实现 1PetaOPS (以 INT16 计算) AI 算力。目前寒武纪思元 290 芯片的下一代产品还在研发中,根据公开信息,算力预计与英伟达 A100 相当。

3 壁仞科技 BR100

BR100:单颗芯片可以提供 960TFLOPS(以 FP16 计算),最高可以实现 8 张卡全互连。其组成的性能强大的海玄服务器,可以实现单节点峰值浮点算力达到 8PFLOPS(每秒 8000 万亿次运算)。

4 燧原科技邃思 2.0

邃思 2.0:单颗芯片可以提供 128TFLOPS(以 FP16 计算),云燧智算集群搭载多个邃思 2.0 芯片,在典型配置下每个单元可以实现 8PFLOPS AI 算力,并且支持按需横向扩容,可支持超千卡规模集群。

5 百度昆仑芯 2 代

昆仑芯 2 代:单颗芯片可以提供 256TOPS@INT8 或者 128 TFLOPS@FP16 的算力。搭载 8 个昆仑芯 2 代芯片的 AI 服务器,单机可提供高达 1PFLOPS 的 AI 算力和 256G 显存。基于多芯片间高速互联 K-Link 技术,可构建大规模并行计算集群、支持超大型模型训练和推理的需求。

总结下来,国产 AI 芯片与英伟达产品的差距在硬件性能上差距不大,基本上也就是半代到一代之间的差距。例如寒武纪和壁仞科技的最新款云端训练芯片思元 590 和 BR100 在算力都接近甚至超过英伟达 A100,但是要落后于英伟达下一代产品 H100。所以,国内发展类似于 ChatGPT 这样的机器人模型在硬件支持上是具备国产化的条件的。

国内高性能计算 AI 芯片的发展在硬件上与国外顶尖企业的差距其实并不大,反而在软件生态上的差距很大。国内 AI 芯片企业要真正达到国外巨头的水平,还有很长的路要走。

全文完。

用户头像

承接芯片测试外包服务+iczhuanjia 2022-02-25 加入

公众号“IC男奋斗史”:资深ATE测试专家,承接芯片测试外包服务。

评论

发布
暂无评论
ChatGPT搅动AI芯片的“一池春水”_AI_IC男奋斗史_InfoQ写作社区