写点什么

英伟达要小心了!爆火的 Groq 芯片能翻盘吗?AI 推理速度「吊打」英伟达?

作者:蓝海大脑GPU
  • 2024-03-08
    北京
  • 本文字数:5351 字

    阅读完需:约 18 分钟

英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?

随着科技的飞速发展,人工智能公司 Groq 挑战了英伟达的王者地位,其 AI 芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq 设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度思考:新的技术突破来自何处?中国该如何应对并抓住变革中的机遇?Groq 成本如何评估?这些都是值得研究和思考的问题。



Groq 芯片的实力与潜力


近期 AI 芯片领域崭 Groq 可谓是火爆全球,其在处理大型模型 token 生成上所展示出的表现令人惊叹。这意味着我们可以在与 GPT 等复杂聊天机器人互动时,实时获得回应,无需等待机器人逐个生成答案。


那么,Groq 驱动的大模型生成速度究竟有多快呢?令人难以置信的是,当 Groq 的 LPU 驱动含有 700 亿参数的 Llama 2 大模型时,其生成速度被推至新高度,平均每秒生成 185 个 token。该速度远超其他使用 GPU 驱动的 AI 云服务提供商。


而在面对 Mix Strore8x7B 模型时,Groq 的性能更是达到新峰值,其生成速度飙至每秒 488.6 个 token,相比依赖英伟达 GPU 的系统每秒仅能产生 15 个 token 的速度,可以说是取得了压倒性的胜利。从这些事实中,不难看出 Groq 的 LPU 在大型模型生成速度上占据绝对优势。LPU 曾被称为 TSP(Tensor Streaming Processor),即一个装配有大量 Tensor 单元的流式处理器。



那么对于 Groq 公司,大家一定对它的来历感到好奇吧?


Groq 是由前谷歌 TPU 团队核心成员乔纳斯罗斯 2016 年创立的公司,其推出产品被称为 LPU(Language Processing Unit),专为处理大模型设计的加速芯片。


一、GPU 的局限性


尽管 GPU 在训练机器学习模型方面的强大作用无可替代,其强大的计算能力、快速参数更新速度和丰富的生态系统使之成为业内的主流选择,但它并非模型推理的理想选择。一方面是因为 GPU 架构复杂,其中只有部分核心专门针对 AI 场景。其次,GPU 承载存储和计算两个部分,导致数据需要频繁读写,从而降低运行速度,提高功耗。



二、GPU、TPU 和 Groq 的 LPU 的优势与挑战


下面我们一起来分析专门为 AI 应用设计的芯片,以谷歌的 TPU 和 Groq 的 LPU 为例。TPU 和 LPU 都有自身的独特优势,但也有着各自的挑战需要我们去理解和探讨。


1、谷歌 TPU


TPU 专为 AI 应用设计的芯片,专门处理矩阵运算(AI 应用中超过 90%的计算任务)。在执行 AI 训练和推理过程中,TPU 能够便捷地处理不同的计算任务,如激活函数、优化算法以及损失函数等。这些都是通过高效的向量计算模块来完成的。而其特色之处在于,TPU 采用一种独特的阵列设计方法,数据一旦导入,便会在内部形成一个流水线,持续运动直到完成计算。这种持续流动式处理方式极大地降低了数据的读写次数,从而提升了在 AI 应用中的计算效率。


2、Groq 的 LPU


Groq 的 LPU 采用与 TPU 相同的处理模式,不同的是它在计算单元旁边直接集成了大约 230MB 的 SRAM,带宽可达 80TB/s。比起 GPU,当运行同等参数的模型时,LPU 需要的内存更多,这也是 LPU 在运行速度上拥有优势的原因。


不过,尽管 LPU 的速度令人瞩目,但其昂贵的价格也是一个不容忽视的问题。LPU 每块价格近 20000 美元,如果要运行拥有上千亿参数的大模型,可能需要购买数百块 LPU。也就是说,尽管 LPU 的单独计算率高,但在数量需求上,部分 GPU 在成本效益上更具优势。



3、SRAM 的容量问题


有人可能会提出为什么不直接扩大到 1TB?实际上,这样做的技术难度很高,同时也会增加制造成本。因此,230MB 的 SRAM 可能就是在权衡设计难度和制造成本后,现阶段可以实现的一个平衡点。



Groq 的成本分析


Groq 人工智能硬件公司因其在推理 API 领域的卓越性能以及为技术如思维链的实际应用所铺就道路的贡献而广受关注。它在单串性能方面的优势更是受到称赞,对于特定的市场和应用环境,Groq 的速度优势已经改变了原有的格局。然而,足够的运行速度只是解决方案的一部分。Groq 的另一优势是供应链的多元化,即所有制造和封装流程都在美国完成。相比之下,洛基达、谷歌、AMD 等依赖韩国内存和台湾先进芯片封装技术的 AI 芯片供应商形成鲜明对比。



虽然 Groq 的优势明显,但一个硬件是否具有变革性的决定因素是其性能与总成本的比值。不同于传统软件,AI 软件的运行需要更强大的硬件基础设施,这无疑对资本和运营成本产生更大的影响,从而对净利润形成影响。因此,优化 AI 基础设施以实现 AI 软件的高效部署尤为重要,拥有优越基础设施的公司无疑将在使用 AI 部署和拓展应用程序的竞赛中立于不败之地。


根据"Inference Race to the Bottom"的研究,大量公司可能会在 Mixtral API 推理服务中亏本,以致于需要设定极低的访问率减少损失。然而,Groq 却敢于在定价上与这些公司一较高下,其每个代币价格低至 0.27 美元。接下来,我们将更深入地研究 Groq 的芯片、系统以及成本分析,看看他们是如何实现这样卓越的性能。



Groq 芯片采用固定的 VLIW 架构,并在 Global Foundries 的 14nm 工艺上实现约 725mm²的规模。由于芯片并未装配缓存器,所以所有权重、KVCache 和激活数据在处理过程中都储存于芯片中,不需外置存储。然而,由于每枚芯片仅拥有 230MB 的 SRAM,所以无法将实际的模型完整地装入单一芯片中。因此,需要使用多个芯片来共同执行模型的运算,并连接在一起。



要运行 Mixtral 模型,Groq 需将 576 个芯片串联起来,这些芯片被均匀地分布在 72 个服务器上,而这些服务器则被部署在 8 个不同机架中。相比之下,Nvidia 的 H100 只需一个芯片就能运行同样的模型,而两个芯片则能处理大规模数据。


在芯片成本方面,产出 Groq 芯片的每片晶圆价格不会超过 6000 美元。而对照到 Nvidia 的 H100 芯片(尺寸为 814mm²,采用台湾半导体制造公司的 5nm 自定义工艺),同样一片晶圆的制作成本就近在 16000 美元。此外,Groq 在设计上并未考虑到良率收缩,与 Nvidia 有着鲜明的对比,后者会关闭大约 15%的 H100 SKU,以反映出产品的主流族群。


当考虑到内存成本,Nvidia 从 SK Hynix 采购的每片 80GB HBM 芯片的预计价格为 1150 美元。另外,还需要额外付费给台积电的 CoWoS 服务,导致总成本进一步增加。然而,由于 Groq 并无额外的外部内存需求,因此其芯片构成要素清单大大缩减。


下表将展示 Groq 部署策略的特点,特别是在流水线并行性和批处理尺寸均为 3 时的情况。同时,也会将经过延迟和吞吐量优化后的 Nvidia 的 H100 推理部署情况做出对比。



本次分析简化了部分经济因素,未充分考虑进一些系统成本及 Nvidia 巨大的利润空间。但却明确突出 Groq 芯片架构的优势,尤其是与延迟优化过的 Nvidia 系统进行比较时。


对于 Mixtral 模型,八颗 A100s 芯片可以提供约 220 个代币的吞吐量/秒,而这还不包括预测解码。同样地,八颗 H100s 芯片可以达到约 280 个代币的吞吐量/秒,如果加上预测解码,吞吐量更可以达到约 420。当前,由于经济收益不高,市场上尚未出现面向延迟优化的 API 服务。然而,随着代理及其他低延迟任务的日益普及,以 GPU 为基础的 API 供应商可能会提供相应的优化 API。


Groq 的优势表现在不需要预测解码的高性能,且这一优势在实现批处理系统后仍然显著。Groq 仍在使用相对较旧的 14nm 工艺,并向 Marvell 支付较高的芯片利润。然而,随着 Groq 的投资额增加,以及其下一代 4nm 芯片产量的提高,情况可能发生改变。


对性能优化过的系统来说,其成本效益将会显著改变。通过基于 BOM 计算,在每单位美元的投入中,Nvidia 的性能增长率显著提升,但其用户吞吐量却相对较低。


简化的分析方式无法考虑到系统成本、利润率和功耗等因素,我们将在未来进一步研究性能与总成本的关系。


一旦将上述因素考虑进去,对 Tokenomics 的理解将发生改变。Nvidia 的商业模式依赖于他们的 GPU 板的高额利润,以及所收取的服务器费用。



如今,最大的模型参数范围已达到 1 到 2 万亿,而预期谷歌和 OpenAI 将研发超过 10 万亿参数的模型。同时,大模型如 Llama3 和 Mistral 也即将发布。此类模型需要搭配几百个 GPU 和数十 TB 的内存的强大推理系统支持。已经有公司如 Groq 显示出处理不超过 1000 亿参数模型的能力,并计划在未来两年部署上百万芯片。


谷歌的 Gemini 1.5 Pro 能够处理高达 1000 万 token 的上下文,这意味着它可以处理长达 10 小时的影片、110 小时的音质、30 万行的编码或 700 万字的内容。这样的长上下文处理能力未来有望得到很多公司和服务商的迅速支持以更好地管理大量的编码库和文档库,取而代之低效的 RAG 模型。在处理这样的长上下文信息时,Groq 需要构建由数万片芯片组成的系统,而目前诸如谷歌、英伟达和 AMD 等公司使用的是几十到几百片芯片。尽管预计四年后,由于其优秀的灵活性,GPU 将能处理新模型,但对于 Groq 这样没有 DRAM 的公司来说,随着模型规模的扩大,系统寿命可能会缩短,从而增加成本。


利用树状/分支推测的方式,推测性解码的速度已经提高约 3 倍。如果这种技术能在生产级系统上得到有效部署,那么 8 块 H100 的处理速度将会提升到每秒 600 个 Token,从而消解了 Groq 在速度上的优势。英伟达也未坐视不理,他们计划在下个月发布性能以及 TCO 超过 H100 两倍的 B100 芯片,并计划在下半年开始发货,同时旗下 B200 和 X/R100 的研发工作也正在积极推进。然而,倘若 Groq 能有效地扩大到数千个芯片的系统,那么便能大幅增加流水线数量,为更多的键值缓存提供空间,从而实现大规模的批处理,可能会大幅降低成本。即使有分析师认为这是可能的方向,但实现的可能性并不大。关键问题在于是否值得放弃灵活的 GPU,转而建立专门的基础设施以满足小型模型推理市场对于快速响应的需求。


华为芯片应对挑战


Groq 的出现为计算力市场提供新的选择,这既暗示强劲的市场需求和供应短缺,也说明科技公司正在构建自己的体系,以对抗英伟达、AMD 等的垄断地位。对于国内市场,这无疑为国产芯片提供了更大的发展空间。


华为已经推出昇腾 910 和昇腾 310 两款采用达芬奇架构的 AI 芯片。该架构具有强大的计算能力,可以在一个周期内完成 4096 次 MAC 运算,并集成多种运算单元,支持混合精度计算和数据精度运算。


以昇腾系列 AI 处理器为基础,华为构建 Atlas 人工智能计算方案,包括多种产品形态,以应对各种场景的 AI 基础设施需求,覆盖了深度学习的推理和训练全流程。


基于昇腾系列处理器构建的全栈 AI 解决方案,已逐渐完善。该方案包括昇腾系列芯片、Atlas 硬件系列、芯片使能、异构计算架构 CANN 以及 AI 计算框架等。其中,昇腾 910 芯片的单卡算力已能媲美英伟达 A100。


 英伟达与华为参数比对


华为的昇腾计算平台 CANN 已从无到有取得显著突破。从 2018 年的 CANN 1.0 版本到目前的 7.0 版本,这个专为 AI 场景设计的异构计算架构平台,已成功成为上层深度学习框架和底层 AI 硬件间的桥梁。


CANN 已形成了繁荣的生态体系,适用于 50 多个主流的大模型,如讯飞星火、GPT-3、Stable Diffusion 等,而且兼容主流加速库和开发工具包,加速创新应用的落地。同时,CANN 支持主流的深度学习框架,如 Pytorch 和 Tensorflow,且能在周级时间内适配新版本。PyTorch 已升级到 2.1 版本,支持昇腾 NPU,助力开发者在华为昇腾平台上开发模型。此外,第三方开源社区,如清华大学的 Jittor 和飞浆的 PaddlePaddle FastDeploy 也已经支持接入 CANN。


随着华为昇腾 910B 的算力接近英伟达 A100 的标准,以科大讯飞为代表的国产 AI 模型厂商已开始投入使用。科大讯飞宣布,即将以昇腾生态为基础,发布基于“飞星一号”平台的讯飞星火大模型,开启与 GPT-4 相对标的更大规模训练。科大讯飞星火大模型 3.5 版已发布,其语言理解和数学能力已超过 GPT-4 Turbo,而代码能力及多模态理解分别达到其 96%和 91%。


 

华为 CANN 时间线


Groq 的成本评估方式


原阿里副总裁贾扬清教授对 Groq 的成本评估非常精准,他强调 Groq 相较于 H100 的性价比较低,这其中包含一部分运营成本。这种观点很有可能不仅仅是针对 Groq,而是整个 DSA 设计领域。然而,如果忽略存储成本,仅按照每个单元(token)的理论成本重新计算,得出的结果可能与此前相差甚远。


在现实 LLM 需求环境中,推理工作负载对内存容量的需求是刚性的,包括模型权重、上下文 KV 值、各芯片/节点产生的中间结果、优化器状态(仅训练)等,都需要进行密集读取和移动。此种情况下,Groq 在处理大批量任务时的性能可能就变得有限,流水线并行中可能会产生低效或负效益。总并行度受限于能存放 KV 值的内存容量,而并行度不足会对每 token 的成本产生影响。


相较之下,采用类似结构的 Graphcore 7nm IPU 面临的情况也差不多,尽管其配备 900MB 的片上 SRAM,远超 Groq 的 230MB,但依然遭遇商业化的困境。这进一步验证了,如果基于 SRAM 的解决方案真的可行,类似的产品早就应该弥漫市场了。再者,这种特殊构型对应的软件编程框架和引导编译器也是极大挑战;倘若一定要景气地运行 Llama2 70B 的推理任务,其复杂的软件和运维开销是不容忽视的。


接着,Groq 的单卡计算单元规格似乎更适合处理小规模的推理任务,但其颇高的内存带宽在处理这类任务时的利用率未必能够达到最优。而倘若要处理中大型任务,则需要面临内存容量、通信瓶颈和复杂度的问题。虽然官方的测试主要聚焦在最大 70B-最小 7B 的任务规模,但这显然是 Groq 比较擅长的工作负载规模,并特别强调 INT8 的算力(up to 750TOPs),说明 Groq 产品的主打应该是“INT8 量化下的、面向 70B-7B 规模”的推理场景。


最后,无论从硬件还是软件层面来看,相较于片外 HBM+更大的 L4+CXL 方案,Groq 的方案似乎有较高的迭代局限性,可能并不满足当前 LLM 工作负载的刚性需求,边际效益也可能不如前者。然而,如果坚持设计基于 SRAM 的 DSA 加速器,为何不研究一下 Tesla Dojo 的构型呢?他们通过小颗粒 SRAM+PE 配对分散排列形成的 2D 矩阵的近存结构,而非片上集中主存,应该能降低一部分成本,而这种结构可能处理相当复杂的操作,在非 LLM 计算场景中可能表现优异。



用户头像

还未添加个人签名 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?_蓝海大脑GPU_InfoQ写作社区