GPU 荒漠,算力短缺背后的时间竞赛与解决方案|TE 解读
“AI 应用爆发节点或在 2024 年”
作者 | Koko
“今年以来,A800 整机已经从 80-90 万元,涨到超过了 140 万元。”
“每天都有新客户来询价。”
“货一到,3 天内就没了。”
“二道贩子说有货信不得,因为你既无法验证他的产品是不是旧卡重拆,又不知道他的质保能力。”
……
多位服务器经销商销售人员告诉亿欧 TE 智库(TEinstitute),现在算力处于供不应求中。
当前,国内 AI 算力的主要买方分为 3 类:
一是做大模型研发和应用的科技公司,包括百度、腾讯、阿里、字节等互联网大厂和 MiniMax、智谱华章等初创企业;
二是打造智算中心、AI 云的各地国央企;
三是落地大模型能力和应用的各行业头部企业。
今年初,ChatGPT 的爆红正式让 AIGC 置于新一代技术革命风暴的中心。为炼 ChatGPT 提供燃料的英伟达,最早嗅到变革的气息,其 CEO 黄仁勋 2 月初就在加州大学伯克利分校哈斯商学院的演讲中明确指出,ChatGPT 相当于 AI 界的 iPhone 问世。
回到 2007 年 1 月 9 日,乔布斯在旧金山举办的 Macworld 大会上正式发布 iPhone。
多年后回望这一刻,它蕴含了太多历史时刻的开端——移动智能终端普及、社交媒体崛起、数字内容产业扩张、移动应用生态繁荣、网络通信技术加速迭代……
很难简单概括 iphone 问世代表了什么,因为它在技术更新、社会生活和经济发展等各方面都具有强大的影响力。
这也说明了黄仁勋对 AI 2.0 时代巨大的期翼——AIGC 或将再次重塑人类的生活方式。
而这巨大期翼的另一面,是新生事物发展早期必定经过一段萌芽期。
美国学者埃弗里特·M·罗杰斯在 1962 年提出创新的扩散理论,还原了一项新观念/事物/技术引入社会体系时的演变过程:创新者-早期接受者-早期的大多数-晚期的大多数-滞后者。
罗杰斯创新的传播模型:随着大量新的消费者采纳新技术(蓝色),其市场份额(黄色)最终将达到饱和水平。蓝色曲线按采纳者的接受能力分段(来源:wiki 百科)
当前,AIGC 的发展正处于创新者和早期接受者之间,距离市场完全爆发还需要穿越早期接受者到早期大多数的一段隧道。
当前市场对 AI 算力的哄抢,正是因为算力作为 AIGC 时代的燃料,是支撑产业发展的基建,也是助推市场爆发的重要因素。
为了实现算力可用、可承担,科技公司、政府都在行动中。但在 AIGC 产业中,触发市场爆发的角色,一定是满足用户需求的产业应用。
算力和应用两者的重要性,就像 iphone 手机发布次年,苹果发布的 iphone 3G 和 APP Store。
前者为用户提供更快速的互联网连接。后者允许开发者上传应用程序供用户下载,打造了丰富的应用生态,也让优质的应用产品反哺苹果手机销售。
其中一个典型案例是,2009 年底“愤怒的小鸟”上线 APP Store 并在全球风靡。这不光让人们注意到苹果手机作为游戏平台的潜力,还让很多不常玩游戏的人沉迷于此。
最后更多消费者、开发者都注意到苹果应用生态并参与其中,更多好的应用产品诞生并得到普及,如此良性循环。
亿欧 TE 智库(TEinstitute)认为,如果 ChatGPT 代表着 AI 的 iphone 时刻,那么现在市场还需要更多“愤怒的小鸟”来完成市场落地和普及。
而现在市场上对算力的聚焦,背后也是应用的蓄势待发。
算力紧张,背后有应用的时间赛
2023 年 8 月中旬,亿欧 TE 智库对国内数家提供 AI 算力的服务器代理商进行了询价:
受外部管制,国内大量用于训练大模型的 GPU 是训练 ChatGPT 的 A100 的低配版——A800,单卡现货价格在 12 万元以上。
以《金融时报》8 月初的报道,中国互联网巨头今年向英伟达下单 10 亿美元,采购约 10 万张 A800 芯片计算,A800 的出厂价格约 1 万美元,当前的市场价涨幅超 67%(汇率按 1:7.2 计算)。
有经销商销售人员告诉亿欧 TE 智库,现在一些有货源的厂商不会直接卖单卡,而是组装成 8 卡的 PCIe 整机,以更高的价格出售。
A800 NVlink 8 卡整机的现货价格则在 140 万元以上。口头约定到货时间的期货产品,价格能便宜约二十万元。
英伟达在 2023 年新发布、性能优于 A100 2-3 倍的 H100,也在国内有低配版上市——H800。目前 H800 整机的期货价格均在 200 万元以上。
GPU 作为提供 AI 算力的核心,价格大涨的根本原因是现在市场供不应求,而被市场普遍认可的供给方只有英伟达一家。
离开英伟达有什么后果?企业得承受更低的性能、不低的能耗费用和更长的产品研发周期。
其中缩短产品研发周期,尽早上市产品,重新定义垂直场景的应用,对各行业落地大模型的企业尤为重要。
这从当前现货产品尤其抢手,现货整机价格可高出期货 20 万元以上可见一斑。
一位服务器经销商的销售人员告诉亿欧 TE 智库,只要是把自己需求整明白了的企业客户,下单都很痛快。一些等不及的企业还会选择租用云厂商的 AI 算力,通过同时租用多台服务器缩短产品的研发时间,或者在期货交付前先在云上跑起来。
“主要在抢时间,现在能入局的都是行业头部企业,有钱、有资源、有数据才能做产品。”
供给不足的现象不光存在国内,谷歌、亚马逊和微软等云计算服务商都在面临 GPU 缺货。马斯克还开玩笑说,搞企业级 GPU 比买“药”还难。
为什么英伟达不能通过加码生产端满足市场需求?
英伟达的一位高管表示,英伟达正在开足马力生产 GPU,但 GPU 的产能最主要受到供应链的限制。
首先,芯片组件的生产依赖世界范围内的供应商,其中一些组件不乏需要采购稀缺的原材料与高难度的加工。如果英伟达供应商没有在更早意识到 GPU 需求的爆发,在囤货和生产上就不可避免的滞后。
其次,目前英伟达所有的 5nm GPU 都只与台积电合作,而台积电只有 4 个为 5nm 芯片提供产能的生产节点,其中又只有 2 个增强型节点满足 H100 的制程,这还需要英伟达与苹果、高通和 AMD 共享产能,因为台积电晶圆厂需要提前 12 个月对各客户的产能搭配做出规划。
对此,多位服务器代理的销售人员告诉亿欧 TE 智库,8 月开始英伟达已不接受 A800 订单,将产能集中给 H800。
正是由于以上原因,部分市场参与者预见到今年 GPU 将面临短缺,嗅到商机的中间商在上半年以接近原厂的“低价”囤货,进一步让市场上流通的产品更加稀缺,产品价格也更高了。
算力市场短期内离不开英伟达高性能的 GPU,大厂也只能积极订货等待明年交付。
《金融时报》称,百度、腾讯、阿里巴巴以及字节跳动今年还向英伟达下单价值 40 亿美元明年交付的 AI 芯片。
尽管大量参与者已经相信了“AIGC 可以把全部产品重做一遍”,现阶段却不得不拥堵在狭窄的算力管道里。
算力解法在路上,生态抱团或是答案
在这样的背景下,被华尔街誉为“AI 大战中唯一的军火商”——英伟达成为了独一份的香饽饽。今年以来,英伟达市值已多次创历史新高,并跻身万亿美元俱乐部。
老黄成为最意气风发的人,在 8 月的 SIGGRAPH 2023 上,他发布了英伟达最新的产品,并再次对公众说出那句名言“The more you buy, the more you save”。
然而,现阶段英伟达 GPU 芯片供给不足,并不能真正满足客户“buy more”的需求。这也给眼馋英伟达独占 AI 算力市场的竞争对手留下缝隙。
竞争对手们纷纷起立,向市场交出解决方案。而这或许将加快算力瓶颈的消除。
站在第一梯队的是老牌芯片巨头。
2023 年 6 月,AMD 发布 AI 芯片 Instinct MI 300X,对标英伟达 H100。MI 300X HBM(高带宽存储器)容量及显存带宽分别是英伟达 H100 的 2.4 倍及 1.6 倍,由于 HBM 容量大幅提升,单颗 MI 300X 芯片就可以运行 800 亿参数的模型。
而在前一年的 6 月,AMD 发布的该系列首代产品 Instinct MI 300A,采用的是 CPU+GPU 架构,对标英伟达的 GH200。
不过 AMD 的这两款 MI 300 芯片距离实际应用或还需要一定时间,两者现在还处于给客户送样阶段。
英特尔同样不甘示弱。
为了抢占国内 AI 算力市场,2023 年 7 月英特尔在北京召开发布会,为其高性能 AI 芯片 Gaudi 2 推出中国“特供版”。Gaudi 2 是英特尔在 2022 年 5 月首次公布的一款 ASIC(专用集成电路)芯片。
英特尔执行副总裁 Sandra Rivera 称,以 AI 开源模型供应商 Hugging Face 的性能结果为例,Gaudi 2 在多种训练和推理基准测试中,表现超过了英伟达 A100 的性能;在各种最先进的模型上,Gaudi 2 的性价比是 A100 的 2 倍左右。
此外,英特尔人工智能架构师赵玉萍在 8 月举办的百度飞桨开发者大会上称,在 100-200 亿参数规模的大模型上,通过优化架构和软硬件协同,英特尔 CPU 也能取得很好效果.
另一个动作频频的芯片巨头是手机芯片厂商高通。
2023 年 7 月,Meta 发布最新一代开源免费可商用大语言模型 Llama 2,并宣布 Llama 2 将能够在高通芯片上运行。
高通相关人员表示,云端并非 AIGC 全部图景,看好 AIGC 在手机、电脑、物联网等“端侧”的机会。
这种大模型+芯片厂商的联姻,和上一轮互联网时代微软与英特尔结成的 Wintel 联盟异曲同工。
对此,上海交通大学计算机科学与工程系教授梁晓峣认为,AI 芯片厂商与大模型厂商要结成对子、形成产业联盟,才能更快推动 AIGC 的发展落地。
“1.0 的传统时代,芯片厂商打包芯片和框架软硬件一体研发。
2.0 的深度学习时代,出现谷歌、Meta 等巨头推出具有影响力的 TensorFlow、PyTorch 等框架,这一轮 AI 芯片创业公司的硬件产品需要适配巨头推出的框架。
3.0 的大模型时代,芯片厂商要适配的大模型有了数量级的增加,这时芯片厂商要想尽早落地量产,必须提前圈定大模型伙伴,否则等到应用的时候,双方只会彼此嫌弃不好用。”
市场发展也明显正沿着这条路径。
8 月中旬,科大讯飞联合华为发布了帮助企业快速部署大模型的星火训推一体机。两者的合作模式可能就是,华为提供国产芯片和服务器,并将其与讯飞的星火大模型适配。这一设备允许企业从头训练大模型,也能基于讯飞星火大模型针对场景快速优化。
科大讯飞董事长刘庆峰透露,该平台单卡算力已经开始对标英伟达 A100 芯片。
华为是在今年迅速跟进大模型落地的大厂之一,其能力涵盖底层芯片、AI 框架,中层大模型和顶层应用端。
其中,昇腾 Atlas 300T 训练卡和 KunLun G8600 分别对标英伟达的芯片和服务器。昇思打造开源生态,对标海外主流 AI 框架。盘古大模型 3.0,面向需求端提供基础、行业和专用三类模型。
另一个以打造生态著称的科技大厂是百度。百度已在芯片(昆仑芯)、框架(飞桨社区)、模型(文心系列)、应用(百度云合作伙伴)四层完成全栈布局。
目前,主打生态协同的飞桨社区已经集成超 200 个大模型,大量 AI 芯片创新公司可在飞桨社区完成大模型与硬件的适配,用户也可根据适配的芯片选择大模型来进一步训练和推理。
而海外值得关注的造芯科技大厂,则是在本次大模型浪潮中心的微软。
The Information 报道,微软正在研发 5nm 制程的芯片 Athena。这款芯片的目标就是替代昂贵的 A100/H100,给 OpenAI 提供算力引擎。这也同样符合芯片+大模型的组合模式。
可以预见,研发成功后 Athena 会通过微软的 Azure 云服务,来抢夺英伟达的蛋糕。
为了保障这项新业务取得理想效果,在科技巨头裁员期间,微软成立了 Microsoft Silicon,由前英特尔执行官 Rani Borkar 领导,有员工近千名。彭博称,微软为此已投入约 20 亿美元。
国内外自研 AI 芯片的科技大厂在补充 AI 算力的第二梯队,第三梯队则是大量 AI 芯片创业公司。
国内在 2016 年迎来了一波 AI 芯片创业潮,跑出了寒武纪、地平线、昆仑芯、燧原、天数智芯等明星企业。这些企业中的不少,也在积极融入以百度飞桨为代表的生态社区中,与框架、大模型厂商协同。
数据源:亿欧数据 2023 年数据截止 7 月底 制图:亿欧 TE 智库 高佳欣
如今,在国产替代步步推进的背景下,他们将逐渐成为大模型厂商的优先选择。
亿欧 TE 智库进行算力询价时,经过追问后已经能零星听到有代理商提到昆仑芯和燧原的名字。
应用或将爆发于 2024 年上半年
算力是大模型应用爆发的前提之一,即便很多企业在技术探索阶段,对算力的需求没有那么大,但到了真正做产品级应用时,还是需要算力作为底层支撑。
现在算力的获取方式除了购置服务器搭机房做私有化部署外,如果企业的产品不涉及敏感信息,还可以向国内拥有 AI 算力的云厂商租赁相关服务。
不过在硬件紧张的背景下,亿欧 TE 智库了解到,百度阿里腾讯等企业自炼大模型的 AI 算力虽然基本饱和,但冗余的可供市场交易的 AI 算力仍然紧张。
图源:阿里云 地域为华为 2(截图于 8 月 22 日)
图源:腾讯云 基础设置为随机可用区、GPU 机型、GPU 计算型 GN0Xp 型号(截图于 8 月 22 日)
短期的算力紧缺,一定程度掩盖了人工智能应用程序的真正潜力。
到目前为止,除了年初就已经让用户大为震撼过的产品 ChatPGT、Midjourney、Stable Diffusion,以及图生视频应用 Gen 2 外,年初到现在还缺少让用户同样直呼“哇噻”的应用。
不过值得补充的是,上半年 ChatGPT 发布的 Copilot 已经成为开发者的福音,即便该应用限制在工程师群体。而微软宣布的 Office Copilot 让全世界期待,虽然该应用至今仍未公开上线。
国内以 2023 年 6 月为分水岭,厂商从发布大模型到开启大模型 ToB 副本,深入千行百业落地。现在各大模型厂商仍在与行业企业共创完善大模型阶段。
ToC 方面,2023 年上半年百度、阿里、讯飞、MiniMax 发布的大模型均可让用户申请测试。具体应用上,WPS 发布了智能办公工具,允许安卓和 windows 系统用户申请测试;网易有道发布了“子曰”大模型,并落地虚拟人口语教练等 6 个功能……
细数下来,当前国内普通人真正可用、可感知的大模型应用还很寥寥。
算力紧缺消除、算力平价可能会在一定程度解决这个问题。那么接下来的问题是,这个时间点何时能来?以行业巨头微软的说法,2024 年上半年或许是关键节点。
微软旗下有云服务和 OpenAI,是以真实业务在感知大模型和算力市场。在此前的 2023 财年报告电话会上,微软 CFO Amy Hood 表示,人工智能服务收入预计到 2024 年上半年可以实现创收。
这至少说明,微软认为 2024 年市场对 AI 的需求还会激增,将有大量 AI 客户冒出头来。
从这个视角看,AIGC 落地千行百业已经不可逆转。
亿欧 TE 智库此前发布的研报梳理了当前 AIGC 商业落地产业图谱,可以看到在数个细分场景和行业,已有不少服务商涌现。
图源:亿欧 TE 智库《企业 AIGC 商业落地应用研究报告》
亿欧 TE 智库在做算力询价时,有服务器代理商销售人员明确指出,“各行各业的客户都有”。
解决了算力问题,对企业来说最核心的就是产品打造和打磨了。
金山办公产品总监王中秋告诉亿欧 TE 智库,找到用户需求和大模型能力结合的场景,是其团队的关键任务,在此基础上打磨产品直到用户体验处于优良,团队才会对外发布。
不过,在大模型的产品形态上,亿欧 TE 智库观察到,当前的大模型应用主要以网页版呈现,这并不符合当代人的屏幕使用习惯。
此外,当前许多大模型应用是在现有产品的基础上做 AI 能力的加法,类似 ChatGPT、Midjourney 等 AI 的原生应用还有巨大的想象空间。
不过改变已经在发生。年初高通就将 Stable Diffusion 部署在安卓手机上运行;7 月底,安卓版 ChatGPT 正式上线,美国、印度、孟加拉国和巴西四国的安卓用户,已经可在谷歌 Play 商店下载应用。
海外科研界和风投界也在积极进行 AI 的原生应用探索。本月,斯坦福 Smallville 项目在 github 开放源代码库,允许人们根据指引建立数字版的“西部世界”——人工智能体在其中生活并相互交流,而不知道自己生活在一个模拟环境中。 有知名风投机构在一周内投资团队跟进了该项目,并复刻了一个人工智能小镇。
在接下来或将到来的大模型应用潮中,亿欧 TE 智库看好端侧的大模型应用和 AI 的原生应用潜能。
(End.)
评论