写点什么

展望 2024: 中国 AI 算力能否引爆高性能计算和大模型训练的新革命?

作者:蓝海大脑GPU
  • 2024-01-05
    北京
  • 本文字数:16690 字

    阅读完需:约 55 分钟

展望2024: 中国AI算力能否引爆高性能计算和大模型训练的新革命?

★算力;算法;人工智能;高性能计算;高性能;高互联;生成式人工智能;StableDiffusion;ChatGPT;CoPilot;文本创建;图像生成;代码编写;大语言模型;多模态大模型;预训练;边缘计算;液冷;HPC;冷板式液冷;Bard;AlphaGo;深度学习;AI 服务器;GPU 服务器;H100;A100;B100;X100;InfiniBand;L40S;PC;AI PC;PC 集群; CoWoS; SoIC+CoWoS;MI300;PC farm


2023 年是人工智能发展的重要转折年,企业正在从业务数字化迈向业务智能化。大模型的突破和生成式人工智能的兴起为企业实现产品和流程的革新提供了先进工具,引领产业迈入智能创新的新阶段。在这个新时代,企业不再仅关注如何增强智能化能力,而更加注重如何利用人工智能实现产品和流程的革新。


大模型和生成式人工智能的发展将引发计算范式、产业动能和算力服务格局的变革。未来,人工智能算力基础设施将向高性能和高互联等方向演进,以满足大规模参数和数据集的训练和调优需求。


从感知智能到生成式智能,人工智能算力需求迅速增长,推动了人工智能服务器市场的发展。全球人工智能硬件市场规模预计将从 2022 年的 195 亿美元增长到 2026 年的 347 亿美元,而中国市场的人工智能服务器市场规模预计在 2027 年将达到 134 亿美元。


中国市场对智能算力供给能力的衡量标准正在加速演变,从硬件性能转向应用效果。技术提供商需要以应用为导向、系统为核心,构建灵活可扩展的集群,提高算力利用率,以满足市场对资源需求。与此同时,人工智能技术的持续创新和落地将在知识管理、对话式应用、销售和营销、代码生成等领域带来广泛应用。


为什么要对算力的发展和预测进行研究呢?从科技创新的角度来看,算力是推动人工智能、大数据、物联网等技术发展的关键基础设施。具有世界领先水平的算力可以极大地促进我国在全球科技竞争中的地位,推动创新型国家建设的进程。对于经济发展来说,算力提升可以为产业互联网、智慧城市、智能制造等产业的发展提供强大的动力。随着算力的进一步增强,可以进一步优化产业链条,提高生产效率,拉动经济增长。另外,对于信息社会来说,日益增强的算力将进一步推进信息化进程,使信息化成为我国社会发展的重要驱动力。为公共服务、教育、医疗、交通等领域的信息化提供更好的基础支撑。蓝海大脑致力于为企业提供创新的智能化解决方案。在人工智能领域,通过不断创新和落地,为企业的数字化转型和算力提升提供有力支持。



中国人工智能算力发展现状


一、人工智能发展迈入新阶段


1、全球:生成式人工智能兴起,产业步入关键转折点


2023 年人工智能经历破圈式发展,以 ChatGPT、GitHub CoPilot 和 Stable Diffusion 等生成式人工智能应用和工具为代表,极大地提升了文本创建、图像生成、代码编写和研发流程等工作智能体验,显著提高了生产力和生产水平。


大模型和生成式人工智能兴起表明人工智能正从特定任务如图像识别和语音识别迈向更为拟人的智能水平,具备自主学习、判断和创造等能力。对企业而言,关注点已从增加智能化转向如何利用人工智能实现产品和流程革新。大模型通过海量数据训练和模型调优,展现出更精准执行和更强大场景可迁移性,为元宇宙、城市治理、医疗健康、科学研究等综合复杂场景中广泛应用提供更为优越的解决方案。



全球企业对生成式人工智能的态度


当前,全球各国均致力于加强对大型模型和生成式人工智能的支持,推动人工智能技术迅速发展和广泛应用。以下是各国主要动向:


1)美国


一直在推动人工智能领域创新,通过支持基础和应用研究,建立在大模型和生成式人工智能方面的领先地位。白宫发布《国家人工智能研发战略计划》,鼓励持续创新,并强调在控制安全风险前提下推动人工智能应用。


2)欧洲


受多方面因素影响,欧洲地区对技术降本增效的关注度较高。然而,对生成式人工智能在安全和隐私方面存在较多顾虑,因此欧盟通过《人工智能法案》强调对透明度和风险评估要求,并加强对伦理和数据隐私监管。


3)亚太地区


亚太地区国家,如中国、印度、新加坡、韩国和日本,都在积极推进国家人工智能战略,着力推动大规模生成式人工智能项目实施。各国政府通过投资和政策支持,推进人工智能在不同领域广泛应用。


4)中国


中国政府大力支持生成式人工智能研究,企业和科研机构也在加速推动相关研究和应用。中国人工智能的发展在东南亚地区产生溢出效应,促使该地区相关产业发展。


针对复杂模型和大规模训练需求,市场对高性能计算资源需求不断提升。高算力、高互联、算力泛在性和多元化成为关键趋势,推动算力生态的开放和融合。


不同领域模型类型丰富多样,为企业业务智能化提供广泛可能性。大模型在创作、自动驾驶、零售、医疗和金融等领域展示强大的应用潜力,推动整个人工智能产业链发展。



生成式人工智能生态价值链图谱


二、人工智能算力及应用


1、算法和模型: 加速模型迭代以探索行业实践


人工智能的发展受大模型参数扩大推动,由技术领军企业如 OpenAI、谷歌、Meta、微软等主导,千亿到万亿级参数大模型正迅速崛起,引领智能涌现的潮流。


1)大语言模型成为突破口


大语言模型在自然语言处理领域取得显著进展,支持翻译、文章生成、问题回答等任务。国内外企业不断尝试不同技术路线的大语言模型,但通用模型无法提供创新企业持续竞争力,因此垂直领域的数据、场景化模型优化和工程化解决方案成为关键。


2)多模态模型的升级


大模型技术发展推动多模态模型不断升级。多模态模型实现图像、文本、语音等模态的统一表示和相互生成,覆盖多个领域。头部企业在多模态大模型领域布局,并在通用性和子领域优化上不断提升体验和技术。


3)智能涌现受多因素影响


智能涌现不仅与参数量相关,还受模型设计、数据集、训练方法、模型架构、任务类型和计算资源等多方面因素影响。企业需根据任务和模型设计确定参数量,而算力服务商需要提供全方位服务,包括硬件、软件和算法,共同提高大模型准确性和可用性。


4)预训练大模型成为选择


预训练大模型是人工智能产业发展重要选择,通过大规模数据和知识预训练,结合应用场景微调,实现高效率“工业化”开发。


2、AI 软件基础设施: 加速大模型的应用落地


人工智能持续发展离不开底层服务支撑和软件平台优化。尤其在大模型技术应用和应用落地过程中,面临着算力、数据、效果和成本等多维度挑战。


1)算力资源需求


大模型技术创新和应用要求海量的算力资源,尤其在分布式训练中,对于拥有大规模加速卡的人工智能服务器集群需求非常高。缺乏足够的算力资源将影响对大模型的高质量技术创新。


2)高效算力供给


大模型训练不仅需要庞大算力规模,还需要考虑算力平台设计的复杂性。大规模算力节点可能导致效率下降,因此在算力平台设计上需要考虑如何提高算力使用效率,以降低训练时长和算力成本。


3)优质数据服务


优质数据集对于训练高质量模型至关重要。在大模型预训练阶段,对数据进行精准、高效清洗、集成、变换和规约,提高数据质量,降低噪音和错误数据的影响,从而提升算法准确性和泛化能力。


此外,边缘计算对人工智能和机器学习的依赖度逐渐提高,成为未来发展趋势。边缘人工智能、5G 边缘计算、边缘即服务等将在边缘计算技术中发挥重要作用。全球边缘人工智能基础设施的发展预计将呈现显著增长,成为边缘计算技术重要组成部分。



全球边缘人工智能基础设施处理器和加速器市场规模,2022-2027


3、配套设施:液冷有望成为算力中心标配,国产算力率先推进


液冷有望成为智算中心主流。随着 AI 计算、HPC 计算等高性能计算需求的不断提升,CPU、GPU 等计算芯片正朝着高算力和高集成方向发展,这同时导致了单颗计算芯片功耗的显著提升。目前,Intel 的多款 CPU 芯片的热设计功耗(TDP)已经超过 350W,而 Nvidia 的 H100 系列 GPU 芯片的 TDP 更高达 700W。在通用服务器中,CPU/GPU 等计算芯片的功耗占比约为 50%左右,而在 AI 服务器中,计算芯片的功耗占比更高达 80%以上。



CPU/GPU TDP 变化趋势


展望明年,运营商将迅速推进液冷技术的应用,计划在 2024 年进行规模测试。三大运营商此前联合发布《电信运营商液冷技术白皮书》,旨在加速液冷技术采用。按照白皮书的规划,2023 年将重点进行技术验证,全面验证液冷技术的性能,以降低能源使用效率(PUE),并积累规划、建设与维护等技术能力。到 2024 年,运营商将启动规模测试,其中新建的数据中心项目将有 10%进行规模试点应用液冷技术。到 2025 年,预计将有 50%以上的数据中心项目应用液冷技术。



运营商液冷应用规划


目前,液冷方式主要以冷板式液冷为主导。冷板式液冷相对于其他液冷技术,改造难度低,成本可控,因此市场应用较为广泛。据 IDC 报告,截至 2023 年上半年,我国服务器中冷板式液冷的比例已达到约 90%,而浸没式液冷的渗透率仅为 10%。浸没式液冷的大规模应用仍然面临核心技术问题,需要解决冷却工质等方面的挑战。



液冷技术对比


4、人工智能算力服务和云: 根据算力需求优化服务模式


近年来,人工智能的广泛应用带来更高算力需求,推动算力提供方式的重大改变。企业 IT 基础架构逐渐从传统采购模式向公有云迁移,人工智能 aaS 服务成为用户便捷、快速部署应用的选择。然而,人工智能应用对算力提出更高要求,呈现出算力资源集中、技术门槛提高等特征。大模型和生成式人工智能的快速发展将为人工智能算力服务市场带来新机遇。


1)大模型训练和推理需要更大的算力投入,特别是生成式人工智能处于起步阶段,随着应用的普及,更多用户将投身其中。对于短期内不具备自建人工智能算力数据中心用户,使用算力服务成为理想选择。


2)超大规模云服务器提供商和人工智能解决方案提供商具有强大技术能力和大模型开发基础,能够进行快速迭代。人工智能算力服务有助于中小企业快速应用生成式人工智能技术,为业务发展提供迅速支持。


当前用户主要面临如何将人工智能技术应用到企业业务场景的挑战,需要合作伙伴的技术和时间投入,同时降低开发门槛,让人工智能更好地服务各行业。


5、应用:企业积极投入以满足大模型时代的应用需求


在人工智能单点技术应用方面,根据 2023 年人工智能技术的应用现状调研的结果,计算机视觉仍为最主要的应用技术类型,以生物识别和图像技术为主,语音技术的应用程度紧随其后,而自然语言处理仍处在相对早期发展阶段,从调研的样本来看,已经采用的企业不超过三成,但从未来三年计划采用情况来看,自然语言处理类应用将快速落地,66%的企业表示将在未来三年采用该应用场景。


对于企业而言,人工智能对企业带来的价值正愈加显著,尤其体现在提高资产利用率、提高员工生产及研发效率、提升产品与服务三方面。据 IDC 调查显示,企业在未来三年由人工智能所产生的价值将大幅提升,尤其在提高资产利用率、降低人力成本、提升洞察力、提升决策速度和优化用户体验等几个方面。



人工智能目前及未来三年对企业产生的价值


生成式人工智能应用在 2023 年迅速发展,将为各行业带来更多机遇。不仅可以提高效率、质量和创新能力,还能加速实际应用的渗透,特别是在金融、制造、医疗等领域,为行业发展带来新的竞争优势。


1)金融行业


金融行业对人工智能投入迅速增加,主要集中在风险管控、反欺诈、基于 RPA 的流程自动化等方面。在大数据支持下,银行通过建立专属信贷评级和审批系统,显著降低借贷风险,提高效率,实现便捷化、智能化、绿色化的目标。


2)智能制造


人工智能的革新推动了制造业的发展,智能产线、预测性维护、自动化生产、运营优化和实时监控等应用场景得到广泛采用。未来,智能决策、远程操作以及生成式人工智能将加速在制造业的落地应用。


3)智能产线


实现产品性能和质量可视化预测,帮助企业优化生产计划和提高产品设计效率。


4)预测性维护


通过数据收集和分析,预测设备故障,减少停机时间,提高生产效率。


5)自动化生产


控制和优化生产线自动化过程,包括生产计划、机器参数调整和供应链管理。


6)运营优化和实时监控


通过大数据分析,揭示潜在问题,提供优化建议,实现生产过程的改进。


7)智能决策和远程操作


实现设备和生产线的自主决策和远程操作,提高自适应性和效率。


8)智慧医疗


人工智能在医疗行业广泛应用,影响医学诊断、患者监测、个性化治疗等方面。深度学习技术和大数据分析提高了医学图像的自动分析,实现了更准确的诊断,同时通过传感器和实时数据分析,提供个性化治疗建议,加速新药研发。


9)AI4S (人工智能应用于科学)


科学领域利用人工智能进行数据分析、实验模拟、新药研发等,推动科学研究取得更多阶段性成果。



中国人工智能应用场景发展,2023


三、AI 算力基建迎来高增


2023 年上半年,OpenAI 在 AI 领域崭露头角,推动一系列重要技术进展。


自然语言处理方面,ChatGPT 和 Google 的 Bard 等对话机器人的问世显著促进该领域的发展,引领新一轮语言模型的涌现,使语言处理能力大幅提升。


自动机器学习(AutoML)方面取得进一步突破,实现对数据预处理和超参数调优等任务的自动化,有效缩短数据科学家的工作时间,提高工作效率。


生成式 AI 技术在上半年同样迎来成熟期,根据用户提示生成文本、图像等内容,广泛应用于创作和辅助工作领域。


深度学习算法不断改进,在图像分类、目标检测等任务上性能显著提升,已广泛运用于自动驾驶、医疗等行业。


为满足 AI 计算需求,边缘计算技术迎来进一步发展,使得数据处理更为实时高效,同时 Google 推出新一代 TPU 加速芯片。



1、人工智能经历低谷与繁荣后迎来爆发增长阶段


人工智能的发展经历三个关键阶段:推理期,知识期,机器学习期。

推理期指的是从 20 世纪 50 年代到 70 年代初,通过赋予机器逻辑推理能力,就能实现机器的智能。

知识期则是上世纪 70 年代,人们逐渐认识到判断和决策不仅需要推理能力,还需要大量知识。

机器学习期,从 20 世纪 80 年代开始,机器学习成为一个独立的学科领域,相关技术不断涌现。深度学习模型和 AlphaGo 等增强学习的雏形在这一时期被发明。尽管早期系统效果不理想,但是到 2010 年至今,语音识别和计算机视觉等领域取得巨大进展,围绕语音和图像等人工智能技术的创业公司大量涌现,实现从量变到质变的飞跃。



人工智能技术发展历程


2、全球 AI 市场快速升温,新 AI 应用不断涌现


全球 AI 市场在 AI 算法不断发展迭代的推动下呈现迅猛增长,带来新的 AI 应用不断涌现,并推动现有应用快速整合 AI 功能。据 SensorTower 数据,2023 年上半年 AI 应用下载量同比增长 114%,超过 3 亿次,创下 2022 年全年水平。ChatGPT、Lensa AI 等 AI 应用备受用户认可,AI 应用内购收入在 2023 年上半年同比增长 175%,接近 4 亿美元,美国市场占据 AI 应用内购收入的 55%。


3、算力需求高增,催生新经济增长点


生成式 AI 发展成为当前趋势,对算力需求显著提升,进而推动 GPU 需求增长。生成式 AI 整合 GAN、CLIP、Transformer、Diffusion 等算法,以及多模态等 AI 技术,数据、算力、算法是其不可或缺的三大关键。据 TrendForce 数据,生成式 AI 需要大量数据进行训练,尤其对高性能 GPU 需求巨大。以 ChatGPT 背后 GPT 模型为例,其训练参数从 2018 年的约 1.2 亿个增长至 2020 年的近 1800 亿个,以 NVIDIA A100 为计算基础,未来商用可能需要 2 万颗至 3 万颗 GPU。


生成式 AI 算力不仅提升新兴产业发展,为传统产业转型升级提供支撑。算力融入传统制造业推动企业智能化改造和数字化转型,在新兴产业中算力的整合促进新业态、新模式、新应用发展,成为推动新兴产业增长的重要动力。算力释放数据等新型生产要素创新活力,云计算、大数据、区块链、元宇宙等的兴起都依赖于强大的算力。



Chatgpt 潜在算力需求


算力发展全球格局


一、算力: AI 服务器渗透率提升,驱动计算、数通硬件需求


AI 芯片军备竞赛将持续推动产品升级,中长期供给或将多元化。中短期看,AI 模型发展、竞争仍将推升 AI 芯片出货量和规格;长期看,AI 芯片需求将注重投入产出比和总拥有成本(TCO),重心预估将从 AI 大模型训练转向 AI 垂直模型训练和 AI 推理。根据 Yole 报告,AI 服务器(含 GPU 及其他加速器)2028 年渗透率有望从 2023 年的接近 10%增至超过 18%,其中约 70%-75%为 GPU 服务器。



加速器服务器规模及 GPU 服务器占比(左侧百万部;右侧 %)


1、训练算力端:英伟达一枝独秀,AMD、Intel 迎头追赶


英伟达占据 AI 训练领域主导地位,目前 AI 芯片市场份额达 70%。其数据中心 GPU 产品 A100 和 H100 广泛应用于 AI 训练领域。英伟达在 2023 年 11 月推出 H100 的内存升级版本 H200,同时预计在 2024 年推出 B100,2025 年推出 X100,加速芯片升级的节奏,迭代周期缩短至 1 年。


在竞争对手方面,AMD 预计在 2024 年服务器 GPU 订单将超过 20 亿美元,而 Intel 到 2024 年的服务器 GPU 订单也将达到 20 亿美元。尽管这两家公司明年服务器 GPU 出货有望增加,但全年总出货量可能仍然低于英伟达数据中心业务单季度规模。



英伟达数据中心 GPU 技术路线图


2、推理算力端:百舸争流,技术路线更加多元


AI 推理算力需求相较于训练较低,主要是因为推理仅涉及前向计算,无需复杂的反复试错和参数调整。对于推理任务,可通过模型优化等手段在一定精度损失情况下减少算力需求。因此,GPU、CPU、FPGA 和 NPU 等硬件都有适用的场景和机会。


英特尔第四代服务器 CPU 在 AI 推理性能上显著提升,尤其是 Sapphire Rapids(2023)在 ResNet-50 基准测试中表现接近 T4 GPU,性能提升有助于 CPU 在 AI 推理市场份额上取得竞争优势。


GPU 在推理和模型微调方面具有差异化优势。对于头部客户,如 Open AI 和 Meta,需要低延时解决方案,同时 GPU 资源也可以在空闲时分配给 AI 训练任务,提高硬件利用率。因此,A100、H100 等 GPU 芯片仍然在 AI 推理任务中得到广泛使用。而英伟达的中端 GPU L40S 除适用于推理,还适合中等参数模型的微调训练。AMD、Intel 等公司的旗舰 AI 芯片也宣称在 AI 训练和推理方面具有优势,适用于复合复杂场景。


自研芯片可能成为云服务商在推理硬件方面突破口。由于英伟达及其 CUDA 生态在推理端的壁垒相对较低,云服务商有机会从推理端开始实现自研芯片的 AI 布局。在某些固定功能的 AI 推理场景,如推荐搜索等,也适合发展自研 ASIC 芯片。目前,谷歌的 TPU、亚马逊的 Inferentia 等自研芯片已经得到广泛应用,微软也推出首个自研 AI 芯片 Maia。多家公司,如迈威尔与亚马逊、博通与谷歌,也在定制 ASIC 业务上有合作。



AI 计算芯片产业链一览(2023/12/1)


3、AI 基建驱动光通信进入高成长通道


AI 网络升级是释放 AI 算力的重要基础,特别是以英伟达为代表的 AI 网络结构升级,推动光器件、光模块和交换机的需求增加。英伟达整合 GPU 算力和 Mellanox 的互联技术,在 InfiniBand 交换机市场占据主导地位,但未来以太网交换机的渗透率可能会提高。


AI 大模型的崛起推动高速率数通光模块的加速放量,特别是在电信和数通市场。由于云服务龙头增加对 AI 集群的投资,高端光通信需求上升,400G 和 800G 光模块的组件供不应求。LightCounting 预测 2024 年以太网光模块销售额将同比增长近 30%,各个细分市场也将逐步恢复增长。在经历 2023 年全球光模块市场规模同比下降 6%后,2024-2028 年的复合年增长率(CAGR)预计将达到 16%。光模块龙头公司 Coherent 表示,由 AI 驱动的全球 800G、1.6T 和 3.2T 数通光模块,相关行业规模在 2024-2028 年的 5 年 CAGR 可能超过 40%,从 2023 年的 6 亿美元增长至 2028 年的 42 亿美元。



2018-2028E 全球光模块销售额(百万美元)


光模块领导者 Coherent 在整个产业链中具有显著的优势,特别是在高门槛的上游光芯片技术方面。Coherent 不仅在光芯片技术上领先,而且拥有强大的客户壁垒,使其能够率先推出产品,从而在整个产业链中保持竞争优势。光模块生产主要涉及组装性业务,因此在成本控制等经营方面的能力变得更为关键,国内厂商在这方面具有竞争优势。在 LightCounting 发布的 2022 年全球光模块供应商产值榜单中,国内厂商表现抢眼:中际旭创排名第一,华为(海思)位居第四,光迅科技升至第五,海信位居第六,新易盛位居第七,华工正源位居第八。



光模块产业链一览


英伟达通过其 AI 解决方案推动 InfiniBand 交换机需求增长。由于 InfiniBand 在高性能计算和 AI 集群中的低时延优势,其在 2023 年 6 月的 Top500 超级计算机榜单中表现强劲,达到 241 套,占比为 48.2%。英伟达在 2020 年收购 Mellanox,借助其在 InfiniBand 架构方面的产品优势,目前已占据 20%以上的市场份额。据 LightCounting 预测,英伟达 InfiniBand 交换机 ASIC 的销售额在 2023 年将是 2022 年销售额的近三倍,2023-2028 年的复合年均增长率可能达到 24%。



前 500 超级计算机高速以太网和 InfiniBand 系统数量(套)


大规模 AI 部署中,以太网方案的渗透率提升,英伟达积极发展以太网交换机以迎接竞争。以太网在多供应商生态系统和性价比等方面具有优势,其性能提升加剧与 InfiniBand 的竞争,客户将受益于整体性价比的提高。云巨头计划在 AI 基础设施中采用开源以太网交换机。


超以太网联盟(UEC)于 2023 年 7 月宣布,通过全行业合作,将为 HPC 和 AI 开发基于以太网的通信栈架构,成员包括 AMD、博通、Arista、思科、英特尔、Meta、微软等公司。LightCounting 预计,以太网交换机销售额在 2023-2028 年的复合年均增长率达到 14%。Cisco 和 Arista 是全球市场份额前两位的以太网交换机厂商,截至 2023 年第二季度的份额分别为 47.2%和 10.4%。英伟达通过 Spectrum-X 方案(Spectrum 4 交换机+BlueField-3 DPU)积极参与竞争。



2021-2028E 交换机市场规模(百万美元)


3、AI 终端创新大势下,消费电子迎来新机遇


2023 年下半年,AI 终端备受关注,手机和 PC 制造商纷纷发布新品。在手机领域,苹果、三星、谷歌、高通、联发科等厂商推出的 A17 Pro、Exynos 2400、Tensor G3、骁龙 8 GEN 3、天玑 9300 处理器强调其 AI 功能。


在 PC 领域,Intel 和 AMD 均启动 AI PC CPU 计划,高通也推出基于 Arm 架构的 X Elite 处理器,支持运行 130 亿参数模型。小米、vivo、联想等品牌也相继发布基于新一代 AI 终端处理器的产品。


预计到 2027 年,AI PC 的普及率有望达到 60%以上,而 2024 年将成为这一趋势的关键窗口。根据 Canalys 的预测,AI PC 将在 2024 年年中开始迎来大规模增长,主要推动因素包括 Intel 等处理器厂商的新品发布以及 Windows 的最新版本将于 2024 年增加 AI 功能。英特尔估计未来两年将出货 1 亿台 AI PC,而高通等新竞争者也表示 OEM 合作伙伴将于 2024 年中开始发布搭载骁龙 X Elite 的 AI PC 产品。Canalys 预计到 2027 年,AI PC 的出货量将超过 1.75 亿台,占总 PC 出货量的 60%以上。



2022-2027E AI PC 渗透率


AI 终端用户长期愿景主要聚焦在个性化需求上。典型的 AI 终端应用包括 AI 个人助理、健康监测、文本扩写与问答、音频、图片、会议和视频的识别、分类以及后期处理,以及设备端训练等功能。一些应用已经在现有设备中得到广泛应用,而一些前沿的 AI 应用,如设备端训练,尚未完全成熟。


AI 终端用户核心需求包括对数据本地化的隐私关切、对 AI 应用低延时和离线功能需求,以及对 AI 大模型个性化需求。在个性化方面,AI 大模型的个性化有望成为推动 AI 终端长期发展的核心竞争力。在设备端训练中,AI 终端将在云端预训练模型的基础上,结合用户的本地数据进行微调,具有更接近用户个人习惯的本地样本,同时可以根据新数据进行可持续训练,实现持续学习。



AI 终端应用场景汇总


微软和 Meta 正在积极抢占跨终端 AI 机遇,通过与合作伙伴如 Intel、AMD、高通等展开合作,推广开源项目和 AI 工具,形成生态壁垒。利用跨终端用户规模来吸引更多开发者,形成正向循环。


在 AI 终端方面,内存规格升级成为趋势,例如高通的骁龙 8 GEN 3 已推动 LPDDR5X 和 LPDDR5T 产品的交付,速度达到 9.6Gbps。此外,存算一体在 AI 终端上也有望获得发展,例如三星的 LPDDR5-PIM 方案可提供 4.5 倍的性能提升和 72%的功耗节省。


混合 AI 方案即终端和云端的协同工作,成为 AI 终端向无边界外延趋势。混合 AI 适用于各种边缘终端,包括手机、PC、XR、物联网设备和汽车等,有助于推动云端 AI 的发展。



混合 AI 三种案例


二、先进封装大势所趋,3D 集成时代终将来临


随着半导体制程逐渐接近物理极限,先进封装成为提高芯片效能、节省硬件空间、减少功耗和延迟的必要途径。HPC 和 AI 应用对高算力、低延迟、低功耗的需求推动先进封装技术的发展。台积电、英特尔和三星的 2.5D 封装技术以及逐渐兴起的 3D 封装技术在此领域有着长期发展。CoWoS(台积电 2.5D 封装技术)和 HBM(高带宽内存)是生产 AI GPU 中增长最迅速的领域之一。先进封装的迅速发展也带动了相关设备需求的激增。展望未来,重点关注 2.5 封装技术产能的扩张和 3D 封装技术的发展态势。


1、先进封装市场规模增长可期,2.5D/3D 集成显未来潜力


2022-2028 年间先进封装市场规模的 CAGR 达 10.6%,HPC 和 AI 应用或为主要推力。据 Yole 数据显示,2022 年先进封装市场规模达 443 亿美元,占整体 IC 封装市场的 48%;2028 年全球封装市场规模为 1360 亿美元,其中先进封装为 786 亿美元,占比将提升至 57.8%。目前,先进封装市场以移动和消费终端应用为主,由硅含量增加和封装技术复杂化驱动。



2022-2028 年全球先进封装市场规模预测(按终端应用)


2、台积电 CoWoS 急扩产,关注设备订单及技术趋势


CoWoS 是台积电的 2.5D 封装技术,分为 CoW 和 WoS 两部分,其中 WoS 是将两部分晶片堆叠在基板上的封装。CoWoS 根据中介层的不同分为三种技术架构,对于 AI 时代具有重要意义。


1)CoWoS-S 采用硅中介层,是 HBM 和处理器互连的主流方案,在 AI 芯片中用于执行训练和推理任务。其高带宽优势显著提升性能,目前是主流高性能 AI 处理器的首选方案。大客户如英伟达、AMD、博通、Marvell 等的订单增加,台积电紧急扩产,2024 年的 CoWoS 月产能预计将达到 3.5 万片。


2)CoWoS-R 采用 RDL 中介层,降低成本,预计在 2024 年开始量产。相较于 CoWoS-S,CoWoS-R 引入重新布线层(RDL)并具有成本优势。部分硅中介层产能可能被转移到有机中介层,以满足越来越多厂商选择成本更低的 CoWoS-R 的需求。


3)CoWoS-L 采用 LSI 和 RDL 中介层,支持更多 HBM 堆叠,可能应用于英伟达的 B100。CoWoS-L 通过在中介层加入主动元件 LSI 实现更高的设计复杂性,可支持更多 HBM 的堆叠。CoWoS-L 目前处于验证阶段,预计在商业化时采用 Chiplet 技术和台积电的 CoWoS-L 封装技术,英伟达 B100 可能是首个采用这项技术的产品。



CoWoS 通过硅通孔(TSV)实现各层元件的集成和互联


台积电前、后段整合的 SoIC+CoWoS 也是未来解决 HPC 芯片面临摩尔定律放缓的关键点。SoIC 是业界第一个高密度 3D 小芯片堆叠技术,通过 CoW(Chip-on Wafer)封装技术将不同尺寸、功能、节点的芯粒异质整合。SoIC 为前段 3D 封装技术,集成到主要用于消费电子产品的 InFO 和主要用于 HPC 和 AI 的 CoWoS 两项后段 2.5D 封装技术中。由于 3D 封装制程近似芯片制造,故更有利于芯片生产商主导。AMD MI300 率先采用 SoIC+CoWoS。如若该产品效果良好,或可助 SoIC+CoWoS 在 AI 芯片市场攻城略地。



台积电 SoIC 与 CoWoS、InFO 集成


台积电出货量进入磨底阶段,AI 芯片将在 2024 年助推 3nm 制程收入贡献提升。半导体代工龙头台积电 2023Q3 营收 172.8 亿美元(YoY-14.6%,QoQ+10.2%),季度晶圆出货量 290.2 万片等效 12 寸晶圆(YoY-27%,QoQ-0.5%),反映市场需求虽有企稳,但仍处磨底阶段。随着高通、联发科、AMD、英伟达等大客户宣布跟进 3nm 制程,新技术发展对产业迭代周期的推动作用。台积电也在 2023Q3 业绩会上称,芯片市场非常接近底部,2024 年将是公司的健康成长之年。



台积电收入结构——按制程(%)


采用 65nm 制程的硅中介层掣肘 CoWoS-S 产能,利好外溢。受制于供应链瓶颈,英伟达积极打造非台积电 CoWoS 供应链。联电由此受益,计划将硅中介层月产能从目前的 3 千片增至 1 万片,届时硅中介层产能将与台积电持平。原本就小量承接台积电 WoS 释单的日月光和积极争取 CoW 订单的 Amkor 则负责后段 WoS 封装。



CoWoS 流程示意图


3、存储原厂竞逐 HBM,技术路线分化


AI 重振存储市场信心,原厂逐鹿 HBM3。高带宽内存 HBM 可满足 AI 训练所需的大规模数据搬运需求,Yole 预估 AI 服务器 DRAM 位元需求量增速将高于通用服务器,2021-2028E CAGR 分别为 47%、24%,该机构预估 AI 服务器 HBM 出货量将从 2022 年的 2EB 增至 2028 年的 30EB。竞争格局方面,根据 TrendForce 报告,SK-海力士 2023-2024E 市场份额预估维持在 45%-50%区间,三星随着 HBM 产能扩张,份额有望提升至 2024 年的 47%-49%,与 SK-海力士并驾齐驱。



AI 服务器 HBM 出货量(EB)


4、先进封装有业绩增速及长期逻辑,中型设备商具备较大弹性


先进封装市场、HBM 市场的竞争有助于推升先进封装设备市场 TAM,拉姆研究管理层预估 AI 服务器渗透率每增长 1%,都将带动 10-15 亿美元增量设备投资。


硅通孔(TSV)用于形成 2.5D、3D 先进封装垂直电气通道,目前主流的方案为博世蚀刻法,该方法将蚀刻过程分为多个周期,每个周期分为蚀刻、钝化和间歇三个过程,通过不断向下蚀刻形成垂直的通孔。按 TSV 制造成本结构拆分,TSV 包括光刻、通孔蚀刻、衬底沉积、嵌入屏障层和种子层、衬底开口、屏障层及种子层、铜电镀、化学机械抛光,其中化学机械抛光(CMP)、屏障层及种子层、通孔蚀刻占比较高。



TSV 成本结构


键合用于组件之间的连接,可分为微凸块键合、铜对铜键合,前者代表为倒装芯片和热压键合(TCB)、后者代表为混合键合(Hybrid Bonding),混合键合能够进一步缩短组件的间距,满足先进封装对更高性能的需求。台积电目前主要使用倒装芯片方案,AI 芯片初创公司 Graphcore 则是台积电混合键合方案首个客户。


AI 算力加速国产化时代

国产 AI 算力迎来发展重要时刻。回顾超算和通用算力发展历史,国产 AI 算力有望经历从“可用”到“好用”的阶段,在当前国际局势下,AI 算力国产化过程有望在 2024 年迈向“客户初选适配年”,2025 年进入“客户主动采购年”,并在 2026 年成为主导力量。


普通云计算方面,国产服务器市场预计在 2024 年达到 198 亿,2027 年达到 1000 亿。

超算领域,我国在超算 CPU 研发上经历八年的自主发展。超算云服务市场预计有望达到 700 亿,其中企业导向市场潜力大。


智算方面,面临美国的多方面制约,但国内算力需求仍呈现强劲增长。预计 2024 年国内 AI 算力总需求将达到 211.50EFlops,国产化比例为 46.45%。异腾 910 等技术的应用将驱动市场规模在 AI 芯片和服务器领域达到数百亿。


一、从 CPU 到 GPU,核心技术当自强


1、限制加速,国产化时点提前到来


算力是数字经济发展的关键。提高算力对经济增长具有长期和倍增效应:每提高 1 点的算力指数,数字经济和 GDP 分别增长 3.5%和 1.8%。当算力指数达到 40 分和 60 分时,每提升 1 点将分别带动 GDP 增长 1.5 倍和 3.0 倍。


我国正迎来算力全面国产化时代。作为算力核心载体,服务器关键组成部分是 CPU 和类 GPU 等计算芯片。国产 CPU 已经从“可用”过渡到“好用”阶段,大客户特别是运营商和金融机构,正进行信创服务器的集中采购和规模应用。



算力与经济增长模型


2、国内算力产业链的三大体系


算力产业链主要包含三大体系:

以海光为核心芯片的科院系 x86 信创服务器体系;

以鲲鹏+异腾为核心芯片的华为 Arm 信创服务器体系;

以飞腾为核心芯片的中电子系 Arm 信创服务器体系。

这些体系在整机制造上呈现出各自的特点,如兼容性和自主可控程度等。我国正在逐步完善算力产业链和生态,以更好地应对国际挑战。



二、普通计算: 从“可用”到“好用”


1、国产 CPU 技术路线正逐步趋于收敛


我国 CPU 技术路线主要基于 x86 和 Arm 两大架构。当前的趋势是逐渐向两个核心体系收敛,即华为的 ARM 体系和海光的 x86 体系。在芯片的发展中,重点是实现性价比的稳定提升、广泛下游生态覆盖、充足供应,以及具备与国外芯片竞争的性能和价格。



2、2027 年国产 PC 市场规莫有望达到 547 亿


根据《信创框架报告》预测,到 2024 年国产 PC CPU 市场规模有望增长至 38 亿,并在 2027 年进一步扩大至 87 亿,年复合增长率(CAGR)为 19%。与此同时,国产 PC 市场整体规模预计将在 2024 年达到 239 亿,并在 2027 年增至 547 亿,年复合增长率(CAGR)为 32%。



国产服务器市场规模测算


3、2027 年国产服务器市场规模有望达到千亿


2022 年服务器芯片国产化程度达 25%。在全球市场中,X86 芯片占据 91%的份额,ARM 芯片占据 6%,而其他芯片占据 3%(Counterpoint 数据)。根据 Bernstein 的数据,在中国市场,ARM 芯片在服务器中的占比约为 15%,而其他国产 CPU(包括龙芯、海光、兆芯、申威等)的占比约为 10%,使得总体国产芯片服务器的占比达到 25%。


据《信创框架报告》预测,到 2024 年国产服务器 CPU 市场规模预计将增长至 198 亿,并在 2027 年有望达到 594 亿。与此同时,2024 年国产服务器市场规模预计将增至 1000 亿,年复合增长率(CAGR)为 19%。这些数据表明,国产服务器市场正在快速发展,并且国产芯片中的占比也在逐渐提高。


4、以运营商和金融为代表的行业客户已开始大规模集采国产服务器


从 2023 年下半年开始,运营商和金融客户纷纷进行大规模国产服务器采购,而未来,能源电力、制造业、医疗、教育等行业的国有企业客户也有望逐步加入信创服务器集采行列。


供应方面,Arm 服务器在以运营商和银行为代表的行业信创采购中的占比不断提高,如在中信银行 65 亿订单中,Arm 芯片服务器份额约占总金额的 3/4,预计 Arm 芯片服务器的市场份额将进一步增加。



2021 年 x86 服务器的主要下游客户构成


5、ARM:华为馄鹏 CPU 主打高性能和低功耗


鲲鹏 920 是由华为自主研发的核心 CPU,专为数据中心设计,注重高性能和低功耗。基于 ARM V8.2 架构,主频达 2.6GHz,单芯片支持 64 核,提供 8 通道 DDR4 和 100G ROCE 大网卡,具备 PCle4.0 及 CCIX 接口,总带宽达到 640Gbps。通过优化分支预测算法、增加运算单元数量、改进内存子系统架构等微架构设计大幅提升处理器性能。



鲲鹏 920 主打高性能和低功耗


6、ARM:飞腾 CPU 可扩展生、安全性强


飞腾 CPU 展现高可扩展、高性能、高安全、高可靠、高效五大核心能力。其新一代腾云 S2500 系列服务器芯片采用 16nm 工艺,64 核架构,直连可达 512 核,总带宽 800Gbps,支持 2 至 8 路直连,形成 128 核到 512 核的计算机系统。最新的 FTC870 内核主频可达 3GHz,性能达到国际先进水平,相比上一代提升约 20%。



新一代”870”高性能处理器核,性能追赶国际先进水平


7、兼容性 X86:海光 CPU 兼具性能和兼容性


海光基于 AMD 授权的 x86 指令集研制 CPU,如海光 7285,具有 32 核、64 个超线程、2.0GHz 主频、DDR4 内存、8 个内存通道、最高 2666MHz 内存频率、128 个 PCle 通道。采用先进的微结构和缓存层次结构,优化分支预测算法,实现每个时钟周期执行指令数显著提高。海光三号系列芯片是主力产品,具有 32 核心 64 线程,128 条 PCle4.0 通道,支持 3200MHz 内存频率,整体性能提升约 45%。



各主流 CPU 性能参数对比


三、超算:受限较早,徐徐前行


1、数据密集型问题超级计算用于处理极端复杂


超级计算(HPC)是计算科学的前沿领域,利用多台计算机系统(超级计算机)的集中式计算资源处理复杂或数据密集型问题。与智算相比,超算要求双精度计算(FP64),而智算通常要求单精度、半精度计算(FP32、16、8)。超算产业具有明显的政策性特征,主要是由于超算芯片难度较大,且下游应用主要集中在前沿基础科学研究等非商业化需求。因此,产业链的发展在一定程度上受政策周期性影响。



2、超算芯片受限较早,我国超算在政策加持下已进入互联阶段


八年前美国就对中国超算领域实施限制,拒绝向中国的多个超算中心和国防科大提供“至强”芯片。随后,美国不断收紧对我国超算单位限制,包括对中国超算三巨头中的“神威”和“曙光”实施制裁。这些限制促使我国在超算领域走上自主发展之路。


在 2016 年《“十三五”国家科技创新规划》中提出突破超级计算机中央处理器(CPU)架构设计技术的目标。进入 2021 年的“十四五”规划中,明确建设 E 级和 10E 级超级计算中心计划。为推动国产超算算力提升,启动超算互联网建设工作,旨在建成一体化超算算力网络和服务平台,实现对算力资源的统筹调度。


3、中国超算算力总和 2020 年已达 566PFlops


中国超级计算机在全球 Top500 榜单中已连续 9 次制造数量领先,市场份额一度达到全球第一。在 2018 年底至 2020 年中,中国超算上榜数量占比约为 45%。然而,2017 年至 2019 年,中国超算算力总和在 Top500 榜单中仅占总和的三成左右,略低于数量占比。自 2020 年起,中国停止向 TOP500 组织提交最新超算系统信息,因此后续数量和算力占比均呈下降趋势。



全球超级计算机 500 强榜单中中国制造的数量及占比(台、%)


4、预计 2025 年中国超算市场规模达到 466 亿元


全球超算市场预计将在 2026 年达到 395.3 亿美元,以 HPC 市场收入为口径,2017-2021 年市场规模 CAGR 为 12.2%,而 2021-2026 年的预计 CAGR 为 6.1%。


在中国,根据研究机构的测算,2016-2021 年中国超算服务市场规模 CAGR 高达 24.7%,预计 2021-2025 年的 CAGR 为 24.1%,到 2025 年,中国超算服务市场规模将达到 466 亿元。



2017-2026E 全球超算市场规模(亿美元、%)


5、全国有 11 家国家级超算中心,中科院体系占比过半


由于超算与国家前沿基础科学研究需求紧密相关,因此国家级超算中心基本可分为中科院、国防科大和江南计算所三大体系,从数量上看,中科院体系份额超过 50%。



6、超算上云是必经之路,超算云服务市场规模有望达到 700 亿


超算互联网的三层参与者包括基础算力层、运行管理层和服务运营商,分别提供算力、管理资源和运营服务。通过超算互联网建设,在 2025 年底前打造国家算力底座,实现超算算力一体化运营。超算服务需求涉及多领域,需要具备超算技术和行业科研思维的复合型人才。超算服务场景因应用领域不同而异,包括海洋气象、地质勘探、工业仿真、富媒体渲染等。预计中国超算云服务市场规模有望在远期达到 700 亿,其中企业市场为主导力量,展现出未来商用企业市场的巨大潜力。



中国超算云服务市场规模远期有望达到 700 亿


四、智算:限制加速,国产化时点提前到来


1、美国政府上台后加强对中国半导体产业多边管制,通过诸多措施限制芯片设计、代工、生产设备、供应链等多个环节。


2、中国智算算力领域迎来新基建顶层规划,通过《算力基础设施高质量发展行动计划》实现全国范围内顶层规划。政策强调网络联通,协调全国范围内智算中心建设,提高使用国产芯片智算中心上架率。2025 年的目标包括全国算力规模超过 300EFlops,智能算力占比达到 35%,光传送网覆盖率达到 80%,各领域算力渗透率提升。这一规划解决了各地建设节奏不一、标准不一的问题,有助于实现智算算力混合调用,提高国产智算算力上架率。



《算力基础设施高质量发展行动计划》主要内容


3、2024 年国产 AI 算力需求有望接近 100EFlops


商用客户如互联网有望将百亿参数模型的部分训练和推理需求转向国产 AI 芯片,2024 年国产芯片主要需求将包括:政府智算中心、运营商、金融、第三方大模型厂商、互联网厂商,据测算,依 8 卡昇腾 910 AI 服务器计算,2024 年预计昇腾 910 出货量为 30.7 万张,对应 3.84 万台 AI 服务器。



4、2024 年国产 AI 算力需求有望接近 100EFlops


1)2024 年政府智算中心国产 AI 算力增量需求为 23EP,需要 7.19 万张昇腾 910 卡,0.90 万台 AI 训练服务器


截至 2022 年,中国的算力总规模已达 180 EFlops,其中智能算力占 41 EFlops。到 2025 年,全国算力目标规模将超过 300 EFlops,智能算力占比达到 35%。据此推算,2024 年智能算力的缺口约为 23 EFlops。考虑到智算中心建设由政府主导,国产芯片的供应占比将达到 100%。因此,2024 年政府智算中心对国产 AI 算力的需求为 23 EFlops,相当于昇腾 910 卡 7.19 万张和 AI 训练服务器 0.90 万台。



2)2024 年运营商国产 AI 算力增量需求为 34.90EFlops, 需要 10.91 万张昇腾 910 卡,1.36 万台 AI 训练服务器


中国电信 AI 算力服务器(2023-2024 年)集中采购项目分为 4 个标包,总金额 84.62 亿,总采购规模为 4175 台训练型服务器。其中,使用国产鲲鹏芯片的 AI 服务器数量为 1977 台,占总采购数量的 47.35%,总金额 28 亿,IB 交换机数量为 1182 台。其中运营商将在地方算力基建任务中扮演角色,并提供智算算网服务;移动、联通、电信三大运营商的采购节奏相近,算力服务器数量与 2023 年各家算力网络 Capex 比例一致;运营商作为信创领军者将承担 AI 算力信创任务,国产化率有望达到 80%。综合分析得出,2024 年运营商对增量国产 AI 算力的需求为 34.90 EFlops,需要 10.91 万张昇腾 910 卡和 1.36 万台 AI 训练服务器。



3)2024 年金融等行业客户国产 AI 算力增量需求为 6.41EFlops,需要 2 万张昇腾 910 卡,0.25 万台 AI 训练服务器


6 家国有银行和 12 家股份制银行等行业客户的 AI 服务器采购规模为 4175 台。假设国产化率为 60%,则国产 AI 服务器的需求为 1670 台,相应的算力规模为 6.41 EFlops。这需要 2 万张昇腾 910 卡和 0.25 万台 AI 训练服务器。



4)2024 年第三方大模型厂商的国产 AI 算力增量需求为 19.84EFlops,需要 6.20 万张昇腾 910 卡,0.78 万台 AI 训练服务器


截至 2023 年 10 月,中国已发布两百余个大模型,主要由科研院所和互联网企业推动。鉴于算力供应受到限制,科研院所以及讯飞、智谱、智源等第三方大模型厂商可能会寻求国内芯片以满足部分算力需求。假设 2024 年新增大模型总数为 50 个,平均模型参数量为 200 亿,国产化率为 25%,则第三方大模型厂商在 2024 年对国产 AI 算力的增量需求为 19.84 EFlops,需要 6.20 万张昇腾 910 卡和 0.78 万台 AI 训练服务器。



5)互联网厂商需要国产算力分别为 9.92EFlops(FP16)、8.33EFlops(INT8),合计需要 4.4 万张昇腾 910 卡,0.55 万台 AI 服务器


美国芯片禁令对国内获取主流 GPU(如 A800、H800)产生限制,导致互联网厂商调整算力选择。互联网厂商将使用国产替代方案将首先在百亿模型推理领域实现,通过团队优化达到 A800 等效;到 2024 年,百亿模型训练逐步实现国产替代;千亿模型推理、训练仍以英伟达芯片为主,后续选择将基于硬件成本、人员成本和实际性能等多方面考虑。假设 2024 年在百亿参数模型上,20%的训练需求和 80%的推理需求实现国产化,计算所需国产算力分别为 9.92 EFlops、8.33 EFlops,总计需要 4.4 万张昇腾 910 卡和 0.55 万台 AI 服务器。



5、2024 年国产 AI 服务器市场规模有望达到 409 亿


2024 年国内新增 AI 总算力需求为 211.5 EFlops(FP16),其中国产算力需求为 98.24 EFlops(FP16),国产化比例为 46.45%。按照单张昇腾 910 算力为 320 TFLOPS 计算,相应需要 30.7 万张昇腾 910 和 3.84 万台 AI 服务器。据京东数据,昇腾 Atlas 300T A2 训练卡均价在 10 万以上,预计 2024 年昇腾芯片潜在市场规模约为 307 亿。参考 IDC 数据,训练型服务器中 GPU 成本占比约为 72.8%,假设 8 张昇腾 Atlas 300T A2 的训练服务器中 GPU 占比 75%,推算 2024 年华为昇腾服务器潜在市场规模为 409.33 亿。


用户头像

还未添加个人签名 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
展望2024: 中国AI算力能否引爆高性能计算和大模型训练的新革命?_蓝海大脑GPU_InfoQ写作社区