AI 处理器全景指南(CPU、GPU、TPU、APU、NPU、IPU、RPU...)

编者按: 当大模型的算力需求呈指数级增长,GPU 还是唯一答案吗?在 AI 硬件军备竞赛愈演愈烈的今天,是否存在更高效、更专精、甚至更具颠覆性的替代方案?
我们今天为大家带来的文章,作者的核心观点是:AI 硬件生态正在迅速多元化,除了广为人知的 CPU、GPU 和 TPU 之外,一系列新兴架构 —— 如 ASIC、NPU、IPU、FPGA 乃至存内计算与神经形态芯片,正从不同维度重塑 AI 的算力未来。
文章系统梳理了三大经典处理单元(CPU、GPU、TPU)的原理与局限,并深入剖析了包括 Cerebras 晶圆级引擎、AWS Trainium/Inferentia、AMD APU、NPU 在内的专用芯片设计思路;进而拓展至 IPU、RPU、FPGA 等前沿架构,揭示它们如何针对稀疏计算、图神经网络、边缘推理或存算一体等特定场景提供突破性性能。
作者 | Ksenia Se and Alyona Vert
编译 | 岳扬
目录
01 CPU、GPU、TPU – 三种核心硬件架构
1.1 中央处理单元(Central Processing Unit, CPU)
1.2 图形处理单元(Graphics Processing Unit, GPU)
1.3 张量处理单元(Tensor Processing Unit, TPU)
02 专用集成电路(Application-Specific Integrated Circuits, ASICs)
2.1 Cerebras 晶圆级引擎(Wafer-Scale Engine, WSE)
2.2 AWS Trainium 与 AWS Inferentia
2.3 加速处理单元(Accelerated Processing Unit, APU)
2.4 神经网络处理单元(Neural Processing Unit, NPU)
03 其他有前景的替代架构
3.1 智能处理单元(Intelligence Processing Unit, IPU)
3.2 阻变处理单元(Resistive Processing Unit, RPU)
3.3 现场可编程门阵列(Field-Programmable Gate Arrays, FPGAs)
04 新兴架构(Emerging Architectures)
4.1 量子处理器(Quantum Processors)
4.2 存内计算(Processing-in-Memory, PIM)与基于 MRAM 的芯片
4.3 神经形态芯片(Neuromorphic Chips)
05 结语(Conclusion)
如今连小孩子都知道 GPU(图形处理单元)是什么了 —— 这得归功于 AI,也归功于英伟达(Nvidia),它始终在不遗余力地推进自家芯片的发展。当然,硬件既是绊脚石,也是推动模型运行及其技术栈的引擎。但为什么人们讨论的焦点只集中在 GPU 上呢?难道没有其他竞争者可能塑造 AI 硬件的未来吗?CPU 和 TPU 当然算 —— 但仅此而已吗?
今天,让我们跳出 GPU 的思维茧房,将视线拓展到 GPU、CPU、TPU 这“老三样”之外。全球开发者一直在探索各类替代设计方案,每一种都承诺带来可观的效率提升和全新的创新路径。
我们希望能各位读者打造一份完整的 AI 硬件指南,因此先从这三大巨头讲起,再转向那些虽不主流却内有乾坤的方案:例如 Cerebras WSE 和 AWS 自研的定制 ASIC;还有 APU、NPU、IPU、RPU 以及 FPGA。我们会帮你厘清这些术语,让你全面掌握 AI 硬件的完整图景。这篇文章必将让你收获满满!
01 CPU、GPU、TPU – 三种核心硬件架构
在探讨其他替代方案之前,先来剖析一下这些我们耳熟能详的 CPU、GPU 和 TPU 到底是什么。
这三大巨头都属于处理单元(Processing Units,简称 PUs) —— 即专门用于执行软件程序指令、进行计算的电子电路。许多人称它们为计算机系统的“大脑”。PUs 执行各类算术、逻辑、控制以及输入/输出操作,将原始数据处理成有用的信息。
不同类型的 PU 针对不同的工作负载进行了优化 →
1.1 中央处理单元(Central Processing Unit, CPU)
中央处理单元(CPU)专为通用计算和顺序任务执行而设计。
CPU 是三者中最古老的。其前身的故事始于 1945 年 —— 约翰·莫奇利(John Mauchly)与 J. 普雷斯珀·埃克特(J. Presper Eckert Jr.)推出了 ENIAC(Electronic Numerical Integrator and Computer)。这是世界上第一台可编程、电子式、通用型的数字计算机,能通过重新编程解决多种数值问题,使用了约 18,000 个真空管。
同年,约翰·冯·诺依曼(John von Neumann)发表了《First Draft of a Report on the EDVAC》,提出将数据和指令存储在同一内存中。这一“存储程序”模型成为现代 CPU 的设计蓝本。
到了 1950 年代中期,真空管被晶体管取代。从那时起,处理器开始由大量基于晶体管的元件组成,并安装在电路板上,使计算机变得更小、更快、更省电。
1960 年代,集成电路(ICs)出现,将多个晶体管集成到单块硅片上。最终在 1971 年,英特尔(Intel)推出了 4004 —— 全球首款商用微处理器,即一颗集成在单一芯片上的 4 位 CPU。这标志着现代 CPU 的真正诞生。
Intel 8086 是如今 x86 CPU 架构的始祖,而目前提升效率的主流方案则是多核处理器 —— 将多个 CPU 核心集成在单一芯片上。
那么,现代 CPU 内部究竟包含什么?它们又是如何工作的?
CPU 的核心是控制单元(control unit),它包含复杂的电路,通过发出电信号来控制整台计算机,并将数据和指令引导至正确的位置。算术逻辑单元(ALU)负责执行数学与逻辑运算,而寄存器(registers)和高速缓存(cache)则提供了极小但极快的存储空间,用于存放处理器频繁需要的数据。
Image Credit: Wikipedia
CPU 还包含核心(cores) —— 即 CPU 内部的处理单元,每个核心都能独立处理指令;以及线程(threads),允许一个核心同时处理多条指令流。这些组件都按照时钟信号(clock)的节拍运行,时钟提供了同步整个系统所需的节拍。此外,还有总线(buses,用于数据传输)、指令寄存器(instruction register)和指令指针(instruction pointer,用于追踪下一步要执行的内容)等辅助组件,将整个系统紧密连接,使指令能顺畅地从一个步骤流转到下一个。
CPU 的工作遵循一个简单却强大的循环:取指(fetch)→ 译码(decode)→ 执行(execute) 。
它从内存中取指数据或指令,
将它们译码为硬件能理解的信号,
然后执行所需的操作(例如计算、数值比较,或将数据发送到其他地方)。
在现代处理器中,这一过程每秒可发生数十亿次,多个核心与线程并行工作提升性能,使 CPU 如同一个高度协同的组件团队。CPU 核心数量较少(例如 1 到 2 个)时,通常更注重能效(即单位功耗下完成更多有效工作),适合轻量或日常任务,而核心数量较多的 CPU 则用于支撑高性能、高负载的任务。
如今的 CPU 主要来自以下厂商:
Intel,产品包括 Core 系列(消费级)、Xeon(服务器/工作站)、Pentium 和 Celeron(入门级)芯片;
AMD,提供 Ryzen(消费级/高性能)和 EPYC(服务器)处理器,以及 APU(Accelerated Processing Unit),它将 CPU 和 GPU 集成在同一颗芯片上(我们稍后会详细讨论)。
CPU 用于 AI 时面临的主要问题是:它针对的是顺序执行的通用任务,而非大规模并行的矩阵运算,因此在速度和能效上远逊于 GPU 或专用芯片。
接下来,让我们转向介绍第二款芯片 —— 著名的 GPU。
1.2 图形处理单元(Graphics Processing Unit, GPU)
图形处理单元(GPU)专为高吞吐量的大规模并行数据处理而优化。GPU 最初被发明用于加速图像和视频中的计算机图形渲染,但后来人们发现它在非图形计算任务中同样大有用武之地。如今,GPU 被广泛应用于可并行化的工作负载,例如处理数据密集型任务和训练 AI 模型。
如今,GPU 是推动 AI 性能提升的核心力量,也是衡量 AI 计算能力的一项关键指标。
“图形处理单元”(GPU)这一术语由 NVIDIA 于 1999 年正式提出,随 GeForce 256 显卡一同发布。NVIDIA 称其为全球首款 GPU,其官方定义为:“集成变换、光照、三角形设置/裁剪及渲染引擎的单芯片处理器。”
那么,这款传奇的 GPU 究竟是如何工作的?→
GPU 内部是一块硅芯片,上面蚀刻着数十亿个微型晶体管,被组织成数千个轻量级处理核心。这些核心通过复杂的布线相互连接,并由高带宽内存和缓存提供支持,使数据能在核心之间高速流动。整个芯片被封装在保护材料中,并配有散热系统来维持稳定运行。
(了解芯片历史的最佳读物之一是克里斯·米勒(Chris Miller)所著的《芯片战争:世界最关键技术的争夺战》(Chip War: The Fight for the World’s Most Critical Technology),强烈推荐。)
与 CPU 不同,GPU 专为并行计算而生 —— 它会将一项大型任务拆分成成千上万个更小、彼此独立的子任务,并将它们分发到各个核心上同步计算。正因如此,GPU 非常适合训练和运行 AI 模型,因为这些模型涉及对海量数据集进行重复的矩阵与张量运算。得益于 GPU 的并行架构,原本需要数月的训练如今几天就能完成,推理速度也足以支撑实时应用 —— 比如聊天机器人。
全球 GPU 生产的领军者是 NVIDIA,它打造了完整的并行计算平台 CUDA(Compute Unified Device Architecture),将 GPU 硬件能力释放到通用计算领域,大幅降低了 GPU 编程的门槛。
NVIDIA 面向 AI 基础设施和行业应用的主要 GPU 产品包括:
V100(Volta 架构) – 专为深度学习加速而设计,首次引入 Tensor Core(张量核心) —— 专用于加速 AI 训练中矩阵运算的硬件单元。
A100(Ampere 架构) – 拥有更多 Tensor Core、更高内存带宽,并支持多实例 GPU(MIG)技术,可将一块物理 GPU 划分为多个逻辑 GPU,提升资源利用效率。
H100、H200(Hopper 架构) – 当前 AI 领域的行业标准。H 系列支持 Transformer Engine、超大内存带宽,以及极致的训练与推理速度。
图片来源:NVIDIA H100 NVL GPU 产品文档
Blackwell(例如 B200 和 GB200 Grace-Blackwell “超级芯片”) 专为下一代拥有数万亿甚至十万亿级参数的 AI 模型而设计。作为 Hopper 架构的继任者,它引入了 FP4 精度,并在推理吞吐量上实现了大幅提升,尤其针对超大规模 Transformer 工作负载。
随着行业对 AI 专用处理器的需求日益增长,第三类核心硬件 —— TPU 应运而生。
1.3 张量处理单元(Tensor Processing Unit, TPU)
张量处理单元(TPU)是由 Google 专为加速神经网络运算(尤其是矩阵乘法与机器学习工作流)定制的芯片。它最初在 2016 年 Google I/O 大会上亮相,属于 ASIC(Application-Specific Integrated Circuits,专用集成电路)类别。TPU 的基本架构如下:
图片来源:论文《In-Datacenter Performance Analysis of a Tensor Processing Unit》
其核心组件是矩阵乘法单元(Matrix Multiply Unit) —— 一个巨大的 256×256 乘加单元(MAC)阵列,采用脉动阵列(systolic array)结构,数据以“波”的形式在网格中流动。
TPU 还配备了大容量片上存储器:
统一缓冲区(Unified Buffer,24 MB):用于存放中间激活值;
权重存储器/ FIFO(Weight Memory/FIFOs):用于存储神经网络权重;
累加器(Accumulators,4 MB):用于收集求和结果。
控制逻辑、PCIe 接口和激活单元(用于 ReLU、sigmoid 等函数)为矩阵引擎提供支持,但芯片的大部分面积都用于原始计算和高速数据传输。
TPU 的主要特点是作为协处理器工作:
主机 CPU 通过 PCIe 向 TPU 发送指令,TPU 直接执行这些指令。
其指令集非常精简(仅约十几条指令),硬件通过流水线设计确保矩阵单元始终处于忙碌状态。
像 TensorFlow 这样的框架会将模型编译成这些底层指令。
256 个小型片上存储器(分布式累加器 RAM)用于收集部分和,而脉动阵列则执行乘加(MAC)运算。通过将权重和数据持续流入脉动阵列,并在片上缓冲区中本地复用,TPU 最大限度地减少了对片外内存的访问。因此,大部分计算任务(逐层进行)都能直接在芯片上完成。
图片来源:论文《In-Datacenter Performance Analysis of a Tensor Processing Unit》
总结来说,TPU 中的每个单元执行小规模计算,并将部分结果传递下去,从而节省功耗,并极大加快 AI 模型背后的数学运算速度。 这正是 TPU 在相同任务中能实现高吞吐量,同时功耗远低于 CPU/GPU 的原因。根据 Google 2017 年的分析,TPU 在能效比(每瓦性能)上比同期 CPU 和 GPU 高出约 30–80 倍(在推理任务中,拿 TPU 和 K80 这类 GPU 做能效对比)。
然而,仅靠这三种硬件(CPU、GPU、TPU),我们仍无法全面理解驱动 AI 发展的全部技术力量。因此,我们还需梳理整个领域还有哪些技术可供选择。由于 TPU 属于 ASIC 类 AI 芯片,我们将从这一类别出发,探索更多强有力的替代方案。接下来,让我们来深入看看它们如何构想未来 →
02 专用集成电路(Application-Specific Integrated Circuits, ASICs)
ASIC 是完全定制的硅芯片,专为某一种特定的 AI 工作负载而设计。这类芯片既包括云服务巨头的自研芯片,也涵盖初创企业打造的专用 AI 硬件。在这一领域,我们不得不提及……
2.1 Cerebras 晶圆级引擎(Wafer-Scale Engine, WSE)
Cerebras 将未来押注于晶圆级芯片。其最新款 Cerebras WSE-3 芯片实际上是史上尺寸最大的 AI 芯片之一 —— 面积高达 46,255 mm²。其核心技术在于:Cerebras 将整片硅晶圆直接制成一颗芯片,而不是像传统 CPU 或 GPU 那样将晶圆切割成数百个小处理器。
WSE-3 包含 4 万亿个晶体管、90 万个专为 AI 优化的核心,以及 44 GB 片上 SRAM 内存。每个核心都配备有独立的本地内存,并通过横跨整个晶圆的超高带宽互连网络(fabric)彼此连接,从而大幅缩短计算单元与内存之间的距离。
图片来源:Cerebras Wafer-Scale Engine (WSE) 产品手册
Cerebras 的晶圆级理念带来了令人瞩目的成果:
单颗 WSE-3 可提供 125 petaFLOPS 的 AI 算力。
据 Cerebras 声称,将 WSE-3 组合成晶圆级集群(Wafer-Scale Cluster, WSC),并集成 MemoryX(用于存储超大模型权重的片外存储)和 SwarmX(用于在节点间广播权重并聚合梯度),即可高效支持数万亿参数模型的训练,且几乎能随硬件规模线性提升性能,同时规避传统 GPU 集群中复杂的通信开销。
目前有哪些模型已在 Cerebras WSE 上运行? 以下是两个典型示例:
1)阿里巴巴的 Qwen3 Coder 480B Instruct,推理速度达到 每秒 2,000 个 token。
2)混合专家模型(Mixture-of-Experts, MoE):Cerebras 使其大规模训练变得更加简单高效。这类模型可在单个设备上完成训练,无需模型并行(而使用 GPU 时通常必须依赖模型并行)。Cerebras 采用的注意力批处理分块(Batch Tiling on Attention, BTA)技术,解决了稀疏 MoE 模型的计算效率问题 —— 它将注意力层与专家层的批处理需求解耦:注意力层在较小的“分块”(tiles)上运行,以降低内存压力;专家网络则处理更大的有效批次,确保其核心始终处于高利用率状态。
由此可见,这是一项以规模制胜的强大技术。
2.2 AWS Trainium 与 AWS Inferentia
亚马逊同样推出了突破 GPU 垄断的替代方案,并形成了自己对高效硬件的独特构想。其两款自研芯片专为 AI 工作负载设计,并深度集成于 AWS 生态系统之中。
AWS Trainium 专用于模型训练,AWS Inferentia 则面向推理任务。这两款芯片内部均采用定制的 NeuronCore、高带宽内存(HBM),以及用于张量运算、集合通信和稀疏性加速的专用引擎。
配备 64 颗 Trainium 2 芯片的 Trainium 2 UltraServer 服务器,在处理稀疏模型时,最高可提供 83.2 petaflops 的 FP8 算力;在处理稠密模型时,FP8 算力约为 20.8 petaflops。相比之下,单颗 NVIDIA H100 GPU 的 FP8 算力大约只有 4 petaflops。
AWS Inferentia 2 支持大规模部署大语言模型(LLM)和扩散模型(diffusion models),其每瓦性能比基于 GPU 的同类 EC2 实例(例如 G5 系列)提升约 50 %。
因此,AWS 硬件为生成式 AI 的需求提供了在规模、性能与成本效益三者之间高度平衡的解决方案。
在了解了这些定制化的高效 ASIC 的案例后,我们再回到那些名字中带有 “..PU” 的硬件新锐。接下来是……
2.3 加速处理单元(Accelerated Processing Unit, APU)
如前文所述,AMD 开发了一种混合型处理单元架构,将 CPU 与 GPU 的能力融合进单一芯片封装中,由此诞生了加速处理单元(APU)。这种设计消除了在独立处理器之间来回传输数据所带来的性能瓶颈。
迄今为止,该理念的最大代表作是 AMD Instinct MI300A。它集成了 24 个 “Zen 4” CPU 核心、228 个 GPU 计算单元,以及高达 128 GB 的 HBM3 内存。
其内部采用 AMD 的 chiplet(小芯片)与 3D 堆叠技术打造。MI300A 的内存能够在 CPU 和 GPU 之间共享,峰值带宽高达 5.3 TB/s。其多芯片架构通过 chiplet 与裸片堆叠,将 CPU 和 GPU 计算单元紧邻高带宽内存布置,并由 AMD 的 Infinity Fabric 与 Infinity Cache 统一互联。此外,该芯片全面支持主流 AI 数据格式,并具备硬件级稀疏性加速能力。
图片来源:AMD INSTINCT™ MI300A APU 产品手册
那么问题来了:既然可以拥有“一体式引擎”,又何必在 CPU 和 GPU 之间做选择?
NVIDIA 也在其 NVIDIA Grace Hopper Superchip 中践行了类似理念 —— 这是一款统一模块,将基于 Arm 架构的 Grace CPU 与 Hopper GPU 通过 NVIDIA 自研的 NVLink-C2C 芯片间互连技术紧密耦合。其核心优势与 AMD MI300A 高度一致:
CPU 与 GPU 线程可直接访问彼此的内存,
能够执行原子操作,
并实现更高效的同步管理。
NVIDIA 表示,Grace Hopper Superchip 在图神经网络(GNN)训练上,速度比通过 PCIe 互联的 H100 GPU 快最多 8 倍;在嵌入向量(embedding)生成任务上,比纯 CPU 方案快约 30 倍。
然而,这种 CPU 与 GPU 的融合也带来了更高的功耗、更低的灵活性以及更复杂的制造工艺。
接下来,我们将转向一些更小巧的硬件类型。
2.4 神经网络处理单元(Neural Processing Unit, NPU)
你可以想象一下,在一颗普通芯片内部专门内置一个用于 AI 任务的加速器 —— 这也正是神经网络处理单元(NPU)的核心理念。NPU 本质上是现代芯片中专为运行 AI 工作负载而打造的小型引擎,用于处理神经网络、图像与语音识别,甚至本地运行的大语言模型(LLM)。通过模拟人脑神经网络架构,NPU 针对 AI 工作负载的计算模式进行专门优化:大量矩阵乘法、激活函数运算,以及在极低功耗下实现高速数据移动。
以下是一些我们如今能在各种设备中实际找到的 NPU 示例:
高通(Qualcomm)Snapdragon 芯片中的 Hexagon NPU,为智能手机、汽车、可穿戴设备等提供 AI 功能支持。
Apple Neural Engine:首次亮相于 2017 年的 A11 Bionic 芯片,如今已集成于所有搭载 Apple Silicon 的 iPhone、iPad 和 Mac 中,用于驱动 Face ID、图像处理和 Sir 等功能。
英特尔 NPU(搭载于新一代酷睿 Ultra AI PC 处理器,如 Lunar Lake、Arrow Lake),专为在本地运行 Windows Copilot+ 功能而设计。
AMD 的 XDNA / XDNA 2 NPU:出现在面向笔记本的 Ryzen AI 处理器中,AI 性能高达 55 TOPS。
NPUs 非常适合端侧推理,但尚不足以用于训练大语言模型或运行极高负载的任务。 此外,它们也无法取代 CPU 或 GPU 来执行通用计算任务。 如果你运行的不是神经网络类负载,NPU 甚至无法正常发挥作用。正是这种高度专精的特性,使 NPU 在众多“PU”中独树一帜。
03 其他有前景的替代架构
3.1 智能处理单元(Intelligence Processing Unit, IPU)
Graphcore 开发的 IPU 是一款具备 1,472 个独立处理器核心的大规模并行处理器,可同时运行近 9,000 个并行线程,并紧密耦合 900 MB 高速片上内存。这意味着数据可以在存储位置直接被处理。IPU 专为机器学习工作负载设计,凭借极高的细粒度并行能力和片上内存架构,它在图计算方面表现出色,能够通过并行处理图中各个节点上的操作,高效应对不规则且稀疏的工作负载。
图片来源:Graphcore IPU 博客,《Colossus™ MK2 GC200 IPU》
3.2 阻变处理单元(Resistive Processing Unit, RPU)
RPU 是一种实验性的存内计算(in-memory compute)单元,利用阻变存储器(如忆阻器 memristor 或 RRAM)直接在内存阵列中执行矩阵运算。这种方法极大减少了数据搬运,有望显著降低能耗与延迟。2025 年,IBM 研究人员展示了基于 ReRAM 的模拟存内 AI 加速器,支持片上训练与推理,具备低电压开关特性和多比特存储能力。
3.3 现场可编程门阵列(Field-Programmable Gate Arrays, FPGAs)
FPGA 在可重构 AI 领域具有重要地位,尤其适合需要完全掌控并行性、内存和延迟的场景。与 GPU 或 ASIC 不同,我们可以根据模型的具体需求定制 FPGA 的硬件逻辑,并在架构变更后重新编程。
典型案例如 AMD Versal™ AI Edge 系列 Gen 2,它属于 AMD 的自适应 SoC(System-on-Chip)家族。该芯片在传统 FPGA 可编程逻辑的基础上,进一步在同一裸片上集成了 Arm CPU 和专用 AI 引擎。
04 新兴架构(Emerging Architectures)
4.1 量子处理器(Quantum Processors)
量子芯片使用量子比特(qubits),而非经典比特,利用叠加(superposition)与纠缠(entanglement)等量子特性进行计算。目前,它们正被用于优化、搜索和模拟等任务领域的测试 —— 这些领域在理论上有望借助量子力学实现指数级加速。然而,量子比特仍然极其脆弱且易受噪声干扰,因此当前的量子计算机仅能处理“玩具级”问题。就现阶段而言,它仍是一个长期的“登月计划”,尚无法替代 GPU 或 ASIC。
4.2 存内计算(Processing-in-Memory, PIM)与基于 MRAM 的芯片
AI 面临的一大瓶颈在于内存与计算单元之间的数据搬运。PIM 技术将计算逻辑直接集成到内存阵列中,从而大幅减少这种来回传输。MRAM(磁阻随机存储器)是一种前景广阔的非易失性存储技术,能够支持这一范式转变,助力打造更高密度、更节能的 AI 加速器。三星等大厂以及 Mythic 等初创公司已开始试验相关原型。PIM 并非科幻概念 —— 未来十年内有望实际进入数据中心与边缘设备。
4.3 神经形态芯片(Neuromorphic Chips)
神经形态处理器受人脑脉冲神经元(spiking neurons)启发。与传统依赖密集的、时钟驱动的矩阵乘法不同,它们采用稀疏的、事件驱动的脉冲信号进行计算。例如 Intel 的 Loihi 和 IBM 的 TrueNorth,目标是在传感器、物联网(IoT)和机器人等场景中实现超低功耗的智能。其主要挑战在于:脉冲神经网络(SNN)仍处于早期阶段。尽管神经形态硬件在低功耗边缘 AI 领域潜力巨大,但尚不确定它能否扩展至像大型 Transformer 这类的主流工作负载。
05 结语(Conclusion)
总体而言,各类硬件的定位如下:
CPU(中央处理单元)——通用处理器。
GPU(图形处理单元)——专为并行图形计算/数学计算优化。
TPU(张量处理单元)——Google 的 AI 加速器。
ASICs(专用集成电路)——为特定 AI 工作负载定制的芯片。
APU(加速处理单元)——AMD 的 CPU + GPU 融合架构。
NPU(神经网络处理单元)——专为端侧 AI/ML 推理优化的小型芯片。
IPU(智能处理单元)——提供极高细粒度的并行性与片上内存架构。
RPU(阻变处理单元)——基于阻变存储器的存内计算单元。
FPGAs(现场可编程门阵列)——支持对并行性、内存和延迟的完全控制。
由此可见,如今“PU”家族选项丰富,GPU 之外也涌现出多种替代方案,这使得硬件生态呈现多样化的态势,并为未来多方向的突破敞开大门。近期,多家科技巨头纷纷宣布正在研发新一代硬件:NVIDIA 正在推进 Rubin 架构,Meta 在测试自研芯片,阿里巴巴及其他中国公司也在开发 AI 推理芯片,以构建自主的硬件生态。这意味着更多全新的技术栈将陆续登场。
若跳出 GPU 和 CPU 的传统框架,我们能清晰看到一个趋势:AI 硬件市场正加速碎片化,各大厂商都在推动各自的软硬一体化生态。 这对开发者和企业而言,既是机遇,也是挑战 —— 如何在不断扩张的硬件版图中,有效应对兼容性、软件支持与成本效益等问题,将成为未来的关键课题。
END
本期互动内容 🍻
❓AI 硬件生态正加速碎片化,你认为未来是“一超多强”还是“百花齐放”?
原文链接:
https://www.artificialintelligencemadesimple.com/p/inside-the-ai-hardware-race-guest
版权声明: 本文为 InfoQ 作者【Baihai IDP】的原创文章。
原文链接:【http://xie.infoq.cn/article/5cb2085d18231e7812691a8b9】。文章转载请联系作者。







评论