引领异构时代,英特尔发布重大架构创新
英特尔公司高级副总裁兼加速计算系统和图形事业部总经理 Raja M. Koduri
英特尔推出两大 x86 CPU 内核、两大数据中心 SoC、两款独立 GPU,以及变革性的客户端多核性能混合架构
架构是硬件和软件的“炼金术”。它融合特定计算引擎所需的先进晶体管,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,并确保所有软件无缝地加速。披露面向新产品的架构创新,是英特尔架构师在每年架构日上的期许,今年举办的第三届英特尔架构日令人十分兴奋。
今天,英特尔公布了英特尔®架构在近年来重大的改变和创新。 这包括:第一次深入介绍了英特尔首个性能混合架构 Alder Lake,其搭载两款新一代 x86 内核以及智能英特尔®硬件线程调度器;英特尔全新引领行业标准的数据中心架构 Sapphire Rapids,其搭载全新的性能核以及多种加速器引擎;英特尔全新的独立游戏图形处理器(GPU)架构;英特尔全新的基础设施处理器(IPU)以及超凡的数据中心 GPU 架构 Ponte Vecchio,其具备英特尔迄今为止最高的计算密度。
架构突破为英特尔的下一波领先产品奠定基础,率先推出的是 Alder Lake。随着从台式机到数据中心的工作负载愈发庞大、愈发复杂、愈发多样,英特尔在架构日上展示的突破展现了架构将如何满足对更高计算性能的需求。
架构师们奋力而行,结合英特尔独特、丰富的标量、矢量、矩阵和空间计算引擎,打造混合计算架构,为客户的高需求工作负载提供非线性处理能力。
能效核:一个高度可扩展的 x86 微架构,它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的 CPU 微架构——Skylake,能效核可在相同功耗下提升 40%的单线程性能,或者在提供同样性能时,功耗仅为 Skylake 的 40%不到。1 就吞吐量性能而言,与运行四个线程的两个 Skylake 内核相比,四个能效核在性能提升 80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低 80%。1
性能核:它不仅是英特尔迄今为止性能最高的 CPU 内核,而且在 CPU 架构性能方面实现阶梯式提升,推动未来十年的计算发展。它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。它还帮助支持大数据集和大型代码体积的应用程序。与第 11 代酷睿架构(Cypress Cove 内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约 19%。1
针对数据中心处理器和机器学习的发展趋势,性能核提供了专用硬件,包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,以获得数量级的性能——AI 加速提升约 8 倍。这是为软件易用性而设计,利用了 x86 编程模型。
英特尔硬件线程调度器:这是英特尔开发的独特调度方法,旨在确保将能效核和性能核无缝衔接在一起,从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。智能直接置于内核,英特尔硬件线程调度器与操作系统无缝配合,在合适的时间把合适的线程分配给合适的内核。
Alder Lake:它重构了多核架构,是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构。它是英特尔最智能的客户端 SoC 架构,结合了能效核和性能核,适用于从移动端到台式机的产品,并通过多种业界领先的 I/O 和内存而引领行业变革。基于 Alder Lake 的产品将在今年开始出货。
Xe HPG 和 Alchemist SoC:一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧友级别的性能。Xe HPG 微架构采用新的 Xe 内核,聚焦计算、可编程、可扩展,并全面支持 DirectX 12 Ultimate。Xe 内核中的全新矩阵引擎(Xe Matrix eXtensions,XMX)能够加速 AI 工作负载,比如 XeSS,是一项全新升频技术(upscaling technology),可以实现高性能、高保真游戏体验。基于 Xe HPG 的 Alchemist SoC(之前代号为 DG2)将于 2022 年第一季度上市,并采用新的品牌名英特尔®锐炫™。
Sapphire Rapids:它结合了英特尔的性能核与全新加速器引擎,树立了下一代数据中心处理器的标准。Sapphire Rapids 的核心是一个模块化的分区 SoC 架构,得益于英特尔的 EMIB 多晶片互连封装技术和先进网格架构,它具有显著的可扩展性,同时仍保持单晶片 CPU 接口的优势。
基础设施处理器(IPU):Mount Evans 是英特尔首款专用 ASIC IPU,以及全新的基于 FPGA 的 IPU 参考平台——Oak Springs Canyon。通过基于英特尔 IPU 的架构,云服务提供商(CSPs)可以通过把基础设施任务从 CPU 转移到 IPU,从而让数据中心收益更大化。把基础设施任务转移到 IPU,能够让云服务提供商(CSPs)可以把所有的服务器 CPU 租给客户。
Xe HPC, Ponte Vecchio:Ponte Vecchio 是英特尔迄今为止最复杂的 SoC,也是英特尔践行 IDM 2.0 战略的绝佳示例,它采用多种先进的半导体制程工艺、英特尔变革性的 EMIB 技术以及 Foveros 3D 封装技术。这是英特尔实现堪比登月难度创新后的一款产品,它包含 1000 亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。在架构日上,英特尔展示了早期的 Ponte Vecchio 芯片就已经显示出领先的性能,在一个流行的 AI 基准测试上创造了推理和训练吞吐量的行业纪录。1 英特尔的 A0 芯片已经实现了超过每秒 45 万亿次浮点运算的 FP32 吞吐量,超过 5 TBps 的持续内存结构带宽以及超过 2 TBps 的连接带宽。如 Xe 架构一样,Ponte Vecchio 将由 oneAPI 支持,后者是英特尔一个开放、基于标准、跨架构、跨供应商的统一软件堆栈。
回望过去一年,科技处于所有人如何沟通、工作、娱乐和应对新冠肺炎疫情的核心。事实证明,强大的计算能力至关重要。展望未来,我们面临庞大的算力需求,预计到 2025 年将是 1000x(千倍级)的提升,而四年内增加 1,000 倍相当于摩尔定律的 5 次方。
英特尔 CEO 帕特·基辛格也是一位架构师,他说:“我们面临艰巨的计算挑战,一定要通过变革性的架构和平台来解决……正是英特尔才华横溢的架构师和工程师们,让这些技术‘魔法’得以成真。”
世界正依赖架构师和工程师来解决艰巨无比的计算问题,以造福人类。这就是为什么英特尔的战略和执行不断加速以满足所需,疾步前行。
评论