写点什么

英特尔 PK 赛灵思,完美胜出!Agilex™ FPGA 迎来大规模量产

发布于: 2021 年 05 月 18 日

英特尔在半导体领域称雄几十年,凭借的就是其 x86 架构和曾经遥遥领先竞争对手的半导体制造工艺。然而在过去的三四年,英特尔在 10 纳米工艺上却遇到了阻碍,甚至被曾经望尘莫及的竞争对手完成了弯道超车,并纷纷投入量产。痛定思痛的英特尔于 2019 年,一口气发布了四款基于 10 纳米工艺的芯片产品, Agilex™ FPGA 正是其中一款基于英特尔 10 纳米工艺的旗舰级 FPGA 产品。

  经过近两 年的评估期, Agilex ™ FPGA 已于 2021 年 1 月进行大规模量产出货 。 5 月 13 日, 英特尔 数据平台事业部副总裁兼可编程解决方案事业部( PSG )产品营销总经理 Deepali Trehan 召开媒体见面会,并在一对一采访中向媒体披露了更多技术细节。



Deepali Trehan,英特尔数据平台事业部副总裁兼可编程解决方案事业部(PSG)产品营销总经理

  性能巅峰:Agilex™ FPGA 简介

  英特尔® Agilex™ FPGA 设备采用异构 3D 系统级封装 (SiP) 技术,集成了英特尔首款基于 10 纳米 SuperFin 技术的 FPGA 架构和第二代英特尔® HyperFlex™ FPGA 架构,还集成了四核 Arm* Cortex-A53 处理器,以提供高度的系统集成性。Agilex 代表着全行业最佳的收发速率,达到了每秒 116Gbps。此外,测试芯片还可以达到每秒 224Gbps。英特尔® Agilex™ FPGA 目前可提供业界领先的能效和性能:

  •   相比竞争对手的 7 纳米 FPGA,视频 IP 性能提升了 50%

  •   相比竞争对手的 7 纳米 FPGA,结构性能功耗比提升了约 2 倍,有助于帮助数据中心等应用实现更加灵活、高能效的设计

  •   英特尔® Agilex™ FPGA 将数据中心、网络和边缘应用的性能平均提升了 45%

  •   相比前代 FPGA,结构性能提升了高达 49%,可有效支持高速 5G 前传网关应用



英特尔® Agilex™ FPGA 平面图(未按比例绘制)

  据介绍,英特尔® Agilex™ FPGA 系列包含 F、I、M 三个系列,特别适用于需要灵活性,敏捷性和高性能的应用,例如边缘计算,网络,云或数据中心加速器。对于三个不同的系列,Agilex F 系列在量产当中,此次重点介绍的正是该系列的产品;I 系列在实验室当中,预计将会在本季度向客户发货;M 系列还在开发当中,目前并没有公布量产时间。

  Agilex 是原 FPGA 巨头 Altera 在 2015 年底被英特尔收购、并成为其可编程方案事业部(PSG)后正式推出的一个全新的 FPGA 系列。Agilex 是 Agile(敏捷)和 Flexible(灵活)的合二为一,而这两个特点正是现代 FPGA 技术最为核心的两大要点。除了 Altera 的技术积累之外,Agilex 的成功更离不开英特尔核心技术的加持。对于芯片制程而言,在相同的工艺节点下,英特尔的工艺往往具有更优异的性能,这也是业界公认的事实。现如今,英特尔的十纳米工艺已经达到稳定并量产,这也正是它敢于正面叫板竞争对手的底气所在。

  棋逢对手:与赛灵思的巅峰对决

  随着边缘、5G 网络以及数据中心的不断发展,三大领域都呈现了一个共同的趋势,即数据的爆增,快速变化的环境,以及对于快速部署的需求。FPGA 因其灵活性,在这一个发展趋势中,越来越受到客户的青睐。为了稳固 FPGA 实力和扩大市场占比,近几年,赛灵思和英特尔除了升级自身技术和产品阵列外,均在并购和构建生态系统方面加大了火力,进一步挖掘 FPGA 快速部署的上升空间。



Deepali Trehan 提供了一系列 Agilex™ FPGA 与赛灵思 7nm Versal 进行对比的数据。英特尔® Agilex™ FPGA -2V FPGA 相对于 Xilinx Versal -2M 的对比数据显示,Agilex™ FPGA 比 Versal 的逻辑结构性能功耗比高约 2 倍,在视频 IP 性能上有超过 50%的性能提升,逻辑结构性能功耗比高约 2 倍。具体:

  •   Warp 图像转换器快 32%,

  •   OSVP 1X 可扩展视频处理器快 48%,

  •   OSVP 8X 可扩展视频处理器快 33%,

  •   MPVDMA 多端口视频直接内存访问快 71%,

  •   Combiner 视频流合并快 73%

  据介绍,Agilex 中的视频 IP 块都是由 Omnitek 所开发的。Omnitek 是一家初创企业,主打视频加速与推理,原来的专长是专为赛灵思的 FPGA 进行 IP 块开发。2019 年 Omnitek 被英特尔收购,Agilex 中所使用的 IP 块就是此前专为赛灵思的设备架构来进行开发的。在 Agilex 上使用时,Omnitek 基于 Agilex 的架构进行了简要的改变,仅仅改变了内存和 DSP 实例。

  FPGA 是一种非常好的能够提升能源效率的架构,可以说它的应用非常广泛,跨整个数据中心、云以及企业级,以及通过无线或者是有线网络来实现,包括在边缘采取嵌入式的方式。FPGA 最大的价值在于灵活性,所以它可以服务于在云、网络和边缘端的各种应用程序。双巨头格局下,且看 FPGA 双雄英特尔和赛灵思还将如何创新,不断收获新城池。

  黑科技加持:架构再次创新

  据介绍,Agilex 是专门为以数据为中心的世界设计的,目的是在数据的处理、存储以及移动过程当中提供行业的领导力。Agilex 的性能特征,包括行业内最高的达到每秒 116Gbps 的收发速率,以及支持 PCIe Gen5、CXL 与至强进行联合使用,DDR5、HBM 以及傲腾持久内存进行兼容。对于产品性能,Deepali Trehan 表示,英特尔此前对 Agilex 性能的预期,是在最大时钟速率(Fmax)上比上一代 14nm Stratix 10 提高 40%,但最新的实测数据显示是高出了 45%的性能。

  在设计当中,Agilex 第一款完全从一开始的概念到设计、到实施、到验证以及到最后的生产制造都是端到端在英特尔全方位开发的 FPGA。我们来看看 Agilex 究竟是通过怎样的设计来实现这些优势的。

  10 纳米 SuperFin 技术

  Agilex™ FPGA 是基于 10 纳米 SuperFin 技术,这也是目前世界上最先进的 FinFET 制程技术之一。它融入了诸多新技术,比如自对齐四重曝光(SAQP)、钴局部互连、有源栅极上接触(COAG)等。SuperFin 晶体管技术的推出,是英特尔有史以来最为强大的单节点内性能增强。凭借该技术,英特尔实现了其新一代的 10nm 工艺可以媲美其初代的 7nm 工艺。

  此外,Agilex™ FPGA 还提供了提供面向 FPGA 优化的金属层堆叠和晶体管,以及融合了英特尔专有嵌入式多芯片互连桥接(EMIB)集成的 3D 异构系统级封装(SiP)技术,所有这些都有助于每瓦性能的提升,降低耗散功率,以及减少成本的支持。

  新一代 HyperFlex 寄存器结构

  英特尔在 Stratix10 FPGA 中首次引入了 HyperFlex 架构。它的主要思想就是在 FPGA 的布线网络上,加入很多名为 Hyper-Register 的小型寄存器,这样可以把原本比较长的时序路径分割成多个较短的路径,从而提升 FPGA 的时钟频率。不过 HyperFlex 在实际应用中还是存在很多问题,比如很多情况下并不会用到所有的 hyper-register,这就需要每个寄存器都配备一个 2:1 选择器用来选通。此外,这样的架构还会带来较大的额外延时。在赛灵思推出的 ACAP 中,引入了名为“Imux 寄存器”的新结构,并且对上述问题进行了针对性的改进。

  英特尔在第二代 Hyperflex 架构中也对这些问题进行了大幅度的改进,尤其是对互连路由寄存器进行了重新设计,以减少延迟和面积,这个重构的互连结构减少了负载和延迟,用较短的线路替代了高扇出线路,增加了直接逻辑块输出,并使用较短的连接改进了点对点的路由,减少了延迟并且缩小了面积。并在资源配置上也进行了优化,从而降低功耗和提高性能。

  基于 Chiplets 架构的收发器设计

  Chiplets 是一种物理 IP 模块,它代表了一种创新的方法,被认为是处理器的未来。Chiplets 通过用多个较小的芯片代替一个硅芯片来有效地绕过摩尔定律,这些芯片在统一的封装解决方案中一起工作。与单片微芯片相比,这种方法提供了更多的硅来添加晶体管。



收发器眼图,224 Gbps PAM4 测试芯片

  在收发器的设计上,Agilex 采取了异构基于 Chiplet 的一种设计,因此它可以针对具体的应用程序需求,可以适用于任何代工厂,制程节点,以及任何 IP 开发商,所以它真正的带来了一种自由度,使得用户可以根据应用的需求来具体开发行业领先的功能。仅此一项,英特尔就将单个收发器通道的速度从 58Gbps 提升到了代表着全行业最佳收发速率的 116Gbps。

  基于 chiplet 的开发,英特尔还在继续挖掘。Deepali Trehan 说:“Agilex I 系列包括一个特别的 chiplet,它支持 F 系列中没有的 CXL 接口;M 系列包括一个增强的核心结构 chiplet,让接口支持 DDR5 和英特尔傲腾持久内存。如果需要,我们现在的测试芯片还可以达到每秒 224Gbps。”

  进一步优化 Quartus® Prime 软件

  在软件方面,Intel 对 Quartus 软件进行了极大的优化提升,和 Agilex 同步开发。Intel 优化了重定时感知综合,包括在布局布线以及全局重定时算法方面得到了优化,从而实现它的最大性能,另外通过精细的寄存器重新定时和时钟偏斜调度,实现并发的建立和保持时间优化,达到签核质量(signoff-quality)的时序分析。

  Intel 同时还开发了多个编译流程来符合客户不同的开发需求,以满足他们提升运行时间以及快速故障排除方面的需求。通过这些在软件方面所付出的努力,将编译时间下降了 45%。同时 Intel 又进行多达 135 种的 Design Assistant 规则,以便在规则方面实现好的控制。通过这些努力可以实现快速的编译以及减少在 FPGA 方面的迭代的需求。

  典型应用案例:SmartNIC

  SmartNIC 是英特尔 Agilex™ FPGA 和其至强处理器进行联合使用的一个很好的例子。基于以太网的 NIC 如今在整个网络中都得到广泛使用,提供服务器、CPU 和其它网络处理元件的端点连接性能。英特尔在 SmartNIC 领域进行了大量投资,并制定了新产品的长期路线图,以保持领先优势。

  英特尔 Agilex FPGA 对于快速增长的英特尔 SmartNIC 品类至关重要。在至强当中插入 Agilex FPGA,可以用于至强处理器工作负载的加速。这样 CPU 的一些管理功能进行卸载,它可以直接访问 CPU 和 RAM,而不需要用虚拟化的方式。通过全新的优化,英特尔 Agilex FPGA 提供比竞争对手的 7 纳米 FPGA 高 30%的逻辑结构性能和高 2 倍的结构每瓦性能,能够为 FPGA 加速的应用实现更高的性能、更快速的实时功能和更低的总体拥有成本。

  —— 结束语 ——

  当前,处理器巨头都在重点布局 5G、数据中心和边缘三大领域。英特尔认为,这三大领域的需求多种多样而且不断变化,面临的挑战是继续在核心领域取得进步,例如提高数据传输和处理的性能,同时还要满足每个具体领域的独特需求。具体来看,在 5G 方面,基础设施的某些环节需要超高能效,而无线应用中常见的信号处理功能需要高性能;在云和企业领域,不断变化的基础设施和应用加速中有相当多的工作负载需要高性能和高能效;在边缘,需要更高的计算力来满足对更高的交互、更多富媒体内容和更低的时延的需求,同时仍需满足严苛的功耗、散热和空间限制要求。



以数据为中心的世界需要更高的能效

所有正在发生行业转型的重要技术,包括边缘、5G、云计算等,背后都是数据的爆增所驱动的。无论是网络、数据中心还是边缘都有大量激增的数据处理要求,数据的爆增正在驱动着比以往更多的对计算力的要求。因此对于整个参与处理的所有部件以及产品,提升其性能就变得至关重要。但性能提升并不意味着功耗的下降。当前,能耗的不断增加导致 TCO(即总拥有成本,包括产品采购到后期使用、维护的成本)巨大的提升,非常缺乏可持续性,同时对环境产生巨大影响。大家都在寻求降低功耗的方式,降低功耗的目的是一方面去满足不断增长的数据处理需求,另一方面也要不断提高能源效率来降低功耗,也就是说大家关注的是每瓦性能这样的指标。越高的每瓦性能就越好,这意味着能有更优的计算力以及更少的能源消耗。

除此之外,还需要更高的灵活性。要想成功,解决方案提供商必须通过得到良好支持的开发流程快速地把处理、内存、数字信号处理、专门接口和 FPGA 灵活性整合到高度集成化的组件中,满足目标市场的确切需求。英特尔正在转型以加速增长。他们已经围绕关键转折性技术建立了庞大的业务,例如云、人工智能、5G 和智能自主边缘。英特尔拥有针对从边缘到云的工作负载的广泛计算架构,而英特尔 FPGA 产品是其中的关键组成部分。Deepali 表示:“就是对于灵活性需求非常高的时候。加速器方面,可以说发展变化十分迅速,同时会不断涌现出新的用例。一切都是基于应用的,英特尔提供全方位的选择,同时我们又提供统一开发的策略。” 

用户头像

专注intel动态 2020.08.19 加入

搜罗各种Intel新闻

评论

发布
暂无评论
英特尔PK赛灵思,完美胜出!Agilex™ FPGA迎来大规模量产