英特尔 Agilex FPGA 大规模量产出货,正面硬杠赛灵思
2019 年 5 月,也就是曾经的 FPGA 巨头 Altera 被英特尔收购的 4 年之后,英特尔宣布推出了“全面借助自身能力”开发的新一代 FPGA 产品—Agilex。与此前 Altera 推出的 Stratix、Arria、Cyclone 等产品系列完全不同,Agilex 是一个全新的 FPGA 系列,“体现了你能想象到的所有与 Intel 相关的技术资源”,被英特尔寄予了更多的期待。
Agilex 是 Agile(敏捷)和 Flexible(灵活)两个词语的结合体,也是现代 FPGA 技术最为核心的两大要点。而上文所提及的“相关技术资源”,基本上等同于英特尔在 2018 年底“架构日”上所提出的制程和封装、架构、内存和存储、互连、安全、软件这“六大技术支柱”。这意味着,Agilex FPGA 通过异构架构,实现了对不同制程工艺、不同逻辑单元之间的集成,在灵活性和定制化方面实现了突破。
2021 年 1 月,随着 Agilex FPGA 的大规模量产出货,更多技术细节得以公布。
赋能数据中心
为了让客户拥有更多更灵活的选择,Agilex FPGA 包含 F、I、M 三个系列,在配置和性能依次提升。具体来说,F 系列适用于数据中心、网络和边缘的各种应用;I 系列适用于需要大量接口带宽和高性能的应用;M 系列提供面向英特尔至强处理器的一致性连接、HBM 集成、增强型 DDR5 控制器和英特尔傲腾 DC 持久内存支持,针对需要大量内存和高带宽的数据密集型应用进行了优化。
广告
英特尔数据平台事业部副总裁兼可编程解决方案事业部(PSG)产品营销总经理 Deepali Trehan 对《电子工程专辑》表示,英特尔此前对 Agilex 性能的预期,是在最大时钟速率(Fmax)上比上一代 14nm Stratix 10 提高 40%,但最新的实测数据显示是高出了 45%的性能。
她也将 Agilex FPGA 与赛灵思 7nm Versal 进行了对比。英特尔方面提供的数据显示,Agilex FPGA 比 Versal 的逻辑结构性能功耗比高约 2 倍,而在算力方面,Agilex FPGA 相比赛灵思 Versal 有超过 50%的视频 IP 性能提升,具体体现在以下 5 方面:
● Warp 图像转换器快 32%;
● OSVP 1X 可扩展视频处理器快 48%;
● OSVP 8X 可扩展视频处理器快 33%;
● MPVDMA 多端口视频直接内存访问快 71%;
● Combiner 视频流合并快 73%。
在谈及与 Stratix 系列的定位差异时,Deepali Trehan 指出,Stratix 10 属于高性能 FPGA,非常适合业内大多数高端 FPGA 应用;Agilex F/I/M 系列 FPGA 进一步提升了行业标杆,提供业内领先的性能和能效,以及其它领先的特性,比如 116Gbps 收发器、率先支持专注于 AI 的 DSP 模式(例如 BFLOAT16 和半精度浮点)、以及第一个面向傲腾持久内存的硬接口,因而在以数据为中心的世界中非常适合最大、计算最密集的 FPGA 应用。
“5G、数据中心和边缘三大领域将继续是重点创新领域。值得注意的是,这三大领域的需求多种多样而且不断变化。因此,相关解决方案提供商面临的挑战是继续在核心领域取得进步,例如提高数据传输和处理的性能,同时还要满足每个具体领域的独特需求。”她说。
例如在 5G 领域,基础设施的某些环节需要超高能效,而无线应用中常见的信号处理功能需要高性能;在云和企业领域,不断变化的基础设施和应用加速中有相当多的工作负载需要高性能和高能效;在边缘,需要更高的计算力来满足对更高的交互、更多富媒体内容和更低的时延的需求,同时仍需满足严苛的功耗、散热和空间限制要求。
因此,要想成功,解决方案提供商必须通过得到良好支持的开发流程快速地把处理、内存、数字信号处理、专门接口和 FPGA 灵活性整合到高度集成化的组件中,满足目标市场的确切需求。
众多“黑科技”加持
但坦率的说,如果仅凭异构架构这一点,Agilex FPGA 其实是无法实现上述性能指标的,那么,Agilex FPGA 中还隐藏着哪些不为人知的“黑科技”呢?
10 纳米工艺和高级 3D 封装
Agilex 器件核心的 FPGA 逻辑结构芯片采用了英特尔 10 纳米 SuperFin 芯片制程技术构建,这也是目前世界上最先进的 FinFET 制程技术之一。同时,Agilex 还融合了英特尔专有嵌入式多芯片互连桥接(EMIB)集成的 3D 异构系统级封装(SiP)技术,它提供了一种高性能、低成本的方法,有助于将 Chiplets 和 FPGA 逻辑结构芯片集成至相同的封装中。
第二代英特尔 HyperFlex 架构和 Chiplets 架构
Agilex FPGA 的逻辑结构芯片采用了第二代英特尔 HyperFlex 架构,除了与第一代架构一样,在整个核心结构中都使用额外的寄存器 Hyper-Registers 外,二代架构还提升了整体结构性能,同时最大限度地降低了功耗,其中最显著的一项改进是在超级寄存器中添加了高速旁路。
而 Chiplets 是一种物理 IP 模块,可通过封装级集成方法和标准化接口集成其他 Chiplets。借助 Chiplets 这种混合搭配模式,收发器数量不再受通道数量的限制。设计人员要想增加或减少收发器通道数量,只需添加所需的收发器 Chiplets 即可,无需重新布局芯片以集成不同数量的通道。仅此一项,英特尔就将单个收发器通道的速度从 58Gbps 提升到了代表着全行业最佳收发速率的 116Gbps。
“如果需要,我们现在的测试芯片还可以达到每秒 224Gbps。”Deepali Trehan 说。
F、I 和 M 系列采用了不同的 chiplet 组合,以实现差异化。例如,I 系列包括一个特别的 chiplet,它支持 F 系列中没有的 CXL 接口。此外,M 系列包括一个增强的核心结构 chiplet,让接口支持 DDR5 和英特尔傲腾持久内存。可以看到,基于 chiplet 的开发策略在为 F、I 和 M 系列实现差异化特性功能方面发挥了巨大作用。
高性能处理器接口
在数据中心里作为 CPU 的硬件加速器,用来加速深度学习的模型训练、金融计算、网络功能卸载等各类应用,是当前 FPGA 的一个主要应用场景。但该领域亟待解决的核心问题之一,就是缓存一致性。换句话说,就是必须要明确 CPU 与硬件加速器之间的内存互联协议。
2019 年 3 月,英特尔宣布联合微软、阿里、思科、戴尔 EMC、Facebook、谷歌、惠普企业 HPE 和华为等公司,共同推出一个全新的互联标准,取名为 Compute Express Link(CXL),应用目标锁定互联网数据中心、通信基础设施、云计算与云服务等领域,而这也正是 FPGA 大显身手的重要平台。
为了确保高性能在线处理和处理器负载加速,英特尔 Agilex FPGA 支持最新一代高性能处理器接口,包括 PCIe Gen 5 和 CXL,并将成为首款采用 Xeon 可扩展处理器的一致的高速缓存和内存互联结构的 FPGA。
先进的内存层级结构
Agilex FPGA 支持各个层级的内存资源,包括通过专用接口提供的嵌入式内存资源、封装内内存和片外内存。该层级结构的第一层是嵌入式片上内存,包括 MLAB、块 RAM 和 eSRAM,每种内存均可提供不同的容量,以满足不同的处理需求。此外,英特尔在设计中还使用 SIP 技术将高带宽内存(HBM)直接集成至 Agilex FPGA 器件中,有助于缩减电路板尺寸和成本,简化与降低电源需求。
另一个值得关注的重点是 Agilex 平台还集成了 eASIC 技术。这种集成 eASIC 芯片定制技术能够实现从 FPGA 到结构化 ASIC 的迁移。换句话说,用户可以利用 eASIC 自身具备的可复用 IP 的自定义逻辑连续体,在整个产品生命周期内进行灵活优化,快速从 FPGA 转移到 ASIC。
英特尔方面称,作为唯一同时提供 FPGA、结构化 ASIC(Easic)和 ASIC 的半导体公司,有各种使用模式能确定什么时候使用英特尔 eASIC 设备。第一个是降低 FPGA 的成本。在这个使用模式中,可用于现有 FPGA 或新设计(可能因为上市时间或设计验证的原因而在 FPGA 内开始);第二个使用模式是需要英特尔 eASIC 设备的低功耗和高性能优势。在这个使用模式中,功率、散热管理或更高的性能成为关键指标,而 FPGA 用于设计验证或原型制作,从而加快向 eASIC 迁移;最后一个使用模式是一起使用 FPGA 和 eASIC 设备,通过 eASIC 的好处而提供可编程优势。现在,这是两个单独的设备,但英特尔的愿景是使用 AIB 将 FPGA 和 eASIC 模块封装到一起。
软件
全新硬件架构每一个数量级的性能提升,软件能相应带来两个数量级的性能提升。在新一代 Agilex FPGA 上,配套支持软件 Quartus Prime 优化了重定时感知综合、布局布线以及全局重定时算法,从而在创新的逻辑结构和增强的平面布局中获取最大性能。此外,通过精细的寄存器重新定时和时钟偏斜调度,实现并发的建立和保持时间优化,Quartus Prime 达到了签核质量(signoff-quality)的时序分析。
数据显示,在 Quartus Prime 和超过 135 个 Design Assistant 规则的双重加持下,硬件开发者的编译时间缩短了 45%,内存利用率也提高了 15%,工作效率大幅提升。
同时,新一代的 Agilex FPGA 也被纳入到 oneAPI 的架构当中。2020 年,英特尔发布了英特尔 oneAPI Gold 版工具包。基于 oneAPI 基础工具包的英特尔 FPGA Add-on 支持 Agilex FPGA,让用户可以充分利用 FPGA 加上软件的优势打造自己的解决方案。此外,多个合作伙伴已经宣布今年晚些时候将推出基于 oneAPI 基础工具包的英特尔 FPGA Add-on 板卡。从英特尔可编程加速卡迁移到这些未来板卡的用户,将能够充分利用 Agilex FPGA 性能提升,而无需改变自己的软件应用。
结语:
我们现在正逐渐转向以数据为中心的时代。伴随着数据量的爆炸式增长,数据类型也发生了革命性变化,人工智能、5G、自动驾驶、云计算、物联网等新兴应用带来了更加多元化的计算需求。这意味着,在这个海量数据推动计算架构快速演进并呈指数级扩展的时代,没有一种单一的技术可以全面满足消费者或企业客户对未来的计算需求,不可能只通过直接的标量架构就能解决所有应用,他们需要的是在多样化的层级结构中连接多样化的架构
“公司正在转型以加速增长,我们不仅要学会防御,还要在历史上最大的市场机会面前扩大市场份额。”Deepali Trehan 指出,英特尔将为从边缘到云的工作负载提供广泛的计算架构,这是一个延续多年的旅程,包括 CPU、GPU、加速器和 FPGA 在内的 XPU 路线图将使英特尔在云、人工智能、5G 和智能自主边缘等关键转折性技术上拥有相当的竞争优势。
评论