英特尔第一超算 Aurora:峰值性能达 2 百亿亿次,拥有世界最大 GPU 集群
Aurora 是 Intel 近年来参与的最受期待和最引人注目的项目之一,它是对 Intel 整个系统组合的大胆投注。预计这台机器将是首台峰值性能达到 2 exaflops(2x10^18)浮点运算每秒的超级计算机。
作为位于伊利诺伊州阿贡国家实验室的 Aurora 超级计算机的首席架构师和首席研究员,Olivier Franza 在实现这一最具雄心的科学仪器中发挥了领导作用,更不用说它还是世界上最大的 GPU 集群了。
这给了 Franza 一些压力,他是 Intel 的 22 年资深员工,2016 年作为系统硬件架构师加入 Aurora 项目,并监督向基于 GPU 的机器的转变,于 2021 年成为首席架构师。
Franza 解释说:“首席架构师负责根据客户的高级要求定义超级计算机的整体系统架构。有一些基本的要求,如总体性能指标和功率范围,但也有如 RAS——可靠性、可用性、可维护性——这些对构建可扩展系统至关重要的内在特性。”
他的职责还包括从节点到机架到完整系统的系统拓扑的细节,包括其网络结构和存储组件。
路线图枢轴为塑造未来产品提供了机会
初始规划开始时,Aurora 作为美国能源部赞助的系统,其设计由一系列 Intel 技术组成。然而,Intel 产品路线图的变化,特别是 Xeon Phi 和 Omnipath 产品家族的结束,需要重新开始。当 Intel 制定了构建数据中心 GPU 的计划时,Franza 参与了 Intel® 数据中心 GPU Max 系列(代号 Ponte Vecchio)的设计讨论。
从这个角度看,Aurora 不仅仅是一个独立的系统。相反,它帮助塑造了 Intel 整体的策略和产品组合,以在最高级别解决规模和性能问题。
Franza 表示:“我们将所有 Aurora 系统级的要求融入到组件级。”
例如,Intel Xeon CPU Max 系列与高带宽内存的架构和概念,起初是由一些来自 Intel Xeon Phi 平台的特性产生的,这是第一个集成了高带宽和高容量的创新内存架构的产品。
此外,对高性能的需求进一步推动了所有子系统的进步,从计算刀片的热机械解决方案到其高密度物理集成,到存储。
Franza 表示:“Intel 构建了一个全新的存储概念,DAOS(分布式异步对象存储)。” 这是一个开源软件生态系统,用于在传统硬件上实现高速存储。“Aurora 将是第一个使用它的系统,而且是迄今为止最大的。”
从设计组件到将数千个系统连接在一起
Aurora 项目推动了系统级思考和 Intel 内部各个业务部门之间的广泛合作,以及与阿贡科学家和项目的另一个主要合作伙伴惠普企业的工程师的合作。
Franza 表示:“让整个团队齐心协力、交付像 Aurora 这样的机器,对我们许多人来说,是一生中只有一次的经历。”
尽管工程师们在六月份安装了最后的刀片,但 Franza 仍在夜间继续进行该项目,因为系统正经过测试、稳定和验证的阶段。
他为一个大团队提供指导,该团队正在进行系统启动、验证、稳定、优化和使全系统性能工作负载启用的工作。最值得注意的是 High Performance Linpack(HPL)基准测试,该测试确定了世界上的顶级系统,由半年度 Top500 名单认证。
Franza 每天早上参加每日站会,仔细检查每个节点的夜间运行,并制定第二天和未来工作的计划。每天下午,一个每日总结会议总结了进展和障碍。工作永无止境;机器始终运行。
他解释说:“我们采取逐步方法,在大规模上进行验证和稳定。” “你从刀片开始,然后移到机架,然后是多个机架,然后从那里扩展。”
Aurora 由 10,624 个计算刀片组成,在 166 个机架上拥有 63,744 个 Intel Max 系列 GPU(GPU 数量比世界上任何其他系统都多)和 21,248 个 Intel Xeon Max CPU。
他说:“它的大小相当于四个网球场,听起来很多,对吧?” “但只有当你真正去看它时,你才会意识到这个项目的巨大规模。”
Franza 必须确保这个庞大的系统是稳定的、功能正常的和高效的。这是一个艰巨的任务,但终点即将到来。
他说:“走在过道上,所有的灯都亮着,感觉到机器正在运行是令人印象深刻的,显然也是非常有成就感的。” “这是一个显而易见的成就。”
“一生一次”的努力,塑造科学的超级计算机
使他继续前进的是建造“一个非凡的机器”的机会,这将为有影响力的研究提供动力。他引用了 Aurora 在癌症研究方面的巨大潜力作为项目将造福我们所有人的一个领域。
他说:“我认为这是使我们非常自豪的一件事。”
Aurora 不仅将致力于解决世界上最复杂的科学和工程问题,它还将是一个理想的平台,用于运行生成式 AI 并将其应用于研究。“它将启用计划中最大的大型语言模型,即 1 万亿参数的 Aurora GenAI 项目,增强、启用并简化科学家的生活,”Franza 说。
但他最享受的是团队合作和友情。
他说:“这是一个持续的努力,需要很大的毅力。” “核心团队保持了马拉松的心态,直到结束都不结束。我们需要那种能够长时间有效地关注某件极具挑战性的事情的人。最后,所取得的成就是很少有人可以说他们取得过的。”
文章来源:半导体行业观察
评论