英特尔产品组合针对多规模 AI 模型性价比优势明显
英特尔产品在全新 MLCommons AI 推理性能测试中尽显优势
今日,MLCommons 公布针对 60 亿参数大语言模型及计算机视觉与自然语言处理模型 GPT-J 的 MLPerf 推理 v3.1 性能基准测试结果,其中包括英特尔所提交的基于 Habana® Gaudi®2 加速器、第四代英特尔®至强®可扩展处理器,以及英特尔®至强® CPU Max 系列的测试结果。该结果显示了英特尔在 AI 推理方面极具竞争力的表现,并进一步加强了其对加速从云到网络到边缘再到端的工作负载中大规模部署 AI 的承诺。
英特尔执行副总裁兼数据中心与人工智能事业部总经理 Sandra Rivera 表示:“正如最新的 MLCommons 结果显示,我们拥有强大的、具有竞争力的人工智能产品组合以满足客户对高性能、高效率的深度学习推理及训练的需求,同时,针对各种规模的人工智能模型,英特尔产品组合均具有领先的性价比优势。”
根据 6 月披露的 MLCommons AI训练结果和Hugging Face性能基准测试验证,Gaudi2 在先进的视觉语言模型上,性能可以超越英伟达的 H100 处理器,而今天的结果进一步证明了英特尔能够提供满足 AI 计算需求的、英伟达 H100 和 A100 的唯一可行的替代方案。
考虑到客户的个性化需求,英特尔正在通过能够帮助解决 AI 工作负载中推理与训练问题的产品,让 AI 无处不在。英特尔的 AI 产品为客户提供了可根据各自性能、效率及目标成本进行灵活匹配以获取最佳 AI 解决方案的理想选择,同时亦帮助客户开放生态系统。
关于 Habana Gaudi2 的测试结果:
Habana Gaudi2 在 GPT-J 模型上的推理结果强有力地验证了其具有竞争力的性能。
· Gaudi2 在 GPT-J-99 和 GPT-J-99.9 上的服务器查询和离线样本的推理性能分别为 78.58 次/秒和 84.08 次/秒。
· 与英伟达 H100 相比,Gaudi2 提供了令人信服的卓越性能,H100 相对于 Gaudi2 仅表现出 1.09 倍(服务器)和 1.28 倍(离线)的轻微性能优势。
· Gaudi2 拥有高于英伟达 A100 2.4 倍(服务器)、 2 倍(离线)的性能。
· Gaudi2 提交的结果采用 FP8 数据类型,并在这种新数据类型上达到了 99.9% 的准确率。
随着每 6-8 周公布的 Gaudi2 软件更新,英特尔将继续在 MLPerf 基准测试中展现其产品的性能提升,以及持续扩大的模型覆盖范围。
关于第四代至强可扩展处理器的测试结果:
英特尔提交了基于第四代英特尔至强可扩展处理器的 7 个推理基准测试,其中包括 GPT-J 模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的 DLRM v2 深度学习推荐模型及 ChatGPT-J 模型在内,第四代至强处理器对于通用 AI 工作负载拥有出色的性能。此外,截至目前,英特尔仍是唯一一家使用行业标准的深度学习生态系统软件提交公开 CPU 结果的厂商。
· 第四代英特尔至强可扩展处理器是通过流行的 AI 框架与库构建及部署通用 AI 工作负载的理想选择。对于 GPT-J 对约 1000-1500 字新闻稿进行 100 字总结的任务,第四代至强可扩展处理器可在离线模式下完成每秒两段的总结提要,在实时服务器模式下完成每秒一段的总结提要。
· 英特尔首次提交了英特尔至强 CPU Max 系列的 MLPerf 结果,该系列可提供高达 64 GB 的高带宽内存。对于 GPT-J 而言,它是仅有的能够达到 99.9% 准确度的 CPU,这对于对精度要求极高的应用来说至关重要。
· 英特尔与 OEM 厂商合作提交了测试结果,进一步展示了其 AI 性能的可扩展性,以及基于英特尔至强处理器的通用服务器的可获取性,充分满足客户服务水平协议 (SLA)。
MLPerf 是业内享有盛名的 AI 性能基准测试,旨在实现公平、可重复的产品性能比较。英特尔计划为下一个 MLPerf 测试提交新的 AI 训练性能结果。持续的性能更新彰显了英特尔致力于帮助客户、助力 AI 技术演进所迈出的每一步,无论是低成本的 AI 处理器,还是面向网络、云和企业用户的高性能 AI 硬件加速器或是 GPU。
更多内容:基于 MLPerf v.31 推理的性能指标(基准结果)| MLCommons公告
说明:相关配置说明,请查看 MLCommons 网页。 结果可能不同。
评论