写点什么

解锁第五代英特尔至强的 AI“秘籍”:CPU 也能运行大模型推理

作者:E科讯
  • 2024-03-20
    湖北
  • 本文字数:3009 字

    阅读完需:约 10 分钟

ChatGPT 引发的 AI 大模型概念已经持续火爆一年,直至今日,AI 的热度不仅没有下降,行业也迸发出越来越多具有颠覆性的应用。2024 年初以来,AI PC、AI 手机、AI 边缘等产品相继开售,过年期间,Sora 又引发了大规模讨论。


可以说,AI 领域,永远都在革新。但随着大模型对算力需求的高速增长,现阶段生产的芯片很难满足业界需求。


在 AI 热潮之中,GPU、AISC 等加速器是行业中的主角。而事实上,任何数据中心都无法脱离 CPU,比喻起来就是鱼和水的关系。去年 12 月,英特尔第五代至强可扩展处理器(代号为 Emerald Rapids)正式面世,它有着许多令人惊喜的 AI 秘籍。


做 AI,只有一个选择?


众所周知,面对大模型这一新风口,全球科技公司均将目光投向了 AI 芯片,特别是 GPU。但 GPU 的产量与 HBM,或者说 2.5D 封装能力直接挂钩。这让本就供应吃紧的 GPU 再遇瓶颈,导致供需严重失衡。

与之相悖的是,眼下 AI 大模型“拼杀”的关键在于做大参数量,用“力大砖飞”实现更为强大的智能涌现。可以说,即便是面对 AI 芯片涨价,多少公司也会选择购买,毕竟错过这个风口,或许就会失去竞争力。


对于大型数据中心来说,每颗芯片都在牟足力气,全功率地运行着,如果能拥有更多 AI 性能,那么,还需要额外购置一批 GPU 吗?


事实上,我们都陷入了一种思维定势,其实跑 AI 并非只有 GPU 一个选择,CPU 也已经具备很强大了 AI 性能。


亚信科技就在自家 OCR-AIRPA 方案中采用了 CPU 作为硬件平台,实现从 FP32 到 INT8/BF16 的量化,从而在可接受的精度损失下,增加吞吐量并加速推理。将人工成本降至原来的五分之一到九分之一,效率还提升 5~10 倍。


被改变的,不只是互联网和通信领域,AI 制药被看作是终结药物研发“双十定律”的希望,在这个领域中 AlphaFold2 这类大型模型被视为最重要的算法。去年开始,至强可扩展平台就开始使 AlphaFold2 端到端的通量提升到了原来的 23.11 倍,而第四代可扩展处理器让这个数值再次提升 3.02 倍。


可以说,将 CPU 用于 AI 推理正在不断证实可行。而现在,第五代至强可扩展处理器能够在无需添加独立加速器的前提下,运行高达 200 亿参数的模型推理,且延迟低于 100 毫秒。一款为 AI 加速而生,且表现更强的处理器诞生了。


CPU,怎么让 AI 跑起来


很多人会奇怪,为什么第五代至强作为一个通用处理器,能够运行 AI 负载?事实上,除了本身落在第五代至强的 AI 负载,其中内置的一系列的加速器是关键。


这种设计可以与时下 MCU(单片机)的流行做法进行对比,通过内置 DSP、NPU,分走一部分部分 AI 负载,让 AI 任务跑得更高效,从而更省电,至强也是类似的原理。


这种设计在早期的至强可扩展处理器中就出现过,只不过,那时候大家没有过多关注,也没有那么 AI 任务需要跑。


具体看第五代至强,其内置的英特尔 AVX-512 及英特尔® AMX(英特尔®高级矩阵扩展)功能是关键,这两个加速器在第四代至强中就已搭载,而在第五代至强中,AMX 支持新的 FP16 指令,同时混合 AI 工作负载性能提高 2~3 倍。


加之第五代至强本身性能的提升,使其本身性能就能更从容应对 AI 负载:CPU 核心数量增加到 64 个,单核性能更高,每个内核都具备 AI 加速功能;采用全新 I/O 技术(CXL、PCIe5),UPI 速度提升。


根据行业人士分析,CPU 做大模型推理,最大的难点不在计算能力,而在内存带宽。第五代至强的内存带宽从 4800 MT/s 提高至 5600 MT/s,三级缓存容量提升至近 3 倍之多,同时插槽可扩展性,支持从一个插槽扩展至八个插槽,这些都为第五代至强支持大模型提供了坚实的后盾。



从数据上来看,与上一代产品相比,第五代至强相同热设计功耗下平均性能提升 21%;与第三代产品比,平均性能提升 87%。相较于前一代产品,第五代至强不仅迭代了性能,还带来了 42%的 AI 推理性能提升。


此外,在一系列加速器中,英特尔®可信域拓展(英特尔® TDX)提供虚拟机(VM)层面的隔离和保密性,从而增强隐私性和对数据的管理。


不止如此,第五代至强还是迄今为止推出的最“绿色”的至强处理器,它能够帮助用户管理能耗,降低碳足迹。可以说,软件只是一方面,归功于第五代至强内的多种创新技术和功能,搭配干活,效率更高,最终体现出来的就是更低的功耗。


CPU 未来发展趋势,一定是拼功耗,这需要全方位发力。首先是工艺,随着工艺逐渐提升到 Intel 3、Intel 20A、Intel 18A,功耗会越来越低,每一代都会有两位数的功耗降低。封装也一样,使用先进的封装技术把不同制程的芯片通过 Chiplet 架构放在一起,进行一个运算,并不需要把所有地方都用起来,而是只使用对应的区域,这样功耗自然就降低了。还有,就是针对不同的工作负载做优化。


有时候调整应用程序的架构也可以最大限度地降低功耗。举例来说,如果要训练大模型,假设总共有 20 个大模型,每个模型的训练周期为 3 个月,需要 1000 台机器来训练,每台机器功率为 1 万瓦。如果规定只需训练其中的 5 个模型,而剩下的 15 个模型不需要训练,这样就能节省 75%的电能。因此,有时候通过调整应用程序的架构,可以更有效地降低功耗。


“随着算力的持续高速发展,如何实现数据中心的节能减碳,改变‘电老虎’的形象,对寻求采用可再生能源和更环保的技术方面有了更高的需求。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立对 AI 大模型时代提出了这样的担忧,第五代至强就是节能减碳的关键。


与此同时,英特尔也有一系列的产品和技术创新,如通过更高效的冷却技术、智能能源管理系统等推动新型和存量数据中心进行节能减排,并携手中国合作伙伴推动应用落地。


英特尔如何支撑起 AI 开发


GPU 的发展,软件生态也起到了至关重要的作用,比如行业无人不知的 CUDA。对英特尔来说,软件一直以来都是强项,与此同时,英特尔发力软件堆栈,不断加大投资,这为第五代至强在 AI 方面的发展带来了巨大的天然优势。


英特尔一直以来,都比较强调统一性和易用性,在 AI 方面亦如如此。开发者可以通过利用 OpenVINO,实现“一次编写,随处部署”的愿景。英特尔开发的基础软件和数据库通过 Pytorch 和 ONNX Runtime 等流行框架支持自身的 CPU、GPU、IPU 和 AI 加速器。


此外,英特尔还提供了 PyTorch 和 TensorFlow 的库扩展,这将有助于开发者使用默认安装运行这些扩展以获得最新的软件加速。这意味着,用户既可以继续使用 PyTorch 或 TensorFlow,也可以利用 OpenVINO 进行开发,掌握不同语言的开发者都能在同样一个平台下开发。


值得一提的是,OpenVINO 2023.1 版本正在加速英特尔追求的“任何硬件、任何模型、任何地方”的目标实现,即逐步扩展 OpenVINO 成为跨客户端与边缘端的、针对推理与部署运行 AI 模型的完整软件环境。


“我认为 ChatGPT 技术不仅仅是关于人类语言、英语语言,还有编程语言。因此,可以实现生产力的提高。你可以从 ChatGPT 和其他类似的技术中生成自动代码审查。我认为这里有许多机会,但我认为它存在于行业领先公司正在使用的 Python 编程模型中。它不是刚刚兴起的,已经出现了一段时间,我们极客称为 SMLAR 技术。”英特尔专家曾经这样分享道。


简单解释,就是“鸡生蛋、蛋生鸡”的关系,也就是说,未来 AI 大模型还会用在开发 AI 大模型上。现在 CUDA 就已经开始有了这样的动作,英特尔也正蓄势待发。



在 2 月末刚刚结束的 MWC2024 上,英特尔展示了最多具备 288 个核心的能效核(E-core)处理器 Sierra Forest,性能核(P-core)处理器 Granite Rapids 也正蓄势待发。可以说,未来在 AI 推理领域,至强还会更强。

用户头像

E科讯

关注

专注intel动态 2020-08-19 加入

搜罗各种Intel新闻

评论

发布
暂无评论
解锁第五代英特尔至强的AI“秘籍”:CPU也能运行大模型推理_E科讯_InfoQ写作社区