让 AI 无处不在!Intel 拿出全新 VPU:超高能效碾压 GPU
AI,人工智能,这个东西其实一旦都不新鲜。
从早些年的科幻作品,到后来的逐步落地,从 1997 年 IBM 超级电脑“深蓝”击败国际象棋大师卡斯帕罗夫,到 2016 年 Google AlphaGo 战胜围棋冠军李世石,AI 一直都在进步,也一直在演化。
但因为算力算法、技术能力、应用场景等方面的种种限制,AI 一直有些空中楼阁的感觉。
直到出现了 ChatGPT,AI 才真正引燃了普通人的热情,让我们发现,AI 竟然如此强大,又如此唾手可得,让众多个体、企业为之兴奋,为之癫狂。
众所周知,足够强大与合理的硬件、算法,是实现高效、实用 AI 的两大基石,而在这一番 AI 热潮中,NVIDIA 之所以春风得意,就得益于其在高性能计算领域多年来的布局和深耕,非常适合超大规模的云端 AI 开发。
当然,AI 无论实现方式还是应用场景都是多种多样的,既有云侧的,也有端侧的。
NVIDIA 的重点在云侧和生成式 AI,Intel 在云侧生成式、端侧判定式同时出击,而随着越来越多的 AI 跑在端侧,更贴近普通用户日常体验,所带来的提升越来越明显,Intel 更是大有可为。
端侧 AI 有几个突出的特点:
一是用户规模庞大,应用场景也越来越广泛;
二是延迟很低,毕竟不需要依赖网络将指令、数据传到云侧处理再返回;
三是隐私安全,不用担心个人信息、商业机密等上传后泄露;
四是成本更低,不需要大规模服务器和计算,只需本地设备即可完成。
端侧 AI,说起来大家可能会感觉很陌生,但其实,人们习以为常的背景模糊、视觉美颜、声音美化(音频降噪)、视频降噪、图像分割等等,都是端侧 AI 的典型应用场景,背后都是 AI 在努力。
这些应用要想获得更好的效果,就需要更完善、复杂的网络模型,对于算力的需求自然也在快速增长。
比如噪音抑制,算力需求已经是两年前的 50 倍,背景分割也增长了 10 倍以上。
更不要说生成式 AI 模型出现后,对算力的渴求更是飞跃式的,直接就是数量级的提升,无论是 Stable Diffusion,还是语言类 GTP,模型参数都是非常夸张的。
比如 GPT3 的参数量达到了 1750 亿左右,相比 GPT2 增加了几乎 500 倍,GPT4 估计可达到万亿级别。
这些都对硬件、算法提出了更苛刻的要求。
Intel 自然也早就开始关注并投入 AI,无论是服务器级的至强,还是消费级的酷睿,都在以各种方式参与 AI,“XX 代智能酷睿处理器”的说法就在很大程度上源于 AI。
在此之前,Intel AI 方案主要是在 CPU、GPU 的架构、指令集层面进行加速。
比如从十代酷睿和二代可扩展至强加入的基于深度学习的 DL Boost,包括 VNNI 向量神经网络指令、BF16/INT8 加速等等。
比如 11 代酷睿加入的高斯网络加速器 GNA 2.0,相当于 NPU 的角色,只需消耗很低的资源,就能高效进行神经推理计算。
比如代号 Sapphire Rapids 的四代可扩展至强上的 AMX 高级矩阵扩展,使得 AI 实时推理和训练性能提升了多达 10 倍,大型语言模型处理速度提升了足有 20 倍,同时配套的软件和工具开发也更加完善丰富。
在 Intel 看来,没有单一的硬件架构适用于所有的 AI 场景,不同硬件各有特点,有的算力强大,有的延迟超低,有的全能,有的专攻。
AI 作为基础设施也有各种各样的场景应用和需求,负载、延迟都各不相同,比如实时语音和图像处理不需要太强的算力,但是对延迟很敏感。
这时候,Intel XPU 战略就有着相当针对性的特殊优势,其中 CPU 适合对延迟敏感的轻量级 AI 处理,GPU 适合重负载、高并行的 AI 应用。
Intel 另一个无可比拟的优势就是稳固、庞大的 x86 生态,无论应用还是开发,都有着广泛的群众基础。
现在,Intel 又有了 VPU。
将在今年晚些时候发布的 Meteor Lake,会首次集成独立的 VPU 单元,而且是所有型号标配,可以更高效地执行特定 AI 运算。
Intel VPU 单元的技术源头来自 Intel 2017 年收购的 AI 初创企业 Movidius,其设计的 VPU 架构是革命性的,只需要 1.5W 功耗就能实现 4TOPS 的强大算力,能效比简直逆天,最早用于无人机避障等,如今又走入了处理器之中,与 CPU、GPU 协同发力。
VPU 本质上是专为 AI 设计的一套新架构,可以高效地执行一些矩阵运算,尤为擅长稀疏化处理,其超低的功耗、超高的能效非常适合一些需要长期打开并执行的场景,比如视频会议的背景虚化、移除,比如流媒体的手势控制。
之所以在已经有了 CPU、GPU 的情况下,还要做一个 VPU,Intel 的出发点是如今很多端侧应用是在笔记本上进行,对于电池续航非常敏感,高能效的 VPU 用在移动端就恰如其分。
另一个因素是 CPU、GPU 作为通用计算平台,本身就任务繁重,再给它们增加大量 AI 负载,执行效率就会大打折扣。
具体到应用场景,VPU 也是非常广泛的,比如说视频会议,现在的 CPU AI 已经可以实现自动构图(Auto-Framing)、眼球跟踪、虚拟头像/人像、姿势识别等等。
加入低功耗、高算力的 VPU 之后,还可以强化背景模糊、动态降噪等处理,让效果更加精准,比如说背景中的物体该模糊的一律模糊、人手/头发等不该模糊的不再模糊。
有了高效的硬件、合适的场景,还需要同样高效的软件,才能释放全部实力、实现最佳效果,这对于拥有上万名软件研发人员的 Intel 来说,真不是事儿。
Meteor Lake 还没有正式发布,Intel 已经与众多生态伙伴在 VPU 方面展开了合作适配,独立软件开发商们也非常积极。
比如 Adobe,很多滤镜、自动化处理、智能化抠图等,都可以用 VPU 来跑。
比如 Unreal Engine 虚幻引擎的数字人,比如虚拟主播,VPU 都能很好地实时捕捉、渲染处理。
Blender、Audacity、OBS、GIMP……这个名单可以拉出很长一串,而且还在不断增加。
更重要的是,CPU、GPU、VPU 并非各行其是,而是可以联合起来,充分发挥各自的优势,达到最好的 AI 体验效果。
比如说基于 GIMP 里就有一个基于 Stable Diffusion 的插件,可以大大降低普通用户使用生成式 AI 的门槛,它就能充分调动 CPU、GPU、VPU 各自的加速能力,把整个模型分散到不同 IP 之上,彼此配合,获得最好性能。
其中,VPU 可以承载 VNET 模块运行,GPU 用来负责编码器模块执行,通过这样的合作,生成一张复杂的图片也只需 20 秒左右。
在这其中,VPU 的功耗是最低的,CPU 次之,GPU 则是最高的。
Intel 已经充分意识到 AI 对于 PC 体验增强的重要性,而为了迎接这一挑战,Intel 正在硬件、软件两个层面全力推进,对 AI 在的端侧的发展、普及打下坚实的基础。
硬件层面,CPU、GPU、VPU 将组成无处不在的底层平台;软件层面,OpenVINO 等各种标准化开发软件将大大推动应用场景的挖掘。
未来,搭载 Meteor Lake 平台的轻薄笔记本就可以轻松运行 Stable Diffusion 这种大模型来实现文生图,大大降低 AI 的应用门槛,无论判定式 AI 还是生成式 AI 都能高效执行,最终实现真正的 AI 无处不在。
评论