联想用万全智算,画出中国 AI 的山脊
如果我们把欧亚大陆看作一个整体,会发现中国是一个有几座山脉的超大半岛,横断山脉与天山、阴山、昆仑山、南岭、大兴安岭,一横五纵的山脊,描绘出了中华大地的轮廓。
一方水土的休养生息,需要山脉作为屏障;一项科技的崛起与发展,需要基础设施作为支撑。
伴随着“人工智能+”行动的开展,AI 技术在中国迎来了新的发展高峰。但如果没有基础设施层面 AI 算力的有效供给,AI 算法的发展,企业对 AI 应用都将变成无本之木,无源之水。
发展 AI 技术,首先需要构筑算力山脉。通过智能算力,把 AI 产业切实保护起来,支撑起来。尤其需要注意的是,这种构筑并不是简单的算力供给,而是需要切实应对企业在智算运用过程中的挑战,提升算力效率,降低算力门槛。
中国 AI 的算力山脉,究竟如何勾勒?
联想认为,异构智算就是答案。
4 月 18 日,第十届联想创新科技大会 Tech World 在上海举行。期间,联想提出融合了公共大模型、个人级大模型和企业大模型的混合式人工智能是未来大势所趋。这个过程中,AI 大模型将在各个行业深入落地,由此带来了智能算力的指数级增长,对中国 AI 基础设施提出了全新要求。
为了帮助千行百业应对混合式人工智能带来的基础设施之变,联想 ISG 提出了一横五纵的发展战略。
一横五纵背后,是联想希望用平台打通,以产品组合的方式,打造更可满足当下 AI 需求的基础设施集群,画出属于中国 AI 的山脊。
AI 时代,智算就是山脊
如果一片土地没有山脊保护,就很容易受到风沙与冷空气的侵蚀,从而各种自然灾害频发。中华文明能够延绵不绝,也有赖于几条雄伟山脊的护佑。
在 AI 领域,如果说算法是土壤,应用是庄稼,那么算力就是保护这片土地的山脊,只有山脊够高够强,土地才有蓬勃生机。
2023 年,中国出现了“百模大战”的盛况,涌现出了庞大的 AI 应用场景与相应的智算需求。
根据《2023—2024 年中国人工智能计算力发展评估报告》,2023 年中国 AI 算力市场规模将达到 664 亿元,同比增长 82.5%。预计到 2030 年,人工智能驱动的全球算力将增长 500 倍。
过快的 AI 算力需求扩张,带来了一系列相关问题。如果说 AI 算力是整个 AI 产业生态的山峦屏障,那么今天的情况就是 AI 算法与应用发展过快,社会各界对 AI 期望极大。在基础设施层,我们需要快速去填补 AI 算力的空白,为中国 AI 筑起算力高山。
想要实现这个目标,需要破解几项关键的挑战。中国 AI 算力当前的核心难点在于:
1.算力供需失衡。AI 算力处在供给远不能满足需求的情况,且将长期保持。这就需要我们珍惜已有且面向未来的所有 AI 算力,最大化满足多元智算需求。
2.算力应用卡点多。企业应用 AI 算力,需要依赖于多层级的智能化基础设施,端、边、云、网等条件缺一不可,需要进行全方位适配 AI 算力的基础设施更新。在企业智算实践中,面临着诸如针对场景匹配算法,提升 AI 算力利用率等问题。能力多样、切中要害的异构智算平台建设迫在眉睫。
3.算力生态不完善。智算基础设施的推广和普及,需要依赖软硬件多方面的适配,以及行业开发者的配合,这就导致智算生态的建设至关重要。
面对这些问题与挑战,联想 ISG 回归基础设施更新的基本逻辑,为中国 AI 发展画下了一横五纵的山脊。
一横五纵,画出山川连绵
想筑造 AI 时代的智算山脊,需要先有一张蓝图。
在下笔画这张蓝图之前,需要先思考两个问题。横向来看,AI 时代多元计算成为必然趋势,需要一个平台承载广泛且多元的算力需求。纵向来看,AI 大模型的训推效果取决于诸多条件,存、算、网等基础设施缺一不可。
横可承载智算,纵有产品周全,这样的“画意”驱动着联想落笔画出智算山川。在联想的“AI for All”战略下,联想 ISG 推动了基础设施领域全面适配 AI 的深入变化,以“端-边-云-网-智”新 IT 架构打造混合式 AI 基础设施。
(联想集团副总裁、中国基础设施业务群总经理陈振宽)
联想集团副总裁、中国基础设施业务群总经理陈振宽认为,“在人工智能 1.0 时代,基于全球智慧和本地创新,联想打造了全面的基础设施产品组合,包括计算、存储、网络、边缘和超融合,并在通用计算、科学计算和 AI 计算等不同算力领域获得大量的最佳实践,帮助千行百业的客户取得成功”。陈振宽表示,“如今大模型开启的 AI 2.0 时代已经迈着大步朝我们走来,我们需要重塑过去积累的技术,来全面升级联想基础设施”。
分析联想在 AI 基础设施层面的策略与行动,可以将其归纳为“一横五纵”。
“一横”,即异构智算平台。
通过实现对通用计算集群、科学计算集群和 AI 算力集群进行统一管理,并对多种 CPU、GPU、DPU 等处理器进行异构管理调度,联想打造了更加符合 AI 计算需求的异构算力底座。
在 AI 基础设施领域,联想聚焦三大领域的创新。首先是为用户匹配经过验证优化的最佳算力。第二是赋能用户充分利用算力,提升计算效率。第三则是以先进的液冷技术帮助用户节能增效且突破芯片散热的瓶颈。
联想万全异构智算平台,汇集了这三大能力,为 AI 2.0 时代带来了五大技术创新,其中包括:
1.用户智能匹配算力的算力匹配魔方。基于海量的硬件评测和 AI 算子算法集成工作,联想构建了 AI 场景与算法与集群硬件三者匹配关系的算力魔方知识库,来标识 AI 场景、算法、集群配置这三者的匹配关系。用户只需输入场景和数据,算力魔方即可自动加载最优算法,并调度最佳集群配置。
2.逼近 GPU 算力极限的 GPU 内核态虚拟化。联想研究院开发了在 GPU 驱动层的内核态虚拟化算法,新算法可以将虚拟化造成的 GPU 算力损耗降到 5%以下,极致情况可以降到 1%以下,大幅提升 GPU 利用率。
3.提升网络通信效率的联想集合通信算法库。可实现对多类型网络拓扑的实时感知,并以先进算法使数据在拓扑中以最佳路径进行传输。以千卡规模集群为例,采用集成了联想集合通信库的联想异构智算平台做管理调度,可使网络通信效率提升超 10%,并且集群规模越大,效果越显著。
4.减少 AI 训练中断时间的 AI 高效断点续训技术。联想异构智算平台对大量的 AI 训练故障进行了特征采样,开发了预测 AI 训练故障的 AI 模型,实现“用 AI 来预测 AI”。在断点前提前优化备份,由此能将断点续训恢复时间缩减到分钟级,大幅提升训练效率,以千卡集群为例,每月可节约上百万元算力费用支出,让宝贵的 AI 算力持续可用。
5.AI 与 HPC 集群超级调度器。针对混合集群做资源共享需求,联想 AI 与 HPC 超级调度器架构于 AI 和 HPC 调度之上,能够切换 AI 和 HPC 的调度,从而满足科学计算等场景的 HPC 与 AI 计算间的调度需求。它可以切换“语言”分别指挥 AI 和 HPC 调度器,可跨集群全局动态管理和调度算力资源,一小时内自动完成跨集群资源调度和共享。
在五大技术创新的合力下,异构智算平台形成了一个能高度自动化完成 AI 全流程开发的平台。
从用户视角看,向平台输入场景需求和数据后,即可将计算过程交给平台自动完成,平台就像一个计算魔盒,能够自动优化数据和模型,自动匹配和调度算力,自动对计算的全过程进行监控,直到最终输出模型或是推理服务。
以异构智算平台为基础,企业多样化、实践化的 AI 算力需求都可以得到妥善满足,并且能够获得高可用、高效率、高能效的 AI 计算体验。
AI 算力需要与软硬件基础进行配合,才能得到最大化的价值释放。因此,联想打造了“五纵”,即服务器,存储,数据网络,软件及超融合以及边缘基础设施产品。
在基础设施市场中,联想多样化的产品取得了显著优势。根据 IDC 发布的《2023 第四季度中国 x86 服务器市场追踪报告》显示,联想环比增速居中国 x86 服务器市场第一,领先市场整体增速 80 个百分点。而在去年 11 月举办的第五届中国超级算力大会(ChinaSC 2023)公布的最新一期“中国高性能计算机 TOP100 排行榜”中,联想上榜 43 套,获得年度数量总份额冠军。这也是联想第九次问鼎并蝉联中国高性能计算 TOP100 数量份额第一。
通过五大产品线的并行与配合,可以满足中国 AI 基础设施广泛而多元的迭代需求。
以一横五纵的山脊为基础,智算生态可以生生不息,智算应用可以旷野花开。
山青水绿,滋养生态万全
有了山脊护佑,还需要在山脊间的平原播种万物,培育生态。为了让一横五纵的智算山脊真正发挥价值,联想还需要为智算生态添加动力。
在异构智算的大潮下,联想基础设施业务群成功跻身人工智能基础设施领域全球三甲。与此同时,联想基础设施业务群正在中国市场开启一场复兴之旅。去年,在中国市场实现了销售额 21%的大幅增长,并且赢回了一系列重要客户。在进一步挖掘智算潜力,激活市场空间,联想需要生态的支持,也需要为生态伙伴创造发展机遇。
为此,联想希望在智算领域搭建一个万全生态。所谓万全,是指生态包罗万法,可以保用户算力以周全,保用户的 AI 基础设施投资回报以周全。
为了搭建这样的生态,联想希望在生态中贡献硬件能力和异构智算平台的集群管理调度能力,并且要实现对算力生态的包容,即硬件会兼容 xPU 生态硬件,异构智算平台会集成 xPU 底层软件,并且以 extended UI 的方式对接集成 AI 工具链生态,让各类智算需求都能在开放的平台生态中得到满足。
在 Tech World 的“异构智算 多元生态”联想智算产业生态创新论坛上。联想集团与中国智能计算产业联盟共同发起并成立异构智算产业生态联盟,联合产业头部生态伙伴共建联想万全生态。据介绍,异构智算产业生态联盟框架由 AI 芯片层、AI 设备与系统层和 AI 平台与应用层,能够实现从 IaaS 平台、AI 训练与推理到行业场景解决方案的全覆盖。
目前,异构智算产业生态联盟首批共计 13 家成员单位已加盟。生态联盟成立后,将陆续发布异构智算最新成果,计划推动《国际人工智能算力性能排行榜——AIPerf500》评选,共创及发布《异构智算白皮书》以及《2024 国家行业发展报告(智能计算方向)》等内容,引导中国智算产业健康发展。
面向未来,万全异构智算生态将为处于算力选择期的中国用户提供丰富的一站式的方案来适应多样化的 AI 应用场景,并且将通过生态全链条的紧密合作调优,不断提升算力效率,破解 AI 带来的算力荒与能耗荒。
异构智算生态的蓬勃发展下,我们已经可以在一横五纵的智算山脊中,看到中国智算生态的盎然生机。
山泽浩瀚,以振智能中国
在技术与产品的山脊下,在智算生态的勃发中,联想的智算能力正在一个个产品,一个个案例中生长出来。
在产品方面,不久之前联想刚刚成功交付了可搭载国产 AI 算力芯片的联想问天 WA5480 G3 服务器。其具备多芯算力、灵活拓扑、安全可靠三大特色,能够满足自主化与 AI 算力需求的双重结合。
在应用方面,联想已经成为大量领军企业的智能化合作伙伴,异构智算的价值释放到了千行百业当中。在吉利汽车、紫金云、阿里云等核心用户的应用案例中,都可以见到联想一横五纵产品带来的惊喜。
一横五纵战略的核心落脚点,在于“实”。
归根结底,将 AI 大模型从一种技术上的可行性,变为千行百业生产场景中的可用性,需要一系列先决条件的搭建和满足。异构计算、算法匹配、能耗问题、生态合作需求等问题,都摆在从 AI 大模型到新质生产力之间。二者之间,什么都不做就是万水千山,有心为之就是通衢大道。
联想 ISG 打造的一横五纵,就是这样一条通衢。其从现实场景,真实行业的智算需求出发,有问题就解决问题,需要产品就打造产品,需要生态就建设生态。最终让 AI 的山泽浩瀚,借由智算山脊的地势,流入千行百业的田野。
新质生产力,由此而盘活;中国产业智能化的脚步,由此而加速。
在智算山脊之下,中国 AI 正草长莺飞,蓬勃万全。
版权声明: 本文为 InfoQ 作者【脑极体】的原创文章。
原文链接:【http://xie.infoq.cn/article/69a76ac1460ebeaca48900cc6】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论