写点什么

AI 驱动的数据中心变革与前景

作者:蓝海大脑GPU
  • 2024-07-04
    北京
  • 本文字数:2500 字

    阅读完需:约 8 分钟

AI 驱动的数据中心变革与前景


文章主要探讨了 AI 计算时代数据中心的转型,涉及计算技术的多样性、规格尺寸和加速器的发展、大型语言模型(LLM)的发展、功耗和冷却趋势、基准测试的重要性以及数据中心的发展等方面。为大家提供深入了解 AI 基础设施发展的视角。


 计算技术的多样性与应用场景


1.CPU:作为数据中心的传统“主力军”,在推理任务中表现出色,特别是配备充足内存的 CPU 在处理繁重图像处理任务时具有优势,但在快速计算能力方面不及 GPU。

2.GPU:最初设计用于图形处理,随着张量核心的引入,在各种 AI 应用中广泛使用。

3.FPGA:以流水线指令闻名,适合诸如语音转文本转换等任务。

4.DSA:专注于高效执行矩阵乘法,针对特定工作负载进行高度优化,但难以轻易应用于其他 IT 任务。


由此可见:

  • 在处理能力和可编程性方面,CPU 具有显著灵活性;

  • GPU 通过 CUDA 技术发展提供高性能和可编程性;

  • FPGA 高度定制化;

  • DSA 针对特定工作负载优化,需要软件调整以实现最佳性能。



 规格尺寸和加速器 


  1. 多种规格尺寸的发展:

M.2 和 PCICEM 到定制芯片设计,包括 Cerebras 开创的大型单片晶圆级解决方案,以及 Nvidia 的 GraceHopper 这样的高速缓存一致性 CPU/GPU 正在崛起,每种设计都针对特定工作负载进行优化。


  1. 推理和训练的应用趋势:

在推理任务中,主要看到 M.2 嵌入式规格尺寸和 PCICEM 的广泛应用;在训练方面,逐渐转向使用越来越定制化的 GPU。


 大型语言模型(LLM) 


  1. 模型规模与算力需求:

随着 LLM 模型规模的扩大,对算力的需求显著增加,计算需求呈现出大约 10 倍的增长轨迹,训练作业的最大关键绩效指标取决于训练时间,因此引入不同类型的加速器成为关键。


  1. 数据集的组合:

随着视觉元素的加入,文本、视觉和视频等不同数据集的组合在 LLM 中变得普遍。



 功耗和冷却 


  1. 功耗增长趋势:

当前最高功率的 GPU 大约为 700 瓦,PCICEM 约为 400 瓦,未来几代的功耗预计将显著增长,这将对冷却设施产生重大影响。


  1. 冷却设施的发展:

冷却基础设施变得至关重要,液体冷却与空气冷却的结合成为主要趋势,液体冷却不会完全取代空气冷却平台,许多数据中心仍然偏好并部署空气冷却基础设施。


 基准测试的重要性


  1. MLCommons 的发展:

MLCommons 起源于基于 MLPerf 的基准测试,并演进扩展了其范围,涵盖存储、高性能计算以及跨这些领域的多样化基准测试开发。


  1. 基准测试与模型的关系:

基准测试往往滞后于 LLM 快速增长的行业步伐,但像 MLCommons 和 MLPF 这样的基准测试覆盖了训练、推理和存储等多个方面,为评估特定加速器提供了一个框架,有助于从芯片的角度评估其性能以及与期望的关键绩效指标(KPI)的对齐情况。


  1. 推理和训练领域的基准测试:

在推理方面,关注从数据中心延伸到边缘环境,通过评估不同的模型类别来确定最佳的持续时间和 KPI;在训练领域,为模型和基准测试实践在训练和推理领域的一致分类提供了支持。


 数据中心的发展


  1. 机架功率趋势:

随着 LLM 的增长,数据中心的机架功率从历史上的每机架 10 至 20 千瓦线性增长至每机架 75 至 100 千瓦甚至更高,这可能导致新的绿色数据中心的增加,改造现有的旧数据中心以满足这些需求将是一项挑战。


  1. 数据中心层面的视角转变:

从节点级别开始,各种功率、基准测试、规格尺寸和精度的加速器正在涌现,使得数据中心需要从节点级别上升到机架级别,再到数据中心级别进行考虑,冷却变得具有挑战性,液体冷却迅速得到采用,未来液体冷却可能在 AI 计算场景中占据主导地位。



 AI 基础设施的发展 


  1. 从节点级别到集群级别的部署:

AI 基础设施的发展趋势已不再局限于部署仅配备 2 到 8 个 GPU 的节点来完成任务,将更多地转向集群级别的部署。


2.关键因素:

-网络设计和连接方式:为了使 GPU、FPGA 或专用加速器等计算单元高效运行,必须认真考虑网络设计,包括如何连接存储、数据的位置以及如何迅速地将数据传输到计算单元中并解决问题。

-机架和数据中心级别的电力预算:到 2025 年,应该考虑或部署每个机架功率在 70 到 100 千瓦的数据中心,需要从机架级别和数据中心级别的电力预算出发,深入思考未来几年内这一特定领域的所有增长趋势。

-与数据中心人员的沟通:所有生成式 AI 应用程序的部署规模已远超过之前的预测,需要与数据中心人员进行深入的沟通,了解他们的需求,并基于这些需求进行构建,而不是简单地将 GPU 组装成一个节点。


 行业应用

  1. 科技巨头的数据中心转型:

以谷歌、亚马逊、微软等科技利用 AI 技术优化数据中心的运营和管理,提高能效和计算效率。

  1. 金融行业的数据中心应用:

金融机构借助 AI 驱动的数据中心进行风险评估、欺诈检测和交易处理等业务,以及面临的挑战和解决方案。

  1. 医疗行业的数据中心创新:

医疗领域数据中心应用于医学影像分析、疾病预测和个性化医疗等,以及利用 AI 技术推动医疗行业的发展。

 

技术创新

  1. 量子计算在数据中心的潜力:

量子计算与传统计算技术相结合,为数据中心带来更高的计算能力和解决复杂问题的能力。

  1. 边缘计算与数据中心的协同发展:

边缘计算在数据中心架构中起着重要的作用,边缘计算与数据中心协同工作以提高数据处理的实时性和效率。

  1. AI 芯片的发展:

当前人工智能芯片市场的竞争强烈,未来芯片技术会向更高的算力、更低的能耗和更好的兼容性而发展。

 

展望未来

  1. AI 与数据中心的深度融合:

随着 AI 技术的不断发展,数据中心将更加智能化,能够自动优化资源配置、预测故障并进行自我修复,提高运营效率和可靠性。

  1. 新型计算架构的出现:

未来可能会出现一些新型的计算架构,如类脑计算等,这些架构将为数据中心带来更高的性能和更低的能耗。

  1. 数据中心的绿色可持续发展:

在全球对环境保护日益重视的背景下,数据中心将朝着绿色可持续的方向发展,采用更多的可再生能源、优化冷却技术以提高能源利用率。

  1. 边缘数据中心的崛起:

随着物联网、5G 等技术的普及,边缘数据中心将发挥越来越重要的作用,能够更快地处理和分析数据,减少延迟,满足实时性要求较高的应用场景。

  1. 数据中心的全球化布局:

为了满足不同地区用户的需求,数据中心将进一步全球化布局,同时也需要应对不同地区的政策、法规和文化差异。



数据中心的未来发展充满着机遇与挑战。技术的不断创新、计算需求的持续增长、对能源效率和可持续性的重视,以及政策法规的影响等因素,都将塑造数据中心的未来格局。


#数据中心 #绿色节能 #AI#人工智能 #高性能计算 #HPC#液冷 #水冷 #AI 基础设施 #LLM#大语言模型


用户头像

还未添加个人签名 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
AI 驱动的数据中心变革与前景_蓝海大脑GPU_InfoQ写作社区