写点什么

GPU 资源池的虚拟化路径

作者:Finovy Cloud
  • 2022 年 7 月 13 日
  • 本文字数:1720 字

    阅读完需:约 6 分钟

GPU资源池的虚拟化路径

GPU 小常识:

GPU(Graphics Processing Unit),中文名:图形处理器,曾用名:显卡。

1999 年,Nvidia(英伟达)公司“ZAO”了 GPU,这玩意除了极大的推动了基于 PC 的游戏市场发展,还彻底改变了并行计算。

没想到二十年后,Nvidia 摇身一变成了高大上的 AI 计算公司,还用 GPU 绑架了整个人工智能圈子。

我有个客户,几年前新建了一个数据中心,通过 P2V 技术淘汰了大量 X86 物理服务器,直接在 IT 基础设施上成功完成了服务器虚拟化转型,之后就马不停蹄的向云计算转型,而当下,又开始了人工智能转型。

随着智能商业时代的到来,一些大公司对于 AI 技术的关注和使用也快速增加,这些企业都非常注重自身科技能力的构建。其中,搭建自有 AI 平台,赋能业务成了这些有实力企业的首选。我这个客户自然也不能免俗,采购了大量的 GPU 服务器进行部署。

在落地 AI 场景的同时,客户也希望对建立 GPU 资源池做一个评估。针对客户需求,做了一些功课。对于 AI,我依然只是知道一点皮毛,要说什么算法和模型,我是没戏的,但是可以把交流的学习心得分享一下。

GPU 当前主要应用于计算、图形和人工智能领域。从 GPU 资源的虚拟化实现路径看,主要有三种技术方案。

  1. VSGA(Virtual Shared Graphics Acceleration),把物理 GPU 分享给多个桌面用户,每个 VDI 通过 SVGA 驱动调用虚拟化的 GPU 驱动程序,再来调用 GPU 的运算能力,这个属于典型的桌面虚拟化场景。

  2. VDGA(Virtual Dedicated Graphics Acceleration),把物理 GPU 分配给一个指定的 VM,资源专用,这种模式也称为直通(Pass Through)模式,该方案具有比较高的性能优势,但成本相对较高。

  3. vGPU(Virtualized GPU),把一块物理 GPU 虚拟成多块 vGPU 卡,每个 VM 都独占一块 vGPU,每个 vGPU 直接跟物理 GPU 对接。

现实世界的应用状况又是怎样的呢?

通过技术交流,发现传统行业大多数的 GPU 资源池案例都是 VDI 的桌面虚拟化应用场景,针对后台服务器虚拟化的案例几乎没有。在互联网行业,像百度这样在 AI 领域比较强的,用的都是自研的 GPU 服务器和资源调度平台。

真正的商业案例中,大量客户使用的还是基于 X86 物理服务器搭配 GPU 卡的方式来部署 AI 应用。

之后,对这个客户也做了相应的调研。客户现状:针对 AI 技术部署了独立的语音分析、OCR 和人脸识别等多个平台,支撑整个公司对于 AI 场景的需求。(目前有 GPU 服务器:50 台+,GPU 卡:180+,后续还有 200+的 GPU 卡扩容计划)。针对调研情况,也做个简要分析。

应用场景:

目前 AI 技术主要为两种场景,训练(Training)和推理(Inference),从我这个客户的使用情况看,几乎都是推理场景,相对训练而言,对于 GPU 的算力的要求不是很高,这一点从用户的性能数据上也有体现。客户模型训练都是在供应商端进行的。

技术方案:

GPU 资源池只是一种概念,对于资源的形态来说,GPU 是物理的还是虚拟的不是最重要的。从资源管理角度看,主要是考虑利用效率、访问性能、安全隔离等因素。

如果是物理服务器方案,上层最佳的部署形式的直接基于容器,但是现实情况是大多数用户的应用部署还是基于 PM 和 VM 的。另外,也可以考虑基于服务器虚拟化+多 GPU 卡的方案,一个 VM 对应一个 GPU 卡的直通模式,但是应用密度显然受制于 GPU 卡的数量,如果这时再追加使用 vGPU 技术,似乎方案在 VM 技术平台上就更完美了,当然容器嵌套 VM 的方案也是一种好的形式。

商务成本:

成熟的商业虚拟化软件是有软件许可费的,而 Nvidia 的 vGPU 技术也需要支付相应的软件许可费,这样每个 GPU 卡可以根据显存的不同配置,被切分为固定数量的 vGPU,在相同数据物理 GPU 卡配置情况下,提升 VM 的部署密度。

其他因素:

当然,目前的“AI 芯片”也不是只有 Nvidia 一家,国内的寒武纪和华为也都用相应的产品支撑 AI 应用,对于主流的 TensorFlow,Cafee 框架可能还可以,但对于其他框架和模型在支持上略显不足,还需要加强生态建设。毕竟连英伟达都声称自己是一家软件研发公司。在这个 Software Define Anything 的时代,软实力才是真正贴近用户的硬实力。

关于建立后台支撑 AI 算力的 GPU 资源池这件事,技术本身并不存在限制,是个具有规模效应的事情。如果规模大了,也许百度的“孔明”平台就是一个需要达到的高度。至于其他公有云服务商,现在也都提供了相应的 GPU 服务,等有机会再去调研一下。

啥叫 Deep Learning?就是这种不断学习更新,还要用输出倒逼输入的方式!


用户头像

Finovy Cloud

关注

一家云基础设备服务供应商。 2022.03.31 加入

云服务器、GPU 服务器、物理主机、IDC 机房租赁等产品及服务。

评论

发布
暂无评论
GPU资源池的虚拟化路径_GPU服务器_Finovy Cloud_InfoQ写作社区