GPU 服务器:全球市值最大的半导体公司
GPU 服务器
服务器是 AI 核心基础设施。根据 IDC 数据,2020 年中国 AI 基础设施市场规模为 39.3 亿美元,同比增长 26.8%,并将在 2024 年达到 78.0 亿美元,其中 2020 年服务器市场规模占 AI 基础设施的 87%以上,承担着最为重要的角色。
互联网行业是 AI 服务器最大采购行业。根据 IDC 数据,2020 年上半年,互联网占整体加速计算服务器市场近 60%的份额,同比增持超过 100%;政府行业和服务业分别依次位居第二位和第三位。
GPU 服务器是 AI 加速方案首选。IDC 预计 2021 年中国 GPU 服务器占比 91.9%左右的市场份额,是数据中心 AI 加速方案首选。根据 IDC 数据,2019 年中国 GPU 服务器市场规模达到 20 亿美元,预计 2024 年将达到 64 亿美元。
GPU 服务器
GPU 加速服务器能够提供优秀的浮点计算能力,从容应对高实时、高并发的海量计算场景,例如深度学习、科学计算、3D 动画渲染、CAE 等应用场景。
2019 年平均每台服务器配置 8.02 个 GPU。一台 GPU 服务器通常搭载多个 GPU 加速芯片,根据 IDC 数据,2019 年中国 AI 服务器出货量为 79318 台,同比增长 46.7%,每个服务器配置 1-20 个 GPU,加权计算平均每台服务器配置 8.02 个 GPU 加速卡。
全球 GPU 巨头
Nvidia 成立于 1993 年,1999 年上市,市值近 10 年增长超过 83 倍,近 6 年增长超过 49 倍。截至 2021 年 11 月 5 日,Nvidia 总市值 7438 亿美元,总市值美股排名第七,是目前全球市值最大的半导体公司。
进阶之路
技术革新、场景拓展、外延并购,Nvidia 引领全球 GPU 发展。
➢ GPU 架构:Nvidia 坚持每 2-3 年推出一代新的 GPU 架构,持续保持技术领先,新的 Ampere 已经采用 7nm 工艺;
➢ 应用场景:从最初图形处理到通用计算,再到 AI 深度学习和自动驾驶,Nvidia 不断推动 GPU 应用场景的突破;
➢ 外延并购:2000-2008 年 Nvidia 密集收购额多家公司,涵盖显卡、图形处理、半导体等多个领域,2020 年宣布计划收购 ARM。
业务分类
Nvidia 产品主要分为两大类:图形处理、计算 &网络。下游市场包括游戏、专业可视化、数据中心、汽车四大类。
2020 年 Nvidia 营收 166.8 亿美元(yoy+52.7%),净利润 43.3 亿美元(yoy+54.9%),其中图形处理业务营收 98.3 亿美元,计算 &网络业务营收 68.4 亿美元。除去 2019 年游戏市场需求波动造成业绩下滑外,Nvidia 近 5 年营收、利润均保持较快增长。
得益于基于 Ampere 架构新 GPU 产品带动游戏业务高增,以及数据中心对算力需求旺盛,2021 上半年 Nvidia 营收、净利润快速增长。
下游分类与产品
Nvidia 下游市场分为四类:游戏、专业可视化、数据中心、汽车,各市场重点产品如下:
➢ 游戏:GeForce RTX/GTX 系列 GPU(PCs)、GeForce NOW(云游戏)、SHIELD(游戏主机)
➢ 专业可视化:Quadro/RTX GPU(企业工作站)
➢ 数据中心:基于 GPU 的计算平台和系统,包括 DGX(AI 服务器)、HGX(超算)、EGX(边缘计算)、AGX(自动设备)
➢ 汽车:NVIDIA DRIVE 计算平台,包括 AGX Xavier(SoC 芯片)、DRIVE AV(自动驾驶)、DRIVE IX(驾驶舱软件)、Constellation(仿真软件)计算业务
计算业务是 Nvidia 成长的主要驱动力:数据中心已成规模,智能汽车将进入收获期。
➢ 在数据中心市场,Nvidia 拥有芯片、硬件、硬件的全栈布局。得益于全球 AI 应用场景的快速增加,对算力的需求飙升。是 Nvidia 成长最快的市场,2020 年营收达到约 66.96 亿美元,近 4 年 CAGR 达到 68.5%,远高于游戏市场的 17.6%。2020 年 Nvidia 数据中心市场营收占比已经超过 40%,预计未来仍将继续提升。
➢ 在智能汽车市场, Nvidia 形成了全栈式自动驾驶解决方案。AGX Xavier 芯片于 2018 年开始出货,下一代自动驾驶芯片 Orin 计划用于 2022 年量产,算力将达到 254TOPS,目前已经获得蔚来、理想、沃尔沃、奔驰等多个整车厂定点项目。我们认为 2022 年高阶自动驾驶汽车或将集中落地,Nvidia 自动驾驶将进入收获期。中国大陆贡献
Nvidia 中国大陆收入快速增长。2020 年 Nvidia 来自中国大陆收入 38.86 亿美元,同比增长 42.3%,近 4 年 CAGR 达到 31.4%,同期 Nvidia 整体营收 CAGR 为 24.6%。
Nvidia 中国大陆收入占比呈上升趋势。2020 年 Nvidia 中国大陆收入占比达到 23.3%,相比于 2016 年的 18.9%提升 4.4pct,2021 上半年 Nvidia 中国大陆收入占比 25.6%,上升趋势明显。
我们预计中国大陆占比仍将提升。图显业务层面,人均收入提升将带动 PC 需求增加;计算业务层面,目前中国大陆在 AI 算法、应用层面具有领先优势,自动驾驶场景也将率先得到释放。
景嘉微:国产 GPU 领军人物
景嘉微
景嘉微成立于 2006 年,公司主营业务分为图形显控、小型专用化雷达、GPU 芯片三类。其中图显、雷达产品主要面向军用市场,GPU 芯片产品包括 JM5400、JM7200,其中 JM5400 主要应用于公司图显模块中,JM7200 成功拓展了民用和信创市场。2021 年 9 月,公司第三代 GPU 芯片 JM9 成功流片,目前正在进行性能测试。
景嘉微量产芯片
景嘉微已完成两个系列、三款 GPU 芯片量产应用。第一代 GPU 产品 JM5400 于 2014 年流片成功,主要支撑军用装备,已在国产军用飞机上实现了对 ATI M9、M54、M72 等芯片的替代;第二代产品 JM7200 于 2018 年 8 月流片成功,性能与 Nvidia 的 GT640 显卡相近。在 JM7200 基础上,公司又推出能耗更低的 JM7201,成功进入民用领域。
景嘉微:两个系列、三款 GPU 量产应用
景嘉微三款量产 GPU 芯片介绍
JM7200
目前 JM7200 已完成与国内主要的 CPU 和操作系统厂商的适配工作,与长城、联想、同方等十余家国内主要计算机整机厂商建立合作关系并进行产品测试,成功进入商用领域。JM7201 是 JM7200 针对民用市场的升级,在保证性能基础上降低能耗。
2019 年 11 月,景嘉微全资子公司长沙景美与湖南长城科技信息有限公司签署了《战略合作协议》,根据协议,2020 年湖南长城拟采购 10 万套基于 JM7200 芯片的国产图形显卡;2020 年 3 月,景嘉微全资子公司长沙景美与北京神州数码有限公司签署《采购合作框架协议》,神州数码以景嘉微“大陆地区经销商”名义代理公司 GPU 及显卡产品。中国长城是国内信创市场的核心整机厂商,神州数码是国内重要的 IT 分销商和信创参与方,合作是景嘉微 GPU 产品在民用信创大批量落地的体现。
2021 年上半年景嘉微芯片营收 2.14 亿元,同比增长 13.5 倍,占总营收比例达到 45.1%。
JM9 系列芯片
预计 JM9271 系列芯片性能达到 GTX1080 水平,目标中高端市场。根据公司公告,JM9231 和 JM9271 将采用业界主流的统一渲染架构,支持 OpenGL4.5 接口,可以无缝兼容市面上主流的 CPU、操作系统和应用程序。
➢ JM9231 性能与国际同类公司 2016 年中低端产品性能相当,主要针对国产化办公电脑,便携式计算机、中低端的游戏机和高端嵌入式系统等消费电子领域。
➢ JM9271 在 JM9231 基础上对科学计算能力进行大幅度提高和改进,可以达到国际同类公司 2017 年中高端产品的性能,主要针对人工智能、安防监控、语音识别、深度学习、云计算等对计算速度要求非常高的高端应用领域。
潜在风险
1、市场竞争加剧的风险
当前全球独立 GPU 市场由 Nvidia 和 AMD 垄断,景嘉微是国内唯一商用 GPU 公司,未来全球和国内 GPU 市场竞争或将加剧;
2、GPU 市场发展不及预期
GPU 应用正从图像显示向计算领域拓展,FPGA、ASIC 芯片也应用于计算领域,未来或将挤占 GPU 在计算领域应用;
3、Nvidia 产品迭代不及预期
Nvidia 推动 GPU 向数据中心、汽车等新兴场景应用,若产品迭代不及预期,或将影响 Nvidia 市场地位和业绩表现;
4、景嘉微第三代芯片性能不及预期
目前景嘉微 JM9 系列芯片正在性能测试过程中,若性能不及预期,将影响景嘉微向民用领域拓展。
附:GPU 重要参数解析
⚫ CUDA Core 和 Tensor Core:为 GPU 提供计算能力的硬件单元。CUDA core 也叫 Streaming Processor(SP),是单精度,组成 SM 的重要部分。Tensor Core 已发展到第三代,Tensor Core 大幅减少了深度学习需要的时间。Core 的数量越多,并行运算的线程越大,计算的峰值越高。
⚫ 像素填充速率:指 GPU 一秒钟内能处理多少个像素,单位是 GPixel/S(每秒十亿像素),或 MPixel/S(每秒百万像素)。像素填充速率是较好衡量 GPU 图像显示功能的整体指标,说明了显卡能以多快的速度对图像进行光栅化处理。
⚫ 纹理填充率:指对多边形图像进行纹理贴图、实现 3D 效果的速度,和像素填充率类似,单位是 GTexels/S 或 MTexels/S。游戏采用了多纹理贴图的方式,使画面具有更好的光影效果。
⚫ 显存容量:其主要功能就是暂时储存 GPU 要处理的数据和处理完毕的数据。显存容量大小决定了 GPU 能够加载的数据量大小,在深度学习、机器学习的训练场景,显存的大小决定了一次能够加载训练数据的量,在大规模训练时,显存会显得比较重要。
⚫ 显存位宽:显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大,这是显存的重要参数之一。
⚫ 显存频率:一定程度上反应着该显存的速度,以 MHz(兆赫兹)为单位,显存频率随着显存的类型、性能的不同而不同。显存频率和位宽决定显存带宽。
⚫ 显存带宽:指显示芯片与显存之间的数据传输速率,它以字节/秒为单位。显卡的显存是由一块块的显存芯片构成的,显存总位宽同样也是由显存颗粒的位宽组成,显存带宽=显存频率×显存位宽/8。
⚫ 制作工艺:制作工艺,指的是晶体管与晶体管之间的距离,单位是纳米。制作工艺越小说明集成度越高,功耗越小,性能越好。
⚫ 功率:集显依靠 CPU 的主板连接提供电源,但独显性能较强,需要单独接电源。
⚫ 总线接口:显示卡要插在主板上才能与主板互相交换数据,现在主流接口为 PCLe(PCI-Express)。接口提供数据流量带宽,目前主流采用 PCLe4.0 版本,16 个通道。
⚫ Directx 支持:简称 DX,是一种应用程序接口(API)。DX 由微软编写,由很多的 API 组成,包括显示、声音、输入和网络。DirectX 11 还支持高质量实时渲染和预渲染场景,目前 DX 已发展到 Directx 12 版本,提高了多线程效率,可以充分发挥多线程硬件的潜力。
评论