写点什么

AI 算力加速之道

  • 2022 年 3 月 10 日
  • 本文字数:8416 字

    阅读完需:约 28 分钟

1 AI 算力发展趋势

1.1 人工智能理论:深度学习

人工智能发展至今并非一帆风顺, 从起步阶段到现今的深度学习阶段,数据、算法和算力构成了人工智能三大基本要素,共同推动人工智能向更高层次的感知、认知发展。 

1.2 第三次人工智能浪潮代表人物

如前所述,当前人工智能繁荣离不开数据、算法和算力的共同发展,在算法层面,深度学习三巨头 Geoffrey Hinton、Yann LeCun 和 Yoshua Bengio 对 AI 领域的贡献无人不知、无人不晓,他们围绕神经网络重塑了 AI;


数据层面,2007 年李飞飞创建了世界上最大的图像识别数据库 ImageNet,使人们认识到了数据对深度学习的重要性,也正是因为通过 ImageNet 识别大赛,才诞生了 AlexNet, VggNet, GoogleNet, ResNet 等经典的深度学习算法。


前几次人工智能繁荣后又陷入低谷,一个核心的原因就是算力难以支撑复杂的算法,而简单的算法效果又不佳。黄仁勋创办的 NVIDIA 公司推出的 GPU,很好的缓解了深度学习算法的训练瓶颈,释放了人工智能的全新潜力。

1.3 计算力就是生产力

在智慧时代,计算力就是生产力。什么是生产力,就是人类改造自然的能力,就是创造价值的能力。在这个表中,我们有一个很有趣的发现。


在 10 年前,全球市值最高的企业大部分是能源公司、金融企业,市值靠前的 IT 公司仅仅微软一家,那时候 windows 如日中天,office 独步天下,属于个人 PC 时代。


到了当前,全球最值钱的公司几乎清一色的信息技术与服务公司,有趣的地方还不在这里,这前几名的公司正好也是全球采购服务器最多公司,仅亚马逊一家,2017 年便采购了全球 13%的云服务器。是海量的计算能力在为这些公司创造价值。


对于企业是这样子,对于国家也是如此。计算力之于智慧时代就像是电力之于电气时代,都是生产力的重要形式。


那么,我们便可以通过计算力的情况,来分析一个国家的经济发展情况,就如同克强指数里面的电力能够衡量一个行业的发展情况类似。据统计,国家 GDP 的数字与服务器的出货量,GDP 与服务器采购额呈现出明显的正线性相关关系。


美国、中两国不仅 GDP 远远领先于日本和德国,每万亿 GDP 的服务器数量也远远高于他们,数字经济的贡献占比明显高于他们。


我们国内各个省得情况,与此完全类似,北、上、广、浙每万亿 GDP 的服务器出货量远大于其他省区,因此他们新旧动能转换的就快,发展质量就跑在了前面。所以我们可以说计算力已经成为衡量社会和经济发展水平的重要指标。


面对指数级增长的计算需求,计算技术、产品与产业也面临着新的挑战。具体来说,体现在以下三个方面,一个是多元化的挑战,也就是计算场景的复杂、计算架构的多元;一个是巨量化的挑战,也就是由巨量模型、巨量数据、巨量算力及巨量应用引发的对现有计算机体系结构的挑战;

最后一个则是生态化的挑战,简单来说现在的智算处于群雄并起阶段,自成体系、生态离散,同时产业链上下游脱节。


第一个挑战是多元化。


我们讲计算最关键的任务就是支撑业务,那么不同的业务类型,势必要求有不同的计算系统来完成。例如针对传统的地震波模拟等科学计算,数值精度要求高,需要能到 64 位;而 AI 训练,则可以使用数值范围大、精度低的 16 位浮点类型;对于 AI 推理,由于推理要求速度、耗能少,则可以在更低的数值精度下进行处理,如 4 位、甚至 2 位、1 位整数类型。


也就是说 AI 的应用引入了新计算类型,从推理到训练,跨度更大,同时,数据量也从 GB 级到 TB 级、PB 级不断提升,类型从结构化到半结构化、非结构化更加复杂多样。


不同数值精度的计算类型对于计算芯片指令集、架构的要求是不一样的,这样就导致之前我们一直使用的通用 CPU 芯片已经无法满足这种多元化计算场景要求了,这也是计算芯片的种类越来越多的很重要的原因。

第二个挑战是巨量化。巨量化首先表现在模型参数多、训练数据量大。


以自然语言处理为例,基于自监督学习的预训练模型兴起后,模型精度随着模型尺寸及训练数据的增加而显著提升。


20 年 GPT-3 模型的参数量首次突破千亿大关,达到了 1750 亿。按照当前的发展趋势,23 年模型的参数量将突破百万亿,也就是基本达到人脑神经突触数量,人脑的神经突触数量约 125 万亿。


巨量模型需要巨量内存。当前一颗 GPU 的板载高速内存容量为 40GB,对于包含百万亿参数的巨量模型,仅是将这些参数平均分配到每个 GPU 内存中,就需要 1 万块 GPU 才能装得下。


考虑到训练中需要额外的存储,实际上至少需要 2 万块 GPU 才能启动训练。现有 AI 芯片的架构已经不足以支撑巨量模型的参数存储需求。


同时,巨量模型依赖海量数据的喂养,目前的 AI 算法本质上还是一种依赖量变的质变,很难从一种质变跳跃到另一种质变,例如最新的巨量模型需要万亿级的词量数据。海量数据需要海量存储。在超大规模集群中同时满足几万块 AI 芯片的高性能读取,对存储系统是个极大的挑战。


巨量化的第二个表现是计算力需求指数增长


深度学习自 2011 年兴起至今,对算力的需求始终呈指数增长。每隔 3.4 个月,算力需求翻一倍。


Petaflops*day 代表以 1P 每秒的算力计算一天所用浮点计算量来度量算力。训练巨量模型需要巨大算力:20 年 GPT-3 的算力达到了 3640PD,到 23 年巨量模型的算力需求将达到百万 PD。


在当今世界最快的超算系统上,完成百万 PD 的计算所需时间约为 2 年。不同领域需要不同类型的巨量模型:GPT-3 以处理英文理解任务为主,为了满足不同语言,不同场景的精度要求,也要训练不同的巨量模型,这进一步加剧了对算力的需求。


如此庞大的算力需求给计算技术和产品带来了巨大挑战。解决这样的挑战需要从体系结构、系统软件等各个领域开展创新。


最后我们来看一下智算面临的生态化的挑战,AI 的技术链条、产业链条是脱节的。我想很多人会有这样的疑问,人工智能那么好,但是这东西怎么跟我的业务,跟我的客户应用场景结合起来呢,我想用 AI 技术做智能化转型,但是发现我这里没人懂算法,懂模型,也缺少好用的 AI 开发平台。同时,那么多算法,模型,如何找到不同算法在应用中的最优组合。


懂这些的人,往往都集中在科研机构或者头部公司。这些地方集中了最优秀的 AI 人才,但缺少对传统行业的需求场景、业务规律的深入理解,也拿不到最关键的业务数据去对模型进行训练,导致技术无用武之地。

埃森哲等咨询机构的调查报告也表明,70%以上的有技术的研究机构、科技公司缺需求场景、缺领域知识和数据,70%以上的行业用户缺技术人才、缺 AI 平台和实践能力。


2 AI 加速技术介绍

2.1 AI 架构


通常用户对接触到的 AI 架构相关的信息是申请 XX 核 CPU, XX 张 CPU 卡,XXGB 内存等资源,其对应 AI 架构的计算资源、存储资源和网络资源,实际的 AI 架构包括计算节点、管理节点、存储节点、计算网络、管理网络和客户端等。


如何进行计算资源的规划呢?秉持的原则是花最低的成本满足需求,同时考虑到扩展性,比如有两种以上计算特征的业务,而且规模都不小,那么对应的计算节点类型也应有两种以上;如果极限需求规模远大于其它需求,那么可以减少计算节点类型数量,以便将来不断扩展。

2.2 AI 加速技术

 AI 对计算的需求非常大,如何加速直接关系到生产效率和成本,下面介绍一下当前最新的一些 AI 加速技术。

2.2.1 计算

(1)异构计算

在 GPU 用于 AI 计算前,都是 CPU 承担计算任务,但是随着 AI 计算需求的急剧增加,CPU 的计算效率难以满足需求,产生了“CPU+GPU”的异构计算架构,如下图右上角所示。


如下图右下角所示,GPU 的计算效率是 CPU 的几倍~几十倍,为什么 CPU 和 GPU 的计算效率会有这么大的差异呢?主要是 CPU 和 GPU 的架构存在巨大差异,如下图左下角所示,GPU 的计算单元数量远远多于 CPU 的计算单元,所以 GPU 更适合于大规模并行计算。


而 CPU 架构中 Control 和 Cache 单元面积则比 GPU 大得多,所以 CPU 更适用于不能高度并行的复杂计算(比如代码中的 if 语句等)。


(2)NVLINK 通信

随着 AI 计算规模增大,例如大规模 AI 训练,需要多卡甚至多个节点同时参与一个任务的计算,其中一个关键点就是如何支持节点内 GPU 间的高速通信,以便他们可以作为一个巨大的加速器相互协作。


虽然 PCIe 非常标准,但是带宽非常有限,如下图左上角所示,PCIe Gen3 的理论带宽是 32GB/s,PCIe Gen4 的理论带宽是 64GB/s,而实测带宽大概分别是 24GB/s 和 48GB/s。


在 AI 训练中,没完成一轮计算,都要同步更新一次参数,也就是权系数,模型规模越大,参数规模一般也会更大,这样 GPU 之间通信(P2P)能力对计算效率影响就比较大,如下图右上角所示,同样是 8 卡 V100, NVLINK2.0 架构相比 PCIe 架构性能提升 26%,NVLINK2.0 Next 架构(全互联,任意两张卡间 P2P 通信带宽都是 300GB/s)则相比 PCIe 架构提升 67%。


NVLINK 是 NVIDIA 开发的一项高速 GPU 互联技术,现在已经发展到第三代(NVLINK3.0),如下图下半部分,从 NVLINK1.0(P100)到 NVLINK2.0(V100),再到 NVLINK3.0(A100),带宽从 160GB/s 到 300GB/s,再到 600GB/s,NVLINK1.0 和 2.0 的 P2P 通信不是全互联,也就是,任意两张 GPU 卡之间的通信带宽实际没有达到最大带宽,有的甚至还通过 PCIe 通信,这样节点内 GPU P2P 通信就产生了台阶。


而 NVLINK3.0 则实现了 P2P 全互联通信,任意两张卡之间的通信带宽是 600GB/s,极大的提升了节点内多卡计算效率。

(3)Tensor Core

V100 的张量核心是可编程的矩阵乘法和累加单元,可以提供多达 125 Tensor TFLOPS 的训练和推理应用。V100 包含 640 个 Tensor Cores。每个张量核提供一个 4x4x4 矩阵处理数组,它执行操作 D=a*B+C,其中 a、B、C 和 D 是 4×4 矩阵,如下图上部所示。矩阵乘法输入 A 和 B 是 FP16 矩阵,而累积矩阵 C 和 D 可以是 FP16 或 FP32 矩阵。


每个 Tensor 核心每个时钟周期可执行 64 次浮点混合乘加 (FMA) 运算。从而为训练和推理应用程序提供高达 125 TFLOPS 的计算性能。这意味着开发人员可以使用混合精度(FP16 计算使用 FP32 累加)执行深度学习训练,从而实现比上一代产品快 3 倍的性能,并可收敛至网络预期准确度。


Tensor 内核提供的 GEMM 性能是以前硬件的几倍,如下图右下角所示,GP100(Pascal)和 GV100(Volta)硬件的比较性能。


(4)多元算力

随着 AI 的发展,产生了各类芯片,比如 CPU、GPU、ASIC、FPGA,如下图上部所示,从通用性和性能两个维度去分析比较,通用性维度:CPU > GPU > FPGA > ASIC,性能维度则是正好相反。不同的 AI 任务,对芯片的要求不同,比如训练任务,需要能支持各类框架、模型、算法库等,需要很高的通用性,NVIDIA GPU 因为其完备的生态,具有很高的通用性,从而占据主导地位。


而对于推理任务,则仅需支持某一或某几个框架、模型、算法库等,因为靠近业务,所以对性能和成本的需求更多,于是 ASIC 芯片则在部分场景的性价比超过 NVIDIA GPU,从下图下半所示的 IDC 统计的各类芯片市场销量可以看出来,在推理市场,NVIDIA GPU 虽然仍然占据主导,但是其它芯片的依然能跟上 NVIDIA GPU 的步伐,训练市场,其它芯片依然进展缓慢。



(5)低精度

如果能将 32 位的浮点数压缩到 16 位,虽然会损失一定的表示精度,但无论在参数的存储空间上还是在计算量(FPU 计算次数)上都会带来极大的改进。


这就是混合精度训练的基本原理。权重的主版本是以 FP32 形式存储的,在做推理与反向传播运算时先换成 FP16 在做计算,在做权重更新时,更新的增量(梯度乘以学习率)也是加到以 FP32 表示的权重上的,如下图上部所示。


 如下图所示,在某些场景,低精度不仅带来性能的提,还可以在推理任务重用来处理更复杂的模型,从而提高推理任务的精度。


2.2.2 网络

(1)GDR

GDR(GPU Direct RDMA),就是计算机 1 的 GPU 可以直接访问计算机 2 的 GPU 内存,如下图上半部所以。了解 GDR 概念之前,首先了解 DMA 和 RDMA 概念。


DMA(Direct Memory Access)直接内存访问,是 Offload CPU 负载的一项重要技术。DMA 的引入,使得原来设备内存与系统内存的数据交换必须要 CPU 参与,变为交给 DMA 控制来进行数据传输,是一种完全由硬件执行 I/O 交换的工作方式。


RDMA 可以简单理解为利用相关的硬件和网络技术,服务器 1 的网卡可以直接读写服务器 2 的内存,最终达到高带宽、低延迟和低资源利用率的效果。


目前 RDMA 的实现方式主要分为 InfiniBand 和 Ethernet 两种传输网络。而在以太网上,又可以根据与以太网融合的协议栈的差异分为 IWARP 和 RoCE(包括 RoCEv1 和 RoCEv2)。


所谓 GPUDirect RDMA,就是计算机 1 的 GPU 可以直接访问计算机 2 的 GPU 内存。而在没有这项技术之前,GPU 需要先将数据从 GPU 内存搬移到系统内存,然后再利用 RDMA 传输到计算机 2,计算机 2 的 GPU 还要做一次数据从系统内存到 GPU 内存的搬移动作。


GPUDirect RDMA 技术使得进一步减少了 GPU 通信的数据复制次数,通信延迟进一步降低。


 

(2)SHARP

SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)是一种集合通信网络卸载技术。

在 AI 训练中,常常有很多集合类通信,这些集合类通信由于涉及全局,常常对应用程序并行效率产生巨大的影响。


针对这种情况,NVIDIA Mellanox 从 EDR InfiniBand 交换机开始引入了 SHARP 技术,在交换机芯片中集成了计算引擎单元,可以支持 16 位、32 位及 64 位定点计算或浮点计算,可以支持求和,求最小值,求最大值,求与,求或及异或等计算,可以支持 Barrier、Reduce、All-Reduce 等操作。


在多交换机组成的机群环境下,Mellanox 定义了一整套的可扩展分层次聚合和归约协议(SHARP)卸载机制,由聚合管理器(Aggregation Manager)在物理拓扑中构造一个逻辑的 SHARP 树,由 SHARP 树中的多个交换机并行分布式处理集合类通信操作。


当主机需要进行全局通信例如 allreduce 时,所有主机把通信数据提交到各自连接的交换机,第一级交换机收到数据后,会使用内置的引擎对数据进行计算和处理,然后把结果数据提交到 SHARP 树的上一级交换机,上一级交换机也使用自己的引擎对从若干个交换机收上来结果数据做聚合处理,并继续向 SHARP 树的上一级递交。


到达 SHARP 树的根交换机后,根交换机做最后计算并把结果回发给所有的主机节点。通过 SHARP 方式,可以大幅降低集合通信的延迟,减少网络拥塞,并提升机群系统的可扩展性(如下图上半部所示)。


SHARP 对于复杂模型,复杂多层网络效果更加显著,如下图下半部所示,随着集群规模的增大,开启 SHARP 功能后,延迟基本没变化,相比未启用 SHARP 功能,延迟呈线性增长;同样对于最终的性能提升也是差异比较大。


(3)IB(INFINIBAND)

InfiniBand Architecture 是为大规模数据中心设计的软件定义网络架构,它的设计旨在实现最高效的数据中心互连基础设施。InfiniBand 原生地支持 SDN、Overlay 和虚拟化等网络技术,是一种开放标准的高带宽、低时延、高可靠的网络互连。相比 RoCE 网络,IB 有诸多优势,如下图上半部分。


当然关于 AI 训练网络是选用 IB 还是 RoCE,在近期的套餐升级方案中争论的比较激烈,NVIDIA 是主推 IB 的,他们的论据是除了列出各种功能优势外,还有近两年互联网企业,如阿里、百度、京东、腾讯等部署的 AI 集群大都采用 IB 网络,然而也拿不出非常让人信服的量化数据,从阿里的维度看,由于有一支专门的 RoCE 网络优化团队,所以获得了近似 IB 的性能,同时 NVIDIA 所列的 SHARP 等 Benchmark 性能在实际用户中仅取得 3%-5%左右的性能提升(现在估计是在大模型、三层及以上网络架构效果显著些)。


总的来说,目前阶段的结论是 IB 是优于 RoCE,IB 把优化工作做到生态(NCCL/CUDA/…)中,对用户来说,优化工作量非常小,但是对于 RoCE,需要有专门的团队,较深的优化积累,相比较而言,当前选择 IB 更适合,当然成本有所提升,但如下图下半部分,带来的性能提升量更大。


当然,在云化的大背景下,除了以太,又多了一套网络架构,对于整体运维和管理带来复杂度提升,所以,IB&RoCE 之争不妨可以再深入分析,列举更多的量化数据,做更多的原理性分析,从而达到对网络的深度认知。


(4)多网卡

前面讲到 NVLINK3.0 的通信带宽为 600GB/s,PCIe4.0 的实测通信带宽也达到了 48GB/s,而当前的计算网络通常最大是 100Gb/s(12.5GB/s),所以对于需要跨节点多机多卡计算的大模型训练任务时,节点间参数通信就会遇到瓶颈,这时有必要采用多网卡策略,也就是两个节点间不再是连接 1 根网线,而是多根,从下图可以看出多网卡对于性能的提升量明显,由于网络成本占整个计算系统成本一般为 10%左右,所以 10%以上的性能提升对于整个计算系统来说,性价比是提升的。


2.2.3 存储

(1)GDS

GDS(GPUDirect Storage),是 NVIDIA 推出的又一 GPUDirect 技术,由于 GPU 计算速度很快,但是随着数据集和模型规模不断增加,应用程序载入数据花费的时间越来越长,进而影响了应用程序的性能,而且特别是端到端架构,会因为缓慢的 I/O 使得运算速度日益提升的 GPU 无用武之地。


数据从 NVMe 磁盘传输到 GPU 內存的标准路径,是使用系统內存中的回弹缓存(Bounce Buffer)也就是额外的数据拷贝。而 GPUDirect 存储技术避免使用回弹缓存,以减少额外的数据副本,并使用直接內存存取引擎(Direct Memory Access,DMA)将数据直接放到 GPU 內存中,为远端或是本地存储。


诸如 NVMe 或 NVMe over Fabric,和 GPU 內存之间,建立一个直接传输数据的路径,而这能有效减轻 CPU I/O 的瓶颈,提升 I/O 带宽和传输数据的量。


英伟达发展 GPUDirect 存储技术,大幅提升 GPU 载入大型数据集的速度。英伟达提到,GPUDirect 存储技术的主要功能,就是通过这个新的系统,以直接內存的存取方式,将数据传输至 GPU 内存上。


当然,发展到现在 GDR 落地场景还不是很多,首先是文件系统需要做适配,只有通过 NVIDIA 认证了才能支持 GDR 技术,限制了技术的推广;其次,GDR 主要还是单机内的技术,而且 NVME 主要是用来承载内存空间不足,统一存储带宽又偏低的一个中间状态需求,适用的场景较窄,所以业内适配的积极性也不高,但不管怎么说,GDR 也为 AI 架构又提供了一种加速选择。

(2)Burst Buffer

Burst Buffer 技术能够利用计算节点本地 SSD 硬盘,组成临时高速缓存文件系统。该功能可以通过更快的 checkpoint restart 提高应用程序可靠性;加快小块传输和分析的 I/O 性能;为核心外部应用程序提供快速临时存储空间;为需要计算过程中持久快速存储的大量文件输入计算任务创建暂存区域。


之前在 HPC 架构中采用较多,比如世界 HPC TOP500 榜单排名前 10 的超算集群,有多套已采用 Burst Buffer 技术,在 AI 架构中,现在也有用户在尝试采用类似技术,为大规模训练提供超大高速缓存。


2.2.4 并行技术

AI 大规模训练中,非常重要的一项技术就是并行技术。在多个计算设备上部署深度学习模型是训练大规模复杂模型的一种方式,随着对训练速度和训练频率的要求越来越高,该方法的重要性不断增长。


数据并行化(Data parallelism,DP)是应用最为广泛的并行策略,但当一张 GPU 的显存不能放下一个模型时,需要堆模型进行拆分, 将模型分为 N 个部分,分别加载到不同的 N 个 GPU 节点中,模型拆分按照拆分方式不同,又分为张量切片模型并行(层内模型并行)、Pipeline 模型并行(层间模型并行)。


如 DeepSpeed 模型,GPT-3 模型等则需要采用多种并行方式组合,才能完整装下整个模型。


而对于 GPT-3 模型来说,其对计算和 I/O 的需求都非常大,需要综合前面讲到的主要的加速技术,比如 NVLINK,Tensor Core、IB、多网卡、GDR、并行方式等,才能高效的完成大模型训练。


2.3 总结

前面讲到了各种 AI 加速技术,其实汇总起来无外乎都是在朝着两个方向努力:计算和 I/O,采用异构计算是为了提升计算能力,采用 NVLINK、IB、GDR、GDS、BurstBuffer、多网卡等都是为了提升 IO 带宽和延迟。


因为从 GPU 缓存(7TB/s)到显存(1.6TB/s)、CPU 内存(90GB/s)、高速缓存(24GB/s)、NVME 硬盘(6GB/s)、分布式存储(5GB/s,规模大可到几十上百 GB/s)、 冷存货(2GB/s),IO 带宽存在台阶,所以 AI 架构 IO 加速的方向是在逐步弥补台阶的差异,当然算法上还需要尽可能的利用架构的特点,最大化的利用最快的 IO 架构。


3 GPT-3 模型预训练计算架构分析

下面以 GPT-3 模型预训练为例,进行简单的架构分析。

3.1 GPT-3 模型计算特征分析

在进行 AI 架构方案设计时,首先要弄清楚 GPT-3 的计算特征,也就是什么样的计算和 I/O 满足 GPT-3 模型预训练的极限需求。


一般是通过理论分析和实际测试两个维度分析,通过分析,可以获知,GPT-3 的 I/O 需要接近 100GB/s,对应的网络需要 4*HDR 200 网络支持,也就是需要 4 网卡,这次采用的是 Infiniband 网络。


其次是计算需求,以 A100 的算力 312TFlops 来评估:GPT-2 的计算需求约为  10 PetaFlop/s-day, 约等于 64 个 A100 GPU 训练 1 天时间;GPT-3 的计算需求约为 3640 PetaFlop/s-day, 约等于 64 个 A100 GPU 训练 1 年时间。下表是近期业内发布的几个大模型使用的训练计算资源情况。

3.2 GPT-3 模型预训练计算架构分析

如前一节分析,AI 计算架构的计算部分采用最新的 A100 GPU 卡,I/O 部分采用 4*HDR200 IB 网络,GPU 之间采用 NVLINK 实现 600GB/s 高速互联。

NVLINK  A100 服务器拓扑 


下图是对应的网络拓扑:

大模型训练平台架构(140 节点)


4 结语

 AI 算力是人工智能三要素的重要组成部分,AI 加速技术围绕计算和 I/O 正在飞速的发展,不断提升 AI 计算任务的计算效率,我们加强对于 AI 架构的理解。


当然 AI 加速除了配置相应的硬件架构,还需要平台、框架、算法等相关技术人员一起合作,才能最大化的利用当前最新的 AI 架构。


作者简介

Jason OPPO 高级 AI 架构师

毕业于中科院地质与地球物理研究所,曾任职浪潮高级 AI 架构师,为 AI 客户提供 AI 算力架构选型与优化。

获取更多精彩内容,请扫码关注[OPPO 数智技术]公众号

发布于: 刚刚阅读数: 2
用户头像

还未添加个人签名 2019.12.23 加入

OPPO数智技术干货及技术活动分享平台

评论

发布
暂无评论
AI算力加速之道_人工智能_OPPO数智技术_InfoQ写作平台