AI 开发硬件基础经验
文章和代码已经归档至【Github 仓库:https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 AI 配置 也可获取。
AI 开发硬件基础经验
笔记本选配
出于通勤等因素,建议型号
MacBook Air M1 16+ 256
MacBook Pro M1 16 + 256
M1 芯片的 mbp 非常强大,发热不严重,甚至在 Air 版没风扇.
主机八大件选购
主要介绍主机 GPUx1/GPUx2 的配置,GPUx4/GPUx8 的配置后面介绍,建议结论如下,3080 版本总计 13000 左右,3090 版本总计 21000 左右(显卡加 6000 左右换成 3090,电源换成 1000w,其他不需要变即可)。
CPU/主板:5900x+微星 MAG B550M MORTAR WIFI 迫击炮主板.==> 3200 元
CPU 散热:利民 Frozen Magic EX 240 水冷. ==> 390 元
硬盘:三星 PM9A1 1T 809 + WD 西数 sn570 2T.==>1300 元
内存:海盗船复仇者内存条 32G x2. ==>900x2=1800 元
GPU:耕升 3080 12G ==>5200 元
电源:长城 850w 金牌全模组==> 560 元
机箱:300 元左右支持 240 水冷的机箱即可=>200 元
关于 CPU
这里参考 CPU 天梯图 https://zhuanlan.zhihu.com/p/109042798 常看常新
CPU 天梯图是按照 CPU 的跑分进行排序,进行综合性能对比、反映 CPU 性能优劣的一种量化标准。CPU 主要有两家品牌: Intel(触点式接口)和 AMD(针脚式接口),此部分主要介绍 Intel/AMD 主流系列,其他系列会在后介绍。
intel 酷睿系列:i3(入门办公). i5(主流).i7(高端级), i9(发烧级).eg: 12700k,12900k...
AMD 锐龙系列:R3(入门办公).R5(主流).R7(高端).R9(发烧级).eg: 5700x,5900x...
CPU 接口不同搭配的主板也不同,不同级别的 CPU 搭配不同级别的主板芯片组。eg:
入门办公 : Intel 主板(H 开头)、AMD 主板(A 开头).eg:H610,A520
主流∶Intel 主板/AMD 主板(B 开头).eg: B660,B550
高端/发烧: Intel 主板(Z 开头)、AMD 主板(开头).eg: z690,x570
intel-酷容 12 代系列

https://zhuanlan.zhihu.com/p/429099752
intel 12 代酷睿系列 CPU,需要搭配不同后缀标代表不同意思,
后缀 k:具备核显,可以超频
后缀 KF:不具备核显,可以超频
后缀 F:不具备核先,不可超频需要搭配的主板型号
一般主机要搭配 GPU,因此不需要考虑带 K 的系列。且长时间运行不建议超频。
需要搭配的主板型号
1)B660
2)Z690
AMD-锐龙 5000 系列

https://www.gamersky.com/news/202204/1479779.shtml
AMD 锐龙 5000 系列,后缀含义
1)X: 高端处理器
2)G: 带核显..
需要搭配的主板型号
1)B550: 华硕 TUF 重炮手、微星迫击炮..
2)X570:
主板介绍
主板中比较好的牌子:华硕、技嘉、微星. 中高端都是可以选择的. 不同的主板的版型,即大小:
EATX/ATX: 需要搭配大机箱,散热最好
mATX:比较合适
ITX:扩展性、散热有问题
在 AI 训练、测试用途中,CPU 部分主要考虑的是核心 &线程数量。建议大家选购 AMD 5900x 型号,散片/盒装都可,CPU 出故障率极低。(不推荐 12 代酷睿的原因是 在 Ubuntu 系统中版本适配做的不好,比如大小核小分配任务的故障等)
学校可以配置一个 ATX 的大机箱放到工位。
公司可以配置 mATX 加一个小机箱。
另外,主板一定要选择带蓝牙/wifi 的配置,这样可以剩下一个 PCIE 插口,后续扩展硬盘非常方便的。
CPU 散热器
风冷: CPU 的热量传到到热管鳍片的表面,通过风扇进行对流交换散热。
推荐型号:猫头鹰系列(高风扇转速下非常安静)
水冷: CPU 的热量通过水泵对冷却液的循环,抽到散热片风扇冷却,循环散热。
推荐型号:240 起步,恩杰 X 系列、利民 Frozen Magic EX 系列、华硕 ROG 龙神系列。
CPU 散热部分主要考虑的是噪音,风冷噪音实在太大,而水冷的风险是漏液。建议选购推荐品牌的 240/360 水冷。
硬盘 & 内存
硬盘比较好的牌子:三星、铠侠、西部数据,硬盘按照接口主要分为两种
PCIE3.0/4..0
SATA:速度太慢,不推荐
在 AI 训练、测试用途中,硬盘部分主要考虑的是速度,容量其次,有时候 GPU 显存的利用率很低,很大的程度是硬盘 IO 瓶颈。由于 B550/B660 主板预留的 PCIE 接口只有两个,所以推荐采用 2T NVME PCIE3.0(装系统) + 1T NVME PCIE4.0. 存放有价值的数据集跟训练 checkpoint 是完全没问题的。后续如果想增加容量完全可以用 PCIE 扩展卡上面额外加固态即可。关于容量,比如 imagenet 138G. COCO 27G. 1T + 2T 的配置完全够用。

PCIE 扩展卡的使用
内存比较好的牌子:英睿达、海盗船、芝奇都可。
原则:内存的容量 > 2*GPU 显存,越高越好
在 AI 训练、测试用途中,内存部分主要考虑的是容量,数据的处理流程是硬盘=>内存=>GPU 显存,一定量的内存能保证进行数据预处理的时候能非常好的。频率不需要太高,建议适中 3200 即可,考虑到后续参加比赛需求。预算不足情况下 32G 即可。
GPU &电源


可见 FP16 算力远远大于 FP32。
GPU 与 Al 训练、测试相关的参数:
FP64: Linpack(Linear system package)Test (通常在物理模拟等需要精度特别高的场景下才会考虑)
FP32: Deep Learning 单精算力
FP16: Quantization(压缩) & amp(混合精度): python1.6 +++(以后的版本都支持) 半精算力
推荐两款型号 3080 12G / 3090 24G,建议预算充足选择 3090
注意:同样的型号 3090 24G,半精度下 71TFLOPS 远远大于单精度 35TFLOPS。因此,可以选择开启半精度训练。也就是同样场景下半精度训练速度比单精度快一倍。
2 张 2080ti+1200w 在满载跑模型的时候,主机断电重启的问题,经检查 pytorch 启动瞬时功率过大导致的。
电源建议:3080 12G 选用 850w,3090 选用 1000w
牌子:振华、海韵都可
N 卡进化历程

在第三代的 Kepler 架构里,FP64 单元和 FP32 单元的比例是 1:3 或者 1:24。
第四代的 Maxwell 架构里,这个比例下降到了只有 1:32。
第五代的 Pascal 架构里,这个比例又提高到了 1:2,但低端型号里仍然保持为 1:32。
一般重点关注 FP32 峰值算力,与 DL 息息相关。
对于一些特殊的卡,例如 T4 专门用于推理,只需要关注 FP16 和 INT8 的算力即可。
其他的 Process Unit
APU— Accelerated Processing Unit,加速处理器,AMD 公司推出加速图像处理芯片产品。
BPU— Brain Processing Unit,地平线公司主导的嵌入式处理器架构。
CPU—Centrall Processing Unit 中央处理器。目前 PC core 的主流产品。
DPU —Deep learning Processing Unit,深度学习处理器。最早由国内深鉴科技提出;另说有 Dataflow Processing Unit 数据流处理器,Wave Computing 公司提出的 AI 架构;Data storageProcessing Unit。深圳大普微的智能固态硬盘处理器。
FPU— Floating Processing Unit 浮点计算单元,通用处理器中的浮点运算模块。
GPU —Graphics Processing Unit,图形处理器,采用多线程 SIMD 架构。为图形处理而生。
HPU 一 Holographics Processing Unit 全息图像处理器,微软出品的全息计算芯片与设备。
IPU—Intelligence Processing Unit,Deep Mind 投资的 Graphcore 公司出品的 AI 处理器产品。
MPU/MCU — Microprocessor/Micro controller Unit,微处理器/微控制器,一般用于低计算应用的 RISC 计算机体系架构产品,如 ARM-M 系列处理器。
NPU — Neural Network Processing Unit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称。如中科院计算所/寒武纪公司出品的 diannao 系列。
RPU — Radio Processing Unit,无线电处理器,lmagination Technologies 公司推出的集合集 wifi/蓝牙/FM/处理器为单片的处理器。
TPU 一 Tensor Processing Unit 张量处理器,Google 公司推出的加速人工智能算法的专用处理器。目前一代 TPU 面向 Inference,二代面向训练。
VPU—Vector Processing Unit 矢量处理器。Intel 收购的 Movidius 公司推出的图像处理与人工智
从目前的实践来看,AI 算法和传统 HPC 算法相比,对精度的要求低得多。因此我们看到很多 AI 芯片主要强调在 FP16 或者 INT8 中的精度。可以说,对目前 AI 芯硬件效率的提升,低比特精度有很大贡献。
机箱

构建合理的机箱风道能保证 CPU 跟显卡的温度,在确定自己机箱需求后,建议机箱安装若干风扇组件合理风道是非常重要的。
多 GPU 情况
GPUx4 or GPUx8: 在多 GPU 情况下、保证机器的稳定性是至关重要的,这时候就要选择更高系列的 CPU。
1)Intel 至强系列 4210R, 5218R, 6230R
2)AMD 霄龙系列 7320, 7402, 74F3....
这些 CPU 比如支持 ECC 自动纠错内存、支持的 CPU 通道数更多、支持更高的 PCIE 通道等。
云服务器的推荐
Colab
AutoDL
版权声明: 本文为 InfoQ 作者【timerring】的原创文章。
原文链接:【http://xie.infoq.cn/article/84cb1a71e6ed1dee568cb19a3】。未经作者许可,禁止转载。
评论