安装配置 GPU 训练环境
差一年、差一个月、差一天、一个时辰,都不算!
-- 哥哥
ubuntu18.04 安装 cuda10.0
Tensorflow1.15.0 对应的 cuda 版本是 10.0。但官网也有坑,说对应的 cudnn 版本是 7.4,但实际上 7.4 运行就会报错,必须要用 7.6 的 cudnn
1. 安装 Nvidia 显卡驱动
1.1 检查是否有 nvidia 显卡,lspci | grep VGA
1.2 检查 nvidia 驱动是否安装:nvidia-smi
1.3(可选) 卸载 nvidia 驱动
1.4 检查机器合适的驱动版本:ubuntu-drivers devices
1.5 自动安装合适版本的驱动:sudo ubuntu-drivers autoinstall
1.6 重启:reboot
1.7 查看 nvidia 显卡信息:nvidia-smi
2. 安装 cuda
1. 下载地址:https://developer.nvidia.com/cuda-toolkit-archive
2. 选择 Linux→x86_64→Ubuntu→18.04→deb(network)
3. 下载 deb 在线安装包
4. 按照官网提示,执行 4 条命令进行安装
注意:第 4 条命令sudo apt-get install cuda
就是在线安装 cuda,默认安装最新版本,所以要安装 cuda-10.0,必须执行sudo apt-get install cuda-10.0
5. 验证:nvcc -V
3. 安装 cudnn
cudnn 是专门针对神经网络计算的模块。要在 GPU 上训练如 tensorflow 和 pytorch 等深度网络模型,就必须有 cudnn 的加持
1. 下载地址,但必须先注册、登录:https://developer.nvidia.com/rdp/cudnn-archive
2. 选择 cuDNN v7.6.4,CUDA 10.0,for Linux 版本
3. 解压:tar -xvf cudnnxxx
4. 拷贝文件
解压之后,文件夹名为 cuda
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
5. 验证:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR
4. 验证
1. 进入 python3: python3
2. 运行一个简单的例子
5. troubleshooting
训练 yolo 或 unet 报错
Could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
解决,加入以下代码:
验证,CPU 已经以逸待劳,GPU 正老骥伏枥
Win10
待续
版权声明: 本文为 InfoQ 作者【十三】的原创文章。
原文链接:【http://xie.infoq.cn/article/fbc169b051d822b14cef912ba】。文章转载请联系作者。
评论