基于云主机的 ModelArts 模型训练实践，让开发环境化繁为简

2024-12-10
广东
本文字数：4399 字
阅读完需：约 14 分钟

本文分享自华为云社区《【开发者空间实践】云主机安装Docker并制作自定义镜像在ModelArts平台做模型训练》，作者：开发者空间小蜜蜂。

1.1 案例介绍

在 AI 业务开发以及运行的过程中，一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题，在 ModelArts 的 AI 开发最佳实践中，通过容器镜像的方式将运行环境进行固化，以这种方式不仅能够进行依赖管理，而且可以方便的完成工作环境切换。配合 ModelArts 提供的云化容器资源使用，可以更加快速、高效的进行 AI 开发与模型实验的迭代等。

本案例将指导开发者如何在云主机上安装 Docker 制作一个自定义模型镜像并在 ModelArts 平台使用这个镜像作模型训练。

1.2 免费领取云主机

如您还没有云主机，可点击链接，领取专属云主机后进行操作。

如您已领取云主机，可直接开始实验。

1.3 实验流程

说明：

在云主机上安装 docker；
制作模型训练镜像并上传到 SWR；
在云主机创建训练脚本，使用浏览器打开 OBS 服务，上传训练脚本；
在 ModelArts 平台创建训练作业完成模型训练。

1.4 实验资源

本次实验花费总计约 1 元，资源采取按需计费，点击链接，可根据步骤加入华为云沃土云创计划，申领云资源代金券，即可免费体验。体验结束后，请及时释放资源，避免产生多余费用，给您带来不便。

1.5 在云主机安装 Docker

进入云主机后，点击左面菜单的“终端”按钮，打开命令行工具。

在命令行中输入以下命令安装 Docker：

curl -fsSL get.docker.com -o get-docker.sh	sh get-docker.sh

复制代码

输入命令“sudo docker info” 确认 Docker 已经安装完毕。

接下来需要配置镜像加速，输入命令“vim /etc/docker/daemon.json”编辑 docker 配置文件，单击“i”键进入插入模式，然后输入以下内容，

{"registry-mirrors": [ "https://a3cc4b6f1d0747bda78ca8d86e4c5419.mirror.swr.myhuaweicloud.com" ]}

复制代码

输入完成后，按“Esc”退出插入模式，再输入“:wq”保存文件，再输入“sudo systemctl restart docker”命令重启 docker，然后输入命令“sudo docker info”查看，显示如下信息则表示镜像加速配置完成。

1.6 准备制作镜像的必要文件

确认安装好 Docker 以后，在当前目录使用命令“mkdir -p context”创建文件夹

使用“cd context/”命令进入 context 文件夹。

使用“vim pip.conf”命令编辑 pip 源文件 pip.conf ，单击“i”键进入插入模式，输入如下内容，确认无误后单击 ESC 回到命令模式，使用“:wq”命令保存退出。

[global]index-url = https://repo.huaweicloud.com/repository/pypi/simpletrusted-host = repo.huaweicloud.comtimeout = 120

复制代码

使用 wget 命令下载“torch*.whl ”文件，一共三个文件

wget https://download.pytorch.org/whl/cu111/torch-1.8.1%2Bcu111-cp37-cp37m-linux_x86_64.whlwget https://download.pytorch.org/whl/torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whlwget https://download.pytorch.org/whl/cu111/torchvision-0.9.1%2Bcu111-cp37-cp37m-linux_x86_64.whl

复制代码

使用“wget https://repo.anaconda.com/miniconda/Miniconda3-py37_4.12.0-Linux-x86_64.sh”命令，下载 Miniconda3 py37 4.12.0 安装文件

将上述 pip 源文件、torch*.whl 文件、Miniconda3 安装文件放置在 context 文件夹内，完成上述操作后 context 文件夹内容如下。

context├── Miniconda3-py37_4.12.0-Linux-x86_64.sh├── pip.conf├── torch-1.8.1+cu111-cp37-cp37m-linux_x86_64.whl├── torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl└── torchvision-0.9.1+cu111-cp37-cp37m-linux_x86_64.whl

复制代码

使用“vim Dockerfile”创建编辑 Dockerfile 文件，填入以下内容

# 容器镜像构建主机需要连通公网# 基础容器镜像, https://github.com/NVIDIA/nvidia-docker/wiki/CUDA# # https://docs.docker.com/develop/develop-images/multistage-build/#use-multi-stage-builds# require Docker Engine >= 17.05## builder stageFROM nvidia/cuda:11.1.1-runtime-ubuntu18.04 AS builder
# 基础容器镜像的默认用户已经是 root# USER root
# 使用华为开源镜像站提供的 pypi 配置RUN mkdir -p /root/.pip/COPY pip.conf /root/.pip/pip.conf
# 复制待安装文件到基础容器镜像中的 /tmp 目录COPY Miniconda3-py37_4.12.0-Linux-x86_64.sh /tmpCOPY torch-1.8.1+cu111-cp37-cp37m-linux_x86_64.whl /tmpCOPY torchvision-0.9.1+cu111-cp37-cp37m-linux_x86_64.whl /tmpCOPY torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl /tmp
# https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux# 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64.sh -b -p /home/ma-user/miniconda3
# 使用 Miniconda3 默认 python 环境 (即 /home/ma-user/miniconda3/bin/pip) 安装 torch*.whlRUN cd /tmp && \    /home/ma-user/miniconda3/bin/pip install --no-cache-dir \    /tmp/torch-1.8.1+cu111-cp37-cp37m-linux_x86_64.whl \    /tmp/torchvision-0.9.1+cu111-cp37-cp37m-linux_x86_64.whl \    /tmp/torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl
# 构建最终容器镜像FROM nvidia/cuda:11.1.1-runtime-ubuntu18.04
# 安装 vim和curl 工具（依然使用华为开源镜像站）RUN cp -a /etc/apt/sources.list /etc/apt/sources.list.bak && \    sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \    sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \    apt-get update && \    apt-get install -y vim curl && \    apt-get clean && \    mv /etc/apt/sources.list.bak /etc/apt/sources.list
# 增加 ma-user 用户 (uid = 1000, gid = 100)# 注意到基础容器镜像已存在 gid = 100 的组，因此 ma-user 用户可直接使用RUN useradd -m -d /home/ma-user -s /bin/bash -g 100 -u 1000 ma-user
# 从上述 builder stage 中复制 /home/ma-user/miniconda3 目录到当前容器镜像的同名目录COPY --chown=ma-user:100 --from=builder /home/ma-user/miniconda3 /home/ma-user/miniconda3
# 设置容器镜像预置环境变量# 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失ENV PATH=$PATH:/home/ma-user/miniconda3/bin \    PYTHONUNBUFFERED=1
# 设置容器镜像默认用户与工作目录USER ma-userWORKDIR /home/ma-user

复制代码

完成编辑后，按“Esc”键退出编辑模式，输入“:wq”命令保存文件。完成操作后，使用“ll”命令查看 context 文件夹内容如下

context
├── Dockerfile
├── Miniconda3-py37_4.12.0-Linux-x86_64.sh
├── pip.conf
├── torch-1.8.1+cu111-cp37-cp37m-linux_x86_64.whl
├── torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl
└── torchvision-0.9.1+cu111-cp37-cp37m-linux_x86_64.whl

复制代码

1.7 制作镜像并上传 SWR

在 context 文件夹下，输入“sudo docker build . -t pytorch:1.8.1-cuda11.1”命令构建镜像。

此过程需要 5-8 分钟，可以先进行下面的步骤。

打开火狐浏览器，进入华为云首页，依次选择“产品”>“容器”>“容器镜像服务 SWR”，进入服务页面，然后点击“控制台”进入 SWR 控制台页面。

点击右上角的“创建组织”按钮，输入组织名，点击“确定”。如果已经有可用的组织，此步骤可以跳过。

然后回到总览页面，点击上方的“登录指令”按钮，复制弹出的 docker 命令，在此命令前面加上“sudo ”然后在云主机的终端命令行输入，显示“Login Succeeded”则表示登录成功。

使用下列命令给新做好的镜像打标签

sudo docker tag pytorch:1.8.1-cuda11.1 swr.{区域参数}/{组织名称}/pytorch:1.8.1-cuda11.1

复制代码

区域参数从登录指令中获取，如下图红框所示，组织名称也请替换为上面步骤创建的组织名。此处以华为云华南-广州区为例

sudo docker tag pytorch:1.8.1-cuda11.1 swr.cn-south-1.myhuaweicloud.com/ai-test/pytorch:1.8.1-cuda11.1

复制代码

使用下列命令将镜像上传到 SWR

sudo docker push swr.{区域参数}/{组织名称}/pytorch:1.8.1-cuda11.1

复制代码

区域参数从登录指令中获取，如下图红框所示，组织名称也请替换为上面步骤创建的组织名。此处以华为云华南-广州区为例

sudo docker push swr.cn-south-1.myhuaweicloud.com/ai-test/pytorch:1.8.1-cuda11.1

复制代码

完成镜像上传后，在容器镜像服务控制台的“我的镜像”页面可查看已上传的自定义镜像。

1.8 创建 OBS 桶和文件夹并上传训练脚本

在华为云首页，依次选择“产品”>“存储”>“对象存储服务 OBS”，进入服务页面，然后点击“购买”进入资源包购买页面。

按照如下规格购买：

购买完成后，在控制台页面左面的菜单中，点击“桶列表”。

然后点击右上角“创建桶”按钮，进入创建页面，

按照如下规格创建：

创建好桶后，就可以在桶列表页面看到，点击桶的名称链接进入桶的详情页。

点击“新建文件夹”按钮，创建一个名为“pytorch”的文件夹，在此文件夹下再创建两个子文件夹，分别命名“log”和“demo-code”。Demo-code 文件夹存放训练脚本，log 文件夹存放训练日志。

回到命令行窗口，在 context 文件夹下，使用 vim pytorch-verification.py 命令新建编辑训练脚本，单击“i”键进入插入模式，输入如下内容，确认无误后单击 ESC 回到命令模式，使用“:wq”命令保存退出。

import torchimport torch.nn as nn
x = torch.randn(5, 3)print(x)
available_dev = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")y = torch.randn(5, 3).to(available_dev)print(y)

复制代码