写点什么

vllm+vllm-ascend 本地部署 QwQ-32B

作者:zjun
  • 2025-04-21
    上海
  • 本文字数:964 字

    阅读完需:约 3 分钟

vllm+vllm-ascend本地部署QwQ-32B

1 模型下载

可按照此处方法下载预热后的模型,速度较快(推荐 artget 方式)


https://mirrors.tools.huawei.com/mirrorDetail/67b75986118b030fb5934fc7?mirrorName=huggingface&catalog=llms
复制代码


或者从 hugging face 官方下载。

2 vllm-ascend 安装

2.1 使用 vllm+vllm-ascend 基础镜像

基础镜像地址:https://quay.io/repository/ascend/vllm-ascend?tab=tags&tag=latest拉取镜像(v0.7.0.3 的正式版本尚未发布)


docker pull quay.io/ascend/vllm-ascend:v0.7.3-dev
复制代码


启动镜像 QwQ-32B 需要 70G 以上显存,2 张 64G 的卡


docker run -itd --net=host --name vllm-ascend-QwQ-32B --device /dev/davinci0 --device /dev/davinci1 --device /dev/davinci_manager --device /dev/devmm_svm --device /dev/hisi_hdc -v /usr/local/dcmi:/usr/local/dcmi -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info -v /etc/ascend_install.info:/etc/ascend_install.info -v /xxx/models/llmmodels:/usr1/project/models quay.io/ascend/vllm-ascend:v0.7.3-dev bash
复制代码


/xxx/models/llmmodels 是宿主机放模型的目录,/usr1/project/models 是容器内目录

2.2 源码编译安装

# Install vLLMgit clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllmcd vllmVLLM_TARGET_DEVICE=empty pip install . --extra-index https://download.pytorch.org/whl/cpu/cd ..
# Install vLLM Ascendgit clone --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.gitcd vllm-ascendpip install -e . --extra-index https://download.pytorch.org/whl/cpu/cd ..
复制代码


具体可以参考链接:https://vllm-ascend.readthedocs.io/en/latest/installation.html

3 启动模型

openai 兼容接口


vllm serve /usr1/project/models/QwQ-32B --tensor_parallel_size 2 --served-model-name "QwQ-32B" --max-num-seqs 256 --max-model-len=4096 --host xx.xx.xx.xx --port 8001 &
复制代码


/usr1/project/models/QwQ-32B:模型路径 tensor_parallel_size:和卡数量保持一致 served-model-name:接口调用需要传入的模型名称 vllm 其余具体参数含义请参考 vllm 官方文档



用户头像

zjun

关注

还未添加个人签名 2020-03-06 加入

还未添加个人简介

评论

发布
暂无评论
vllm+vllm-ascend本地部署QwQ-32B_zjun_InfoQ写作社区