写点什么

MindIE PD 分离部署 Q&A

作者:AI布道Mr.Jin
  • 2025-05-27
    上海
  • 本文字数:525 字

    阅读完需:约 2 分钟

PD 分离是一种近年来兴起的推理加速部署方案,kimi、deepseek 都进行了工程落地。昇腾 MindIE 组件也支持了 PD 分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题,在这里记录分享一下。

单机部署

Q:运行 deploy.sh 报错 core dump


A:大概率是选择了错误了 镜像,例如 A2 的机器使用了 A3 的镜像。


Q:运行 deploy.sh 后,pods 的状态为 UnexpectedAdmissionError


A:mindie_service_single_container.yaml 配置文件中,resources/requests/huawei.com/Ascend910 的值目前只能为 8,小于 8 会触发报错。

多机部署

Q:运行 deploy.sh 后,coordinator 一直显示 not ready


A:可能是没有配置正确的 rank_table_file,导致 P、D 节点没有拿到 device 信息,不能载入模型,解决方案参考 https://zhuanlan.zhihu.com/p/1900192566378497634


Q:拉起 k8s 失败,输出 kubectl get configmap rings-config-mindie-server-p0...


A:可能是之前的进程没有删除干净;deployment 目录下面的 yaml 文件的配置可能需要修改,如果是单机 16 卡,则 npu 的卡数需要改成 16;可以查看 /var/log/mindx-dl/ascend-operator 的日志,检查是否有 json 文件的格式错误。

参数配置建议



用户头像

还未添加个人签名 2020-11-13 加入

还未添加个人简介

评论

发布
暂无评论
MindIE PD分离部署Q&A_AI布道Mr.Jin_InfoQ写作社区