GPUStack v0.7 重磅更新:macOS 与 Windows 安装包、昇腾 MindIE 多机推理、模型使用计量与寒武纪 MLU 支持
GPUStack 是一个 100%开源的模型服务平台。
GPUStack 支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型。
GPUStack 支持 vLLM、MindIE、llama-box(基于 llama.cpp 与 stable-diffusion.cpp)等多种推理引擎与推理引擎多版本并行,支持资源自动调度分配、模型故障自动恢复、多机分布式推理、混合异构推理、推理请求负载均衡、资源与模型监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性。
GPUStack 提供 OpenAI 兼容 API 无缝接入 Dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架,是企业建设模型服务平台的理想选择。
随着大模型在 RAG、AI Agents 以及各类生成式 AI 场景中的快速落地,工程团队对异构 GPU 资源的统一调度、推理加速与系统可运维性等方面提出了更高要求。GPUStack 致力于为开发者提供一个开箱即用、可扩展、支持多后端的推理平台,帮助用户高效部署模型,简化系统集成。
在 GPUStack v0.7 中,平台围绕推理性能、部署易用性、异构硬件兼容性和系统可观测性等核心方向,进行了全面增强与能力演进。重点更新包括:
桌面系统一键安装支持:大幅简化本地开发环境配置流程,助力个人开发者与小团队快速启动本地推理服务。
昇腾 MindIE 多机分布式推理支持:在原有 MindIE 单机推理能力基础上,扩展对华为昇腾 NPU 的多节点分布式推理支持,适用于超大参数模型的国产化部署需求。
模型使用计量与计费数据采集:引入细粒度的推理请求统计与计量机制,为模型服务的精细化运营与计费体系提供数据支撑。
寒武纪 MLU 兼容支持:感谢寒武纪团队为 GPUStack 社区贡献 MLU 芯片的适配支持,进一步丰富 GPUStack 对国产 AI 硬件的兼容能力,完善 GPUStack 在异构算力生态中的布局。
除上述关键更新外,GPUStack v0.7 还包含 70 余项功能优化与稳定性修复,涵盖推理加速与性能优化、开箱即用与用户交互、生产落地与多场景兼容性、运维运营能力等多个方面,进一步提升平台的可用性与工程稳定性,助力用户轻松构建高性能、可扩展的大模型服务体系!
有关 GPUStack 的详细信息,可以访问:
GitHub 仓库地址: https://github.com/gpustack/gpustack
GPUStack 用户文档: https://docs.gpustack.ai
重点特性介绍
昇腾 MindIE 多机分布式推理
MindIE 是昇腾官方推出的高性能推理框架,具备运行加速、调试优化与快速部署等优势,已成为 NPU 上主流的模型部署推理方案。
GPUStack 自 v0.6 起集成 MindIE,支持在昇腾 910B 和 310P 平台上运行主流大模型,提供稳定且高效的单机推理能力。随着用户对超大规模模型和横向扩展的需求不断提升,v0.7 在此基础上新增对 MindIE 多机分布式推理的支持。
我们已完成包括 DeepSeek R1 671B 在内的多机场景实测部署,验证其在昇腾集群中的稳定性与高吞吐性能,充分满足 NPU 集群环境下大规模模型部署和高效推理的需求。

▲ GPUStack + Ascend MindIE 在多节点 NPU 集群上运行超大模型 DeepSeek R1 671B
macOS 与 Windows 一键安装包
在过往版本中,用户在桌面环境部署 GPUStack 需依赖安装脚本或 Python 环境,常因 Python 环境冲突、系统依赖缺失、环境差异或网络问题而导致安装失败,同时安装过程缺乏进度反馈,容易中断流程,影响初学者的上手体验。
为解决上述问题,GPUStack v0.7 全新推出适用于 macOS 与 Windows 平台的原生一键安装包:
零环境依赖:无需预装 Python、Docker Desktop 或其他组件,双击即可完成安装与启动;
内置 GPUStack Helper 运维面板,提供一站式图形化管理操作:
快速设置核心参数(如 Server / Worker 角色、端口、环境变量);
一键访问配置目录,方便编辑配置文件及后台服务文件;
实时查看和管理 Worker 服务状态与运行日志,便捷访问 Web 控制台。
极大降低部署门槛:适用于本地测试、个人开发、小型部署等场景,让开发者无需折腾即可快速上手。
这一版本显著优化了桌面环境下的安装体验,帮助开发者在本地快速完成模型部署与测试,让本地大模型推理像安装 App 一样简单自然,也为个人开发者、团队快速评估和体验 GPUStack 提供了更轻量的入口。
模型使用计量与计费数据采集
GPUStack v0.7 新增了对推理请求的细粒度计量能力,支持按用户和模型维度采集调用数据,涵盖 API 请求次数、输入输出 Token 数量等关键指标,帮助用户全面掌握模型服务的使用情况。
随着模型服务逐步进入多用户、多模型、多场景并存的阶段,透明且可追踪的使用数据对服务治理与资源管理的重要性日益凸显。GPUStack 为模型服务提供了可靠的数据基础,为构建灵活的计费体系、异常请求定位以及后续的资源配额管理等场景提供了可靠基础,也为企业实现模型服务的精细化运营闭环奠定了坚实支撑。

▲ v0.7 引入了对推理请求的细粒度计量能力
寒武纪 MLU 兼容支持
在 GPUStack v0.7 中,寒武纪团队为社区贡献了 MLU 芯片的适配支持,标志着 GPUStack 在国产 AI 硬件生态中的支持范围进一步拓展,也体现了平台在推理基础设施领域逐步获得主流芯片厂商的认可与合作。
目前,GPUStack 已支持统一调度包括 NVIDIA、AMD、Apple、昇腾、海光、摩尔线程、天数智芯、寒武纪等多种异构算力资源,为用户提供在异构环境下灵活部署模型、提供稳定推理服务的一体化能力。
随着平台持续拓展对国产芯片的适配支持,GPUStack 正成为企业在大模型国产化部署、异构算力统一调度与高性能模型服务场景中的关键基础平台。
UI / UX 全面升级
GPUStack v0.7 对平台界面进行了全面的 UI / UX 升级,优化了导航结构与交互体验,使模型服务的使用更加高效、直观。
菜单重构:主导航结构更加清晰,核心功能一目了然,减少层级跳转;
关键入口常驻可见:用户可快速访问常用功能,无需反复展开菜单;
统一交互风格:页面布局更有逻辑,操作路径更顺畅,显著降低使用门槛。
新版本界面更贴合用户操作习惯,大幅提升功能可达性与操作效率,让用户能够更专注于模型服务本身。

▲ v0.7 全新界面重构,常用功能一键直达,大幅提升使用效率与易用性
加入社区
想要了解更多关于 GPUStack 的信息,可以访问我们的仓库地址:https://github.com/gpustack/gpustack。如果你对 GPUStack 有任何建议,欢迎提交 GitHub issue。在体验 GPUStack 或提交 issue 之前,请在我们的 GitHub 仓库上点亮 Star ⭐️关注我们,也非常欢迎大家一起参与到这个开源项目中!
如果在使用过程中遇到任何问题,欢迎随时加入我们的 Discord 社区:[ https://discord.gg/VXYJzuaqwD ],也可以添加 GPUStack 微信小助手(微信号:GPUStack)加入 GPUStack 微信交流群,获得 GPUStack 团队的技术支持,或与社区爱好者共同探讨交流。

如果觉得对你有帮助,欢迎点赞、转发、关注。
评论