摩尔线程开源 vLLM-MUSA 加速国产 GPU AI
近日,摩尔线程上线了大语言模型高速推理框架开源项目 vLLM 的 MUSA 移植版本,为开发者提供基于摩尔线程全功能 GPU 进行开源项目 MUSA 移植的范例。摩尔线程表示,正努力围绕自主研发的统一系统架构 GPU、MUSA 软件平台,构建完善好用的 MUSA 应用生态。
vLLM 是一个高效且易用的大模型推理和服务框架,支持创新的 PagedAttention 内存管理、连续批处理请求、CUDA/HIP 图的快速模型执行、CUDA 核心优化、分布式推理支持等,可显著提高大语言模型(LLM)的推理性能。
目前,vLLM 已在各种大语言模型中得到广泛应用,成为业界常用的开源大模型推理框架。
摩尔线程基于 vLLM v0.4.2 版本,进行了移植适配,使之支持摩尔线程 GPU 后端 Device,并完全开源,开发者可以二次开发、升级 vLLM 到社区更新版本等。
值得一提的是,得益于摩尔线程 MUSA 架构的先进性、软件栈对 CUDA 的优良兼容性,通过 MUSIFY 代码自动转换工具,用户可以快捷地将原有的 CUDA 代码迁移到 MUSA 平台,实现替代。
同时,CUDA 相关库的调用,也可以快速替换为相应的 MUSA 加速库,如算子库 muDNN、集合通信库 MCCL、线性代数库 muBLAS 等。
摩尔线程通过 MUSA 软件栈对 CUDA 软件栈接口兼容,大幅提升了应用移植的效率,缩短了开发周期,还提供 MUSIFY 自动代码移植工具等一系列实用工具和脚本。
摩尔线程 vLLM-MUSA 开源地址:
https://github.com/MooreThreads/vLLM_musa
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗
版权声明: 本文为 InfoQ 作者【吴脑的键客】的原创文章。
原文链接:【http://xie.infoq.cn/article/d8e7b4f4c1788423a4bfc7890】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论