开源vLLM_MUSA｜摩尔线程加快基于国内GPU的AI大模型推理开发进程-梦之都

近日，摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本，旨在为开发者提供一个基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。围绕自主研发的统一系统架构GPU及MUSA软件平台，摩尔线程正致力于构建完善好用的MUSA应用生态。

vLLM是一个高效且易用的大模型推理和服务框架。通过创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化以及分布式推理支持等技术优势，vLLM显著提高了大语言模型（LLM）的推理性能。凭借出色的易用性和性能，vLLM已在各种大语言模型中得到广泛应用，并成为业界常用的开源大模型推理框架。

为了给开发者在摩尔线程GPU上移植部署vLLM提供参考，摩尔线程团队基于vLLM v0.4.2版本进行了移植适配，为vLLM框架添加了摩尔线程GPU后端Device支持，并将移植适配后的vLLM-MUSA版本开源。开发者可以基于摩尔线程GPU及vLLM-MUSA，进行二次开发、升级vLLM到社区更新版本等。

得益于摩尔线程自研先进MUSA架构及软件栈对CUDA的优良兼容性，通过MUSIFY代码自动转换工具，用户可以快捷地将原有的CUDA代码迁移到MUSA平台。除了对项目原生CUDA源码进行移植，CUDA相关库的调用也被替换为相应MUSA加速库的调用，如算子库muDNN、集合通信库MCCL、线性代数库muBLAS等。

摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容，大幅提升了应用移植的效率，缩短了开发周期。此外，还提供MUSIFY自动代码移植工具等一系列实用工具和脚本，进一步降低开发者在MUSA平台进行大语言模型训练和推理应用适配的难度。

摩尔线程诚邀广大的用户与开发者体验vLLM-MUSA，并提出宝贵的反馈意见，非常欢迎开发者向vLLM-MUSA推送更新及创作代码，我们也将推动MUSA后端进入vLLM官方仓库主线。MUSA社区的开放共建，任重而道远，我们期待与更多的开发者携手，贡献更多的MUSA开源项目，共同打造MUSA软件生态的繁荣发展。

vLLM-MUSA开源地址：

https://github.com/MooreThreads/vLLM_musa