近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,旨在为开发者提供一个基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。围绕自主研发的统一系统架构GPU及MUSA软件平台,摩尔线程正致力于构建完善好用的MUSA应用生态。
vLLM是一个高效且易用的大模型推理和服务框架。通过创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化以及分布式推理支持等技术优势,vLLM显著提高了大语言模型(LLM)的推理性能。凭借出色的易用性和性能,vLLM已在各种大语言模型中得到广泛应用,并成为业界常用的开源大模型推理框架。
为了给开发者在摩尔线程GPU上移植部署vLLM提供参考,摩尔线程团队基于vLLM v0.4.2版本进行了移植适配,为vLLM框架添加了摩尔线程GPU后端Device支持,并将移植适配后的vLLM-MUSA版本开源。开发者可以基于摩尔线程GPU及vLLM-MUSA,进行二次开发、升级vLLM到社区更新版本等。
得益于摩尔线程自研先进MUSA架构及软件栈对CUDA的优良兼容性,通过MUSIFY代码自动转换工具,用户可以快捷地将原有的CUDA代码迁移到MUSA平台。除了对项目原生CUDA源码进行移植,CUDA相关库的调用也被替换为相应MUSA加速库的调用,如算子库muDNN、集合通信库MCCL、线性代数库muBLAS等。
摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容,大幅提升了应用移植的效率,缩短了开发周期。此外,还提供MUSIFY自动代码移植工具等一系列实用工具和脚本,进一步降低开发者在MUSA平台进行大语言模型训练和推理应用适配的难度。
摩尔线程诚邀广大的用户与开发者体验vLLM-MUSA,并提出宝贵的反馈意见,非常欢迎开发者向vLLM-MUSA推送更新及创作代码,我们也将推动MUSA后端进入vLLM官方仓库主线。MUSA社区的开放共建,任重而道远,我们期待与更多的开发者携手,贡献更多的MUSA开源项目,共同打造MUSA软件生态的繁荣发展。
vLLM-MUSA开源地址:
https://github.com/MooreThreads/vLLM_musa