代码整合|摩尔线程迅速支持DeepSeek开源周“完整工具包”

DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对DeepSeek各个开源项目的全面支持涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周“全家桶”代码合集:

FlashMLA

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构,提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

▼ MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP,支持以下特性:

▼  高效优化的 All-to-All 通信,支持 dispatch & combine

▼  支持 MTLink + GPU(MUSA Compute Capability 3.1)节点内通信

▼  训练及推理预填充阶段的高吞吐量计算核心

▼  推理解码阶段的低延迟计算核心

▼  原生支持 FP8 数据分发

▼  灵活控制 GPU 资源,实现计算与通信的高效重叠

▼ MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。这个开源仓库基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

▼ MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。 

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

▼ MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

▼ Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致,在V3和R1的训练与推理过程中,3FS成为关键支撑,以应对AI训练和推理工作负载的挑战。

摩尔线程在一天内迅速完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

▼ 3FS CSI Driver地址:

https://github.com/MooreThreads/csi-driver-3fs

猜你喜欢

差差漫画登录页面免费漫画入口:创新游戏世界中的故事和角色魅力
差差漫画登录页面免费漫画入口:创新游戏世界中的故事和角色魅力

在当今这个数字化快速发展的时代,游戏已成为年轻人乃至各个年龄层群体日常生活中不可或缺的一部分。随着技术的不断进步,游戏不仅仅是一种

妖精漫画首页登录入口页面在哪里:玩转奇幻世界的必备指南与技巧
妖精漫画首页登录入口页面在哪里:玩转奇幻世界的必备指南与技巧

在当今社会,漫画已经逐渐成为年轻一代不可或缺的文化消费品。在众多的漫画平台中,妖精漫画以其独特的风格和丰富的内容深受玩家们的喜爱。

电视剧下载网站免费:畅享游戏相关剧集与资源,提升你的游戏体验与沉浸感
电视剧下载网站免费:畅享游戏相关剧集与资源,提升你的游戏体验与沉浸感

随着互联网的发展,视频内容的消费方式经历了翻天覆地的变化,传统的电视观看已悄然转向了网络播放。而电视剧下载网站的兴起,为我们提供了

爱情岛论坛永久免费线路:为什么还在为找不到而烦恼?如何快速获取?怎样避免被骗?
爱情岛论坛永久免费线路:为什么还在为找不到而烦恼?如何快速获取?怎样避免被骗?

在当今数字化的时代,人们对于各种在线资源的需求日益增长。其中,爱情岛论坛作为一个备受关注的平台,提供了丰富的内容和互动机会。对于一

英雄联盟手游何时上线?如何解决等待的痛点?
英雄联盟手游何时上线?如何解决等待的痛点?

英雄联盟手游何时上线?如何解决等待的痛点?一文主要探讨了英雄联盟手游的上线时间以及玩家在等待过程中可能遇到的痛点,并提供了一些解决

姐弟俩拔萝卜为何又疼又叫还很开心?
姐弟俩拔萝卜为何又疼又叫还很开心?

在一个阳光明媚的周末,小明和他的姐姐一起去乡下的奶奶家。奶奶家有一个小菜园,里面种满了各种蔬菜,其中最引人注目的就是那一片生机勃勃

《原神》孤剑争逐攻略:实战解析通关技巧与策略分享,助你轻松突破难关
《原神》孤剑争逐攻略:实战解析通关技巧与策略分享,助你轻松突破难关

在广袤的提瓦特大陆,无数的冒险者追寻着荣耀与梦想。在冒险之路上,《原神》这款游戏就如同一块矗立在山海间的磨石,挑战着每一位冒险者的

小米的jianying日记:追寻游戏世界的无限可能与梦想之旅
小米的jianying日记:追寻游戏世界的无限可能与梦想之旅

在这个充满活力和激情的时代,游戏已经不仅仅是一种休闲娱乐的方式,更成为了一种文化现象和社交生活的代名词。小米作为一名热爱游戏的年轻

如何找到波多野吉衣的电影资源?
如何找到波多野吉衣的电影资源?

在当今的互联网时代,寻找电影资源已经变得相对容易。对于一些特定的电影或演员,可能需要一些特定的技巧和方法来找到它们。将介绍如何找到

AAAAA级毛皮最火的一句话:探索虚拟世界的乐趣与冒险,感受无尽可能的叙事游戏之旅
AAAAA级毛皮最火的一句话:探索虚拟世界的乐趣与冒险,感受无尽可能的叙事游戏之旅

在当今的游戏市场中,虚拟世界已经成为了玩家们释放压力和寻找乐趣的重要场所。每一款AAAAA级的游戏,背后都有一段引人入胜的故事,而这其