国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线|摩尔|算子|模态|编译器

国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线

2026-05-14 16:03:08　来源: 机器之心Pro

河北举报

分享至

机器之心编辑部

如果只看这场 Meetup 的嘉宾名单，你大概会先想到海外芯片巨头，或者某家国际 AI 基础设施公司。

毕竟，SGLang、TileLang、Triton 、Mooncake…… 这些今天大模型推理栈里最活跃、也最有存在感的开源项目，几乎都有核心开发者来到现场。

但真正把这群人聚到一起的，竟然是摩尔线程。

这才是这件事最值得看的地方。它说明一件事：国产 GPU 厂商开始不只是追着生态跑，而是打入了全球主流开源 AI 软件栈，成为共建者

近日，摩尔线程举办「SGLang × MUSA Meetup」，分享了其与 SGLang 社区及 MUSA 生态协同推进的最新进展。

自上个月 DeepSeek V4 发布后，摩尔线程第一时间基于 SGLang 开源推理框架，成功完成了 DeepSeek V4 的完整运行验证，并率先打通了从硬件架构核心计算引擎承接、热点算子支持，再到端到端部署验证的系统化适配链路。

另一项关键进展是，摩尔线程 MUSA 后端已正式加入 SGLang 官方支持体系，相关代码也已成功合入 SGLang 主线，获得了这一全球顶级开源推理框架的「原生支持」。

这意味着不仅是 DeepSeek V4，从 Qwen、GLM、MiniMax 到 Wan，越来越多主流大模型的推理加速能力，都正在向国产算力生态原生开放。

拥抱开源推理框架

摩尔线程做了什么

在 AI 技术栈中，SGLang 是连接大模型与底层硬件的推理服务框架，是让顶尖 AI 真正落地成 App 的关键一环。自 2025 年起，SGLang 开始走向通用硬件适配，陆续加入了对 AMD、英特尔芯片的支持。

此次摩尔线程代码合入 SGLang 主线，意味着摩尔线程已经与国际主流芯片站在了同一阵列，正式跻身 SGLang 官方后端矩阵。

基于这一官方支持体系，开发者在使用 SGLang 运行大语言模型及多模态推理任务时，已经可以直接调用摩尔线程全功能 GPU，完全无需再依赖任何第三方适配层。

为什么摩尔线程能做到这一步？摩尔线程 CTO 张钰勃在这场技术分享上的致辞中给出了答案：立足「通用计算」，以 MUSA（Meta-computing Unified System Architecture）开放架构拥抱开源生态。

他强调，摩尔线程不走封闭路线，而是坚持底层计算平台的真正通用与高度统一。一方面，通用架构能支撑从物理世界仿真、数字孪生到具身智能的未来技术演进，不为创新设限；另一方面，通过全产品线「统一」的指令集与架构标准，确保软件生态能够持续沉淀与积累。

针对开发者最为关心的「生态迁移」痛点，张钰勃直言：「摩尔线程秉持开放的态度，MUSA 在接口设计上最大程度复用了开发者熟悉的 GPU 编程习惯。我们不希望独立创造一套封闭的生态，而是以零学习成本，全面融入现有的繁荣生态。」

这种「零学习成本」的承诺，正真真切切地反映在摩尔线程与 SGLang 的工程落地中。

自今年 1 月起，摩尔线程向 SGLang 提交 issue，提供增加 MUSA 支持的完整路线图和任务拆分，计划涵盖：在 runtime 部分对 LLM 的支持，AOT Kernel 的支持，多模态生成的支持，Docker、CI、release 的支持等等。

现在，AI 开发者使用国产 GPU 后，不需要再做复杂底层改造，就能直接用上全球目前最先进、最高效的大模型调度框架。目前，SGLang 已支持通过源码方式进行安装，并可按照文档直接完成部署，能够直接在摩尔线程 MTT S5000 智算卡上正常运行，并支持了几乎所有的基础模型，无需任何二次代码改造，显著降低了开发者的算力迁移门槛

过去将代码迁移到国产 GPU 需要手动搜索和修改大量的 torch.cuda 原语。针对这个问题，摩尔线程开发了torchada 适配层，实现了「一次 import，全包搞定」。开发者只需引入适配包，即可自动将大模型的显存管理、流处理等 CUDA 接口无缝桥接到 MUSA 平台上，大幅降低了适配与维护成本。

同时，针对无法直接迁移或性能不佳的算子，摩尔线程应用开源的MATE（MUSA AI Tensor Engine）高性能算子库进行替换和加速，其提供了高性能 Attention 与 GEMM 算子，已对接 FlashAttention、FlashMLA、DeepGEMM 等主流接口。

在模型一侧，摩尔线程已支持 DeepSeek 模型，在最新的 DeepSeek V4 上，摩尔线程正在与社区协作，希望以 Jit Kernel 和 TileLang 的方式实现优化。摩尔线程支持 Qwen3、Qwen3.5、Qwen VL 视觉模型，以及 MiniMax 的 M2.5、M2.7 和智谱 AI 的 GLM 4、5 系列等模型。

Diffusion 模型方面，摩尔线程也完成了对文生图、文生视频、图生图、图生视频的支持，覆盖 Qwen-Image、Wan 等模型。

量化方面，摩尔线程 MTT S5000天然支持 FP8，部分 GGUF、INT4 量化支持也已提供，能够让更多、更大的模型在国产 GPU 上更好地运行。

在分布式支持上，摩尔线程的目标是支持所有的分布式方法，基于 MCCL 为底座和自身 Custom Allreduce，已经支持 TP/PP/DP/CP/EP，通过 Mooncake 的方式支持 PD 分离。

在短短几个月内，摩尔线程取得了大量工程和生态成果。截至 5 月 12 日，其已向 SGLang 官方提交了47 个PR（合并入主线41 个），完成了从环境构建到分布式推理的全链路打通，MUSA 已经正式成为 SGLang 官方原生支持的后端之一。

未来，摩尔线程计划对更多国产开源模型提供支持。通过深度的软硬件协同优化，国产 GPU 在 SGLang 这一先进推理框架上具备了生产力价值，跟上了当前 DeepSeek、多模态长文本等最前沿的 AI 技术演进。

开源「全明星」见证

看见号召力

当然，国产算力的适配与优化，需要开源生态所有成员的贡献。

前几日「SGLang x MUSA Meetup」技术沙龙上，从 LLM 推理框架最炙手可热的 SGLang，到底层算子编程语言 Triton 与 TileLang，再到分布式推理「卷王」项目 Mooncake，几乎你能在 2026 年大模型推理技术栈上点到名的关键开源项目，都派出了核心维护者来到现场。

其中包括：

SGLang 核心开发成员 Xiaoyu Zhang（BBuf），来自全球最活跃的开源 LLM 推理框架之一；
北京智源人工智能研究院 AI 编译器研究员肖航，带来基于 Triton/TileLang 的 FlagOS 生态；
TileLang Maintainer 唐正举，DeepSeek V3.2 与 V4 核心算子背后的 DSL 项目核心成员；
Mooncake Contributor 马腾，分布式推理基础设施 Mooncake 的核心开发者之一。

把这些名字放在一起看，会更有意思。SGLang 管推理框架，Triton 和 TileLang 往下深入到算子与编译，Mooncake 则补上大规模分布式推理的基础设施。它们并不是同一个项目，但几乎拼出了当前大模型推理栈最关键的一张地图。

而这一次，地图上的人都来了，且讨论的重点之一，正是国产 AI 算力。

SGLang 核心开发者 BBuf：推理框架的新底牌

SGLang 是当前最流行的开源 LLM 推理框架之一，DeepSeek V3 的 EP 与 PD 分离方案就出自该社区。

BBuf 介绍了 SGLang 近期的关键进展，包括支撑 DeepSeek-V4 等模型的 Prefill-Decode 分离架构与分层缓存机制，以及 Zero‑overhead Speculative Decoding 带来的推测解码效率提升。目前在算子层，原有的 sgl‑kernel 包已逐步迁移至全新的 Jit‑kernel 体系，基于 TVM‑FFI 实现按需编译，提升了开发与发版效率。同时，SGLang 积极引入 Vibe Coding 实践，利用 AI Agent 自动完成了超 60 项性能分析与调优任务。

2026 Q2 路线图里，摩尔线程 MUSA 已经与 GB200/GB300、AMD、TPU、Intel 一同列入官方硬件支持矩阵，未来双方将深化原生算子支持，共同推动顶级推理框架与国产算力底座的「原生」级融合。

智源 AI 编译器研究员肖航：让 Triton 在 MUSA 上跑通跑快

BAAI 智源研究院 AI 编译器研究员肖航老师带来了 FlagOS 生态的最新进展。

FlagOS 基于 Triton 构建，其核心是算子库 FlagGems 与统一编译器 FlagTree，目标是「一套算子，多家芯片」。目前，FlagGEMs 算子库已涵盖超 497 个算子，并依托 FlagTree 编译器与 Triton-TLE 语言扩展，实现了跨芯片的高性能算子生成。

在 FlagOS 上，通过融化、量化等方式，FusedMoE 和 FP8 GEMM 等算子性能加速了四倍；FlagTune 把调优结果做成了可下载的社区资产。

在 MUSA 平台上，FlagOS 与摩尔线程联调，通过环境变量启用 MUSA 的 TMA 向量加速引擎。在 DeepSeek-V4 的 Day0 适配中，通过摩尔线程专用的张量加速引擎与 FlagOSTune 调优方案，TTFT 时延降低 56.7%，吞吐量提升 65.7%。这种跨芯片的统一抽象与优化机制，正为摩尔线程等国产 GPU 构建起更加丰富、高效的算力应用生态。

TileLang 维护者唐正举：Tile 抽象兼顾少代码与高性能

唐正举老师介绍道：作为 Tile 级领域特定编程语言（DSL），TileLang 在化解算子硬件依赖与性能调优上具有核心优势。开发者能以极简代码实现极致性能。

简单来说，约 50 行代码，开发者能够构建出性能比肩 FlashAttention 专家级实现的 Kernel；在 Attention-Sinks 等算子上，加速比超过 20 倍。为了覆盖不同层次的用户，TileLang 设计了 Beginner、Developer、Expert 三种编程模式，从快速上手到深度调优都有对应的入口。

开源不到一年，TileLang 已积累超过 6000 颗 Star。此次与摩尔线程 MUSA 生态的深度联调，目标是为其全功能 GPU 构建一套完整的高性能算子库。Tile-AI 社区接下来还将在分布式算子编程、自动调度等方向持续推进。

Mooncake 贡献者马腾：推理解耦时代的基础

马腾老师介绍了 Mooncake 与 SGLang 深度结合的技术路线。

传输引擎层面，Mooncake 充分利用零拷贝 RDMA 与多协议支持，在高吞吐与超低延迟之间找到平衡；KV Cache Store 则把 GPU 显存、DRAM、SSD 等异构存储统一池化，让长上下文推理的成本大幅下降。

在弹性 EP 架构中，Mooncake 支持故障节点的动态摘除与 Expert 映射调整，集群容错能力显著提升；在 RL 权重更新场景下，通过 P2P 传输，同步时间从 53 秒压缩到了 7.2 秒。

目前，摩尔线程已作为 Mooncake 项目的核心 Maintainer 之一，深度参与多节点通信协议等关键特性的共建。从传输引擎到异构存储池化，再到弹性容错，这一系列工程创新正在把 Mooncake 推向现代 AI 生产与部署软件栈的核心位置。

结语

从单纯的主动推理框架适配，到与开源社区开发者共同推进底层能力建设，摩尔线程如今更像是在参与搭一张桌子，而不只是申请一张入场券。

这两年，「大模型在国产卡上训练推理」的新闻层出不穷，但单点硬件适配的速度还远远跟不上 AI 技术演进的步伐。真正稀缺的，从来不是跑通一个 demo，而是建立一个能获得大模型开源社区内深度认可、持续参与的稳定研发生态

尤其是在 DeepSeek V4 的节点上，摩尔线程与社区的深度共建显得尤为重要。

主流开源项目愿意把你写进 Roadmap、写进 CI 矩阵、写进 Maintainer 名单。SGLang 官方支持列表里有 MUSA，FlagOS 与 TileLang 仓库里有 MUSA 的适配，Mooncake 的 Maintainer 团队里有摩尔的工程师。每一条单独拎出来或许都不算大新闻，合在一起就是另一回事：全球最活跃的几个开源推理项目，都已经把摩尔线程视作生态共建的稳定一极。

国产 GPU 的故事，常常被简化成「对标英伟达」，架构、算力和制程是直观的指标。而随着大模型真正跑起来，进入生产部署环节，我们可以看到：开源社区的活跃度和影响力，正在成为硬实力的证明。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.