网易首页 > 网易号 > 正文 申请入驻

国产GPU首获全球顶级推理框架「原生门票」:MUSA合入SGLang主线

0
分享至



机器之心编辑部

如果只看这场 Meetup 的嘉宾名单,你大概会先想到海外芯片巨头,或者某家国际 AI 基础设施公司。



毕竟,SGLang、TileLang、Triton 、Mooncake…… 这些今天大模型推理栈里最活跃、也最有存在感的开源项目,几乎都有核心开发者来到现场。

但真正把这群人聚到一起的,竟然是摩尔线程。

这才是这件事最值得看的地方。它说明一件事:国产 GPU 厂商开始不只是追着生态跑,而是打入了全球主流开源 AI 软件栈,成为共建者

近日,摩尔线程举办「SGLang × MUSA Meetup」,分享了其与 SGLang 社区及 MUSA 生态协同推进的最新进展。

自上个月 DeepSeek V4 发布后,摩尔线程第一时间基于 SGLang 开源推理框架,成功完成了 DeepSeek V4 的完整运行验证,并率先打通了从硬件架构核心计算引擎承接、热点算子支持,再到端到端部署验证的系统化适配链路。

另一项关键进展是,摩尔线程 MUSA 后端已正式加入 SGLang 官方支持体系,相关代码也已成功合入 SGLang 主线,获得了这一全球顶级开源推理框架的「原生支持」。



这意味着不仅是 DeepSeek V4,从 Qwen、GLM、MiniMax 到 Wan,越来越多主流大模型的推理加速能力,都正在向国产算力生态原生开放。

拥抱开源推理框架

摩尔线程做了什么

在 AI 技术栈中,SGLang 是连接大模型与底层硬件的推理服务框架,是让顶尖 AI 真正落地成 App 的关键一环。自 2025 年起,SGLang 开始走向通用硬件适配,陆续加入了对 AMD、英特尔芯片的支持。

此次摩尔线程代码合入 SGLang 主线,意味着摩尔线程已经与国际主流芯片站在了同一阵列,正式跻身 SGLang 官方后端矩阵。

基于这一官方支持体系,开发者在使用 SGLang 运行大语言模型及多模态推理任务时,已经可以直接调用摩尔线程全功能 GPU,完全无需再依赖任何第三方适配层。

为什么摩尔线程能做到这一步?摩尔线程 CTO 张钰勃在这场技术分享上的致辞中给出了答案:立足「通用计算」,以 MUSA(Meta-computing Unified System Architecture)开放架构拥抱开源生态。

他强调,摩尔线程不走封闭路线,而是坚持底层计算平台的真正通用与高度统一。一方面,通用架构能支撑从物理世界仿真、数字孪生到具身智能的未来技术演进,不为创新设限;另一方面,通过全产品线「统一」的指令集与架构标准,确保软件生态能够持续沉淀与积累。

针对开发者最为关心的「生态迁移」痛点,张钰勃直言:「摩尔线程秉持开放的态度,MUSA 在接口设计上最大程度复用了开发者熟悉的 GPU 编程习惯。我们不希望独立创造一套封闭的生态,而是以零学习成本,全面融入现有的繁荣生态。」

这种「零学习成本」的承诺,正真真切切地反映在摩尔线程与 SGLang 的工程落地中。



自今年 1 月起,摩尔线程向 SGLang 提交 issue,提供增加 MUSA 支持的完整路线图和任务拆分,计划涵盖:在 runtime 部分对 LLM 的支持,AOT Kernel 的支持,多模态生成的支持,Docker、CI、release 的支持等等。

现在,AI 开发者使用国产 GPU 后,不需要再做复杂底层改造,就能直接用上全球目前最先进、最高效的大模型调度框架。目前,SGLang 已支持通过源码方式进行安装,并可按照文档直接完成部署,能够直接在摩尔线程 MTT S5000 智算卡上正常运行,并支持了几乎所有的基础模型,无需任何二次代码改造,显著降低了开发者的算力迁移门槛

过去将代码迁移到国产 GPU 需要手动搜索和修改大量的 torch.cuda 原语。针对这个问题,摩尔线程开发了torchada 适配层,实现了「一次 import,全包搞定」。开发者只需引入适配包,即可自动将大模型的显存管理、流处理等 CUDA 接口无缝桥接到 MUSA 平台上,大幅降低了适配与维护成本。

同时,针对无法直接迁移或性能不佳的算子,摩尔线程应用开源的MATE(MUSA AI Tensor Engine)高性能算子库进行替换和加速,其提供了高性能 Attention 与 GEMM 算子,已对接 FlashAttention、FlashMLA、DeepGEMM 等主流接口。



在模型一侧,摩尔线程已支持 DeepSeek 模型,在最新的 DeepSeek V4 上,摩尔线程正在与社区协作,希望以 Jit Kernel 和 TileLang 的方式实现优化。摩尔线程支持 Qwen3、Qwen3.5、Qwen VL 视觉模型,以及 MiniMax 的 M2.5、M2.7 和智谱 AI 的 GLM 4、5 系列等模型。

Diffusion 模型方面,摩尔线程也完成了对文生图、文生视频、图生图、图生视频的支持,覆盖 Qwen-Image、Wan 等模型。



量化方面,摩尔线程 MTT S5000天然支持 FP8,部分 GGUF、INT4 量化支持也已提供,能够让更多、更大的模型在国产 GPU 上更好地运行。

在分布式支持上,摩尔线程的目标是支持所有的分布式方法,基于 MCCL 为底座和自身 Custom Allreduce,已经支持 TP/PP/DP/CP/EP,通过 Mooncake 的方式支持 PD 分离。

在短短几个月内,摩尔线程取得了大量工程和生态成果。截至 5 月 12 日,其已向 SGLang 官方提交了47 个PR(合并入主线41 个),完成了从环境构建到分布式推理的全链路打通,MUSA 已经正式成为 SGLang 官方原生支持的后端之一。

未来,摩尔线程计划对更多国产开源模型提供支持。通过深度的软硬件协同优化,国产 GPU 在 SGLang 这一先进推理框架上具备了生产力价值,跟上了当前 DeepSeek、多模态长文本等最前沿的 AI 技术演进。

开源「全明星」见证

看见号召力

当然,国产算力的适配与优化,需要开源生态所有成员的贡献。

前几日「SGLang x MUSA Meetup」技术沙龙上,从 LLM 推理框架最炙手可热的 SGLang,到底层算子编程语言 Triton 与 TileLang,再到分布式推理「卷王」项目 Mooncake,几乎你能在 2026 年大模型推理技术栈上点到名的关键开源项目,都派出了核心维护者来到现场。

其中包括:

  • SGLang 核心开发成员 Xiaoyu Zhang(BBuf),来自全球最活跃的开源 LLM 推理框架之一;
  • 北京智源人工智能研究院 AI 编译器研究员肖航,带来基于 Triton/TileLang 的 FlagOS 生态;
  • TileLang Maintainer 唐正举,DeepSeek V3.2 与 V4 核心算子背后的 DSL 项目核心成员;
  • Mooncake Contributor 马腾,分布式推理基础设施 Mooncake 的核心开发者之一。



把这些名字放在一起看,会更有意思。SGLang 管推理框架,Triton 和 TileLang 往下深入到算子与编译,Mooncake 则补上大规模分布式推理的基础设施。它们并不是同一个项目,但几乎拼出了当前大模型推理栈最关键的一张地图。

而这一次,地图上的人都来了,且讨论的重点之一,正是国产 AI 算力。

SGLang 核心开发者 BBuf:推理框架的新底牌

SGLang 是当前最流行的开源 LLM 推理框架之一,DeepSeek V3 的 EP 与 PD 分离方案就出自该社区。

BBuf 介绍了 SGLang 近期的关键进展,包括支撑 DeepSeek-V4 等模型的 Prefill-Decode 分离架构与分层缓存机制,以及 Zero‑overhead Speculative Decoding 带来的推测解码效率提升。目前在算子层,原有的 sgl‑kernel 包已逐步迁移至全新的 Jit‑kernel 体系,基于 TVM‑FFI 实现按需编译,提升了开发与发版效率。同时,SGLang 积极引入 Vibe Coding 实践,利用 AI Agent 自动完成了超 60 项性能分析与调优任务。

2026 Q2 路线图里,摩尔线程 MUSA 已经与 GB200/GB300、AMD、TPU、Intel 一同列入官方硬件支持矩阵,未来双方将深化原生算子支持,共同推动顶级推理框架与国产算力底座的「原生」级融合。

智源 AI 编译器研究员肖航:让 Triton 在 MUSA 上跑通跑快

BAAI 智源研究院 AI 编译器研究员肖航老师带来了 FlagOS 生态的最新进展。

FlagOS 基于 Triton 构建,其核心是算子库 FlagGems 与统一编译器 FlagTree,目标是「一套算子,多家芯片」。目前,FlagGEMs 算子库已涵盖超 497 个算子,并依托 FlagTree 编译器与 Triton-TLE 语言扩展,实现了跨芯片的高性能算子生成。

在 FlagOS 上,通过融化、量化等方式,FusedMoE 和 FP8 GEMM 等算子性能加速了四倍;FlagTune 把调优结果做成了可下载的社区资产。

在 MUSA 平台上,FlagOS 与摩尔线程联调,通过环境变量启用 MUSA 的 TMA 向量加速引擎。在 DeepSeek-V4 的 Day0 适配中,通过摩尔线程专用的张量加速引擎与 FlagOSTune 调优方案,TTFT 时延降低 56.7%,吞吐量提升 65.7%。这种跨芯片的统一抽象与优化机制,正为摩尔线程等国产 GPU 构建起更加丰富、高效的算力应用生态。

TileLang 维护者唐正举:Tile 抽象兼顾少代码与高性能

唐正举老师介绍道:作为 Tile 级领域特定编程语言(DSL),TileLang 在化解算子硬件依赖与性能调优上具有核心优势。开发者能以极简代码实现极致性能。

简单来说,约 50 行代码,开发者能够构建出性能比肩 FlashAttention 专家级实现的 Kernel;在 Attention-Sinks 等算子上,加速比超过 20 倍。为了覆盖不同层次的用户,TileLang 设计了 Beginner、Developer、Expert 三种编程模式,从快速上手到深度调优都有对应的入口。

开源不到一年,TileLang 已积累超过 6000 颗 Star。此次与摩尔线程 MUSA 生态的深度联调,目标是为其全功能 GPU 构建一套完整的高性能算子库。Tile-AI 社区接下来还将在分布式算子编程、自动调度等方向持续推进。

Mooncake 贡献者马腾:推理解耦时代的基础

马腾老师介绍了 Mooncake 与 SGLang 深度结合的技术路线。

传输引擎层面,Mooncake 充分利用零拷贝 RDMA 与多协议支持,在高吞吐与超低延迟之间找到平衡;KV Cache Store 则把 GPU 显存、DRAM、SSD 等异构存储统一池化,让长上下文推理的成本大幅下降。

在弹性 EP 架构中,Mooncake 支持故障节点的动态摘除与 Expert 映射调整,集群容错能力显著提升;在 RL 权重更新场景下,通过 P2P 传输,同步时间从 53 秒压缩到了 7.2 秒。

目前,摩尔线程已作为 Mooncake 项目的核心 Maintainer 之一,深度参与多节点通信协议等关键特性的共建。从传输引擎到异构存储池化,再到弹性容错,这一系列工程创新正在把 Mooncake 推向现代 AI 生产与部署软件栈的核心位置。

结语

从单纯的主动推理框架适配,到与开源社区开发者共同推进底层能力建设,摩尔线程如今更像是在参与搭一张桌子,而不只是申请一张入场券。

这两年,「大模型在国产卡上训练推理」的新闻层出不穷,但单点硬件适配的速度还远远跟不上 AI 技术演进的步伐。真正稀缺的,从来不是跑通一个 demo,而是建立一个能获得大模型开源社区内深度认可、持续参与的稳定研发生态

尤其是在 DeepSeek V4 的节点上,摩尔线程与社区的深度共建显得尤为重要。

主流开源项目愿意把你写进 Roadmap、写进 CI 矩阵、写进 Maintainer 名单。SGLang 官方支持列表里有 MUSA,FlagOS 与 TileLang 仓库里有 MUSA 的适配,Mooncake 的 Maintainer 团队里有摩尔的工程师。每一条单独拎出来或许都不算大新闻,合在一起就是另一回事:全球最活跃的几个开源推理项目,都已经把摩尔线程视作生态共建的稳定一极。

国产 GPU 的故事,常常被简化成「对标英伟达」,架构、算力和制程是直观的指标。而随着大模型真正跑起来,进入生产部署环节,我们可以看到:开源社区的活跃度和影响力,正在成为硬实力的证明。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩国著名解说员:洪明甫不让孙兴慜和李在城首发是毫无道理的

韩国著名解说员:洪明甫不让孙兴慜和李在城首发是毫无道理的

懂球帝
2026-06-29 16:54:21
防其彻底倒向俄罗斯!欧盟欲砸钱促其入盟,但向塞尔维亚划红线

防其彻底倒向俄罗斯!欧盟欲砸钱促其入盟,但向塞尔维亚划红线

琴音缭绕回
2026-06-30 12:07:40
76岁内塔尼亚胡已担任以色列总理长达19年,10月将再次竞选,民调显示58%以色列人不希望其连任,以军前总参谋长或扳倒内塔尼亚胡

76岁内塔尼亚胡已担任以色列总理长达19年,10月将再次竞选,民调显示58%以色列人不希望其连任,以军前总参谋长或扳倒内塔尼亚胡

鲁中晨报
2026-06-30 07:50:04
韩国足协恐怕要跟国际足联撕破脸了

韩国足协恐怕要跟国际足联撕破脸了

阿振观点
2026-06-29 19:42:21
突发!日元直线跳水,对美元汇率已跌至近40年最低,部分硬币铸造成本已超面值!日专家:加息难以扭转日元贬值趋势

突发!日元直线跳水,对美元汇率已跌至近40年最低,部分硬币铸造成本已超面值!日专家:加息难以扭转日元贬值趋势

每日经济新闻
2026-06-30 09:39:10
老外抢疯了!中国分体空调席卷欧洲市场!这只是冰山一角……

老外抢疯了!中国分体空调席卷欧洲市场!这只是冰山一角……

时尚的弄潮
2026-06-30 01:35:51
明天起,个税补税1万每日加收5元滞纳金

明天起,个税补税1万每日加收5元滞纳金

第一财经资讯
2026-06-30 10:31:24
苹果,真急了

苹果,真急了

中国新闻周刊
2026-06-29 23:47:03
荷兰摩洛哥1-8决赛战平,无冕之王期待晋级

荷兰摩洛哥1-8决赛战平,无冕之王期待晋级

张辱卤说体育
2026-06-30 10:28:59
“85 花"大洗牌:2 人出局,杨幂跌出前三,赵丽颖换桌,榜首易主

“85 花"大洗牌:2 人出局,杨幂跌出前三,赵丽颖换桌,榜首易主

小嵩
2026-06-28 03:59:17
彻底谈崩!杜锋松口放走焦泊乔,一年数据直接腰斩,3000万贱卖实属无奈

彻底谈崩!杜锋松口放走焦泊乔,一年数据直接腰斩,3000万贱卖实属无奈

海阔山遥YAO
2026-06-30 00:13:46
杨瀚森难了!开拓者交易莫兰特已摆明立场,抠门老板只为挣钱太坑

杨瀚森难了!开拓者交易莫兰特已摆明立场,抠门老板只为挣钱太坑

你的篮球频道
2026-06-30 08:14:08
今晚开始!央一央八爱奇艺等4部王炸剧来袭!众星云集,先追哪部

今晚开始!央一央八爱奇艺等4部王炸剧来袭!众星云集,先追哪部

小椰的奶奶
2026-06-30 01:19:29
泪目了!运20装上国产心脏,被俄罗斯卡了十年的脖子被彻底打通!

泪目了!运20装上国产心脏,被俄罗斯卡了十年的脖子被彻底打通!

科技故事聚焦
2026-06-30 09:12:29
气色越好,睡得越香!常吃3种“养肝菜”,养肝护肝,安神助眠

气色越好,睡得越香!常吃3种“养肝菜”,养肝护肝,安神助眠

江江食研社
2026-06-29 10:31:11
德国第5次在世界杯进入点球大战,此前4次全胜

德国第5次在世界杯进入点球大战,此前4次全胜

懂球帝
2026-06-30 07:26:16
热议巴西绝杀日本:日本队领先却要学意大利,伤病影响实力

热议巴西绝杀日本:日本队领先却要学意大利,伤病影响实力

懂球帝
2026-06-30 03:53:09
比恒大更离谱!新能源车企一场风口,养活无数跑路老板

比恒大更离谱!新能源车企一场风口,养活无数跑路老板

流苏晚晴
2026-06-08 18:12:57
张智霖袁咏仪19岁儿子回港罕现身,寸头造型超帅气,身高远超老爸

张智霖袁咏仪19岁儿子回港罕现身,寸头造型超帅气,身高远超老爸

观鱼听雨
2026-06-29 23:56:40
日本1-2遭淘汰不可怕,森保一赛后言论引关注,夺冠目标不变

日本1-2遭淘汰不可怕,森保一赛后言论引关注,夺冠目标不变

稗官青史
2026-06-30 04:28:46
2026-06-30 12:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13395文章数 142684关注度
往期回顾 全部

科技要闻

DeepSeek V4正式版要来 高峰期API价格翻倍

头条要闻

安徽女子在酒吧被陌生男子投放"伟哥" 警方不予立案

头条要闻

安徽女子在酒吧被陌生男子投放"伟哥" 警方不予立案

体育要闻

日本众将掩面痛哭 连续3届先破门却被逆转

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

谁懂啊家人们!爹味和班味一点都没,这台底盘最硬国产大猎装太上头!

态度原创

游戏
本地
艺术
时尚
公开课

《火焰纹章》新作黑皮美人新情报!文静可爱娇羞迷人

本地新闻

贵州小城的新目标:举办“村超”世界杯!

艺术要闻

乔治·莫兰迪简洁的静物画,色彩看着太舒服了!

“复古波点”又流行回来了!夏天简单穿就很时髦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版