网易首页 > 网易号 > 正文 申请入驻

国产GPU组了个开源局,把SGLang等核心开发者都摇来了!

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

没有大厂高管站台,一屋子却挤满了开源圈的熟面孔。

随便往台下扫一眼,就能对上好几个GitHub上的明星ID

  • 有目前大模型推理框架顶流SGLang的核心开发者BBuf(Xiaoyu Zhang);
  • 有主导下一代算子编程生态TileLang的维护者唐正举
  • 有操刀KVCache解耦与传输神器Mooncake的核心贡献者马腾
  • 有来自智源人工智能研究院、围绕Triton/FlagOS死磕AI编译器的肖航
  • 还有像R0CKSTAR这样在GitHub上异常活跃的硬核开发者。



这场看似是开源圈极客们的面基会,却着实是有点反差在身上的——

活动的攒局者,是国产GPU玩家,摩尔线程

这事确实有点意思。

因为过去提到国产GPU,外界最容易想到的关键词,往往还是硬件参数、显存容量、算力指标、生态替代、模型能不能跑起来。

但这场SGLang × MUSA Meetup真正抛出的问题已经变了:

怎么让国产GPU真正进入大模型推理的主流开源工程链路?

说得更直接一点,就是让SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D分离、分布式通信、CI/CD、upstream PR这些东西,能够围着国产GPU一起转起来。

有一说一,在整体听下来之后,有一个非常直观的感受。

那就是国产GPU的竞争,已经不只是芯片参数之争,转而开始迈向生态坐标之争

为什么这么说?我们继续往下看。

国产GPU开始“扩圈”了

先看这场Meetup本身。

它的主题很明确:SGLang × MUSA。

SGLang是当下大模型推理serving领域关注度很高的开源框架,面向LLM和多模态模型,核心目标是低延迟、高吞吐,覆盖从单卡到大规模分布式集群的部署场景。

这类框架之所以重要,是因为今天的大模型落地,早就不是“模型训练好了,放上去跑”这么简单。

真正进入生产环境后,系统要处理的是一整套复杂问题。

例如prefill和decode怎么拆,KVCache怎么复用,长上下文怎么省钱,多轮对话怎么降TTFT,大规模集群怎么调度,新模型发布后怎么day-0 support,出了性能gap怎么定位到具体kernel。

第一个上台的是SGLang核心开发者BBuf


△SGLang核心开发者BBuf

这个在GitHub上拥有27k星的开源推理框架,现在已经是全球开发者部署大模型的首选。

他带来的SGLang 2026 Q2 Roadmap,每一条都踩在行业的痛点上:

  • 针对DeepSeek V4的全链路优化,包括W4A16量化、MegaMoE加速和稀疏注意力支持;
  • jit_kernel全面替代传统的sgl-kernel,用TVM-FFI把编译速度提升了数倍,再也不用等几个小时的wheel包;
  • Vibe Coding全面落地,用AI agent自动分析profiler、定位性能瓶颈、提交PR,5月前已经完成了超过60个优化任务;
  • 多模态能力全面升级,支持LTX2、Wan、混元视频等最新模型,性能比其他框架最高快5倍。

最让人印象深刻的是他展示的一组数据。

SGLang通过P/D分离架构,在12个H100节点上跑出了52.3k输入token/s/node、22.3k输出token/s/node的成绩,比DeepSeek官方API还便宜5倍,这个结果已经被全球10多个团队复现。

紧接着上台的摩尔线程ContributorR0CKSTAR,带来了全场最硬核的工程实践分享。


△摩尔线程工程师R0CKSTAR

他用一句话总结了过去半年的工作:

SGLang on MUSA已经完成了从环境构建到CI测试的全链路打通。

这意味着什么?

现在你只要克隆SGLang的官方仓库,安装sgl-kernel和sglang,就能在摩尔线程MTT S5000显卡上直接运行几乎所有主流大模型。

DeepSeek、通义千问3.5、GLM-4.5、FLUX、Wan这些热门模型,都已经完成了深度优化。

他特别提到了MUSA的三层CUDA兼容栈。

过去适配一个推理框架要改几千行代码,现在只要在开头加一行import torchada,99%的CUDA代码就能直接运行。这个看似简单的改动,解决了国产GPU生态的一大痛点。

据了解,截至5月12日,摩尔线程在SGLang主线累计提交47个PR,其中41个已合入,完成了从环境构建到分布式推理的全链路打通。

智源的肖航则带来了DeepSeek V4在MUSA上的Day0 适配成果。


△智源AI编译器研究员

通过FlagOS的Triton算子优化和摩尔线程的SQMMA张量加速引擎,他们把DeepSeek V4的首token延迟降低了56.7%,吞吐量提升了23%。

对此,肖航表示:

我们没有做什么黑魔法,就是把两个最关键的算子优化到了极致。

FP8 矩阵乘算子平均加速8.85倍,稀疏注意力算子平均加速6.01倍,这两个占了推理时间80%的算子一优化,端到端性能自然就上去了。

TileLang维护者唐正举的分享,则让所有人看到了下一代算子编程的未来。


△TileLang维护者唐正举

这个2025年2月才开源的项目,短短一年多就收获了6k星和133位贡献者,连DeepSeek V4的核心kernel都是用TileLang写的,正如唐正举所说:

用TileLang写FlashAttention,只要50行Python代码,性能和专家手写的CUDA一模一样。

并且从他在现场展示的对比图来看,同样的GEMM算子,TileLang用15行代码达到了CUTLASS的性能,代码量减少了90%。

最后上台的阿里云马腾,带来了Mooncake项目的最新进展。


△Mooncake Contributor 马腾

这个专注于KVCache解耦的项目,现在已经是SGLang、vLLM等主流推理框架的标配。

他展示的一组较为吸睛的数据:

通过RDMA P2P权重更新,Kimi K2 1T模型的权重同步时间从53秒降到了7.2秒,加速了7.37倍;EPD三级解耦架构让多模态模型的首token延迟降低了6-8倍;HiCache + Mooncake后端让多轮对话的缓存命中率超过90%。

至此,这场Meetup的拼图基本完整——

SGLang是推理框架主链路,MUSA是国产GPU底层平台,FlagOS/Triton解决关键算子优化,TileLang降低高性能kernel编程门槛,Mooncake补上KVCache和生产部署。

这,便是一条较为完整的工程链路。

为什么摩尔线程能把他们摇来?

这个问题的答案不能只归结为办了一场活动。

开源圈很现实,大家愿意来,核心原因不是谁会讲故事,是这件事真的和他们正在做的工程问题有关。

首先看MUSA本身的设计初心。

摩尔线程CTO张钰勃在开场中解释,MUSA是Meta-computing Unified System Architecture。


△摩尔线程CTO张钰勃

Meta-computing指向通用计算,摩尔线程希望GPU尽量拥抱通用计算,而不是给未来可计算的领域设限;Unified则意味着摩尔线程产品希望遵循同一套统一标准,避免不同产品线使用不同指令集和架构,导致软件生态无法积累。

更关键的一句话是,MUSA不希望开发者为了使用MUSA而重新学习一套东西。

这句话看似朴素,其实直指国产GPU生态的痛点。

开发者最怕什么?

不是新硬件本身,是为了新硬件,学习一整套新API,重写一堆代码,改完还进不了上游,社区一更新又要重新补丁。

如果一个国产GPU生态要求开发者从头学一遍,那它面对的便是巨大的迁移阻力。

所以MUSA的路线,是尽量贴近开发者已经熟悉的GPU编程方式、API接口和使用习惯。底层实现可以不同,但上层体验尽可能一致。

三层CUDA兼容栈的意义就在这里。

torch_musa负责把PyTorch和MUSA的基础能力接起来;torchada负责让CUDA-first生态继续工作;mthreads-ml-py负责把设备管理、拓扑、显存、MTLink、P2P等信息暴露给上层框架。

用一句更通俗的话说,摩尔线程在尽量把原来的路修到自己门口。

这直接影响到开源社区协作的可行性。

因为上游项目最看重的是低侵入、可维护、可复用。如果一个适配方案需要大面积改动主线代码,后续每次rebase都痛苦,上游很难接受。

反过来,如果适配可以通过更透明的方式完成,PR就更容易被review,也更容易持续跟随社区迭代。

这就是从“我自己维护一个分支”到“我进入主线”的区别。

再看生态结合。

SGLang × MUSA,是推理主链路打通。

摩尔线程从去年开始把SGLang作为重点接入和贡献的开源项目,经过大半年努力,MUSA后端近期已经合入SGLang主线。后续不只是跟随feature,也希望在框架层面贡献更多能力。

这件事的意义在于,国产GPU不再只是某个框架的外部适配对象,已经开始成为主线生态的一部分。



FlagOS × MUSA,是关键算子和新模型适配。

大模型推理的性能竞争,越来越多发生在kernel、编译器、调度、低精度和通信层。DeepSeek V4 day-0适配这样的工作,本质上考验的是从模型发布到工程落地之间的反应速度。能不能第一时间跑通,能不能快速调优,能不能在真实shape上找到更好的配置,决定了生态跟不跟得上。



Mooncake × MUSA,是推理解耦和生产部署。

KVCache的价值在Agent、多轮对话、长上下文时代被进一步放大。Mooncake与MUSA的结合,不只是让某个缓存后端能跑在国产GPU上,更是在探索跨实例KVCache共享、弹性扩缩容、缓存复用、原地升级这类生产级问题。



TileLang × MUSA,则是下一代算子生态的提前布局。

如果未来更多模型和硬件都需要定制kernel,算子编程不能永远停留在少数专家手里。TileLang这类DSL的价值,是把高性能kernel编程变成更多开发者能上手的工程工具。



这四条线合在一起,才是摩尔线程能组局的底气。

它把自己放进了大模型推理的真实工程网络里,包括框架、算子、缓存、通信、部署、CI/CD、upstream等等。

而这,也是国产 GPU 生态真正要补的课。

国产GPU的生态位,正在走向协作

如果把这场Meetup从更宏大的算力发展角度来看,它的价值或许远超技术分享本身。

过去几年,国产GPU的生态困境是比较明显的。

许多厂商习惯了闭门造车,自己从头写一套深度学习框架,自己攒一套算子库,结果因为不符合主流开发者的习惯,鲜有人问津。

又或者,有的厂商只是拉一个私有Fork做适配,从来不向开源上游提交代码,导致主流框架一更新,自己的适配版本就成了无人维护的孤品。

而现在,摩尔线程给出了一个完全不同的答案:

全面融入全球开源生态,去和世界上最聪明的一批人一起做事。

在这场活动中,我们频繁听到几个词:Day-0 Support、Upstream PR、CI/CD。

这说明国产GPU的生态位正在发生质变。摩尔线程不再只满足于做一个被动的适配者,它要的是主动出击,成为核心代码的“贡献者”,甚至是未来架构的“共建者”。

他们不仅仅是丢一个单点的Patch过去,而是把一整套包含环境构建、PR提交、CI自动化测试、Release发布、文档维护在内的工程闭环,深深地嵌入到了SGLang等顶级项目的血脉中。

这种可持续的Upstream模式,才是真正掌握生态话语权的方式。

这场开源局还证明了一件事,国产GPU已经走上了大模型推理开源生态的公共牌桌。

在这个牌桌上,已经坐着风头正劲的SGLang,坐着死磕底层编译的Triton/FlagOS,坐着重塑算子生态的TileLang,坐着主导解耦架构的Mooncake。

而现在,国产GPU,也可以拉开椅子,从容地坐下来,和这群明星玩家们一起打好大模型时代最关键的这把牌。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克360度转圈环拍人民大会堂刷屏 本人发表情包回应

马斯克360度转圈环拍人民大会堂刷屏 本人发表情包回应

快科技
2026-05-14 17:55:04
你见过多少赌博做局内幕?网友:全是精心套路,根本赢不了

你见过多少赌博做局内幕?网友:全是精心套路,根本赢不了

另子维爱读史
2026-05-13 07:43:50
炸锅!华为芯片中心登陆新闻联播,任正非罕见出镜,释放重大信号

炸锅!华为芯片中心登陆新闻联播,任正非罕见出镜,释放重大信号

一家说
2026-05-12 15:11:46
尘封14年!穆氏皇马西甲百分神迹至今无人可破,将永载史册!

尘封14年!穆氏皇马西甲百分神迹至今无人可破,将永载史册!

田先生篮球
2026-05-14 19:02:09
“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做6事

“汉坦病毒”来袭,医生提醒:宁可每天看电视,也不要出门做6事

路医生健康科普
2026-05-11 17:39:53
21世纪最佳漫画榜单出炉:这些作品改变了我们

21世纪最佳漫画榜单出炉:这些作品改变了我们

影视情报室
2026-05-13 17:08:34
美国逼我国偿还百年前的债务,如若不还,欠我国的8600亿美元就赖账

美国逼我国偿还百年前的债务,如若不还,欠我国的8600亿美元就赖账

富强巨靠谱
2025-03-24 16:33:48
马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

马斯克收心了?官宣了39岁印度裔伴侣:相貌普通为他生了4个孩子

丰谭笔录
2025-12-12 11:16:23
警方通报河北无极一男子持刀杀害女子 当地商户:事发地为火锅店,几天前关门停业

警方通报河北无极一男子持刀杀害女子 当地商户:事发地为火锅店,几天前关门停业

红星新闻
2026-05-14 14:47:17
安帅重磅发声:力挺穆帅重返伯纳乌!怒斥球员为所欲为一派胡言!

安帅重磅发声:力挺穆帅重返伯纳乌!怒斥球员为所欲为一派胡言!

舟望停云
2026-05-14 00:58:34
黛米·摩尔戛纳紫裙惊艳全场,63岁状态引热议

黛米·摩尔戛纳紫裙惊艳全场,63岁状态引热议

影视情报室
2026-05-14 07:04:07
安徽一医院原党委书记被查

安徽一医院原党委书记被查

阜阳发布
2026-05-14 12:16:33
中国军工巨头迎春天,订单高达754亿,歼10卖爆后,沙特送来大礼

中国军工巨头迎春天,订单高达754亿,歼10卖爆后,沙特送来大礼

史行途
2026-05-10 09:12:25
为什么明明失业的人越来越多,整体社会依旧平稳安定?

为什么明明失业的人越来越多,整体社会依旧平稳安定?

灯锦年
2026-05-14 19:08:30
属羊人,5月16日前后,你要出大问题!不是小数目,别不当回事!

属羊人,5月16日前后,你要出大问题!不是小数目,别不当回事!

智慧生活笔记
2026-05-14 16:49:14
她是美国最想挖走的中国人!美国专家见他毕恭毕敬,国人十万知一

她是美国最想挖走的中国人!美国专家见他毕恭毕敬,国人十万知一

朝子亥
2026-05-08 07:00:03
特朗普前脚刚走,万斯在白宫"称王称霸",两个儿子带来随便玩耍

特朗普前脚刚走,万斯在白宫"称王称霸",两个儿子带来随便玩耍

画夕
2026-05-14 20:21:12
逃离人海!王楚钦开大奔离场,副驾身份曝光,这待遇全网酸了

逃离人海!王楚钦开大奔离场,副驾身份曝光,这待遇全网酸了

观察鉴娱
2026-05-14 11:05:45
47岁保姆倾诉:只要每个月给9000工资,我可以提供多种服务

47岁保姆倾诉:只要每个月给9000工资,我可以提供多种服务

孢木情感
2026-05-05 10:03:39
温莎血脉基因优良!哈里夫妇带一双儿女出游,阿奇兄妹给梅根争光

温莎血脉基因优良!哈里夫妇带一双儿女出游,阿奇兄妹给梅根争光

枫尘余往逝
2026-05-13 14:45:33
2026-05-14 21:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12624文章数 176462关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

老人携带170万"现金"到银行存款 柜员发现全是练功券

头条要闻

老人携带170万"现金"到银行存款 柜员发现全是练功券

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

房产
健康
亲子
数码
公开课

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

专家揭秘干细胞回输的安全风险

亲子要闻

中国爸、外国妈,我们姐弟仨眼睛都是什么颜色?

数码要闻

三星承诺将打造更节能的智能家电,旗下产品可帮用户“省电费”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版