网易首页 > 网易号 > 正文 申请入驻

Mamba作者团队SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

0
分享至

来源:市场资讯

(来源:机器之心Pro)


机器之心编辑部

混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。

近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增加的情况下保持激活专家数不变)的趋势,这提升了单位 FLOPs 的模型质量。

这一趋势在近期的开源模型中表现尤为明显,例如 DeepSeek V3、Kimi K2 以及 Qwen3 MoE 等,它们均采用了更细粒度的专家设计(更小的中间层维度)和更高的稀疏度,在保持激活参数量不变的同时大幅增加了总参数量。


表 1:MoE 扩展趋势:在此,团队将激活率展示为每个 Token 激活的专家数 K / 专家总数 E;针对前沿开源模型,专家粒度展示为模型嵌入维度(d)/ 专家中间层大小(n)。在 MoE 稀疏度计算中未包含共享专家。趋势表明,新的开源 MoE 模型倾向于具备更高的粒度和稀疏度。

然而,这种追求极致粒度和稀疏性的设计导致了严重的硬件效率下降问题:

针对这些问题,普林斯顿大学助理教授 Tri Dao(Mamba、FlashAttention 的核心作者)团队提出了一套名为 SonicMoE 的系统性解决方案。该方案专为 NVIDIA Hopper 和 Blackwell 架构 GPU 量身定制,其核心贡献包括:

实验数据有力地证明了 SonicMoE 的性能优势,在针对细粒度 7B MoE 模型的测试中:前向传播相比高度优化的 DeepGEMM 基线,速度提升43%;反向传播相比最先进的 ScatterMoE 和 MoMoE 基线,速度分别提升了 83% 和 115%;端到端训练仅依靠内核优化即可将训练吞吐量提升 50%,若配合 Token 舍入路由,在扩展专家数量时可进一步获得 16% 的额外吞吐量提升。


更直观地看,团队仅使用 64 台 H100 运行 SonicMoE,便实现了每日 2130 亿 token 的训练吞吐量,这一表现已能与使用 96 台 H100 运行 ScatterMoE 的效率相媲美。此外,在高稀疏性场景下(如 1.4B 参数模型),其 Tile 感知的 Token 舍入算法在验证了不损失下游任务精度(如在 2B 规模上的推理质量)的同时,显著提升了内核执行速度。

目前,团队已将相关内核代码开源,为大模型社区加速高性能 MoE 训练提供了强有力的工具。


图 1: 即使专家粒度(d/n,其中 d 为嵌入维度,n 为专家中间维度)增加,SonicMoE 的每层激活显存占用(左图)仍保持恒定;相比其他基线,其显存效率提升了 0.20 倍至 1.59 倍。SonicMoE 的前向计算吞吐量(右图)平均达到了理论上限的 88%(最高 91%,最低 86%),该上限基于 H100 GPU 上的 「cuBLAS BMM + 激活函数 + cuBLAS BMM + 聚合操作」 计算得出。请注意,cuBLAS 上限基线未包含路由计算部分。在此,我们使用的是 30B 参数量的 MoE 配置,微批次大小为 32768 个 token,并且从左至右依次将「激活专家数 / 总专家数」设置为 2/32、4/64、8/128 和 16/256。

内存高效的 MoE 算法



团队提供了一个高效的基于 Tensor Core 的 top-K 路由,以及一个可以接受任意路由输入的接口。但需要注意的是,SonicMoE 的 MoE 计算与路由的选择无关,因此与任意路由逻辑兼容。

SonicMoE 的 MoE 计算实现具有高度模块化特性,仅由以下两部分组成:

主机会根据最佳 GEMM 配置和加载 / 存储策略来调度并启动上述 8 个内核。

结果显示,尽管采用了如此高度的模块化设计,SonicMoE 仍然展现出业界领先的训练吞吐量和最低的激活内存使用量。

面向 IO 的内核设计

细粒度 MoE 的表达能力来自于每个 token 在专家选择上的多样性,但这种多样性同时带来了与专家粒度线性增长的 IO 开销,为了保持高吞吐,需要尽可能做到:

在融合这一块有两种方式,一是利用 HBM 加载进行 Gather 融合。SonicMoE 的 Grouped GEMM 既可以接受连续打包的输入,也可以接受从不同位置 gather 得到的输入。对于第二种情况,团队将输入 gather 与从全局显存(GMEM,通常是 HBM)到共享内存(SMEM)的加载过程进行融合,从而能够将这些数据批量化,利用 Tensor Core 执行 GEMM。

这一过程包括两个步骤:

二是 Epilogue 融合,通过以下设计充分利用 epilogue 计算,以最大化减少不必要的 IO 访问:将 SwiGLU 以及 SwiGLU 的反向(dSwiGLU),分别与前向 up-proj 内核的 epilogue、反向 down-proj 激活梯度内核的 epilogue 进行融合;在反向 down-proj 激活梯度(dH)内核的 epilogue 中计算 dH 和 dS。

结果显示,这种「重量级 epilogue 融合」使 SonicMoE 相比其他方案获得显著加速。

Token rounding 路由方法

团队在分析稀疏 MoE 训练模式下的硬件效率时发现,随着 MoE 变得更加稀疏,因填充而产生的 GEMM tile 计算浪费会累计到不可忽略的程度,这被称为「tile 量化效应」。为此,团队提出路由方法「token rounding」来消除这种效应,从而实现更高效的训练。

Token rounding 算法首先计算基础的 TC(token-choice)路由结果,并对每个 expert 对应的 token 按路由分数进行排序,之后在第二步排序中选择:要么丢弃第一步 TC top-K 选择中的部分 token,要么在第二步排序中为某些 expert 补齐额外的 token(填充)。


过程中,团队会对路由权重矩阵进行处理,使得 TC 选中的 token 始终优先于 EC token。结果就是,无论是丢弃还是填充,都只会影响每个 expert 的最后一个输入 tile。

实验表明,这种方法在实现更高训练吞吐量的同时,并不会影响模型质量。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
婆婆想把老家16个亲戚带我家住,我笑着说:妈,我昨天刚把房子卖了

婆婆想把老家16个亲戚带我家住,我笑着说:妈,我昨天刚把房子卖了

夜阑故事集
2025-11-30 11:45:03
“京圈恶少”王烁:睡遍娱乐圈女星,殴打继母王艳,枪指刘涛老公

“京圈恶少”王烁:睡遍娱乐圈女星,殴打继母王艳,枪指刘涛老公

翰飞观事
2026-02-19 21:59:48
“紧凑哥”要求赫伊森道歉:我们中国人不是好惹的

“紧凑哥”要求赫伊森道歉:我们中国人不是好惹的

懂球帝
2026-02-25 09:09:53
普京遭受奇耻大辱暴怒,全球震动!俄媒纳闷:美国为何如此淡定

普京遭受奇耻大辱暴怒,全球震动!俄媒纳闷:美国为何如此淡定

小影的娱乐
2026-02-25 08:16:11
随着莱斯特城1-1,南安普顿5-0,赫尔城4-2,英冠最新积分榜出炉

随着莱斯特城1-1,南安普顿5-0,赫尔城4-2,英冠最新积分榜出炉

侧身凌空斩
2026-02-25 06:45:22
男子花5600元套中汽车:老板当场翻脸,要30万押金,被扒底朝天

男子花5600元套中汽车:老板当场翻脸,要30万押金,被扒底朝天

奇思妙想草叶君
2026-02-24 20:42:14
浙江财政支出分布:杭州22.6%,舟山2.3%

浙江财政支出分布:杭州22.6%,舟山2.3%

安安小小姐姐说城市
2026-02-25 06:40:09
提前返校时间出炉!沪上学校发布开学温馨提示,新学期校历收藏

提前返校时间出炉!沪上学校发布开学温馨提示,新学期校历收藏

随申Hi
2026-02-24 13:45:28
被国家队开除,加拿大送国籍千万合同,王濛一句话震撼冰坛

被国家队开除,加拿大送国籍千万合同,王濛一句话震撼冰坛

观察者海风
2026-02-24 13:45:09
2月24日俄乌:俄罗斯四年未能实现任何目标

2月24日俄乌:俄罗斯四年未能实现任何目标

山河路口
2026-02-24 19:41:40
球王的威力!因与梅西产生激烈争吵,当值主裁被联盟禁赛5场!

球王的威力!因与梅西产生激烈争吵,当值主裁被联盟禁赛5场!

田先生篮球
2026-02-24 16:37:19
心理学家发现:过于较真,操心太多,其实是一种心理缺陷

心理学家发现:过于较真,操心太多,其实是一种心理缺陷

江左梅娘
2026-02-23 18:56:08
柯文哲曾言:大陆若胆敢对台湾出手,我随随便便就能让大陆瘫痪?

柯文哲曾言:大陆若胆敢对台湾出手,我随随便便就能让大陆瘫痪?

鲸探所长
2026-02-25 09:33:46
赛季报销!左膝十字韧带撕裂!NBA生涯即将结束

赛季报销!左膝十字韧带撕裂!NBA生涯即将结束

篮球教学论坛
2026-02-25 08:39:20
只打了3个赛季,就成NBA首人!上帝得有多偏心,创造出这样的怪物

只打了3个赛季,就成NBA首人!上帝得有多偏心,创造出这样的怪物

毒舌NBA
2026-02-25 06:21:36
墨西哥防长:缴获贩毒集团使用的武器约80%来自美国

墨西哥防长:缴获贩毒集团使用的武器约80%来自美国

财联社
2026-02-24 00:40:05
和父母一起外出旅游有多难受?网友:亲密关系真的是一生的课题

和父母一起外出旅游有多难受?网友:亲密关系真的是一生的课题

解读热点事件
2026-02-21 11:34:43
行程有变,默茨访华缩短一天?德国发出警告,中方身份发生变化

行程有变,默茨访华缩短一天?德国发出警告,中方身份发生变化

透视到底
2026-02-24 11:24:49
不复婚也亲密!海哈金喜带女儿奔赴云南,与李亚鹏民宿团聚

不复婚也亲密!海哈金喜带女儿奔赴云南,与李亚鹏民宿团聚

行者聊官
2026-02-22 17:13:56
汪东兴活到了2015年,他对当下中国有何看法?他心里确实有些成见

汪东兴活到了2015年,他对当下中国有何看法?他心里确实有些成见

明月清风阁
2026-02-19 07:25:09
2026-02-25 10:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2250505文章数 5528关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

媒体:中国开年对日本出"重拳" 反制手段根本性质变

头条要闻

媒体:中国开年对日本出"重拳" 反制手段根本性质变

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

方程豹首款轿车实车图曝光 就等价格了?

态度原创

时尚
本地
亲子
房产
游戏

普通人穿衣别太老气横秋!这些穿搭给你灵感,保暖耐看两不误

本地新闻

妆艺大游行2026:愿

亲子要闻

上交压岁钱的时候到了

房产要闻

330万人涌入!春节全国楼市,第一个卖爆的区域出现了!

《宝可梦Pokopia》容量大小曝光!实体下载卡泄露

无障碍浏览 进入关怀版