网易首页 > 网易号 > 正文 申请入驻

Mamba作者团队SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

0
分享至



机器之心编辑部

混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。

近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增加的情况下保持激活专家数不变)的趋势,这提升了单位 FLOPs 的模型质量。

这一趋势在近期的开源模型中表现尤为明显,例如 DeepSeek V3、Kimi K2 以及 Qwen3 MoE 等,它们均采用了更细粒度的专家设计(更小的中间层维度)和更高的稀疏度,在保持激活参数量不变的同时大幅增加了总参数量。



表 1:MoE 扩展趋势:在此,团队将激活率展示为每个 Token 激活的专家数 K / 专家总数 E;针对前沿开源模型,专家粒度展示为模型嵌入维度(d)/ 专家中间层大小(n)。在 MoE 稀疏度计算中未包含共享专家。趋势表明,新的开源 MoE 模型倾向于具备更高的粒度和稀疏度。

然而,这种追求极致粒度和稀疏性的设计导致了严重的硬件效率下降问题:

  • 内存墙瓶颈:对于细粒度 MoE,激活内存的占用量通常随激活专家数量线性增长,导致前向和反向传播中的内存压力剧增。
  • IO 瓶颈:由于专家变得更小且更分散,算术强度(Arithmetic Intensity,即计算量与数据传输量的比值)显著降低,IO 访问变得更加动态和频繁,导致模型训练进入「内存受限」区间。
  • 计算浪费:在高稀疏性场景下,由于 Grouped GEMM(分组通用矩阵乘法)内核中的 Tile 量化效应,输入数据往往需要进行填充以对齐硬件 Tile 大小,这直接导致了计算资源的浪费。

针对这些问题,普林斯顿大学助理教授 Tri Dao(Mamba、FlashAttention 的核心作者)团队提出了一套名为 SonicMoE 的系统性解决方案。该方案专为 NVIDIA Hopper 和 Blackwell 架构 GPU 量身定制,其核心贡献包括:

  • 内存高效算法:团队通过重新设计 MoE 的计算图,提出了一种在计算路由梯度时不缓存激活值的方法。该方法在保持与原始 MoE 公式数学等价的前提下,大幅减少了反向传播所需的激活显存。对于细粒度 7B MoE 模型,每层的激活内存占用减少了 45%,且随着专家粒度的增加,其内存占用保持恒定,效率比现有基线高出 0.20-1.59 倍。
  • 计算与 IO 重叠:利用 Hopper 架构 GPU 的 WGMMA 指令与生产者 - 消费者异步范式,SonicMoE 设计了新型 GPU 内核。该内核能够将 GEMM 计算与从 HBM 加载数据的 IO 操作并行执行,有效掩盖了细粒度 MoE 带来的高昂 IO 延迟。
  • Token 舍入:这是一种即插即用的创新调度策略。它将分发给每个专家的 Token 数量四舍五入为 Grouped GEMM Tile 大小(例如 128)的倍数。算法保证每个专家的偏差最多仅为一个 Tile,从而在期望意义下保持总 token 数不变。这一策略有效减少了因填充导致的算力浪费。

实验数据有力地证明了 SonicMoE 的性能优势,在针对细粒度 7B MoE 模型的测试中:前向传播相比高度优化的 DeepGEMM 基线,速度提升43%;反向传播相比最先进的 ScatterMoE 和 MoMoE 基线,速度分别提升了 83% 和 115%;端到端训练仅依靠内核优化即可将训练吞吐量提升 50%,若配合 Token 舍入路由,在扩展专家数量时可进一步获得 16% 的额外吞吐量提升。



  • 论文标题:SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
  • 论文地址:https://arxiv.org/abs/2512.14080

更直观地看,团队仅使用 64 台 H100 运行 SonicMoE,便实现了每日 2130 亿 token 的训练吞吐量,这一表现已能与使用 96 台 H100 运行 ScatterMoE 的效率相媲美。此外,在高稀疏性场景下(如 1.4B 参数模型),其 Tile 感知的 Token 舍入算法在验证了不损失下游任务精度(如在 2B 规模上的推理质量)的同时,显著提升了内核执行速度。

目前,团队已将相关内核代码开源,为大模型社区加速高性能 MoE 训练提供了强有力的工具。



图 1: 即使专家粒度(d/n,其中 d 为嵌入维度,n 为专家中间维度)增加,SonicMoE 的每层激活显存占用(左图)仍保持恒定;相比其他基线,其显存效率提升了 0.20 倍至 1.59 倍。SonicMoE 的前向计算吞吐量(右图)平均达到了理论上限的 88%(最高 91%,最低 86%),该上限基于 H100 GPU 上的 「cuBLAS BMM + 激活函数 + cuBLAS BMM + 聚合操作」 计算得出。请注意,cuBLAS 上限基线未包含路由计算部分。在此,我们使用的是 30B 参数量的 MoE 配置,微批次大小为 32768 个 token,并且从左至右依次将「激活专家数 / 总专家数」设置为 2/32、4/64、8/128 和 16/256。

内存高效的 MoE 算法





团队提供了一个高效的基于 Tensor Core 的 top-K 路由,以及一个可以接受任意路由输入的接口。但需要注意的是,SonicMoE 的 MoE 计算与路由的选择无关,因此与任意路由逻辑兼容。

SonicMoE 的 MoE 计算实现具有高度模块化特性,仅由以下两部分组成:

  • 经过优化的分组 GEMM 内核(带有模块化融合)
  • 经过优化的专家聚合内核

主机会根据最佳 GEMM 配置和加载 / 存储策略来调度并启动上述 8 个内核。

结果显示,尽管采用了如此高度的模块化设计,SonicMoE 仍然展现出业界领先的训练吞吐量和最低的激活内存使用量。

面向 IO 的内核设计

细粒度 MoE 的表达能力来自于每个 token 在专家选择上的多样性,但这种多样性同时带来了与专家粒度线性增长的 IO 开销,为了保持高吞吐,需要尽可能做到:

  • 通过融合(fusion)减少 IO 访问
  • 将 IO 延迟与计算重叠

在融合这一块有两种方式,一是利用 HBM 加载进行 Gather 融合。SonicMoE 的 Grouped GEMM 既可以接受连续打包的输入,也可以接受从不同位置 gather 得到的输入。对于第二种情况,团队将输入 gather 与从全局显存(GMEM,通常是 HBM)到共享内存(SMEM)的加载过程进行融合,从而能够将这些数据批量化,利用 Tensor Core 执行 GEMM。

这一过程包括两个步骤:

  • 获取每个 expert 对应的被路由 token 的索引;
  • 使用这些索引,通过 Blackwell 和 Hopper 架构的 cp.async 指令,从 HBM gather 激活值。

二是 Epilogue 融合,通过以下设计充分利用 epilogue 计算,以最大化减少不必要的 IO 访问:将 SwiGLU 以及 SwiGLU 的反向(dSwiGLU),分别与前向 up-proj 内核的 epilogue、反向 down-proj 激活梯度内核的 epilogue 进行融合;在反向 down-proj 激活梯度(dH)内核的 epilogue 中计算 dH 和 dS。

结果显示,这种「重量级 epilogue 融合」使 SonicMoE 相比其他方案获得显著加速。

Token rounding 路由方法

团队在分析稀疏 MoE 训练模式下的硬件效率时发现,随着 MoE 变得更加稀疏,因填充而产生的 GEMM tile 计算浪费会累计到不可忽略的程度,这被称为「tile 量化效应」。为此,团队提出路由方法「token rounding」来消除这种效应,从而实现更高效的训练。

Token rounding 算法首先计算基础的 TC(token-choice)路由结果,并对每个 expert 对应的 token 按路由分数进行排序,之后在第二步排序中选择:要么丢弃第一步 TC top-K 选择中的部分 token,要么在第二步排序中为某些 expert 补齐额外的 token(填充)。



过程中,团队会对路由权重矩阵进行处理,使得 TC 选中的 token 始终优先于 EC token。结果就是,无论是丢弃还是填充,都只会影响每个 expert 的最后一个输入 tile。

实验表明,这种方法在实现更高训练吞吐量的同时,并不会影响模型质量。

更多内容,可查看论文获悉!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大唐名将李靖,陈塘关李靖,托塔天王李靖,到底是不是同一个人?

大唐名将李靖,陈塘关李靖,托塔天王李靖,到底是不是同一个人?

铭记历史呀
2026-03-26 11:16:18
最大的访问团,国王携家族三百多名成员访问中国,在中国生活至今

最大的访问团,国王携家族三百多名成员访问中国,在中国生活至今

丞丞故事汇
2026-03-26 11:34:08
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

李健政观察
2026-03-26 18:16:56
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

荣亭小吏
2026-03-26 11:23:02
重磅官宣!伦敦世乒赛国乒再添1人直通,8人名单正式出炉

重磅官宣!伦敦世乒赛国乒再添1人直通,8人名单正式出炉

宝哥精彩赛事
2026-03-26 18:04:15
五代最弱小的政权,全国仅3万兵甲,靠着打家劫舍度过40年和平

五代最弱小的政权,全国仅3万兵甲,靠着打家劫舍度过40年和平

疯狂的小历史
2026-03-26 13:06:45
46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

科学发掘
2026-03-26 17:46:48
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
女人偷吃后晚上跟丈夫同房是什么体验?这位46岁出轨女人说出答案

女人偷吃后晚上跟丈夫同房是什么体验?这位46岁出轨女人说出答案

混音情感
2026-03-26 14:25:07
没护照没签证,这只叫LV的猫天天跨国走私老鼠,两国海关都拿它没辙!

没护照没签证,这只叫LV的猫天天跨国走私老鼠,两国海关都拿它没辙!

英国那些事儿
2026-03-24 23:16:58
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
余承东:问界M6 24小时订单突破60000台 展车已到店

余承东:问界M6 24小时订单突破60000台 展车已到店

CNMO科技
2026-03-24 17:14:29
伊朗微松口:特朗普女婿库什纳无法信任,但跟副总统万斯或许能谈

伊朗微松口:特朗普女婿库什纳无法信任,但跟副总统万斯或许能谈

阿龙聊军事
2026-03-26 20:41:08
又内讧,泰山队内部又出问题,惨败原因找到了,内部矛盾曝光

又内讧,泰山队内部又出问题,惨败原因找到了,内部矛盾曝光

体坛风之子
2026-03-26 04:30:03
张雪峰说得对!深圳社保就是淘汰本末倒置的!直接封神!

张雪峰说得对!深圳社保就是淘汰本末倒置的!直接封神!

烟浔渺渺
2026-03-26 17:07:45
赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

芳芳历史烩
2026-03-23 03:53:23
笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

老马拉车莫少装
2026-03-25 19:39:00
伊朗首都德黑兰遭空袭,多地传出爆炸声!伊朗武装部队向以色列发射新一轮导弹

伊朗首都德黑兰遭空袭,多地传出爆炸声!伊朗武装部队向以色列发射新一轮导弹

大象新闻
2026-03-26 20:45:02
2026-03-26 21:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
本地
手机
房产
公开课

上新|| 她们说,找到了自己的人生裙子!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版