网易首页 > 网易号 > 正文 申请入驻

Cursor为Blackwell构建MXFP8内核,MoE层提速3.5倍,端到端1.5倍

0
分享至

机器之心报道

编辑:+0

在构建更强大的 AI 模型的这场竞赛中,传统路径很简单:升级到最新最强大的硬件。但 Cursor 发现释放下一代 GPU 的真正潜力远非即插即用那么简单。

在从 NVIDIA 的 Hopper H100s 升级到新旗舰 Blackwell B200s 后,该团队遇到了一个「升级陷阱」:硬件性能翻倍,但实际训练速度却被 MoE 层的效率拖慢,新架构的设计反而放大了数据搬运和量化的开销。

这就像给一辆赛车换上了动力翻倍的新引擎,却发现原有的轮胎完全无法承载这股力量,导致速度反而下降。

他们的解决方案是回归基础,自己定制「赛车胎」:在 GPU 内核级别从零开始重写整个混合专家(MoE)训练层。

Cursor 不仅解决了瓶颈问题,还彻底释放了 Blackwell 架构的潜能。通过抛弃对现有 CUDA 库的依赖,他们能够:

  • 直接针对TMEM 的新特性设计数据流管线,避免无谓的寄存器搬运开销;
  • 量化与反量化逻辑融入内核计算流程,大幅压缩了内存带宽占用;
  • 优化MXFP8 的 microscaling 实现,在保证训练收敛质量的同时,把性能推到极限。

最终效果是:MoE 层在前向和反向传播中都实现了3.5倍提速,端到端训练速度在 Blackwell 上快了1.5倍,相比最初的 Hopper GPU 方案实现了2倍的加速。

与 BF16 相比,MXFP8 MoE 的相对加速(归一化为 1.0)。

Cursor 团队在博客中详细介绍了相关技术细节,并分享了他们的工程经验和性能数据。

  • 博客地址:https://cursor.com/en/blog/kernels

为什么现有 MoE 内核在 Blackwell 上失效?

为了降低计算成本,模型训练普遍采用低精度数据格式(如 FP8)。但简单地将高精度数字(如 0.0001)转换为 FP8 会导致其被四舍五入为零,丢失信息。

微缩放(MX)通过将张量(Tensor)分割成许多小数据块(例如每 32 个元素一块),并为每个块计算一个独立的缩放因子(scale factor)来解决这个问题。

MXFP8 量化示例:每个 1x32 块共享一个缩放因子。

这样,每个块内的数据都能被有效缩放到 FP8 的可表示范围内,从而在保留精度的同时享受低精度计算带来的性能优势。Cursor 使用的MXFP8就是这样一种格式。

张量内存(TMEM)瓶颈

在 Hopper (H100) 架构上,张量核心的计算结果直接累积在寄存器中,后续的「反量化」等操作可以流畅地进行。

然而,Blackwell (B200) 引入了新的张量内存(TMEM)来存储累加结果。这意味着任何自定义的算术操作都必须经历一次低效的数据往返:TMEM → 寄存器 → CUDA 核心处理 → TMEM。

这种异步数据传输会在张量核心的计算管线中产生「气泡」,大幅降低执行效率。更关键的是,尽管 Blackwell 的 FP8 张量核心吞吐量翻倍,其 CUDA 核心性能仅提升了约 33%,导致反量化速度严重滞后于计算速度。

该甘特图截取自我们定制的 Blackwell 注意力核。第一行显示了张量核心(QKT)的活动情况;第二行显示了 CUDA 核心的活动情况(数据从 TMEM 加载至寄存器,然后执行 softmax)。从 TMEM 到寄存器的加载延迟,导致了张量核心出现流水线气泡。

数据显示,在特定配置下,Blackwell 上的反量化耗时是矩阵乘法本身的 1.76 倍,远高于 Hopper 上的 1.03 倍。

Hopper 与 Blackwell 上的相对反量化成本。

被忽视的「量化税」

除了 TMEM 瓶颈,数据「量化」过程本身也成了性能杀手。

以一个典型的 MoE 矩阵乘法为例,计算本身可能仅需 1.16 毫秒,但将输入矩阵量化为 MXFP8 格式并写回内存就需要搬运近 2.9 GB 的数据,耗时约 0.44 毫秒,占到计算时间的近 40%。

在反向传播中,这个开销因需要转置-量化而翻倍,达到 0.88 毫秒,占比高达76%。这意味着,如果优化不当,MXFP8 带来的性能提升可能被完全抵消

此外,现有的开源量化内核不仅带宽利用率低,其生成的缩放因子(scale factor)布局还与 Blackwell 的硬件指令不兼容,需要额外的、拖慢性能的重塑操作。

Cursor 如何从零重写MoE 层?

面对这些挑战,并发现现有的开源库(如 NVIDIA 的 TransformerEngine)并非最佳选择,Cursor 团队选择放弃高层依赖,使用纯 CUDA 和 PTX 汇编语言亲自编写 MoE 层的 GPU 代码。

优化策略

  • 拥抱原生硬件指令

他们没有与 TMEM 架构对抗,而是围绕原生的 tcgen05.mma 指令构建内核。这使得 GPU 硬件自身能够处理 MXFP8 所需的缩放,完全消除了 TMEM 和 CUDA 核心之间低效的数据移动。

  • 设计高效的数据流水线

他们实现了一个复杂的流水线,采用了诸如「Warp 专精」(将特定任务分配给不同的线程组)和 2-CTA(协同线程阵列)模式等技术。

Warp 专精将特定的任务分配给不同的线程组(Warp)。例如,Warp 0 负责从主内存加载数据到共享内存,Warp 1 负责加载缩放因子,Warp 2 负责将缩放因子从共享内存移至 TMEM,而 Warp 3 则专门负责启动矩阵乘法计算。这使得各个环节可以高度并行。

2-CTA 模式允许两个 GPU 流式多处理器(SM)协同完成单个矩阵乘法,通过共享 B 矩阵来减少内存流量,带来了 15-20% 的性能提升。

  • 针对 MoE 工作负载进行优化

对于 MoE 训练中特有的分组矩阵乘法,他们应用了一种名为「专家级超分组」的 L2 缓存优化启发式算法。这确保了内存访问模式保持高效,将标准矩阵乘法与分组矩阵乘法之间的性能下降限制在仅 4%。

「秘密武器」:量化内核与低精度配方

该团队开发了一个自定义的 MXFP8 量化内核,他们称这是目前用于 MoE 训练的最快内核。微基准测试显示,其内核持续的内存带宽超过 6.2 TB/s,相比他们从现有开源工具测得的约 4.5 TB/s 有了显著提升。

至关重要的是,他们的内核输出的数据内存布局与 tcgen05.mma 指令所要求的完全一致,避免了其他工具所必需的、耗时的额外「重塑」步骤。

基于内存带宽利用率的 MXFP8 量化内核比较(E4M3,32 块大小的缩放)。

团队还确定了一种特定的低精度「配方」,能够在不影响训练质量的情况下提供最高速度。通过使用元素类型为 FP8E4M3、块大小为 32 的 MXFP8 格式,他们能够使训练损失的收敛情况与速度慢得多的 BF16 格式几乎完全匹配。

团队公布的训练损失曲线显示,两种方法几乎没有区别,证明了性能的提升并未以牺牲准确性为代价。

BF16 与 MXFP8 训练损失超过 10k 步:几乎无法区分。

更多技术细节请阅读原博客。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不是迷信,今日正月十四守财日,最不能做的4件事,别忘告诉家人

不是迷信,今日正月十四守财日,最不能做的4件事,别忘告诉家人

阿天爱旅行
2026-03-02 04:30:13
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
34岁评上副教授,直接躺平15年!山东一教师自曝生活状态,引争议

34岁评上副教授,直接躺平15年!山东一教师自曝生活状态,引争议

火山詩话
2026-02-27 09:09:49
谁能无悔?大罗后悔逼宫,卡卡承认选错,连穆里尼奥都曾哭成泪人

谁能无悔?大罗后悔逼宫,卡卡承认选错,连穆里尼奥都曾哭成泪人

足篮大世界
2026-03-01 15:34:01
让央视春晚给全国道歉,入美国籍回中国捞金,她到底有什么来头?

让央视春晚给全国道歉,入美国籍回中国捞金,她到底有什么来头?

陌上桃花开的
2026-02-28 16:16:42
美国终于明白,当年他们“误炸”中国大使馆,中国为什么不反击

美国终于明白,当年他们“误炸”中国大使馆,中国为什么不反击

蜉蝣说
2025-10-07 16:08:53
宠妾灭妻、“吸血”亲爹,侄女再曝大瓜,杨议彻底活成全网笑话!

宠妾灭妻、“吸血”亲爹,侄女再曝大瓜,杨议彻底活成全网笑话!

奇怪的鲨鱼们
2026-03-02 06:41:32
“以租代购”骗局,正在收割当代年轻人!

“以租代购”骗局,正在收割当代年轻人!

老特有话说
2026-03-01 21:53:22
被逆转,台北教练这样说:中国队两人发挥超预期,制造了极大麻烦

被逆转,台北教练这样说:中国队两人发挥超预期,制造了极大麻烦

南海浪花
2026-03-02 10:11:06
台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

台湾费尽心思安排到解放军内部的间谍,全都被李志豪给揪了出来

雪中风车
2026-02-06 08:12:58
89岁朱逢博:丈夫病逝18年,她跟着儿子养老

89岁朱逢博:丈夫病逝18年,她跟着儿子养老

细品名人
2026-03-01 07:42:37
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
【国际】阿拉菲被任命为哈梅内伊的临时继任者

【国际】阿拉菲被任命为哈梅内伊的临时继任者

一网荷兰
2026-03-02 00:11:45
迪拜机场挤爆超长队伍遍地,伊朗民众扎堆出逃,天价机票人满为患

迪拜机场挤爆超长队伍遍地,伊朗民众扎堆出逃,天价机票人满为患

眼光很亮
2026-03-01 18:50:56
临终将“私生子”交给何超琼,赌王下的这盘大棋,到5年后才看懂

临终将“私生子”交给何超琼,赌王下的这盘大棋,到5年后才看懂

淡淡稻花香s
2026-03-01 20:17:38
中国台北为何被中国逆转?赛后台北主帅直接说出原因 直接戳中要点

中国台北为何被中国逆转?赛后台北主帅直接说出原因 直接戳中要点

顺静自然
2026-03-02 01:05:17
成龙代言又添“受害者”:老牌空调巨头宣布破产

成龙代言又添“受害者”:老牌空调巨头宣布破产

帅真商业
2026-02-28 19:08:58
伊朗打击美国中东军事基地,美第五舰队服务中心遭导弹袭击,科威特、阿联酋、卡塔尔等多国发生爆炸,胡塞武装导弹射向以色列……

伊朗打击美国中东军事基地,美第五舰队服务中心遭导弹袭击,科威特、阿联酋、卡塔尔等多国发生爆炸,胡塞武装导弹射向以色列……

每日经济新闻
2026-02-28 18:02:13
何赛飞62岁嫁教师子,婚后十年不育如今苦尽甘来

何赛飞62岁嫁教师子,婚后十年不育如今苦尽甘来

圆梦的小老头
2026-02-27 22:41:14
中东国际机场滞留者:惊魂未定,机场像“难民所”,最大愿望是尽快改签、回国

中东国际机场滞留者:惊魂未定,机场像“难民所”,最大愿望是尽快改签、回国

界面新闻
2026-03-01 23:50:40
2026-03-02 11:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12384文章数 142573关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

小米发布超跑! 游戏中对标布加迪法拉利

态度原创

房产
亲子
时尚
教育
数码

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

亲子要闻

命运这个东西,是真的存在的

从每天只睡4小时到8小时:一个失眠者的自救指南

教育要闻

2027–28申请季:当背景趋同、高分扎堆,你还能靠什么赢得offer?

数码要闻

内存成本前所未有:入门级PC将完全消失!不涨价根本不行

无障碍浏览 进入关怀版