网易首页 > 网易号 > 正文 申请入驻

微软MAI-Base-1 的 MFU ,为什么看上去仅有DeepSeek-V3的一半 | 笔记

0
分享至

微软 MAI-Base-1 技术报告,在万亿参数模型级别,达到了非常罕见的透明度,披露了大量的技术细节,得到了研究人员的称赞。其中,有一个数据很有意思,它的最终 MFU 大约只有 20%。

MFU即模型算力利用率(Model FLOP Utilization),衡量的是训练过程中有多少硬件理论峰值算力真正转化成了模型主导计算。它不是普通的 GPU 利用率,也不是模型能力指标,而是模型架构、并行策略、通信、内核、内存管理和硬件拓扑共同作用后的系统效率指标。


(说明:在 GB200s 上训练的不同预训练配置中,模型浮点运算利用率(MFU) 和 估算的有效吞吐量(EG) 的演变过程。从 v2 开始,每一次模型变更都提升了 EG,但在部署优化之前,若沿用之前的配置运行,最初会导致 MFU 下降。总体而言,我们添加了 20 多项优化措施,使得每次预训练运行的 MFU 都超过了 20%。请注意,这里我们仅列出了对基础设施有显著影响的模型变更;它们并不是促成 EG 提升的唯一模型版本变更。来源:微软技术报告)

更难得的是,这份报告详细社披露了不同版本系统效率和模型效率的演进细节,说明了前沿模型训练的真实难度。

如果把它和一些公开的大模型训练效率相比,20%这个数字似乎不高。Google PaLM 540B 曾报告过 46% 左右的 MFU,英伟达的Megatron-LM 在高度优化的 H100 集群上也曾给出接近 47% 的 MFU。DeepSeek-V3 后续披露的 MFU 更高,causal 口径约 39%,non-causal 口径约 44%。相比之下,MAI-Base-1 在 GB200 这样先进硬件上只有 20% 到 22%,看起来似乎没有充分发挥硬件能力。

MAI-Base-1 的演进很能说明这一点。微软报告披露,它经历了 v1 到 v5 五个主要版本,其中 v2 开始在 GB200 NVL72 集群上训练。v2 使用 4096 颗 GPU,23B 激活参数,采用更深、更窄的设计,并选择 EP64、TP1,使专家 all-to-all 通信留在 NVL64 域内。这个版本初始 MFU 为 18%。随后微软通过 GPU直接远程内存访问(Direct RDMA) 改善通信与计算重叠,开发自定义块稀疏注意力后端,采用 ZeRO-2 减少梯度内存压力,并用 Triton 重写低效的专家编码内核,最终把 MFU 从 18% 提高到 22%。

v3 的整体架构变化不大,但从容量受限路由切换到无丢弃 (dropless) MoE 路由。这样可以消除专家容量填充,减少通信量和专家 GEMM 计算量,理论效率更好。但 dropless routing 又带来动态 token 计数、动态 张量形状和同步开销。微软通过将专家数量通信与其他运行时操作重叠,把同步点移到专用执行流,才让 v3 在获得路由效率收益的同时,维持了与 v2 相近的 MFU。

真正的挑战出现在 v4。这个版本把专家数从 192 增加到 512,路由从 top-4 扩展到 top-8,并引入 LatentMoE,同时训练规模从 4096 颗 GPU 扩展到 8192 颗 GPU。架构上,这意味着模型容量和稀疏效率提高了;系统上,却意味着专家 GEMM 变小、CPU 启动开销更显著、内核效率更敏感、all-to-all 通信更复杂。结果是,初始 MFU 从 22% 掉到约 16%。后来微软使用 FlashAttention4 确定性内核,并减少 CPU 开销、提高运行时批处理效率,才把 MFU 拉回约 20%。

v5 又进一步把激活参数从 23B 提高到 35B,总参数从 600B 提高到 1T。更大的模型带来更高的参数和激活内存压力。初始部署使用 ZeRO-3,但额外的参数 all-gather 让反向传播变成通信受限。微软随后通过激活值卸载降低 GPU 内存压力,重新回到 ZeRO-2,去掉 ZeRO-3 的参数全收集,恢复通信与计算的重叠,最终使 v5 维持约 20% 的 MFU。


(来源:微软技术报告)

所以,MAI-Base-1 的 20% 并不只是低利用率的结果,而是一个前沿 MoE 架构在不断变复杂后,系统工程努力把效率追回来的结果。它反映的是:理论效率提高,经常会带来系统效率下降。MoE 的优势是总参数巨大、每个 token 只激活部分专家,可以用较少激活 FLOPs 获得更强能力;但代价是路由、分发、合并、全到全(all-to-all) 通信、小 GEMM、动态同步和负载均衡都会增加。稠密模型虽然计算量大,但大矩阵乘多、形状规整,更容易打满硬件。MoE 理论上更省算力,系统上却更难跑满。

行业 MFU 的差异,主要受几个因素影响。第一是模型形态:稠密模型通常更容易获得高 MFU,复杂 MoE 更难。第二是 GPU 数量和网络拓扑:规模越大,通信和同步越复杂,MFU 越容易下降。第三是并行策略:张量并行、数据并行、专家并行、流水线并行、上下文并行如何组合,决定通信是在 NVLink 域内完成,还是跨机架、跨 IB 网络。第四是精度格式:FP8、BF16、FP16 会改变吞吐、内存和通信压力,但不同报告的分母口径不同,不能机械比较。第五是软件栈成熟度:FlashAttention、Triton内核、通信重叠、零冗余优化器(ZeRO)、激活检查点/卸载(activation checkpointing/offloading )都会显著改变 MFU。

这也解释了为什么 DeepSeek-V3 的 MFU 看起来明显高于 MAI-Base-1。DeepSeek-V3 同样是大规模 MoE,但其 causal MFU 约 39%,non-causal MFU 约 44%,是非常突出的系统效率表现。它说明 DeepSeek 在模型架构、FP8 混合精度、MoE 路由、并行策略、通信拓扑和硬件适配上做了极致优化。尤其在无法获得最先进 GPU 的约束下,中国团队必须把 H800 这样的受限硬件榨到极致:减少通信浪费,压低内存开销,提高 kernel 效率,让模型结构尽量贴合硬件约束。这种约束驱动的系统优化,确实是 DeepSeek-V3 高 MFU 背后的重要原因之一。

DeepSeek-V3 更彻底的 H800 软硬件协同,很可能帮助它取得更高 MFU;而 MAI-Base-1 的 GB200 优化更多是平台适配和训练栈优化,不是同等意义上的硬件约束驱动式重构。

但也不能简单说 DeepSeek 的系统能力就是微软的两倍。MFU 口径、硬件平台、模型阶段和统计方式都不同。DeepSeek-V3 的数字基于 BF16 峰值,并区分 causal 与 non-causal 口径;MAI-Base-1 的数字则来自一个在 GB200 上连续演进的前沿实验模型,微软披露的是每次架构升级如何损失系统效率、又如何追回效率的过程。

前沿模型竞争不只是模型能力之争,也是系统效率之争。真正困难的不是让硬件忙起来,而是让模型架构、数据精度、通信拓扑、内核优化和训练策略一起工作,把有限算力尽可能多地转化为有效模型能力。

参考:

https://microsoft.ai/wp-content/uploads/2026/06/main_20260602_2.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
昔日战国七雄的都城,现在都变成了什么样子?楚国都城沦落成镇

昔日战国七雄的都城,现在都变成了什么样子?楚国都城沦落成镇

鹤羽说个事
2026-06-03 22:57:32
李小萌变化好大,真是女大十八变

李小萌变化好大,真是女大十八变

情感大头说说
2026-06-04 13:46:09
1000个贪官当宝贝!"逃犯天堂",如今变成"烫手山芋"想要还给中国

1000个贪官当宝贝!"逃犯天堂",如今变成"烫手山芋"想要还给中国

南宗历史
2026-06-04 10:31:17
1-4不敌欧洲劲旅,日本遭遇土伦杯首败,连续2轮不胜

1-4不敌欧洲劲旅,日本遭遇土伦杯首败,连续2轮不胜

侧身凌空斩
2026-06-03 23:07:44
杀派出所所长,灭银行行长满门,凶手竟成城管局长,凯里两案纪实

杀派出所所长,灭银行行长满门,凶手竟成城管局长,凯里两案纪实

易玄
2026-06-03 08:50:51
毛岸英叫了一声“朱德同志”,毛主席当场翻脸:同志是你能叫的

毛岸英叫了一声“朱德同志”,毛主席当场翻脸:同志是你能叫的

历史人文2
2026-06-03 21:00:03
A股三年三上《新闻联播》,今年1分49秒有何特别?

A股三年三上《新闻联播》,今年1分49秒有何特别?

新京报
2026-06-04 16:16:09
全球货币支付排名:美元跌至50.61%,欧元涨到21.6%,人民币呢

全球货币支付排名:美元跌至50.61%,欧元涨到21.6%,人民币呢

混沌录
2026-06-03 23:48:06
河南女孩高考故意交白卷,怒写8000字抨击教育制度,后来怎样了?

河南女孩高考故意交白卷,怒写8000字抨击教育制度,后来怎样了?

莫地方
2026-06-04 01:55:05
无法接受?新加坡联合早报:中国不是你的祖国,你们有自己的祖国

无法接受?新加坡联合早报:中国不是你的祖国,你们有自己的祖国

陈意小可爱
2026-06-04 14:44:28
世界倒退最快的国家:从全球第六到一贫如洗,只用了短短五年时间

世界倒退最快的国家:从全球第六到一贫如洗,只用了短短五年时间

明天见灌装冰块
2026-04-15 07:21:32
对日本的收割,马上就要开始了

对日本的收割,马上就要开始了

次元君情感
2026-06-04 06:21:00
学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现4症状

学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现4症状

叙说医疗健康
2026-06-01 10:00:20
又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

垚垚分享健康
2026-06-04 14:11:06
白开水48元一杯被吐槽“最贵白开水” 餐厅回应:棋牌室按人数收取茶水费 已提前告知客人

白开水48元一杯被吐槽“最贵白开水” 餐厅回应:棋牌室按人数收取茶水费 已提前告知客人

闪电新闻
2026-06-03 09:52:13
CBA消息!杜锋和广东男篮续约,杨鸣拒绝执教北控 胡金秋膝伤加重

CBA消息!杜锋和广东男篮续约,杨鸣拒绝执教北控 胡金秋膝伤加重

中国篮坛快讯
2026-06-03 13:50:10
荒唐!中国电路板让美国头疼:若动手脚能让导弹飞行中打偏

荒唐!中国电路板让美国头疼:若动手脚能让导弹飞行中打偏

普陀动物世界
2026-06-04 15:28:40
深度科普:一夫一妻可能让男性丁丁骨退化?甚至智力下降?

深度科普:一夫一妻可能让男性丁丁骨退化?甚至智力下降?

宇宙时空
2026-06-03 16:00:10
刘红梅告别仪式昨天举行,章子怡、靳东、孙红雷等送花圈挽联

刘红梅告别仪式昨天举行,章子怡、靳东、孙红雷等送花圈挽联

大眼妹妹
2026-06-04 02:44:30
两件大事振奋人心!中国狠狠出口恶气,一改往日和善直接出击

两件大事振奋人心!中国狠狠出口恶气,一改往日和善直接出击

策前论
2026-06-04 16:07:03
2026-06-04 17:36:49
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
394文章数 65关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

业主不满物业收每天4元停车费 争吵被骂"住不起就滚"

头条要闻

业主不满物业收每天4元停车费 争吵被骂"住不起就滚"

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

教育
旅游
家居
数码
时尚

教育要闻

为什么说九年义务教育 放在世界范围里就是降维打击?

旅游要闻

再添婚恋文旅新地标!昆山首个园林相亲角启用

家居要闻

220平对味儿家 空间情绪宅

数码要闻

谁说高性能和低价格不能兼顾?锐龙7 9700X越级“默秒全”

粗腿宽肩,正在成为中女审美新风向

无障碍浏览 进入关怀版