网易首页 > 网易号 > 正文 申请入驻

月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步!

团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用

在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。

同时团队还基于DeepSeek架构训练出了一个16B的MoE模型,与改进后的优化算法一同开源。

Muon技术博客发布当时主要适用于较小的模型和数据集,作者留下了三个悬而未决的问题:

  • Muon能否用于更大规模的训练?
  • Muon能否在更大规模的GPU集群上使用?
  • Muon是否同样适用于微调和强化学习?
    现在月暗团队用实验给出了回答——全部都是Yes。

消息一出,当时Muon的作者也都很激动,主要作者Keller Jordan表示这是Muon规模化的首个成功报告,为团队送上了祝贺。

另一名贡献者,当时负责Muon规模化实验的Hyperbolic Labs联创兼CTOYuchen Jin也表示,月暗团队的这项成果,是Muon的一次胜利。

将AdamW特点引入Muon

在介绍月暗团队的工作之前,先来了解一下Muon是个什么样的技术。

这是一种神经网络隐藏层的2D参数优化器,主要作者是OpenAI深度学习团队的Keller Jordan。

这项成果发表于去年的12月8日,而Keller也是去年12月加入的OpenAI。

Muon的核心思想是通过正交化梯度更新矩阵,避免参数更新陷入局部极小,使模型能够学习到更加多样化的特征表示。

在94%的精度下,Muon把CIFAR-10在A100上的训练时间从3.3秒缩短至2.6秒。

不过当时Muon团队只证明了其在小型模型和数据集上的可行性,对于较大的模型能否适用则是个未知数。

现在经过月暗团队的改进之后,Muon被证明对于更大的模型和数据集同样适用

针对模型本身,团队吸收了AdamW中的一些特点,移植到了Muon当中,具体包括两个方面。

一是引入了权重衰减机制,在权重更新公式中添加了一个带有衰减系数的项。

这样做的原因是作者发现直接将Muon应用到大规模训练时,模型权重和层输出的幅度会持续增长,最终超出bf16的高精度表示范围,损害模型性能。

在训练一个8亿参数模型至100B tokens(约5倍计算预算最优)的过程中,团队对比了AdamW、无权重衰减的Muon和带权重衰减的Muon。

结果显示,带权重衰减的Muon在过拟合阶段取得了最佳效果,验证了权重衰减的必要性。

第二项改进,是调整了Muon的参数更新尺度,使不同形状矩阵参数的更新幅度保持一致,并与AdamW的更新幅度匹配。

Muon的一个特点是,对于形状为[A,B]的矩阵参数,其理论更新幅度为sqrt(1/max(A,B))。

这导致不同形状矩阵参数的更新幅度差异很大,比如对于MLP这种宽矩阵,更新会过小,而将每个head看作独立矩阵时,更新又会过大。

此外,这个幅度也与AdamW不一致,给超参数的设置带来困难。

为了让不同矩阵参数的更新幅度匹配,并与AdamW保持一致,作者尝试了几种改进方案,最终选择直接基于形状调整每个参数的学习率

其中0.2是通过实验确定的一个常数,用于将Muon的更新尺度与AdamW对齐。

除了对Muon本身的改进,要想将Muon用于更大规模的训练,还需要将其扩展到分布式训练环境中

由于Muon需要完整的梯度矩阵来计算正交化的更新量,而现有的分布式训练框架(如ZeRO-1、Megatron-LM等)都假设优化器状态可以独立地按元素切分到不同设备上,所以它们无法直接支持Muon。

为了解决这个问题,论文作者提出了分布式Muon的并行化策略。

它在ZeRO-1的基础上引入了两个额外的操作:

  • 一是在每个数据并行组内做梯度聚合通信,将分散的梯度切片合并成完整的矩阵;
  • 二是基于聚合后的梯度矩阵并行计算正交化的更新量,然后只保留与本地参数对应的那一部分。

这种实现方式在最小化内存占用和通信开销的同时,最大限度地保留了原始Muon算法的数学性质。

证明Muon扩展可行性

基于上述Muon改进,作者取得了以下成果,作者在Llama架构的一系列稠密模型上,进行了Muon和AdamW的模型缩放对比实验。

结果表明,在计算预算最优的情况下,Muon的样本效率是AdamW的1.92倍,即训练FLOPS只需AdamW的52%,就能达到相当的性能。

这一发现证实了Muon在大规模训练中的效率优势

在此基础之上,作者以DeepSeek-V3-Small架构作为基础,用改进的Muon训练了Moonlight模型。

Moonlight是一个MoE模型,具有15.29B的总参数和2.24B激活参数,训练token量为5.7T。

与相同规模和数据量的模型相比,Moonlight在英语理解与推理(MMLU、TriviaQA、BBH)、代码生成(HumanEval、MBPP)、数学推理(GSM8K、MATH、CMATH)、中文理解(C-Eval、CMMLU)等各类任务上都取得了明显更好的性能。

即使与使用更大数据集训练的稠密模型相比,Moonlight也展现了极强的竞争力。

与多个知名语言模型的对比表明,Moonlight在性能-训练预算平面上推进了帕累托前沿(Pareto Frontier)。

(注:帕累托前沿是一个经济学和管理学中的概念,描述的是在多目标决策问题中所有可能的最优解的集合,这些解在多个目标之间取得了最佳平衡。在帕累托前沿上的每一个点,都意味着一个目标的改善必然以牺牲另一个目标为代价,因此它代表了在多个目标之间实现的最佳权衡。)

为了进一步分析Muon更新矩阵参数的内在机制,作者对比了Muon和AdamW训练得到的模型在不同训练阶段的参数矩阵奇异值谱。

结果发现,Muon优化的矩阵在各层各类参数上,总是比AdamW有更高的奇异值熵。这从经验上验证了Muon通过正交化来学习更多样化表示的直觉。

最后,在Moonlight模型的基础上,作者还探索了Muon在指导微调阶段的效果,结果表明,在预训练和微调阶段均使用Muon的效果是最佳的。

技术报告:
https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Code:
https://github.com/MoonshotAI/Moonlight
Moonlight模型:
https://huggingface.co/moonshotai/Moonlight-16B-A3B

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

界面新闻
2026-03-26 16:51:04
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

智东西
2026-03-26 20:49:23
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

毒舌NBA
2026-03-26 13:11:59
中国移动官宣!4月30日起全国统一执行,事关所有手机号

中国移动官宣!4月30日起全国统一执行,事关所有手机号

Thurman在昆明
2026-03-26 13:35:46
偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

TVB的四小花
2026-03-24 12:22:03
最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈
2026-03-24 20:50:19
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

财联社
2026-03-26 18:29:05
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

吴朑爱游泳
2026-03-26 23:22:01
2026-03-27 00:43:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
健康
教育
游戏
军事航空

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

转头就晕的耳石症,能开车上班吗?

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版