网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？

2025-09-06 19:13:43　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】为了降低大模型预训练成本，最近两年，出现了很多新的优化器，声称能相比较AdamW，将预训练加速1.4×到2×。但斯坦福的一项研究，指出不仅新优化器的加速低于宣称值，而且会随模型规模的增大而减弱，该研究证实了严格基准评测的必要性。

一直以来，预训练，都是大模型训练过程中最花钱的部分。

比如，在DeepSeek V3中，它的成本占比就超过95%。

谁能在这里节省算力，就等于赚了。

长期以来，AdamW都是「默认选项」。但最近两年，出现了很多新的优化器。

它们大都声称能够相比AdamW，将预训练加速1.4×到2×，但却很少能真正落地。

斯坦福大学的研究人员，认为问题主要出现在两个方法学缺陷上：

一些基线的超参数调得不当；

许多实验局限于较小规模的设置，导致这些优化器在更广泛、更真实场景下的表现仍待验证。

论文地址：https://arxiv.org/abs/2509.02046

有趣的是，这篇论文的标题「神奇优化器在哪里」（Fantastic Pretraining Optimizers and Where to Find Them），正是「捏它」自《神奇动物在哪里》（Fantastic Beasts and Where to Find Them）。

不得不说，论玩梗还是大佬们厉害！

不同缩放范式下的加速差异

研究人员对比了大模型在不同缩放范式下的加速差异。

他们在四种不同的数据-模型比（相当于Chinchilla最优范式的 1×、2×、4×、8×）下进行基准测试，并将模型规模扩展到1.2B参数。

图1左上显示，在被广泛采用的GPT-3配方中，仅调一个超参数，就能让预训练获得2×的加速，这突显了正确超参数优化的重要性。

研究表明，在一系列模型规模和数据-模型比上，进行细致的超参数调优与训练结束时的评测是必要的，主要有三个原因：

首先，超参数不能盲目迁移，在优化器间固定超参数会导致不公平的比较。

第二，新优化器的加速低于宣称值，且随模型规模增大而减弱。相对于研究人员调优的AdamW基线，其他优化器的加速不超过1.4×。

此外，虽然Muon、Soap等新优化器在小模型（0.1B）上显示出1.3×加速，但在8×Chinchilla比例下的1.2B参数模型上，加速会降到约1.1×。

第三，早期的损失曲线可能产生显著误导。

在学习率衰减期间，不同优化器的损失曲线可能多次交叉，因此用中间检查点来评判优化器，得到的排名可能与在目标训练预算下比较的结果不同。

优化器设计的新见解

研究人员基于基准测试，带来了三个关于优化器设计的新见解：

1. 小模型更适合基于矩阵的优化器

研究人员发现，对于小模型，基于矩阵的优化器，持续优于基于标量的优化器。

基于标量的优化器（如AdamW、Lion、Mars等），需要通过标量操作逐个更新参数。

经过适当调参后，所有基于标量的优化器的优化速度与AdamW相近，平均加速比不足1.2×。

尽管其更新规则多样，但在小于520M参数的模型上，基于矩阵的优化器相对AdamW均可带来约1.3×的加速。

2. 最优优化器的选择，关键指标是「数据-模型比」

在1×Chinchilla范式下的赢家，随着数据-模型比提升，可能不再最优。

比如，在较小的Chinchilla比例下，Muon一直是表现最好的优化器。

但当数据-模型比增至8×或更高时，Kron和Soap的表现优于Muon（图3与图4）。

在本项研究中，研究人员研究了表1所列的11种优化器。

模型参数量，涵盖了130M、300M、520M、1.2B四种规模，详细超参数见表2。

超参数的三种调参方式

按照不同阶段，研究人员对超参数采用了三种不同程度的调参方式：

阶段1：对超参数进行「细颗粒度」调参

研究人员在6种不同设置上执行该遍历，具体为1×Chinchilla下的130M、300M、500M，以及2×、4×、8×Chinchilla下的130M。

对于每个优化器以及上述六种范式，研究人员都找到了一个按坐标的局部最优解。

表3是一个针对300M参数、1×Chinchilla的AdamW示例性超参数优化过程。

阶段2：着重调整对「尺度敏感」的超参数

由于广泛调参在更大规模实验上代价过高，所以，研究人员对该过程进行了简化，着重调整对「尺度敏感」的超参数。

如表4，研究人员仅将对尺度敏感的超参数带入阶段2，从而把下一轮调参对象集中在那些跨尺度确实需要重新调参的超参数上。

通过这组实验，研究人员观察到两点现象：

1.基于矩阵的优化器始终优于基于标量的优化器，但所有优化器相对AdamW的加速比都不超过1.5×；

2.在基于矩阵的优化器内部，Muon在1–4×Chinchilla比例下表现最佳，但随着Chinchilla比例提高，会被Soap与Kron反超。

阶段3：为进一步外推而建立超参数缩放律

研究人员基于阶段2获得的优化超参数设置，拟合一个平滑的缩放律，用以预测每个随尺度敏感的超参数的最优值。

作为模型大小N，与数据预算D的函数，研究人员将每个随尺度敏感超参数h的最优值建模为：

其中A、B、α与β为学习得到的系数。

研究人员在每个优化器的12个观测三元组(N，D，h)上，用非线性最小二乘来估计这些参数，使预测与真实最优超参数值的平方误差最小。

为检验预测质量，研究人员在N=1.2B、Chinchilla=1的设置下对AdamW运行了完整的阶段1遍历，并将识别出的最优解与拟合出的超参数进行对比。

在图2上图中，研究人员绘制了两个阶段的C4/EN验证损失；在图2下图中，研究人员绘制了为部分优化器选择的运行所对应的HellaSwag表现。

在图3中，显示了跨尺度的不同优化器加速。

研究人员通过为AdamW拟合缩放律，并将不同优化器的损失映射到对应的等效数据预算来估计加速，得到了以下二点观察：

1. 最高加速被限制在1.4×；

2. 基于矩阵的优化器始终优于基于标量的优化器，且随数据预算增加呈现更高的加速（表现出超线性趋势）。

实证发现

1. 在0.1B–0.5B参数模型上的结果

在所有模型规模与算力预算下，方差减少类的Adam变体（NAdamW、Mars、Cautious）与基于矩阵的优化器都相对AdamW基线，带来了加速。

然而，没有任何方法达到了过往文献声称的2×的加速。

研究人员得出如下结论：

（1）基于矩阵的方法优于基于标量的方法。加速比随数据预算增加而上升，但随模型规模增大而下降。

（2）方差削减技术带来小而稳定的提升。

在基于标量的家族中，所有方差削减型的Adam变体（NAdamW、Mars、Cautious）都稳定地超过vanilla的AdamW——仅在最小规模实验上有轻微落后。

（3）AdamW的内存高效变体与AdamW的表现保持紧密。

两种内存高效的AdamW变体（Lion、Adam-mini），尽管辅助状态更少，其表现与AdamW紧密跟随，最多仅慢5%，有时甚至优于AdamW。

2. 在1.2B参数模型上的结果

研究人员利用拟合的超参数缩放律，将模型规模扩大到1.2B，以考察优化器的加速如何随模型规模变化。

观察到NAdamW、Muon与Soap依然相对AdamW带来加速，但这些优化器的加速减弱到约1.1×（图4，左与中），且不再带来下游改进（表 5）。

3. 高数据-模型比

在130M与520M模型的8×Chinchilla范式下，Muon已被Soap超过。

为进一步验证，研究人员将三份300M模型训练到16×Chinchilla，并确认当数据-模型比增加时，Muon不再是最优优化器（图4，右）。

研究人员推测，当数据-模型比增大时，Soap与Kron保持的二阶动量会更有效。从长期看，对参数方向异质性的自适应可能带来更大的加速。

该研究证实了严格基准评测的必要性。

各优化器的共性现象

研究人员在预训练中，通过对11种深度学习优化器进行了基准评测，发现它们相对AdamW的真实增益远小于此前报道。

由此，研究人员强调了三个关键教训：

1.许多声称的加速源于超参数调优不足，因为公平的扫参会消除大多数表面的优势；

2.基于早期或不一致的评估进行比较可能具有误导性，因为在完整训练轨迹上优化器的排名常会发生变化；

3.即使表现最好的替代方案也只提供温和的加速，且随模型规模增大而进一步减弱，在12亿参数时降至1.1×。

作者介绍

Kaiyue Wen

Kaiyue Wen是斯坦福大学的博士生。目前在马腾宇 (Tengyu Ma) 的课题组进行轮转，同时与Percy Liang老师合作。

他本科毕业于清华大学姚班，期间获得了获得了马腾宇、刘知远、Andrej Risteski、张景昭、王禹皓以及李志远等多位老师的指导。

他的研究兴趣涵盖深度学习的理论与应用，长远目标是理解深度学习背后的物理学原理，并坚信理论分析与实证研究相结合是实现这一目标的关键。

马腾宇（Tengyu Ma）

Tengyu Ma是斯坦福大学计算机科学系和统计系的助理教授。

他本科毕业于清华姚班，于普林斯顿大学获得博士学位。

他的研究兴趣涵盖机器学习、算法理论等方向，具体包括：深度学习、（深度）强化学习、预训练/基础模型、鲁棒性、非凸优化、分布式优化以及高维统计学。

Percy Liang

Percy Liang是斯坦福大学计算机科学副教授，兼任基础模型研究中心（CRFM）主任。同时也是CodaLab Worksheets的创建者，并借此坚定倡导科研工作的可复现性。

他专注于通过开源和严格的基准测试，提升基础模型（特别是大语言模型）的可及性与可理解性。

他曾围绕机器学习和自然语言处理领域进行了广泛研究，具体方向包括鲁棒性、可解释性、人机交互、学习理论、知识落地、语义学以及推理等。

此前，他于2004年在MIT获得学士学位，并于2011年在UC伯克利获得博士学位。

参考资料：

https://arxiv.org/abs/2509.02046

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

多变量神经缩放定律迈向大一统：Mila联手DeepMind提出UNSL

机器之心Pro 2026-05-28 14:33:16
0 跟贴 0
看了20万小时「人类干活实录」，机器人悟了

量子位 2026-07-19 16:27:07
1 跟贴 1

活久见，时代少年团给大模型上了一课

机器之心Pro 2026-05-09 12:48:20
1 跟贴 1

FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

机器之心Pro 2026-05-24 17:52:21
0 跟贴 0
AI华语歌，终于能听了！从零预训练十亿参数，告别「人机味」

量子位 2026-07-10 12:46:21
0 跟贴 0

穹彻智能WAIC展示具身智能“大脑”：零遥操实时选投球队，智能药房方案已落地

智东西 2026-07-19 14:59:26
0 跟贴 0

强化学习之父萨顿演讲：大模型不是超级智能，真正的AI还在后面

DeepTech深科技 2026-07-20 16:22:29
2 跟贴 2
直击WAIC｜具身智能抢进工厂，营销智能体重构工作流⋯⋯AI的“体力”与“脑力”革命走到哪一步了？

每日经济新闻 2026-07-21 05:54:00
0 跟贴 0

4小时闭门会8小时直播，我们看到大家开始跟AI算账了

虎嗅APP 2026-07-21 01:52:45
0 跟贴 0
WAIC世界模型「六小龙」同台，这个赛道杀出一家全栈玩家

机器之心Pro 2026-07-20 18:02:20
0 跟贴 0
WAIC世界模型火了！无界动力要用它重写机器人“大脑”

雷科技 2026-07-20 17:16:52
0 跟贴 0
手机、座舱、具身，中国最大端侧独角兽低调交出高分卷

智东西 2026-07-20 21:32:37
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
AI时代不需要100万粉丝，只需要1000个相信你的人！

虎嗅APP 2026-07-21 02:27:11
1 跟贴 1
杨振宁在清华大学谈如何学好英语

无妨 2026-07-20 02:58:35
0 跟贴 0
AdaGen: 让图像生成模型学会自适应策略

机器之心Pro 2026-04-13 15:47:03
0 跟贴 0
女子记录外甥收到录取通知书，顺利考上清华大学，网友：居然还是双学士学位的

都市观察 2026-07-19 11:42:06
1 跟贴 1
蒋方舟长大之后，为什么不会写文章了？清华又是怎么考进去的？

林骁明 2026-07-17 21:43:11
2 跟贴 2
杨奇函：长大以后才懂学生时代的纯粹千金难换！

隨風 2026-07-18 01:47:37
2 跟贴 2
高考数学满分清华学姐，分享学习经验，“手机和学习不能共存”

重庆热点 2026-07-20 14:00:04
13 跟贴 13
清华天才造出美国导弹，晚年想回国被拒：背叛的代价是什么？

广西辉哥 2026-07-21 01:54:27
1 跟贴 1
名校毕业却混得很差是种什么体验？

巫婆胡言不乱语 2026-07-19 16:55:40
0 跟贴 0
7月18日发布，从 “二校门”回归 “一页纸”，清华录取通知书大变样

中安在线 2026-07-18 17:52:39
0 跟贴 0
想一脚油门逃离城市，却被“附近风景路线”的搜索困在原地

一隅安稳 2026-07-21 00:53:26
0 跟贴 0
“灵魂契合”超越“硬性条件” “合得来”取代“条件好”

中国青年报 2026-07-21 04:04:16
0 跟贴 0
31岁男子8战考研上岸清华！

重庆城市TV直播 2026-07-19 19:53:42
0 跟贴 0
为啥说高考是普通人改写命运的机会听听大哥怎么说的

九清怡 2026-07-21 05:34:12
0 跟贴 0
检查问界m9底盘，竟然发现油箱是塑料的，谁知道是什么原理

欢趣匣子 2026-07-20 09:05:12
35 跟贴 35
英伟达x清华Gamma World迅速登顶抱抱脸多智能体世界模型γ-World

量子位 2026-05-30 20:18:29
0 跟贴 0
顶级的机械素质，稀疏的服务网点，参数赢了却输了战场！

宇宙科学探索 2026-07-16 15:54:06
1 跟贴 1
普通村民到年入十万，老表靠钢筋弯折神器逆袭，原理竟这么简单！

默奇爱生活 2026-07-18 11:09:02
0 跟贴 0
外星人根本找不到地球！十一重宇宙关卡直接锁死了坐标宇宙

六六冷知识 2026-07-17 09:54:12
18 跟贴 18
修车小哥改造制冷机，这下不怕热了，这操作是什么原理！

搞笑大蘑菇 2026-07-19 13:26:18
1 跟贴 1
古代深井打捞结，但凡计算出一点误差，将全部从零起步！

搞笑大工厂 2026-07-19 09:47:33
1 跟贴 1
人社部：稳妥实施个人养老金制度逐步提高缴费水平

中国能源网 2026-07-20 16:01:15
2740 跟贴 2740
两男子在广州南站，当面交接价值超500万元现金

南方都市报 2026-07-20 00:00:34
1809 跟贴 1809
万斯迎来第四胎成美国156年来首位在任上当爹副总统

红星新闻 2026-07-20 12:55:18
1964 跟贴 1964
D型固定式小型汽油发动机模型组装

制造科技 2026-07-19 15:49:08
0 跟贴 0
702高考数学全国卷理-20函数与导数综合计算

我服子佩 2026-07-19 22:46:59
1 跟贴 1

养老金历史遗留问题浮出水面，企业退休老人的公平待遇不该被忽视

养老金历史遗留问题浮出水面，企业退休老人的公平待遇不该被忽视

三农老历

2026-07-20 01:12:53

最大规模腾退！北京老王府里的大单位终于搬了

最大规模腾退！北京老王府里的大单位终于搬了

牛锅巴小钒

2026-07-21 01:35:37

三方交易：多尔特内姆哈德赴老鹰雷霆获3次轮签独行侠获里萨谢

三方交易：多尔特内姆哈德赴老鹰雷霆获3次轮签独行侠获里萨谢

醉卧浮生

2026-07-20 00:16:42

奥莱报：奥塔门迪希望尽快为河床队登场，可能放弃世界杯休假

奥莱报：奥塔门迪希望尽快为河床队登场，可能放弃世界杯休假

懂球帝

2026-07-21 01:06:05

洪欣独自挤地铁！红格衫蜡黄脸皮肤粗糙，像菜市场买菜大妈

洪欣独自挤地铁！红格衫蜡黄脸皮肤粗糙，像菜市场买菜大妈

早起的鸟儿有饭吃

2026-07-19 00:59:16

鳌拜被擒后康熙直奔其密室，撞见孝庄和6岁男孩：这是谁的孩子

鳌拜被擒后康熙直奔其密室，撞见孝庄和6岁男孩：这是谁的孩子

朝朝暮暮情感录

2026-01-15 16:42:07

男子凌晨点塔斯汀外卖封签上竟被店员拼出“SB”！

男子凌晨点塔斯汀外卖封签上竟被店员拼出“SB”！

闪电新闻

2026-07-20 15:11:26

公务员大势已定？不出意外的话，未来5年，体制内或将出现4大变化

公务员大势已定？不出意外的话，未来5年，体制内或将出现4大变化

另子维爱读史

2026-07-18 20:52:49

罗德里：我最后看到梅西在哭，对他所代表的一切意义充满钦佩

罗德里：我最后看到梅西在哭，对他所代表的一切意义充满钦佩

懂球帝

2026-07-20 21:16:03

全锦赛刚出局，私生活就被扒了个遍，王楚钦的冠军荒到底该怪谁？

全锦赛刚出局，私生活就被扒了个遍，王楚钦的冠军荒到底该怪谁？

未来展望

2026-07-20 12:39:25

中国有两个禁区，一个是三峡大坝，另一个谁敢触碰就等于宣战

中国有两个禁区，一个是三峡大坝，另一个谁敢触碰就等于宣战

麓谷隐士

2026-07-21 06:40:03

消息人士：曼联锁定第三名中场强援，布莱顿铁腰已获团队接触

消息人士：曼联锁定第三名中场强援，布莱顿铁腰已获团队接触

日常碎碎念啊

2026-07-21 01:53:03

事实证明，已经“消失”7年的周立波，早已走上一条不归路

事实证明，已经“消失”7年的周立波，早已走上一条不归路

素衣读史

2026-04-16 19:41:20

长鑫科技估值全解析：5792亿发行，2万亿是底还是顶？

长鑫科技估值全解析：5792亿发行，2万亿是底还是顶？

深水财经社

2026-07-20 17:33:04

2030世界杯展望：阿根廷黄金一代老去，谁撑起潘帕斯雄鹰的未来？

2030世界杯展望：阿根廷黄金一代老去，谁撑起潘帕斯雄鹰的未来？

星耀国际足坛

2026-07-20 23:24:54

“清华最苦男生”刷屏，一天只花10块钱，两年舍不得喝杯饮料：他用一手烂牌，打出了王炸

“清华最苦男生”刷屏，一天只花10块钱，两年舍不得喝杯饮料：他用一手烂牌，打出了王炸

品读时刻

2026-07-13 09:06:45

已交班离岗仍被刑拘：2岁男孩“肠梗阻”死亡，医方被判一级甲等事故赔146万后，首诊医生被批捕丨医眼看法

已交班离岗仍被刑拘：2岁男孩“肠梗阻”死亡，医方被判一级甲等事故赔146万后，首诊医生被批捕丨医眼看法

医脉通

2026-07-19 18:40:42

谢贤走后才懂：风流、赌博都不是最大问题，真正困住他的是这个！

谢贤走后才懂：风流、赌博都不是最大问题，真正困住他的是这个！

东方不败然多多

2026-07-21 02:00:31

CBA3消息：广东男篮大换血！第2份顶薪合同揭晓，深圳盯上张皓嘉

CBA3消息：广东男篮大换血！第2份顶薪合同揭晓，深圳盯上张皓嘉

行舟问茶

2026-07-20 16:09:08

大利好！两大央企深夜宣布：增持A股！释放什么信号？解读来了

大利好！两大央企深夜宣布：增持A股！释放什么信号？解读来了

每日经济新闻

2026-07-20 00:41:06

AI产业主平台领航智能+时代

15742文章数 66964关注度

往期回顾全部

科技要闻

网易科技"未来大奖2026上半年AI榜单"揭晓

头条要闻

美国宣布对加拿大部分产品加征50%关税

头条要闻

美国宣布对加拿大部分产品加征50%关税

体育要闻

65岁肌肉男，世界杯最年长冠军主帅

娱乐要闻

谢霆锋发文确认父亲谢贤去世享年89岁

财经要闻

AI开始挤泡沫

汽车要闻

综合续航超1600km 2027款星途ES上市置换价16.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

健康

时尚

房产

艺术

手机要闻

苹果涨价反噬销量：调查显示多数用户主动延长换机周期

“斑块”患者要小心中风？

世界杯诸神落幕，他的翘臀还在上扬

房产要闻

北师附、人大附、西侨、丘海…招生、划片最新变化来了！

艺术要闻

世界上10个最危险景点，你敢去吗？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版