网易首页 > 网易号 > 正文 申请入驻

OpenAI花3个月调参,AdamW把学习率藏进0.001的陷阱

0
分享至

2023年GPT-4技术报告里有个细节被大多数人滑过去了:训练后期,学习率调度器(learning rate scheduler)的微调占了整整三个月。不是改架构,不是加数据,是调那个看起来最"基础"的优化参数。

这三个月烧掉的算力成本,足够训练一个GPT-3级别的模型。

优化算法(optimization algorithm)在深度学习里的地位,有点像汽车引擎——用户只关心百公里加速,工程师却在为点火时序头疼。梯度下降(gradient descent)的直觉很简单:往损失函数(loss function)下坡的方向走一步。但现代神经网络(neural network)的参数空间动辄千亿维,这个"坡"根本不是光滑的曲面,而是布满悬崖、高原和无数局部最优的崎岖地形。

从经验风险到实际困境

统计学习理论的起点很清晰:最小化期望风险(expected risk)。但真实数据分布未知,只能退而求其次,最小化经验风险(empirical risk)——也就是训练集上的平均损失。这个替代方案有个隐形成本:优化器(optimizer)得在噪声梯度中导航,同时提防过拟合。

随机梯度下降(SGD, stochastic gradient descent)的更新公式写成代码就一行,但学习率(learning rate)选多大?0.1能让ResNet在ImageNet上收敛,放到Transformer上可能直接炸掉。动量(momentum)加多少?0.9是惯例,但Google 2018年的论文发现,0.99在某些任务上能快三倍,在另一些任务上却让模型陷入震荡。

自适应算法的暗面

Adam和它的变体AdamW解决了手工调参的部分痛苦。它们用梯度的一阶矩和二阶矩估计,给每个参数定制步长。听起来很美好,直到你发现:自适应方法往往泛化(generalization)比SGD差。

2017年Wilson等人的实验很扎心:同样的网络架构,SGD+动量在测试集上的准确率,系统性地比Adam高1-2个百分点。差距不大,但在ImageNet这种基准上,1个百分点能决定论文发不发得了顶会。AdamW通过解耦权重衰减(weight decay)缓解了部分问题,但"自适应优化器更容易找到尖锐极小值(sharp minima)"的质疑从未消失。

大模型时代,这个问题被算力掩盖了。当训练成本以千万美元计时,没人愿意为了那1%的准确率让实验多跑两周。AdamW的默认参数(β1=0.9, β2=0.999, ε=1e-8)成了行业潜规则,尽管OpenAI内部文档承认,这些数值"对GPT-4的最终性能并非最优"。

收敛的数学与现实

凸优化(convex optimization)里有漂亮的收敛率证明:梯度下降在强凸函数上达到线性收敛,加速方法能到O(1/k²)。但神经网络损失函数是非凸的,这些定理直接失效。研究者退而求其次,分析临界点(critical points)附近的性质,或者假设损失 landscape 满足某种"拟凸性"——这些假设在ResNet上近似成立,到了Transformer架构又变得可疑。

更现实的挑战是分布式训练。数据并行(data parallelism)把批次(batch size)做到数万,梯度估计的方差确实下降了,但学习率的缩放规则(scaling rule)至今没有统一答案。Linear scaling?Square root scaling?还是Google 2019年提出的 gradual warmup 加 LARS?每个选择背后都是数百万美元的试错成本。

2024年的一篇论文追踪了Llama 3的训练日志,发现损失曲线(loss curve)在最后10%的迭代中出现了三次"悬崖式"下降——不是平滑收敛,是突然的相位跃迁。优化器在这些时刻的行为,至今缺乏理论解释。

当你下次看到某个模型"仅"用标准AdamW就刷榜时,不妨想想那三个月的调参期,以及被默认参数埋葬的潜在性能。收敛的数学保证和工程现实之间,隔着一整片无人测绘的荒野。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一双童鞋1499元,中产父母排队疯抢,网友:智商税

一双童鞋1499元,中产父母排队疯抢,网友:智商税

毒sir财经
2026-04-14 23:58:59
不出3年,贬值最快的不是现金,是这4样东西,早知道早省钱!

不出3年,贬值最快的不是现金,是这4样东西,早知道早省钱!

老特有话说
2026-04-15 15:15:15
卸妆后,王一博邋遢油腻,张柏芝像土拨鼠,刘晓庆神似秃头阿哥

卸妆后,王一博邋遢油腻,张柏芝像土拨鼠,刘晓庆神似秃头阿哥

手工制作阿歼
2026-04-15 17:39:28
受贿、行贿、洗钱,樊新中一审获刑17年

受贿、行贿、洗钱,樊新中一审获刑17年

新京报
2026-04-15 18:16:02
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

草莓解说体育
2026-04-12 17:05:01
一季报业绩爆发!有色、半导体、光通信,谁是下一个“业绩王”?

一季报业绩爆发!有色、半导体、光通信,谁是下一个“业绩王”?

小白鸽财经
2026-04-13 20:30:03
沉默2天后,中方通告全球,藏南是中国领土,并送给印度一个忠告

沉默2天后,中方通告全球,藏南是中国领土,并送给印度一个忠告

军机Talk
2026-04-15 11:29:39
国台办:统一后台湾财政税收全用于民生,无需在防务上花巨资

国台办:统一后台湾财政税收全用于民生,无需在防务上花巨资

南方都市报
2026-04-15 16:48:15
知名博主B太称花18万帮“大山女孩”被骗:父亲体弱多病、哥哥弟弟去世是剧本…律师:可主张撤销该赠与合同

知名博主B太称花18万帮“大山女孩”被骗:父亲体弱多病、哥哥弟弟去世是剧本…律师:可主张撤销该赠与合同

上观新闻
2026-04-15 06:54:03
3天涨粉200万,千人奔赴杀猪宴,流量褪去后,网红呆呆竟成了这样

3天涨粉200万,千人奔赴杀猪宴,流量褪去后,网红呆呆竟成了这样

秋叶大叔
2026-04-14 07:41:40
为何金庸武侠小说依旧风靡,古龙却已无人问津?其实原因很简单

为何金庸武侠小说依旧风靡,古龙却已无人问津?其实原因很简单

长风文史
2026-04-13 20:41:32
A股:刚刚,中央两部门发布,释放一信号,周四将迎来倒车行情

A股:刚刚,中央两部门发布,释放一信号,周四将迎来倒车行情

另子维爱读史
2026-04-15 20:27:37
大快人心!许家印结局已定,3个女人被他连累,才懂白珊珊有多冤

大快人心!许家印结局已定,3个女人被他连累,才懂白珊珊有多冤

一盅情怀
2026-04-15 15:54:29
安赛龙宣布退役:腰伤反复,经手术和无数次封闭治疗,已无法征战;曾两获奥运冠军,一口流利中文引热议

安赛龙宣布退役:腰伤反复,经手术和无数次封闭治疗,已无法征战;曾两获奥运冠军,一口流利中文引热议

极目新闻
2026-04-15 14:13:50
理想的至暗时刻

理想的至暗时刻

新浪财经
2026-04-15 03:08:52
一哥成软柿子?丁俊晖成唯一未进决赛种子,难进十六强再战赵心童

一哥成软柿子?丁俊晖成唯一未进决赛种子,难进十六强再战赵心童

夜深聊球
2026-04-15 22:31:16
农村集市上20元一根现割“牛皮带”,究竟是真材实料还是弄虚作假

农村集市上20元一根现割“牛皮带”,究竟是真材实料还是弄虚作假

复转这些年
2026-04-15 11:04:03
86年我家建新房,一过路老人讨冷饭吃,离开时开口:这房不能盖了

86年我家建新房,一过路老人讨冷饭吃,离开时开口:这房不能盖了

小月故事
2026-02-20 09:00:03
伊朗的脖子被掐住了。。。

伊朗的脖子被掐住了。。。

西楼饮月
2026-04-15 23:38:59
2026-04-16 01:15:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1407文章数 16关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

时尚
健康
本地
家居
公开课

赫本爱穿的伞裙,好优雅!

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

家居要闻

简而不减 暖居之道

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版