网易首页 > 网易号 > 正文 申请入驻

AdEMAMix: 一种创新的神经网络优化器

0
分享至

这是9月发布的一篇论文,Pagliardini等人在其论文中提出了一种新的优化算法——AdEMAMix。这种算法旨在解决当前广泛使用的Adam及其变体(如AdamW)在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均(EMA),设计出了这种新的优化器,以更有效地利用历史梯度信息。

研究动机

作者们指出,传统的动量优化器通常使用单一EMA来累积过去的梯度,这种方法面临一个两难困境:

  1. 较小的衰减率(β)会导致优化器对近期梯度给予较高权重,但快速遗忘旧梯度。
  2. 较大的衰减率可以保留更多旧梯度信息,但会减慢对近期梯度的响应。

研究者们发现,即使在数万步训练之后,梯度信息仍然可能保持有用。这一发现促使他们设计了AdEMAMix,以同时利用近期和远期的梯度信息。

AdEMAMix算法

核心思想

AdEMAMix的核心在于使用两个EMA项:

  1. 快速EMA(低β值): m₁ = β₁m₁ + (1-β₁)g
  2. 慢速EMA(高β值): m₂ = β₃m₂ + (1-β₃)g

其中g为当前梯度,β₁和β₃分别为快速和慢速EMA的衰减率。

参数更新规则

作者们给出了AdEMAMix的参数更新规则:

θ = θ - η((m̂₁ + αm₂) / (√v̂ + ε) + λθ)

其中θ为模型参数,η为学习率,α为权衡两个EMA项的系数,v̂为Adam中的二阶矩估计,λ为权重衰减系数。

稳定性改进

为了提高训练稳定性,研究者们引入了α和β₃的调度器。这些调度器在训练初期逐渐增加α和β₃的值,避免了由于过大的动量值导致的早期训练不稳定。

AdEMAMix的β₃调度器。与线性调度相比,该调度器在β值较小时增长较快,在β值较大时增长较慢,更好地适应了不同β值对优化过程的影响。

实验设置

研究者们在两个主要任务上评估了AdEMAMix的性能:

语言建模任务

  • 模型:Transformer架构,参数规模从110M到1.3B
  • 数据集:RedPajama v2
  • 评估指标:验证集perplexity、训练速度、模型遗忘程度

视觉任务

  • 模型:Vision Transformer (ViT),24M和86M参数
  • 数据集:ImageNet-1k和ImageNet-21k
  • 评估指标:测试集损失、Top-1准确率

主要实验结果

语言建模性能

1.3B参数语言模型在不同训练token数下的性能比较。图中显示AdEMAMix仅使用101B tokens就达到了AdamW使用197B tokens的性能,节省了近50%的训练数据。

研究结果表明,AdEMAMix在各种模型规模下均显著优于AdamW:

  1. 对于110M参数模型,AdEMAMix训练256k步的性能相当于AdamW训练500k步。
  2. 对于1.3B参数模型,AdEMAMix使用770k步(约101B tokens)即可达到AdamW使用1.5M步(约197B tokens)的性能。

这些结果充分说明了AdEMAMix在优化效率上的显著优势。

模型遗忘分析

AdEMAMix和AdamW在训练过程中对特定batch的遗忘程度比较。AdEMAMix表现出更慢的遗忘速度,有助于提高学习稳定性。

作者们通过跟踪某个batch在训练过程中的loss变化来衡量遗忘程度。结果表明:

  1. AdEMAMix模型遗忘训练数据的速度更慢。
  2. 使用AdEMAMix时,早期训练的batch对最终模型的影响更大。

研究者们认为,这一特性有助于提高学习的稳定性和泛化能力。

视觉任务性能

在视觉任务中,AdEMAMix同样表现出色:

  1. 在ImageNet-21k上,AdEMAMix consistently优于AdamW,尤其是在数据量较大时。
  2. 在ImageNet-1k上,当模型容量与数据量比例适中时,AdEMAMix仍能获得性能提升。

这些结果表明,AdEMAMix的优势不仅限于语言建模任务,在计算机视觉领域同样适用。

计算开销

尽管AdEMAMix引入了额外的计算步骤,但研究者们发现其带来的计算开销可以忽略不计:

  • 训练时间仅比AdamW略长(不足2%增加)
  • 在分布式训练环境中,预期额外开销会进一步减少

考虑到AdEMAMix可以显著减少达到同等性能所需的训练步数,作者们认为这微小的额外开销是完全可以接受的。

结论与未来展望

Pagliardini等人通过AdEMAMix成功地在多个任务上展现出显著优于AdamW的性能。这种新的优化器不仅加快了模型收敛速度,还提高了学习稳定性,为大规模神经网络的高效训练提供了新的方法。

研究结果表明,梯度信息可以在数万步训练中保持有效,这一发现为进一步探索非EMA类型的梯度累积方法开辟了新方向。作者们建议未来的研究可能会探索:

  1. 在更多任务和模型架构上验证AdEMAMix的有效性
  2. 研究AdEMAMix对模型泛化能力的影响
  3. 探索将AdEMAMix与其他优化技术(如学习率调度、梯度裁剪等)结合的方法

总的来说,AdEMAMix为深度学习优化领域带来了新的思路,有望在未来的研究和应用中发挥重要作用。研究者们期待看到这种新优化器在更广泛的场景中的应用和进一步的改进。

论文地址:

https://avoid.overfit.cn/post/aec60154f99a42ab81274c7f7afe15f3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

富贵说
2026-01-18 20:36:47
“陈真”饰演者梁小龙去世,前一天还与好友吃火锅,曝最后露面照

“陈真”饰演者梁小龙去世,前一天还与好友吃火锅,曝最后露面照

180视角
2026-01-18 17:12:09
大米江湖的暗战:那些超市里的“陷阱米”,正在偷走你的钱和健康

大米江湖的暗战:那些超市里的“陷阱米”,正在偷走你的钱和健康

富贵说
2026-01-18 20:36:10
伊朗总统:任何对伊朗最高领袖的攻击都将引发全面战争;此前特朗普放话“是时候为伊朗寻找新领导人了”

伊朗总统:任何对伊朗最高领袖的攻击都将引发全面战争;此前特朗普放话“是时候为伊朗寻找新领导人了”

扬子晚报
2026-01-19 07:27:33
好消息要来了!中小学终于迎来新改革,学生表示:幸福回来了!

好消息要来了!中小学终于迎来新改革,学生表示:幸福回来了!

老特有话说
2026-01-18 15:46:30
杜兰特18分6板8助攻火箭击败鹈鹕2连胜,史密斯32分申京21分8篮板

杜兰特18分6板8助攻火箭击败鹈鹕2连胜,史密斯32分申京21分8篮板

湖人崛起
2026-01-19 10:15:42
美博主想不明白:为什么中国人日常做的这7件事,在美国却不能做

美博主想不明白:为什么中国人日常做的这7件事,在美国却不能做

科普100克克
2026-01-16 14:15:10
杨瀚森高开低走!首节攻守存在感拉满,次节灾难性,篮板保护太差

杨瀚森高开低走!首节攻守存在感拉满,次节灾难性,篮板保护太差

篮球资讯达人
2026-01-19 11:13:26
家属称男子三年前右脑出血被开左脑,医生发现出错又开右脑 希望认定责任、赔偿并追责

家属称男子三年前右脑出血被开左脑,医生发现出错又开右脑 希望认定责任、赔偿并追责

红星新闻
2026-01-19 11:47:22
程序员上班睡觉、吃外卖被监控拍下,两天收到4份警告被开除!该公司在办公区域装监控,专门派人盯管,法院:公司赔偿11.3万余元

程序员上班睡觉、吃外卖被监控拍下,两天收到4份警告被开除!该公司在办公区域装监控,专门派人盯管,法院:公司赔偿11.3万余元

扬子晚报
2026-01-19 07:22:35
包钢稀土钢板材厂爆炸后有附近居民称一罐装物体落在家附近:距离厂区大约两公里

包钢稀土钢板材厂爆炸后有附近居民称一罐装物体落在家附近:距离厂区大约两公里

潇湘晨报
2026-01-19 10:53:12
68死伤5失联!包钢爆炸内部画面流出,原因曝光,大量隐情披露

68死伤5失联!包钢爆炸内部画面流出,原因曝光,大量隐情披露

博士观察
2026-01-18 20:59:39
皇马3500万红星崩溃 故意勺子点球踢丢绝杀 非洲杯失冠后含泪领奖

皇马3500万红星崩溃 故意勺子点球踢丢绝杀 非洲杯失冠后含泪领奖

我爱英超
2026-01-19 07:08:25
央媒就扶起老人反被讹发声!如果要自证清白,公安机关要主动介入

央媒就扶起老人反被讹发声!如果要自证清白,公安机关要主动介入

小熊侃史
2026-01-19 07:35:08
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
惹众怒!女子在上海外滩占道直播跳舞,巡逻无人机喊话15分钟仍无动于衷!网友:不止这一处

惹众怒!女子在上海外滩占道直播跳舞,巡逻无人机喊话15分钟仍无动于衷!网友:不止这一处

新民晚报
2026-01-19 10:46:42
牢A讲述美国华裔之:活着的“清朝人”,一个颠覆认知的逆天群体

牢A讲述美国华裔之:活着的“清朝人”,一个颠覆认知的逆天群体

元爸体育
2026-01-19 01:28:27
插播一条日本新闻,弥补了国内未见报道的遗憾

插播一条日本新闻,弥补了国内未见报道的遗憾

生活时尚导刊
2026-01-18 01:02:26
西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

西安一男子找工作时被女HR频繁骚扰:“一直打电话叫宝宝,不加微信就诅咒”,平台回应:会对其审核

极目新闻
2026-01-18 21:02:37
南非宣布进入“国家灾难状态”

南非宣布进入“国家灾难状态”

财联社
2026-01-19 01:50:47
2026-01-19 12:23:01
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1894文章数 1443关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

《狮子王》导演在家中去世,终年76岁

财经要闻

GDP增长5%!统计局正在解读

汽车要闻

2026款福特烈马上市 售价29.98-39.98万元

态度原创

家居
时尚
教育
健康
手机

家居要闻

隽永之章 清雅无尘

50+女人的穿搭封神技巧来了,抓准这4点,轻松穿出简约高级感

教育要闻

加州百年艺术名校将于2027年关闭,范德堡大学接管旧金山校区!

血常规3项异常,是身体警报!

手机要闻

9月新机发布 小米18系列首发骁龙8 Elite Gen6

无障碍浏览 进入关怀版