网易首页 > 网易号 > 正文 申请入驻

真实训练中Adam无法收敛到最佳位置?改进版 AdaX来拯救!

0
分享至

本文介 绍了一种新的自适应步长优化器 AdaX,它简单而高效,能够 较好地弥补 Adam 在高频梯度噪声时存在的缺陷,即在真实训练中无法收敛到最佳位置的问题。

作者 | 李文杰

编辑 | 丛 末

论文地址:https://arxiv.org/pdf/2004.09740.pdf

开源地址:https://github.com/switchablenorms/adax

1

故事背景

自从Reddi et al. [1] 在2018年指出了Adam 文章中的证明错误之后,对Adaptive算法的研究就成了一个热门,之后也出现了许多优秀的算法,如AdaShift[2], NosAdam [3], AdaBound [4],以及最新的Radam [5],但是大多数算法都还难以在泛化性能上与SGD+Momentun打成平手。并且,Reddi et. al 文章中的反例也颇有一些令人费解之处,下面先简要回顾。

假设我们需要最小化函数ft(x),

x的定义域是[-1, 1],并且起始值为 x=1,且C>2。在上图的函数中,每当时间t除以3余1时,正确的梯度(即C)会指示算法朝-1的方向走去,而不正确的梯度(即-1)则会让算法朝 1 走去。Reddi等人构造出这样一个拥有高频梯度噪声的函数,且证明了Adam会反复回到 x=1的位置难以动弹,而SGD和AdaGrad 这些算法却能够成功到达 x=-1。即Adam在高频梯度噪声时存在缺陷!

2

新的算法

然而,这么高频率的错误梯度,在实际的 DNN 训练中也许是寥寥无几。所以在真实训练中,Adam 依旧是可以收敛到不错的位置,只是可能并没有到最佳(比不上SGD所能达到的最佳位置)。所以在我们的论文中,我们重新设计了一个例子来模拟真实的训练场景。

这里 n 是一个小常数,可以简单设为1, 0< lambda < 1,C>1 都为常数。这个问题其实就是模拟在训练过程中,由于参数不断接近最优解,梯度的大小不断减小的过程。观察可以发现,f_t之和的最小值在0处达到。我们希望验证的是,在初始学习率(alpha_0)和初始值 (x_0)都可以随便取的情况下,各个算法是否都能到达 0 点。很显然,通过等比数列求和公式,SGD当然是可以到达0的。但神奇的是,无论取多小的alpha_0, 无论初始值靠近还是远离0,Adam都无法在0点停下来,都会到达负数解。

简单的来说,是因为Adam的分母V_t 对于小的梯度过于敏感,导致Adam的步长非常的大,大到了即便梯度在指数级减小,Adam的步长依旧大于一个常数。所以,虽然Adam收敛得非常快,但却有可能得不偿失,收敛到一个次优解,并且由于次优解处的梯度太小而难以重新回到最优解。

为了解决这个问题,我们重新设计了Adam的分母。由于梯度在训练后期减小非常快,甚至为0,无法提供更多有效信息。我们提出强调之前的v_t的重要性,而逐渐减弱对现在的梯度的适应。最简单的方式就是将Adam的分母公式反过来,将原来指数级遗忘的v_t改为指数级叠加,也就是我们的新AdaX算法如下:

简单的来说,就是将原本的0.999 v_{t-1} +0.001 g_t^2 改为了 1.0001 v_{t-1} + 0.0001 g_t^2。当然,第七行的系数也要随之变化。我们希望通过更合理地增速(因为分母的指数遗忘改为了指数积累),能够让Adaptive类算法达到和SGD一样的效果。在我们的实验中,AdaX的表现非常不错,甚至能在一些传统自适应算法效果很差的实验中表现得很好。

在CIFAR10, ImageNet和VOC Segmentation等等任务中, AdaX既能比SGD快,又能和SGD一样好,可以说是非常惊喜了。

我们在文章中还有其他更多的实验,欢迎大家移步arXiv看看,相关理论分析也在论文当中,也可以用代码试一试。从Adam改到AdaX变化非常的小,很容易实现。期待大家的结果。

参考文献:

[1]. Reddi, S. J., Kale, S., and Kumar., S. Onthe convergence of adam and beyond.Proceedings of the 6th InternationalConference on Learning Representations (ICLR), 2018.
[2]. Zhou, Z., Zhang, Q., Lu, G., Wang, H., Zhang, W., and Yu, Y. Adashift:Decorrelation and convergence of adaptive learning rate methods. Proceedingsof 7th International Conference on Learning Representations (ICLR), 2019.

[3]. Huang, H., Wang, C., and Dong., B.Nostalgic adam: Weighting more of the past gradients when designing theadaptive learning rate. arXiv preprint arXiv: 1805.07557,2019.
[4]. Luo, L., Xiong, Y., Liu, Y., and Sun, X. Adaptive gradi- ent methods withdynamic bound of learning rate. Proceedings of 7th InternationalConference on Learning Representations, 2019.

[5]. Liu L., Jiang, H., He, P., Chen, W., Liu,X., Gao, J., Han, J. On the Variance of the Adaptive Learning Rate andBeyond. Proceedings of 8th International Conference on LearningRepresentations, 2020.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京输球揪出最大祸首!他上场17分钟,输14分,5失误打得真差

北京输球揪出最大祸首!他上场17分钟,输14分,5失误打得真差

南海浪花
2026-04-01 23:05:18
地铁吐血女孩,银行卡被封,网友追问举报人是谁?银行回应引争议

地铁吐血女孩,银行卡被封,网友追问举报人是谁?银行回应引争议

眼光很亮
2026-04-01 05:24:45
12家车企公布3月销量:比亚迪拿下第一,广汽丰田暂居前三

12家车企公布3月销量:比亚迪拿下第一,广汽丰田暂居前三

车市红点
2026-04-01 20:41:36
张雪峰遗产分配曝光!公司总经理发文承诺,网友终于可以放心了

张雪峰遗产分配曝光!公司总经理发文承诺,网友终于可以放心了

君笙的拂兮
2026-04-01 06:50:08
福特航母战斗群5700官兵被扣押,接受调查

福特航母战斗群5700官兵被扣押,接受调查

远方青木
2026-03-30 23:59:08
兜兜转转30年,昔日金童玉女内田有纪与柏原崇秘密结婚!

兜兜转转30年,昔日金童玉女内田有纪与柏原崇秘密结婚!

颤抖的熊猫
2026-04-01 23:08:51
悲喜两重天!10人意大利点球大战不敌波黑,连续三届无缘世界杯

悲喜两重天!10人意大利点球大战不敌波黑,连续三届无缘世界杯

全景体育V
2026-04-01 05:46:17
两套房子全给儿子,我投奔女儿,吃完第一顿饭她一句话让我心凉

两套房子全给儿子,我投奔女儿,吃完第一顿饭她一句话让我心凉

奶茶麦子
2026-04-01 15:35:11
特朗普没有想到,5万名美军刚就位,伊朗导弹和最后通牒一起来了

特朗普没有想到,5万名美军刚就位,伊朗导弹和最后通牒一起来了

解锁世界风云
2026-04-02 04:51:02
深夜,集体拉升!超11万人爆仓!特朗普:将很快撤出伊朗战事!局势将走向何方?

深夜,集体拉升!超11万人爆仓!特朗普:将很快撤出伊朗战事!局势将走向何方?

证券时报
2026-04-02 01:02:07
奇瑞00后女员工实名举报高管性骚扰,公司:涉事人员已免职并解除劳动合同

奇瑞00后女员工实名举报高管性骚扰,公司:涉事人员已免职并解除劳动合同

红星资本局
2026-04-01 17:44:06
张柏芝没想到,同样是亲骨肉,谢霆锋的二儿子如今竟狠狠给她争光

张柏芝没想到,同样是亲骨肉,谢霆锋的二儿子如今竟狠狠给她争光

以茶带书
2026-04-01 16:22:14
澳门世界杯捷报:女单爆大冷!日本名将1:3出局,温瑞博剃光头

澳门世界杯捷报:女单爆大冷!日本名将1:3出局,温瑞博剃光头

阿雹娱乐
2026-04-02 05:27:26
越南U23主帅:祝贺中国队;我们的球员基本19-21岁

越南U23主帅:祝贺中国队;我们的球员基本19-21岁

懂球帝
2026-04-01 13:29:10
从赛场火到市场:张雪机车订单已排到5月底,产值冲刺18亿

从赛场火到市场:张雪机车订单已排到5月底,产值冲刺18亿

新京报
2026-04-01 21:09:40
上海全市正式强制执行!走路、骑车上下班的赶紧看 抓紧自查别被罚

上海全市正式强制执行!走路、骑车上下班的赶紧看 抓紧自查别被罚

生活魔术专家
2026-04-02 00:21:53
阴蒂神经地图迟到28年:1998年就画完了男性的

阴蒂神经地图迟到28年:1998年就画完了男性的

我是一个粉刷匠2
2026-03-30 12:24:22
辛芷蕾:我这辈子最幸运的决定,就是在结婚前认清了翟天临的为人

辛芷蕾:我这辈子最幸运的决定,就是在结婚前认清了翟天临的为人

晓肂爱八卦
2026-03-31 22:51:59
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
惨痛教训,这位大哥再次甪3天40万证明,天价彩礼就是杀猪盘

惨痛教训,这位大哥再次甪3天40万证明,天价彩礼就是杀猪盘

大鱼简科
2026-04-01 09:51:18
2026-04-02 07:12:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7164文章数 20742关注度
往期回顾 全部

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

伊朗自杀无人机突进北印度洋 逼退“林肯”号航母

头条要闻

伊朗自杀无人机突进北印度洋 逼退“林肯”号航母

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

艺术
本地
房产
家居
公开课

艺术要闻

齐白石这两幅梅花,绝了!

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

房产要闻

产业、教育、地产…重大信号发出! 官方定调海口未来5年!

家居要闻

经典配色 昼色银河

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版