网易首页 > 网易号 > 正文 申请入驻

继VAE之后,Adam也拿到了ICLR时间检验奖,OpenAI联创两次获奖

0
分享至

内容来自:机器之心

编辑:张倩


ICLR 2025 宣布了今年的时间检验奖获奖论文。这个奖项旨在表彰十年前在 ICLR 2015 上发表的对该领域产生持久影响的论文。

经久不衰的「Adam 算法」拿到了冠军,比 Transformer 论文更早引入注意力机制的「Neural Machine Translation by Jointly Learning to Align and Translate」拿到了亚军。这样的结果可谓「实至名归」。

Adam:深度学习领域应用最广泛的优化算法之一

Adam 算法,即 Adaptive Moment Estimation 算法,是一种结合了动量法和 RMSprop 算法思想的自适应学习率优化算法。

Adam 革命性地改变了神经网络训练,在各种架构和任务中实现了显著更快的收敛速度和更稳定的训练过程。如今,它已经成为深度学习中最广泛采用的优化算法之一。

Adam 算法的创新之处在于,它结合了 AdaGrad 和 RMSProp 的优点,通过维护第一矩估计(均值)和第二矩估计(未中心化的方差)来动态调整每个参数的学习率,能够处理稀疏梯度和非平稳目标函数。

它的重要性体现在其广泛的应用场景,无论是计算机视觉、自然语言处理还是强化学习等领域,Adam 算法都为模型的高效训练提供了有力支持,极大地提高了模型的训练效率和性能,成为无数最先进模型的默认优化器。

根据 Google Scholar 的数据,Adam 论文的被引量已经超过 21 万。

论文链接:https://arxiv.org/abs/1412.6980

该论文总共有两位作者 ——Diederik P. Kingma 和 Jimmy Lei Ba。

Diederik P. Kingma 是一位计算机科学家和研究员,专注于机器学习和生成式建模的可扩展方法。他的重要贡献包括变分自编码器(VAE)、Adam 优化器、Glow 和变分扩散模型。其中,VAE 获得了去年的 ICLR 时间检验奖。所以,这次是 Diederik P. Kingma 第二次获得该奖项。而截至目前,该奖项总共就颁了两次。

2017 年,他以优异成绩获得阿姆斯特丹大学博士学位。2015 年,他作为创始团队成员参与创建了 OpenAI。在此之前,他共同创立了 Advanza 公司,该公司于 2016 年被收购。

他的职业生涯包括:

  • 2009 年和 2012 年:在纽约大学 Yann LeCun 实验室担任初级研究科学家;

  • 2010-2012 年:Advanza 联合创始人兼技术负责人,公司于 2016 年成功退出;

  • 2013-2017 年:在阿姆斯特丹大学攻读博士学位,导师为 Max Welling,研究领域为深度学习和生成模型;

  • 2015-2018 年:OpenAI 创始团队成员和研究科学家,领导算法团队,专注于基础研究;

  • 2018-2024 年:在 Google Brain/DeepMind 担任研究科学家,领导多个研究项目,主要是文本、图像和视频的生成模型;

  • 2024 年至今:在 Anthropic 研究大规模机器学习。

另一位作者多伦多大学 Jimmy Lei Ba 现在是多伦多大学的助理教授。他的长期研究目标是解决一个计算问题:如何构建具有人类效率和适应性的通用问题解决机器。他的研究兴趣主要集中在开发高效的深度神经网络学习算法上。他的研究领域与 NeurIPS、ICLR 和 ICML 等研究社区有交叉。此外,他对强化学习、自然语言处理和人工智能也有广泛的兴趣。

Jimmy Lei Ba 在 Geoffrey Hinton 的指导下完成了博士学位。他的硕士(2014 年)和本科学位(2011 年)均在多伦多大学获得,师从 Brendan Frey 和 Ruslan Salakhutdinov。他是 CIFAR AI chair,曾在 2016 年获得 Facebook 机器学习研究生奖学金。

亚军论文

比 Transformer 提前三年引入注意力机制

获得 ICLR 时间检验奖亚军的论文「Neural Machine Translation by Jointly Learning to Align and Translate」同样来头不小,图灵奖得主 Yoshua Bengio 是该论文的作者之一。

论文链接:https://arxiv.org/abs/1409.0473

去年 12 月,AI 大牛 Andrej Karpathy 专门发帖为这篇论文鸣不平,称它是「真正引入注意力机制的论文」,但受到的关注远远不及三年后才出现的 Transformer 论文。

具体来说,这篇论文的创新之处在于,它引入了一种注意力形式,从根本上改变了序列到序列模型处理信息的方式。在此之前,编码器 - 解码器架构通常将整个输入序列压缩为固定长度的向量,从而为较长的序列造成内存瓶颈。该方法使模型能够在翻译过程中动态地「关注」源句子的不同部分,从而处理相关的上下文信息。这种注意力机制已经成为现代深度学习的基石,远远超出了机器翻译的范畴,形成了 transformer 和大型语言模型的基础。这篇论文的实际影响是巨大的,使其成为对神经网络架构最有影响力的贡献之一。

这篇论文总共有三位作者:Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio

Dzmitry Bahdanau 在加拿大 Mila 研究所完成了博士学位,师从 Yoshua Bengio。他现在是一位在 ServiceNow 旗下(前 Element AI)工作的研究科学家。他同时也是 Mila 的核心产业成员和麦吉尔大学的兼职教授。

Dzmitry Bahdanau 坚信人类语言技术(HLT,他认为这是比 NLP 更好的称呼)将改变人类与软件交互和获取知识的方式。事实上,这种改变已经开始发生(比如网络搜索),但这仅仅是个开始。Bahdanau 对 HLT 技术栈各个层面的研究问题都有浓厚兴趣,包括深度学习基础、基础模型训练、特定任务算法(尤其是语义解析)以及用户与 AI 系统的交互体验。他近期正在进行的工作主要集中在语义解析和面向任务的对话方法、代码生成、神经模型的系统性(组合性)泛化和样本效率上。

在发给 Karpathy 的邮件中,Dzmitry Bahdanau 曾详细谈过他们当年研究「注意力机制」的往事。

他提到,「 我作为实习生来到 Yoshua 的实验室…… 我告诉 Yoshua 我愿意做任何工作。Yoshua 安排我参与机器翻译项目…… 有一天,我突然想到让解码器 RNN 学习在源序列中搜索放置游标的位置会很好。这有点受到翻译练习的启发,在中学学习英语时会用到这种练习。当你翻译时,目光在源序列和目标序列之间来回移动。我提出了对 BiRNN 状态进行软搜索作为 softmax 然后进行加权平均的想法。这个方法从一开始就表现出色,令人振奋 。我称这种架构为 RNNSearch,我们赶紧发布了一篇 arXiv 论文,因为我们知道 Ilya 和谷歌的同事们在他们强大的 8 个 GPU LSTM 模型(RNN Search 仍在 1 个 GPU 上运行)上领先于我们。事后证明,这个名称不太好。更好的名称(attention)是由 Yoshua 在最终定稿中添加的。」

另一位作者 Kyunghyun Cho 是纽约大学计算机科学和数据科学教授,同时担任 Genentech Research & Early Development (gRED) Prescient Design 团队的前沿研究执行总监。2025 年,他被任命为 Glen de Vries 健康统计学教授。在获奖论文写作期间,他曾在蒙特利尔大学担任博士后研究员,师从 Yoshua Bengio 教授。

在 ICLR 时间检验奖颁发之际,或许我们也可以重读这些经典论文,从中找到关于未来方向的新启发。

https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“房坐空亡,家败人亡”,不是迷信!“空亡”到底指的什么

“房坐空亡,家败人亡”,不是迷信!“空亡”到底指的什么

三农雷哥
2026-03-18 14:17:21
东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

东契奇NBA生涯第60次单场得分40+,位列现役所有球员第5

懂球帝
2026-03-26 11:45:09
张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

念洲
2026-03-26 13:14:49
干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

干翻埃尔法?尊界MPV实车曝光,前脸照搬S800

泡泡网
2026-03-26 11:21:11
特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

每日经济新闻
2026-03-25 23:07:37
炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美以

炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美以

阿芒娱乐说
2026-03-26 13:16:54
32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

32.29万起!全新一代A6L正式上市,华为乾崑智驾上车!

小南看车
2026-03-25 22:59:29
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
特朗普被曝希望“快速”结束对伊朗战争

特朗普被曝希望“快速”结束对伊朗战争

界面新闻
2026-03-26 12:37:58
爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

爆料广东队教练组大调整,杜锋面临下课,替代者现身,球迷支持

宗介说体育
2026-03-25 10:31:37
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

醉卧浮生
2026-03-26 09:25:57
痴呆症的风险降低35%!哈佛追踪13万人:每天2-3杯,让大脑衰老踩刹车

痴呆症的风险降低35%!哈佛追踪13万人:每天2-3杯,让大脑衰老踩刹车

王二哥老搞笑
2026-03-26 13:56:44
张召忠预言或将成真:美国一旦倒下,亚洲这2国将会打起来?

张召忠预言或将成真:美国一旦倒下,亚洲这2国将会打起来?

纪中百大事
2026-03-26 09:44:20
石油危机爆发?普京彻底醒悟,美财长通告全球:对中国根本没用

石油危机爆发?普京彻底醒悟,美财长通告全球:对中国根本没用

阅识
2026-03-26 11:25:47
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底

小小科普员
2026-03-25 19:25:13
台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

台湾最先倒下?陷入断油断气危机,大陆给出承诺,指了一条明路

照亮你的前行之路
2026-03-23 00:17:18
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
2026-03-26 15:11:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
艺术
本地
房产
公开课

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版