网易首页 > 网易号 > 正文 申请入驻

Andrej Karpathy 首次公开私人邮件:揭秘Transformer 注意力机制真相

0
分享至

来源:AI寒武纪

揭开Transformer“注意力”机制背后的真实故事

近年来,Transformer 成为深度学习领域的绝对主角,而支撑其核心的“注意力”机制更是掀起了一场革命。但这项改变 AI 格局的技术究竟是如何诞生的?Andrej Karpathy 分享了与“注意力”机制最初开发者 Dzmitry Bahdanau 的私人邮件,首次披露了这段被误解和简化的历史。这不仅是一段关于科学发现的个人回忆,更是一次回归真相的旅程

邮件揭示了 Bahdanau 如何在 Yoshua Bengio 的实验室里,从实践中找到灵感,最终提出了开创性的“RNNSearch”,为后来 Transformer 的成功铺平了道路。本文将带你回顾“注意力”的发展历程,还原那些被时间和流言掩盖的细节,见证 AI 进化的关键时刻,揭秘注意力的起源与其背后的故事

这是关于创新、合作与机缘巧合的真实故事,它不仅属于学术界,也属于推动技术边界的每一个人

注意力的诞生:从困惑到灵感

在人工智能的发展历程中,“注意力”机制无疑是一个革命性的突破。虽然现在大多数人提到注意力,第一时间想到的可能是 2017 年的论文《Attention is All You Need》和 Transformer,但实际上,注意力的概念早在三年前就已经出现了

故事开始于 2014 年,当时 Dzmitry Bahdanau(简称 Dima)作为实习生加入 Yoshua Bengio(加拿大计算机科学家,图灵奖得主) 的实验室。他参与了一个机器翻译项目,主要任务是优化序列到序列的神经网络模型。然而,Dima 一开始对这项工作并不乐观——“将一整段文本压缩成一个向量,再进行翻译?这怎么可能有效?”

为了克服编码器和解码器之间的瓶颈,他开始尝试一些新思路。最初的设计灵感来自“两个光标”的概念,即通过动态规划,让两个光标分别移动在源序列和目标序列中。然而,这种方法太复杂且实现困难。于是,他退而求其次,尝试了一种“硬编码的对角线注意力”,尽管结果尚可,但仍显笨拙

真正的突破发生在他的一次灵感闪现中——为什么不让解码器自主学习关注源序列中的相关部分?这一想法源自 Dima 中学时的英语翻译练习:翻译时,眼睛会在源句和目标句之间反复移动,他将这种软搜索设计为 softmax 操作,结合双向 RNN 的状态进行加权平均。结果,一试即成功!

这种机制被命名为“RNNSearch”,并迅速发表了论文《Neural Machine Translation by Jointly Learning to Align and Translate》

“Attention”的命名与后续发展

最初,RNNSearch 并不叫“注意力”,这个名字是 Yoshua Bengio 在论文的最后阶段才加上去的。这个术语灵感来源于人类的认知过程:在翻译时,人们的注意力会在源语言和目标语言之间来回切换

注意力的提出并非孤立存在,同期还有其他研究者在探索类似机制。例如,Alex Graves 的“神经图灵机”和 Jason Weston 的“记忆网络”都包含软搜索或加权操作的概念。这些研究的出现并非偶然,而是当时学术界对神经网络和符号 AI 融合的一次集体努力

RNNSearch 的提出迅速引发了业界的关注,但当时还没有人预见到这个机制的潜力。直到 2017 年,Transformer 的横空出世——一个几乎完全依赖注意力机制的架构。这篇论文不仅简化了模型设计,还引入了位置编码、多头注意力等新概念,使得模型在结构上更加简单统一,也为并行计算打开了大门。自此,Transformer 成为深度学习领域的核心工具,直到今天,其设计仍基本未变

注意力的本质与未来启示

注意力机制的本质是一种“数据依赖的加权平均”,是一种灵活、高效的全局池化操作。它的提出不仅是技术上的突破,也反映了人类认知的深刻影响。正如 Andrej Karpathy 所评价的:“注意力是一种重大解锁,是神经网络架构设计的一次飞跃。”

如今,Transformer 及其变种已经成为自然语言处理、计算机视觉等领域的核心技术。Dima 在回顾这一历程时指出,注意力机制的诞生得益于多个因素的结合——个人创造力、团队协作,以及当时 GPU 性能的提升。这种多维度的推动,正是技术进步的关键所在

写在最后:科学进步的本质

从 Bahdanau 的 RNNSearch,到 Transformer 的席卷全球,注意力的进化史展现了科学探索的独特魅力。它提醒我们,突破性的想法往往来自那些在实践中寻求解决问题的创新者,而非空想理论家。正如 Dima 所说:“一个好的研发项目,比我们常认为的‘真正的 AI 研究’能为技术进步做出更多贡献。”

这,就是“注意力”的故事

附:Dzmitry Bahdanau 给 Andrej 的完整邮件内容

Hi,Andrej:

很高兴和你分享这段8年前的故事!

我在完成雅各布大学(Jacobs University)与Herbert Jaeger合作完成的硕士第一年后,作为实习生加入了Yoshua的实验室

我告诉Yoshua我愿意做任何工作。他安排我参与机器翻译项目,与Kyunghyun Cho和团队一起工作。一开始,我对将一串单词压缩成一个向量的想法非常怀疑。但我也非常渴望能拿到博士生的录取,所以我卷起袖子,开始做我擅长的事——写代码、修复错误等。后来,随着我对项目理解的深入,Yoshua邀请我攻读博士学位(在2014年,这已经足够了——那是好时候啊!)。我非常高兴,觉得是时候放手去创新了

于是,我开始思考如何避免编码器和解码器RNN之间的瓶颈问题。我的第一个想法是设计一个有两个“光标”的模型,一个遍历由BiRNN编码的源序列,另一个遍历目标序列。这些光标轨迹可以通过动态规划来边缘化。Kyunghyun Cho认为这类似于Alex Graves的RNN转录器模型。随后,我也可能读了Graves的手写识别论文。然而,这种方法看起来并不适合机器翻译

这个“光标”方法在实习剩下的5周内太难实现。所以我尝试了更简单的方法——两个光标同时同步移动(本质上是硬编码的对角注意力)。这种方法有些效果,但缺乏优雅

有一天,我突然想到,如果让解码器RNN学会在源序列中搜索光标位置会如何?这个想法部分受到我中学学英语翻译练习的启发。翻译时,视线会在源序列和目标序列之间来回切换。我用softmax表达了这种软搜索,并通过加权平均BiRNN状态实现。这种方法第一次试验就效果很好,让我非常兴奋。我把这种架构称为RNNSearch,我们赶紧发布了ArXiV论文,因为我们知道Ilya和Google团队在用8个GPU训练他们的LSTM模型(RNN Search仍然只用1个GPU)

后来发现,这个名字不够好。最终,Yoshua在论文最后一轮修改时将“attention”加到了结论部分

1.5个月后,我们看到了Alex Graves的NMT论文。确实是完全相同的想法,但他是从完全不同的动机出发的。在我们的情况下,发明是需求的产物。而对他来说,可能是为了弥合神经与符号AI之间的差距?Jason Weston团队的Memory Networks论文也采用了类似的机制

我当时没有预见到attention可以用于更低级别,作为表示学习的核心操作。但当我看到Transformer论文时,我立即对实验室同事说:“RNN完蛋了。”

回到你的问题:在蒙特利尔Yoshua实验室中“可微分和数据驱动的加权平均”的发明是独立于Neural Turing Machines、Memory Networks以及一些来自90年代甚至70年代的相关认知科学论文的(我可以提供任何链接)。它是Yoshua鼓励实验室追求雄心壮志、Kyunghyun Cho成功领导机器翻译项目、以及我多年来通过竞赛编程磨练的创造力和编码能力共同促成的。我并不认为这个想法会等待太久才被发现。即使没有我、Alex Graves和故事中的其他人,attention也是深度学习中实现灵活空间连接的自然方法。它是显而易见的,只等着GPU足够快,使人们有动力认真对待深度学习研究。一旦我意识到这一点,我的AI宏愿便是启动更多像机器翻译项目那样的惊人应用项目。优秀的研发工作对基础技术的进步贡献远胜过那些我们常认为是“真正”AI研究的复杂理论

就这些!很想听听更多关于你教育AI项目的消息(听Harm de Vries提起过一些传闻;))。

祝好, Dima

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。


截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
做最坏打算!中国055大驱第二批加速,美媒:还有被美军扣船隐忧

做最坏打算!中国055大驱第二批加速,美媒:还有被美军扣船隐忧

谛听骨语本尊
2026-01-09 19:26:20
熊如丧家之犬!

熊如丧家之犬!

蜻蜓世音
2026-01-10 16:13:27
山东一66岁大妈喜欢睡前泡脚,不久脑梗去世,医生怒斥:太无知了

山东一66岁大妈喜欢睡前泡脚,不久脑梗去世,医生怒斥:太无知了

今日养生之道
2026-01-10 00:22:54
俄反潜机首次在北极完成空中加油!联合国安理会将召开乌克兰局势紧急会议!乌全境频遭空袭,我使馆发布重要提醒

俄反潜机首次在北极完成空中加油!联合国安理会将召开乌克兰局势紧急会议!乌全境频遭空袭,我使馆发布重要提醒

每日经济新闻
2026-01-10 14:13:09
“坑了我娃一辈子!”眼镜店镜片配反,7岁女童视力骤降10个月后才发现

“坑了我娃一辈子!”眼镜店镜片配反,7岁女童视力骤降10个月后才发现

观威海
2026-01-10 17:14:18
幸好我国没有采纳这5位专家的建议,不然老百姓就真跟着遭殃了!

幸好我国没有采纳这5位专家的建议,不然老百姓就真跟着遭殃了!

小lu侃侃而谈
2025-12-19 18:22:37
当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

当石油被抢后,西方普遍认为北京只能认栽,怎料中方一招逆转局面

小lu侃侃而谈
2026-01-02 19:54:47
美国为何迫切想要格陵兰岛?格陵兰岛之争将如何收场?

美国为何迫切想要格陵兰岛?格陵兰岛之争将如何收场?

大象新闻
2026-01-10 14:33:05
雷军:特斯拉并非不可战胜 小米YU7将于Model Y一较高下

雷军:特斯拉并非不可战胜 小米YU7将于Model Y一较高下

快科技
2026-01-10 15:52:11
秦昊女儿美到认不出!9岁小米粒身高1米5,快要赶上妈妈伊能静

秦昊女儿美到认不出!9岁小米粒身高1米5,快要赶上妈妈伊能静

陈意小可爱
2026-01-11 01:09:59
上海知青被迫与西藏姑娘分开,37年后相遇,才得知儿孙满堂

上海知青被迫与西藏姑娘分开,37年后相遇,才得知儿孙满堂

墨染尘香
2024-08-11 23:56:00
水端麻美:长腿御姐靠演员自觉杀出血路,Madonna不懂珍惜的人才

水端麻美:长腿御姐靠演员自觉杀出血路,Madonna不懂珍惜的人才

素然追光
2025-12-22 02:15:04
师胜杰:至死不肯戒酒,离世4年后,遗孀宋艳的坚持让人泪目

师胜杰:至死不肯戒酒,离世4年后,遗孀宋艳的坚持让人泪目

丰谭笔录
2026-01-10 07:40:11
太解气了!殡葬新规出来了,以后办白事再也不用当"冤大头"了!

太解气了!殡葬新规出来了,以后办白事再也不用当"冤大头"了!

李健政观察
2026-01-09 23:46:18
拖欠房租面临驱逐,《钢铁侠2》主演获网友10万美元捐款,本人:捐款一分钱都不会收

拖欠房租面临驱逐,《钢铁侠2》主演获网友10万美元捐款,本人:捐款一分钱都不会收

红星新闻
2026-01-08 12:08:49
比福建舰还大!4艘万吨巨船同时出坞,美这才明白,输给中国了

比福建舰还大!4艘万吨巨船同时出坞,美这才明白,输给中国了

温读史
2026-01-09 23:42:22
伊朗外长带全家访问黎巴嫩,派出“全家阵容”在暗示什么

伊朗外长带全家访问黎巴嫩,派出“全家阵容”在暗示什么

桂系007
2026-01-09 13:35:38
恩里克拒与巴黎续约?真相揭晓:双方关系稳固,夏季引援已在规划

恩里克拒与巴黎续约?真相揭晓:双方关系稳固,夏季引援已在规划

星耀国际足坛
2026-01-10 23:32:08
人火了脸也丢尽了

人火了脸也丢尽了

花花酱追剧
2026-01-10 10:19:16
复出后的状态堪称灾难,火箭锋线新援的情况真是令人非常担心?

复出后的状态堪称灾难,火箭锋线新援的情况真是令人非常担心?

稻谷与小麦
2026-01-11 01:12:04
2026-01-11 02:24:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4463文章数 37371关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

本地
房产
健康
游戏
教育

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

这些新疗法,让化疗不再那么痛苦

《地平线6》首发为何没PS5版?原来只是没做完!

教育要闻

表现不好,还不接受批评的学生,怎么教育比较合适?

无障碍浏览 进入关怀版