网易首页 > 网易号 > 正文 申请入驻

LSTM之父向何恺明开炮:我学生才是残差学习奠基人

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

何恺明残差学习奠基人的身份,也被“挑战”了。

为什么要说“也”?因为发起讨论的,又双叒是我们熟悉的Jürgen Schmidhuber——LSTM之父。

不过这一次,他不是要把功劳揽到自己身上,而是替LSTM的另一位作者Sepp Hochreiter发声:

残差学习这把改变深度学习格局的 “钥匙”,其实早在30年前就已经诞生——Sepp Hochreiter在1991年就在使用循环残差连接解决梯度消失问题。



有一说一,Jürgen争title也不是第一次了,作为深度学习的先驱者,Jürgen自认为自己的早期贡献被人为忽视了。

ResNet发布的同年,深度学习三巨头BengioHintonLeCun在Nature上联合发表有关DL的综述论文,其中大量引用他们三人的自身成果,却对Jürgen等人只字不提。

随即他们展开了长达多年的争论,尤其是在18年的图灵奖结果公布后,Jürgen更是洋洋洒洒写了篇援引200多条文献的小作文反击。

之后在GAN的原创争议上,双方也是争执不休,要知道GAN的提出者正是Bengio的得意门生。

而如今有关残差学习的创始之争,也是因为Jürgen自认为将残差学习这一成果的发现完全归因于何恺明团队有失偏颇。

不过正如网友所说:

  • 从Hochreiter到ResNet,光芒随时间递归延续。阴影是被模糊的归属,但真理始终不变:1991年的种子闪耀着每一层。



30年前的第一次提出

Jürgen Schmidhube这次要讲的故事始于1991年。

当时还是Jürgen学生的Sepp Hochreiter,正在着手撰写自己的博士论文,也正是在这篇论文里,他首次系统性分析了RNN的梯度消失问题,并提出用循环残差连接解决。



循环残差连接的核心思想相当简单:一个具有恒等激活函数的神经单元自连接,且权重固定为1.0,使其在每个时间步中仅将输入叠加到先前状态,该单元只作为增量积分器存在。

于是误差信号就能在反向传播中保持恒定,不会消失或爆炸。

不过与此前任意实数权重的自连接不同,只有权重严格为1.0,才能完全避免梯度问题。

接近1.0的近似值虽然可以接受,但衰减速度会随时间加快,例如0.99的权重下误差信号会在100个时间步后减少到原来的37%(0.99¹⁰⁰≈37%),0.9的权重则只有原来的0.0027%(0.9¹⁰⁰≈0.0027%)。

但尽管如此,这也为后来的深度学习残差思想奠定了理论基础。



直到1997年,Jürgen和Hochreiter共同提出了著名的LSTM,在该理论的基础上实现了进一步的扩展。

LSTM的核心单元是权重为1.0的循环残差连接,也就是恒定误差轮盘(CECs),这一机制保证了误差可在数百乃至数千时间步中保持不衰减,使LSTM能有效捕捉输入与输出之间的长时间滞后,对语音、语言等任务至关重要。

另外这篇LSTM论文也是20世纪引用次数最多的人工智能论文

1999年,LSTM演变出新的形态vanilla LSTM,在原来的基础上加入了初始值为1.0的遗忘门,使其具备可控的残差连接,既能保持长时依赖,又能在需要时重置记忆。

虽然这样做会重新引入一定的梯度消失,不过整体仍然处于可控状态。

到2005年,通过时间反向传播(BPTT)算法,LSTM可以展开为深度前馈神经网络(FNN),让每个输入序列的时间步都对应一个虚拟层,从而大幅增加了网络深度,可以处理更长时间滞后。
而无论是循环还是前馈,残差连接始终依赖权重固定为1.0。

接下来就是众所周知的2015年,首先在同年5月,需要优先提及Highway网络的贡献。



此前,基于反向传播的前馈神经网络的深度有限,只有20到30层,直到Highway网络的出现,才首次成功训练出上百层的深度前馈网络,比过去要深10倍以上。

其核心是将LSTM的门控残差思想从循环神经网络引入前馈网络,每层输出为g(x)x+t(x)h(x),其中x是来自前一层的数据,g、t、h表示带实值的非线性可微函数。

关键的残差部分g(x)x初始化为1.0,让Highway网络既能保持类似ResNet的纯残差连接,又能根据任务需要,以依赖上下文的方式自适应调整残差流,从而大幅提升深度可训练性。



最后再到12月,ResNet在ImageNet竞赛中大获成功,彻底将残差学习带入大众视线。

ResNet在残差部分设计上,与展开的LSTM以及初始化的Highway网络相似,如果将Highway网络的门恒定设置为1.0,就可以得到纯残差网络ResNet,而它们本质上都是1997年的LSTM前馈变体。

ResNet的残差连接允许误差在深层网络中稳定传播,使网络能够训练数百层,但Jürgen也指出,ResNet论文中并没有明确说明它实际上就是开部门控的Highway网络,二者之间存在相似的标准残差连接。



总结就是,LSTM与Highway网络分别奠定了循环和前馈网络的深度训练基础,ResNet则将这一原理成功应用于前馈网络,延续了自1991年Hochreiter首创的残差思想。

One More Thing

不过,这种说法目前仅代表Jürgen Schmidhuber的个人观点。(叠甲doge)

因为这已经不是他第一次对著名神经网络的起源提出质疑。

早在2021年,他就公开表示,LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer,都是受到了他实验室成果的启发



例如他认为AlexNet和VGG Net采用了他们的DanNet;GAN是对他在1990年提出的Adversarial Curiosity原则的应用;Transformer的变体,即线性Transformer,是对他提出的快速权重存储系统的延伸。

但除了无可争议的LSTM归属,其他几项至今都没有得到普遍认可。

甚至衍生出这样一种说法:“Schmidhuber is all you need.”




[1]https://x.com/SchmidhuberAI/status/1972300268550369631
[2]https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html
[3]https://mp.weixin.qq.com/s/XkGs9rsSlI4D6oNv52pfOw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

美国放话:谁敢拦截军售,就是宣战!中国用实力划下红线!

华山穹剑
2026-01-23 20:19:29
株洲杀猪宴失控!央视新华社接连怒批,句句戳心窝,这下麻烦大了

株洲杀猪宴失控!央视新华社接连怒批,句句戳心窝,这下麻烦大了

以茶带书
2026-01-24 23:18:39
多地将器官捐献纳入“见义勇为”评定,专家称概念扩展需审慎

多地将器官捐献纳入“见义勇为”评定,专家称概念扩展需审慎

澎湃新闻
2026-01-24 22:55:05
咸阳一幼儿园园长涉贪千万案二审待宣判:“公职身份”和“租赁关系”成争论焦点,此前一审被判11年

咸阳一幼儿园园长涉贪千万案二审待宣判:“公职身份”和“租赁关系”成争论焦点,此前一审被判11年

极目新闻
2026-01-25 16:39:36
172:233!高市重新洗牌,日本新首相人选出炉,对中国态度不简单

172:233!高市重新洗牌,日本新首相人选出炉,对中国态度不简单

影孖看世界
2026-01-25 16:10:31
李湘被英国相关部门调查,涉嫌用艺术品国际洗钱,王诗龄已经休学

李湘被英国相关部门调查,涉嫌用艺术品国际洗钱,王诗龄已经休学

花哥扒娱乐
2026-01-25 17:10:22
台当局喊话大陆对话协商,许诺不设任何前提,将务实沟通解决问题

台当局喊话大陆对话协商,许诺不设任何前提,将务实沟通解决问题

军机Talk
2026-01-24 14:45:43
不打伊朗了!美军调转枪口,国民警卫队动员,将开打特朗普御林军

不打伊朗了!美军调转枪口,国民警卫队动员,将开打特朗普御林军

议纪史
2026-01-24 19:45:02
鼓励老百姓捐献器官,还纳入见义勇为,这些专家到底想干啥?

鼓励老百姓捐献器官,还纳入见义勇为,这些专家到底想干啥?

眼光很亮
2026-01-25 09:19:18
个税降了,2026年1月15日起执行

个税降了,2026年1月15日起执行

会计人
2026-01-25 12:03:57
打光家底,再无余粮!俄罗斯战损9000多辆装甲车,库存耗尽

打光家底,再无余粮!俄罗斯战损9000多辆装甲车,库存耗尽

军迷战情室
2026-01-24 23:58:07
女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

女子被雪豹咬伤后续:正脸曝光,知情人曝内幕,女子状态让人担忧

以茶带书
2026-01-24 17:15:26
ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

ICE猛于虎,美天气预报不敢说“冰”字!3周射杀2名美国人,零下23℃数万人示威

红星新闻
2026-01-25 18:23:34
浙江一县取消中考选拔功能,实现全员直升

浙江一县取消中考选拔功能,实现全员直升

第一财经资讯
2026-01-25 20:38:55
一语道破女留学生的牢A,亲眼目睹陪读妈妈的悲哀,到底真还是假

一语道破女留学生的牢A,亲眼目睹陪读妈妈的悲哀,到底真还是假

每日一见
2026-01-23 15:07:50
株洲杀猪宴场地费续:恶心事发生,村民强行洗白反被扒,全网群嘲

株洲杀猪宴场地费续:恶心事发生,村民强行洗白反被扒,全网群嘲

离离言几许
2026-01-25 00:08:24
老婆漂亮有多重要?这些长相平平的男明星,生的儿子颜值终于翻盘

老婆漂亮有多重要?这些长相平平的男明星,生的儿子颜值终于翻盘

大铁猫娱乐
2026-01-24 16:10:02
公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

带你感受人间冷暖
2026-01-25 00:05:08
不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

通文知史
2026-01-24 19:15:03
父死女偿!一银行放贷30万,独生女破釜沉舟,彻底给银行整不会了

父死女偿!一银行放贷30万,独生女破釜沉舟,彻底给银行整不会了

火山诗话
2026-01-25 12:21:40
2026-01-25 21:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12060文章数 176362关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

时尚
亲子
艺术
健康
数码

新不如旧!这4件时髦“旧衣服”今年太火了

亲子要闻

爸爸今天给孩子们做美味的火锅盲盒大餐

艺术要闻

封顶!雄安新区中国中化大厦二期,规模显现!

耳石脱落为何让人天旋地转+恶心?

数码要闻

网购微星RTX 5090显卡却收到浴巾裹石头,网友分享被骗经历

无障碍浏览 进入关怀版