网易首页 > 网易号 > 正文 申请入驻

LSTM之父向何恺明开炮:我学生才是残差学习奠基人

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

何恺明残差学习奠基人的身份,也被“挑战”了。

为什么要说“也”?因为发起讨论的,又双叒是我们熟悉的Jürgen Schmidhuber——LSTM之父。

不过这一次,他不是要把功劳揽到自己身上,而是替LSTM的另一位作者Sepp Hochreiter发声:

残差学习这把改变深度学习格局的 “钥匙”,其实早在30年前就已经诞生——Sepp Hochreiter在1991年就在使用循环残差连接解决梯度消失问题。



有一说一,Jürgen争title也不是第一次了,作为深度学习的先驱者,Jürgen自认为自己的早期贡献被人为忽视了。

ResNet发布的同年,深度学习三巨头BengioHintonLeCun在Nature上联合发表有关DL的综述论文,其中大量引用他们三人的自身成果,却对Jürgen等人只字不提。

随即他们展开了长达多年的争论,尤其是在18年的图灵奖结果公布后,Jürgen更是洋洋洒洒写了篇援引200多条文献的小作文反击。

之后在GAN的原创争议上,双方也是争执不休,要知道GAN的提出者正是Bengio的得意门生。

而如今有关残差学习的创始之争,也是因为Jürgen自认为将残差学习这一成果的发现完全归因于何恺明团队有失偏颇。

不过正如网友所说:

  • 从Hochreiter到ResNet,光芒随时间递归延续。阴影是被模糊的归属,但真理始终不变:1991年的种子闪耀着每一层。



30年前的第一次提出

Jürgen Schmidhube这次要讲的故事始于1991年。

当时还是Jürgen学生的Sepp Hochreiter,正在着手撰写自己的博士论文,也正是在这篇论文里,他首次系统性分析了RNN的梯度消失问题,并提出用循环残差连接解决。



循环残差连接的核心思想相当简单:一个具有恒等激活函数的神经单元自连接,且权重固定为1.0,使其在每个时间步中仅将输入叠加到先前状态,该单元只作为增量积分器存在。

于是误差信号就能在反向传播中保持恒定,不会消失或爆炸。

不过与此前任意实数权重的自连接不同,只有权重严格为1.0,才能完全避免梯度问题。

接近1.0的近似值虽然可以接受,但衰减速度会随时间加快,例如0.99的权重下误差信号会在100个时间步后减少到原来的37%(0.99¹⁰⁰≈37%),0.9的权重则只有原来的0.0027%(0.9¹⁰⁰≈0.0027%)。

但尽管如此,这也为后来的深度学习残差思想奠定了理论基础。



直到1997年,Jürgen和Hochreiter共同提出了著名的LSTM,在该理论的基础上实现了进一步的扩展。

LSTM的核心单元是权重为1.0的循环残差连接,也就是恒定误差轮盘(CECs),这一机制保证了误差可在数百乃至数千时间步中保持不衰减,使LSTM能有效捕捉输入与输出之间的长时间滞后,对语音、语言等任务至关重要。

另外这篇LSTM论文也是20世纪引用次数最多的人工智能论文

1999年,LSTM演变出新的形态vanilla LSTM,在原来的基础上加入了初始值为1.0的遗忘门,使其具备可控的残差连接,既能保持长时依赖,又能在需要时重置记忆。

虽然这样做会重新引入一定的梯度消失,不过整体仍然处于可控状态。

到2005年,通过时间反向传播(BPTT)算法,LSTM可以展开为深度前馈神经网络(FNN),让每个输入序列的时间步都对应一个虚拟层,从而大幅增加了网络深度,可以处理更长时间滞后。
而无论是循环还是前馈,残差连接始终依赖权重固定为1.0。

接下来就是众所周知的2015年,首先在同年5月,需要优先提及Highway网络的贡献。



此前,基于反向传播的前馈神经网络的深度有限,只有20到30层,直到Highway网络的出现,才首次成功训练出上百层的深度前馈网络,比过去要深10倍以上。

其核心是将LSTM的门控残差思想从循环神经网络引入前馈网络,每层输出为g(x)x+t(x)h(x),其中x是来自前一层的数据,g、t、h表示带实值的非线性可微函数。

关键的残差部分g(x)x初始化为1.0,让Highway网络既能保持类似ResNet的纯残差连接,又能根据任务需要,以依赖上下文的方式自适应调整残差流,从而大幅提升深度可训练性。



最后再到12月,ResNet在ImageNet竞赛中大获成功,彻底将残差学习带入大众视线。

ResNet在残差部分设计上,与展开的LSTM以及初始化的Highway网络相似,如果将Highway网络的门恒定设置为1.0,就可以得到纯残差网络ResNet,而它们本质上都是1997年的LSTM前馈变体。

ResNet的残差连接允许误差在深层网络中稳定传播,使网络能够训练数百层,但Jürgen也指出,ResNet论文中并没有明确说明它实际上就是开部门控的Highway网络,二者之间存在相似的标准残差连接。



总结就是,LSTM与Highway网络分别奠定了循环和前馈网络的深度训练基础,ResNet则将这一原理成功应用于前馈网络,延续了自1991年Hochreiter首创的残差思想。

One More Thing

不过,这种说法目前仅代表Jürgen Schmidhuber的个人观点。(叠甲doge)

因为这已经不是他第一次对著名神经网络的起源提出质疑。

早在2021年,他就公开表示,LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer,都是受到了他实验室成果的启发



例如他认为AlexNet和VGG Net采用了他们的DanNet;GAN是对他在1990年提出的Adversarial Curiosity原则的应用;Transformer的变体,即线性Transformer,是对他提出的快速权重存储系统的延伸。

但除了无可争议的LSTM归属,其他几项至今都没有得到普遍认可。

甚至衍生出这样一种说法:“Schmidhuber is all you need.”




[1]https://x.com/SchmidhuberAI/status/1972300268550369631
[2]https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html
[3]https://mp.weixin.qq.com/s/XkGs9rsSlI4D6oNv52pfOw

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

云霄纪史观
2026-03-26 17:17:24
陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

猎云网
2026-03-19 15:28:10
张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

冷桂零落
2026-03-26 22:55:08
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

黑鹰观军事
2026-03-25 17:12:13
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
30万!不是工资,是汪峰每个月要给的抚养费

30万!不是工资,是汪峰每个月要给的抚养费

小光侃娱乐
2026-03-25 16:45:05
30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

快科技
2026-03-26 17:01:50
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

萧竹轻语
2026-03-10 17:04:51
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
夏日清凉:一种关于存在的轻盈宣言

夏日清凉:一种关于存在的轻盈宣言

疾跑的小蜗牛
2026-03-26 21:48:38
重大转折!俄罗斯,公开下场了!

重大转折!俄罗斯,公开下场了!

大嘴说天下
2026-03-26 22:17:57
看是御姐,脸还能打,肉却 “软趴趴” 了

看是御姐,脸还能打,肉却 “软趴趴” 了

飛娱日记
2026-03-13 11:31:29
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
2026-03-27 00:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
健康
教育
时尚
本地

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

转头就晕的耳石症,能开车上班吗?

教育要闻

天天学习|走进课堂的“大朋友”

400万人爱过的女孩,被黄谣网暴180天后

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版