网易首页 > 网易号 > 正文 申请入驻

LSTM之父向何恺明开炮:我学生才是残差学习奠基人

0
分享至


来源:量子位 | 公众号 QbitAI

鹭羽 发自 凹非寺

何恺明残差学习奠基人的身份,也被“挑战”了。

为什么要说“也”?因为发起讨论的,又双叒是我们熟悉的Jürgen Schmidhuber——LSTM之父。

不过这一次,他不是要把功劳揽到自己身上,而是替LSTM的另一位作者Sepp Hochreiter发声:

残差学习这把改变深度学习格局的 “钥匙”,其实早在30年前就已经诞生——Sepp Hochreiter在1991年就在使用循环残差连接解决梯度消失问题。


有一说一,Jürgen争title也不是第一次了,作为深度学习的先驱者,Jürgen自认为自己的早期贡献被人为忽视了。

ResNet发布的同年,深度学习三巨头BengioHintonLeCun在Nature上联合发表有关DL的综述论文,其中大量引用他们三人的自身成果,却对Jürgen等人只字不提。

随即他们展开了长达多年的争论,尤其是在18年的图灵奖结果公布后,Jürgen更是洋洋洒洒写了篇援引200多条文献的小作文反击。

之后在GAN的原创争议上,双方也是争执不休,要知道GAN的提出者正是Bengio的得意门生。

而如今有关残差学习的创始之争,也是因为Jürgen自认为将残差学习这一成果的发现完全归因于何恺明团队有失偏颇。

不过正如网友所说:

从Hochreiter到ResNet,光芒随时间递归延续。阴影是被模糊的归属,但真理始终不变:1991年的种子闪耀着每一层。


30年前的第一次提出

Jürgen Schmidhube这次要讲的故事始于1991年。

当时还是Jürgen学生的Sepp Hochreiter,正在着手撰写自己的博士论文,也正是在这篇论文里,他首次系统性分析了RNN的梯度消失问题,并提出用循环残差连接解决。


循环残差连接的核心思想相当简单:一个具有恒等激活函数的神经单元自连接,且权重固定为1.0,使其在每个时间步中仅将输入叠加到先前状态,该单元只作为增量积分器存在。

于是误差信号就能在反向传播中保持恒定,不会消失或爆炸。

不过与此前任意实数权重的自连接不同,只有权重严格为1.0,才能完全避免梯度问题。

接近1.0的近似值虽然可以接受,但衰减速度会随时间加快,例如0.99的权重下误差信号会在100个时间步后减少到原来的37%(0.99¹⁰⁰≈37%),0.9的权重则只有原来的0.0027%(0.9¹⁰⁰≈0.0027%)。

但尽管如此,这也为后来的深度学习残差思想奠定了理论基础。


直到1997年,Jürgen和Hochreiter共同提出了著名的LSTM,在该理论的基础上实现了进一步的扩展。

LSTM的核心单元是权重为1.0的循环残差连接,也就是恒定误差轮盘(CECs),这一机制保证了误差可在数百乃至数千时间步中保持不衰减,使LSTM能有效捕捉输入与输出之间的长时间滞后,对语音、语言等任务至关重要。

另外这篇LSTM论文也是20世纪引用次数最多的人工智能论文

1999年,LSTM演变出新的形态vanilla LSTM,在原来的基础上加入了初始值为1.0的遗忘门,使其具备可控的残差连接,既能保持长时依赖,又能在需要时重置记忆。

虽然这样做会重新引入一定的梯度消失,不过整体仍然处于可控状态。

到2005年,通过时间反向传播(BPTT)算法,LSTM可以展开为深度前馈神经网络(FNN),让每个输入序列的时间步都对应一个虚拟层,从而大幅增加了网络深度,可以处理更长时间滞后。
而无论是循环还是前馈,残差连接始终依赖权重固定为1.0。

接下来就是众所周知的2015年,首先在同年5月,需要优先提及Highway网络的贡献。


此前,基于反向传播的前馈神经网络的深度有限,只有20到30层,直到Highway网络的出现,才首次成功训练出上百层的深度前馈网络,比过去要深10倍以上。

其核心是将LSTM的门控残差思想从循环神经网络引入前馈网络,每层输出为g(x)x+t(x)h(x),其中x是来自前一层的数据,g、t、h表示带实值的非线性可微函数。

关键的残差部分g(x)x初始化为1.0,让Highway网络既能保持类似ResNet的纯残差连接,又能根据任务需要,以依赖上下文的方式自适应调整残差流,从而大幅提升深度可训练性。


最后再到12月,ResNet在ImageNet竞赛中大获成功,彻底将残差学习带入大众视线。

ResNet在残差部分设计上,与展开的LSTM以及初始化的Highway网络相似,如果将Highway网络的门恒定设置为1.0,就可以得到纯残差网络ResNet,而它们本质上都是1997年的LSTM前馈变体。

ResNet的残差连接允许误差在深层网络中稳定传播,使网络能够训练数百层,但Jürgen也指出,ResNet论文中并没有明确说明它实际上就是开部门控的Highway网络,二者之间存在相似的标准残差连接。


总结就是,LSTM与Highway网络分别奠定了循环和前馈网络的深度训练基础,ResNet则将这一原理成功应用于前馈网络,延续了自1991年Hochreiter首创的残差思想。

One More Thing

不过,这种说法目前仅代表Jürgen Schmidhuber的个人观点。(叠甲doge)

因为这已经不是他第一次对著名神经网络的起源提出质疑。

早在2021年,他就公开表示,LSTM、ResNet、AlexNet、VGG Net、GAN以及Transformer,都是受到了他实验室成果的启发


例如他认为AlexNet和VGG Net采用了他们的DanNet;GAN是对他在1990年提出的Adversarial Curiosity原则的应用;Transformer的变体,即线性Transformer,是对他提出的快速权重存储系统的延伸。

但除了无可争议的LSTM归属,其他几项至今都没有得到普遍认可。

甚至衍生出这样一种说法:“Schmidhuber is all you need.”


参考链接:
[1]https://x.com/SchmidhuberAI/status/1972300268550369631
[2]https://people.idsia.ch/~juergen/who-invented-residual-neural-networks.html
[3]

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

时光在作祟
2026-02-04 13:40:17
中央财办 中央农办:确保绝大多数农户原有承包地顺利延包,绝不能推倒重来 打乱重分

中央财办 中央农办:确保绝大多数农户原有承包地顺利延包,绝不能推倒重来 打乱重分

闪电新闻
2026-02-04 19:06:47
机构:预计2026年黄金均价为4,746.50美元/盎司

机构:预计2026年黄金均价为4,746.50美元/盎司

财联社
2026-02-04 20:53:07
刘虎老师事件,最后的絮叨

刘虎老师事件,最后的絮叨

林中木白
2026-02-04 10:50:41
宝马X5在杭州一商场停了8100多小时,计费超1.6万元,律师:商场以围栏方式“锁车”存在侵权风险

宝马X5在杭州一商场停了8100多小时,计费超1.6万元,律师:商场以围栏方式“锁车”存在侵权风险

极目新闻
2026-02-04 22:40:16
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

女主劲爆身材在中国台湾大火 游戏作者直呼"太懂艺术"

游民星空
2026-02-04 16:28:33
国务院安委办印发紧急通知

国务院安委办印发紧急通知

日照日报
2026-02-03 21:28:25
年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

Home范
2026-02-01 16:15:03
美国3.5亿人不愁,俄罗斯1.5亿人不急,为啥中国14亿人慌着催生?

美国3.5亿人不愁,俄罗斯1.5亿人不急,为啥中国14亿人慌着催生?

复转这些年
2026-01-01 10:17:25
王楚然这个人,好看是好看,但是却有个致命的缺点。

王楚然这个人,好看是好看,但是却有个致命的缺点。

大秦共和国
2026-02-04 14:32:39
杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

杨兰兰搬新家,入住顶级海景公寓!同楼层房源周租高达$8500

澳洲红领巾
2026-02-04 14:13:33
韭菜为啥永远割不完?

韭菜为啥永远割不完?

混知
2026-02-04 17:06:53
北大研究发现:洋葱可以在24小时内杀死49%癌细胞,是真的吗?

北大研究发现:洋葱可以在24小时内杀死49%癌细胞,是真的吗?

Thurman在昆明
2026-02-03 18:22:57
韩媒:去年归化韩国的人数达1.1万,56.5%是中国人

韩媒:去年归化韩国的人数达1.1万,56.5%是中国人

随波荡漾的漂流瓶
2026-02-04 12:20:06
谷正文晚年告诉记者:这辈子后悔的事,就是吴石案

谷正文晚年告诉记者:这辈子后悔的事,就是吴石案

古来者说
2026-02-03 12:39:57
深夜4股公布业绩,3个业绩大幅增长,1个业绩暴雷,啤酒大增

深夜4股公布业绩,3个业绩大幅增长,1个业绩暴雷,啤酒大增

风风顺
2026-02-05 00:00:03
巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

巴拿马失去改错机会,中方反击开始!港澳办:巴将会付出双重代价

墨兰史书
2026-02-04 18:52:40
律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

律师谈吃娃娃菜中毒夫妻被抓:最高判刑十年以上

大象新闻
2026-02-04 08:49:30
2026-02-05 01:52:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4520文章数 37401关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

与爱泼斯坦聚会视频公布后被追问 特朗普怒怼女记者

头条要闻

与爱泼斯坦聚会视频公布后被追问 特朗普怒怼女记者

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

手机
时尚
本地
家居
军事航空

手机要闻

苹果即将强制App使用iOS 26 SDK构建,微信要适配液态玻璃了?

60岁的刘嘉玲、章小蕙太美了!港女的魅力从不是少女感

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

家居要闻

灰白意境 光影奏鸣曲

军事要闻

卡扎菲儿子被暗杀:4名蒙面人员闯入住所

无障碍浏览 进入关怀版