网易首页 > 网易号 > 正文 申请入驻

人工智能的记忆

0
分享至

‍‍‍‍

撰文丨张天蓉

他不是第一个赋予神经网络“记忆”的人,但他发明的长短期记忆网络(LSTM),使得神经网络有了较长而切实有用的记忆,LSTM早就被Google、苹果、Amazon、Facebook……,用于实现语音识别和翻译等等功能,如今,LSTM已经成为最具商业化的AI成就之一……

“长短期记忆”-LSTM之父

于尔根·施密德胡伯 (Jürgen Schmidhuber,1963年1月17日—) 是德国计算机科学家,他在德国慕尼黑工业大学完成了本科学业。2004年至2009年,他在瑞士卢加诺的瑞士意大利语区大学担任人工智能教授。2021年10月1日,施密德胡伯正式加入阿卜杜拉国王科技大学,担任人工智能研究院院长。

1991年开始,施密德胡伯指导他一位学生塞普·霍赫赖特的博士论文,研究了传统记忆型循环神经网络(RNN)存在的一些问题,这项研究导致他们在1997年,共同发表了一篇关于一种新型循环神经网络的论文 [1] ,他们将此类型称之为长短期记忆网络(LSTM)。

长短期记忆网络当时并没有很受到业界的重视,有关LSTM的第一篇论文被会议拒绝,被麻省理工学院退稿。不过在随后的多年中,长短期记忆网络被人们广泛采用,因为它解决了当时RNN循环神经网络的几个短板。

LSTM这种神经网络架构,后来成为2010年代研究和商业应用中各种自然语言处理任务的主导技术,尽管其主导地位后来又被具更强大功能的Transformer所取代,但仍然在AI技术中发挥着重要作用。施密德胡伯除了这个主要贡献之外,还在GPU上实现了卷积神经网络(CNN)的显著加速,使其比CPU上的等效实现快了60倍。他也在元学习、生成对抗网络等方面作出贡献[2]。

2018年,谷歌大脑研究科学家David Ha与施密德胡伯一起提出“世界模型”,这种可以让人工智能在“梦境”中对外部环境的未来状态进行预测的新方法,再次吸引了人们的注意。

虽然施密德胡伯对AI作出卓越贡献,但比起通常人们心目中的“深度神经网络三巨头”,也是2018年图灵奖三位得主:辛顿、杨立昆、本吉奥来说,他的知名度差很多,好像不怎么受人待见。有业界人士认为,是施密德胡伯自己的对抗性格导致他的重大成就被低估,而施密德胡伯本人呢,则一直对很多事都愤愤不平,认为他和其他研究人员在深度学习领域的贡献没有得到充分认可。施密德胡伯与前述三位图灵奖得主都不对劲,在2015年还写了一篇“严厉而尖刻”的文章,称他们三人大量引用对方文章,“未能赞扬该领域的先驱者”等等。之后,杨立昆否认这一指责而使双方产生了更多的争论。

不过,施密德胡伯也许有些性格上的缺点,但无论如何,他仍然算是一名人工智能的先驱,被称为LSTM之父。

传统RNN循环神经网络

长短期记忆神经网络(LSTM)是一类改进了的循环神经网络 (Recurrent Neural Network或RNN) 。因此,我们首先简单介绍改进之前的RNN,或称它们为“传统的”循环神经网络。

人类有记忆,神经网络当然也需要记忆。不过,我们通常所指的前馈神经网络难以模拟记忆功能。前馈神经网络 (图2a) 是应用最广泛、发展最迅速的人工神经网络结构,在深度学习时代的各个应用领域,都发挥了重要作用。

2001年,本吉奥等人将概率统计方法引入神经网络,提出了第一个神经网络的语言模型。该模型使用前馈神经网络进行语言建模,用n个单词的向量作为输入,通过隐藏层可以预测下一个单词可能的概率分布。这一工作为神经网络在自然语言处理 (NLP) 领域的应用奠定了基础。

自然语言处理(NLP)旨在让计算机能够理解和生成人类语言。语言是一种时间序列数据,是按照时间先后排列成的一个集合。人工神经网络在处理如语言这类时间序列时,一个主要作用,是要了解每个输入项 (词汇) 的后期影响和预测未来可能出现的 (词汇) 。

循环神经网络(RNN)就是对人类记忆能力进行最简单模拟的神经网络,见图2b。

随着深度学习的发展,RNN开始在NLP领域崭露头角。从图2可见,前馈网络中各神经元分层排列,每个神经元只与前一层的神经元相连,接收前一层的输出,并输出给下一层,各层间没有反馈。也就是说,前馈网络的信息是从输入到输出一直“向前走”。而RNN网络不同,它与前馈网络的区别是引入了循环结构,它产生输出,复制输出并将其循环回网络。这种反馈的方式使RNN模型有了内部记忆,使它能够更方便地处理数据序列中前后项之间的关系。图2a和图2b说明了前馈神经网络和RNN之间的信息流的差异。

在前馈神经网络中,信息流从来不会触及一个节点两次,说明他们对以前收到的输入是没有记忆的,因此也不容易预测接下来会发生什么。就是说,前馈网络只考虑当前的输入,因此没有时间顺序的概念,而循环神经网络的状态,不仅受输入状态的影响,还受前一时刻状态的影响。因此,循环神经网络具有一定的记忆能力,会对前面的信息进行记忆并应用于当前输出的计算中。它们是具有内部存储器的算法,因而能在连续数据中产生预测结果。

以下例子可以解释RNN的记忆概念:假设你有一个前馈神经网络,你给它逐字输入一句话“蛋糕糖很甜”,当它处理了前面3个字之后,它已经把它们忘记了,因此,在处理“很”字时,它很难预测到接下来出现的是“甜”字,而有记忆的RNN则极有可能作出准确的预测。

为了更好地解释RNN是如何工作的,我们将RNN画成如图3所示(输入输出)从下向上的样子。并且,将RNN的工作过程按时间顺序展开成图3(等号右边)的序列。

展开的RNN序列中,信息逐步地从一个时间步传递到下一个时间步。因此,RNN也可以被看作是一个网络序列,例如图3中等号之后的5个神经网络,按时间顺序串在一起。

由图3可见,RNN在每个时间点都有两个输入,现在的和上一次的。即使是这“一次记忆”,也让RNN可做其他算法无法做的“预测”,例如看见“糖”和“很”两个字,基本可以预测下一个字是“甜”!

有了图3的展开也容易理解:RNN网络可以和前馈网络类似地利用“深度学习”及通过梯度下降和反向传播来调整权重参数,对逐个网络层进行训练。只是,这儿的所有概念都是相对于“时间步”而言的。

RNN的短板

从以上对传统RNN的描述,也不难看出它的弱点:记忆延续的时间太短了!例如上述例子中,只能记住上一步的。这个缺点,用AI的术语来说,叫做“长期依赖问题”。就是说,传统循环神经网络很难处理长距离的依赖关系,因为它们只具有“短期记忆”。

比如,给RNN输入一段较长的话:“去年我到重庆,学会了做川菜,特别喜欢吃重庆的辣子鸡和水煮牛,此外,我还在那儿学会了中文,跳中国舞唱国语歌,在那儿生活了半年,高兴极了,因此我今天在美国餐馆吃到这个菜,一点都不觉得【__】。”,很难预测【__】里面的词是什么?我们(人)一看就知道应该是“辣”!但RNN难以预测,因为相关的信息隔得太远了。

换言之,RNN难以分析输入数据与长时间步以后的信息关联,也无法靠“学习”来增强预测的能力。在理论上,通过调整参数,RNN是可以学习到时间久远的信息的。但是,实践中的结论是,RNN无法学习到久远之前的信息,长期记忆的学习过程对RNN失效。

为什么学都学不会呢?因为序列过长时,循环神经网络会出现“梯度消失”或者“梯度爆炸”的问题。对此我们简单地理解一下。

循环神经网络使用与前馈网络同样的方法进行“学习”,以此来调节网络的权重参数w。机器学习的过程中,用反向传播来计算目标函数对w的梯度。

简单而言,信息每传递一个时间步,信息的状态成为原来的W倍。那么,传递了n个时间步之后,信息状态是原来的Wn倍。一般来说,abs(W)<1,因此,当n很大时,Wn是非常小的一个数。这容易理解也基本符合人脑的事实。因为信息对后续状态的影响总是越来越小,最后几乎被遗忘。但人脑不同的是,同样的信息的反复刺激(学习)可以起作用。但RNN训练失效,因为非常小的Wn使得梯度值太小并且模型停止学习。这叫做“梯度消失”。

当算法赋予权重非常重要的值时,也会产生“梯度爆炸”,但这种情况较少。总的来说,RNN的梯度消失比梯度爆炸更难以解决。

长短期记忆LSTM

解决长期依赖问题有很多方法,其中霍赫赖特和施密德胡伯提出的长短时记忆网络(LSTM)[3]是比较常用的一个。

其实,长短时记忆网络的思路挺简单的。也就仍然是类比人类的记忆方式吧,我们经常听说有些人的长期记忆好,有些人短期记忆好,就是说,从生物学的角度看,人脑有长期和短期两种记忆类型。如前所述,传统RNN已经有了短期记忆的功能,那么,我们就再给他增加一个长期记忆的功能,问题不就解决了吗?

那我们就首先重温一下传统RNN的短期记忆功能:将图3中RNN展开后的网络结构画详细一点,显示于图4a中。传统循环神经网络的隐藏层只有一个状态h,在网络的每个时间步直接将它存起来,然后输入到下一个时间步,这就是短期记忆。

现在,LSTM的想法是再增加一个长期记忆状态c,并且,用一定的方式来控制c,让它保存较长时期的记忆。新增加的状态c,称为细胞单元(cell state)或记忆单元,见图4b。

LSTM网络中,不仅引入了一个记忆单元c,还引进了3个门电路来控制它,如图4b。图4b的左图是3个门电路开关与记忆单元关系的逻辑示意图,右图则展示了LSTM更为详细的结构。

LSTM的第一个门叫做“遗忘门”:人脑除了有长期记忆之外,也有遗忘的功能。人并不需要记住所有经历过的,而是只保留重要的信息,这样才能减轻大脑的压力。有记忆就有遗忘,遗忘是记忆中的特殊功能。遗忘门的作用就是决定我们要从原来的记忆单元Ct−1中,丢弃(忘记)什么信息,保留什么信息。遗忘门通过Sigmoid激活函数,输出一个在0到1之间的数值给记忆单元状态Ct−1。1表示全保留,0表示全忘记,也有0、1间的中间值。

第二个是输入门,它决定是否将当前的即时输入信息,作为长久记忆送到Ct中。最后是输出门,它决定是否将当前Ct中的信息,输出到下一级网络。

因此,从传统的RNN到LSTM,保持了类似的循环结构,不过每一个“时间步”神经网络的结构元件从1个增加到了4个,包括一个记忆单元和3个控制门。

LSTM使RNN能够长时间记住他们的输入,解决了梯度消失的问题。这是因为LSTM将他们的信息包含在了内存(记忆单元C)中,这很像计算机的内存,因为LSTM可以从内存读取、写入和删除信息,三个控制门可以控制这些操作,AI的网络比普通计算机优越的是,它还具有学习的能力。

图4b中显示的,是最典型的LSTM结构,实际应用中有很多改进,因而具有多种LSTM的变种。

例如2014年由Kyunghyun Cho 等人提出的门控循环单元[4](Gated Recurrent Unit,缩写为GRU),如图5所示。GRU将遗忘门和输入门结合起来,成为“更新门”。同时把记忆单元状态和隐藏状态合并,研究发现,GRU在复音音乐建模、语音信号建模和自然语言处理等某些任务上的表现与LSTM 相似,但这样简化之后,参数比LSTM少,因此比标准LSTM更简单,也更受欢迎。

参考文献:

[1]Sepp Hochreiter; Jürgen Schmidhuber (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780.

[2]Juergen Schmidhuber 的人工智能博客https://people.idsia.ch/~juergen/blog.html

[3]Understanding LSTM Networks:http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[4]Cho, Kyunghyun;van Merrienboer, Bart;Bahdanau, DZmitry;Bougares, Fethi;Schwenk, Holger;Bengio, Yoshua (2014)

来源:知识分子

原标题:他让人工智能有了“长短期记忆”

编辑:阿泊

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

1.2.

3.

4.

5.

6.

7.

8.

9.

10.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全国各地区人均居民存款排行:北京领跑,浙江亮眼,东北三省也很高

全国各地区人均居民存款排行:北京领跑,浙江亮眼,东北三省也很高

户外钓鱼哥阿旱
2026-04-18 12:49:37
下周预期要大涨方向!五大热点题材周末不断发酵  核心标的已梳理

下周预期要大涨方向!五大热点题材周末不断发酵 核心标的已梳理

元芳说投资
2026-04-19 17:03:48
微信这个开关不关,你住哪、干啥,别人全知道!快关掉!

微信这个开关不关,你住哪、干啥,别人全知道!快关掉!

侃故事的阿庆
2026-04-18 17:54:13
亨利·卡维尔为胸毛据理力争:一个被忽视的超人设计细节

亨利·卡维尔为胸毛据理力争:一个被忽视的超人设计细节

热搜摘要官
2026-04-19 00:06:49
进去就没命!四川黄泉路有去无回,政府封禁400年,至今无解!

进去就没命!四川黄泉路有去无回,政府封禁400年,至今无解!

网络易不易
2026-04-19 14:59:01
山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

山东乳山银滩“195平米复式房”1万元起拍,已有多人竞价,拍卖公司:产证面积97.94平米,另有赠送面积,非法拍可随时过户

极目新闻
2026-04-19 14:06:31
伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

伊朗向中国通报内幕!谈判团差点被美军“团灭”,连电话都不敢打

风信子的花
2026-04-19 16:46:59
美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

贱议你读史
2026-04-19 04:30:07
局势生变,全球接到消息,美军全部撤离,所有军事基地被叙国接管

局势生变,全球接到消息,美军全部撤离,所有军事基地被叙国接管

闻识
2026-04-19 21:08:29
以军:打死阿里·里达·阿巴斯

以军:打死阿里·里达·阿巴斯

南方都市报
2026-04-19 21:17:31
世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

求球不落谛
2026-04-19 23:35:24
世锦赛战报:丁俊晖王者归来7-2领先,中国冠军连输6局6-10一轮游

世锦赛战报:丁俊晖王者归来7-2领先,中国冠军连输6局6-10一轮游

球场没跑道
2026-04-19 20:28:00
罕见!黄仁勋谈芯片禁售突然情绪失控:你不是在和一个Loser说话

罕见!黄仁勋谈芯片禁售突然情绪失控:你不是在和一个Loser说话

DeepAuto车探
2026-04-19 20:37:54
被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

被豆包害惨了的大学生们!网友:豆包就是愚蠢且勤劳的老实人

夜深爱杂谈
2025-12-02 20:51:10
男演员宣布中止合作!知名品牌翻车,创始人深夜致歉:严重失责,已开除涉事主播

男演员宣布中止合作!知名品牌翻车,创始人深夜致歉:严重失责,已开除涉事主播

鲁中晨报
2026-04-17 11:28:05
中俄关系比传统“联盟”更深厚、更可靠

中俄关系比传统“联盟”更深厚、更可靠

看看新闻Knews
2026-04-19 08:36:10
曼城2-1阿森纳,赛后评分:不是哈兰德第一,曼城10号第一

曼城2-1阿森纳,赛后评分:不是哈兰德第一,曼城10号第一

侧身凌空斩
2026-04-20 01:26:44
胡锡进以安全代言沃尔沃,是整个社会的耻辱

胡锡进以安全代言沃尔沃,是整个社会的耻辱

黔有虎
2026-04-19 17:34:12
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

小学生拒绝“借”车遭殴打还被搜家,8人未满14岁不处罚、1人被处行拘免执行,家长称看施暴视频气得吃救心丸

极目新闻
2026-04-19 22:39:27
2026-04-20 02:55:00
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
10083文章数 136525关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

艺术
数码
亲子
旅游
健康

艺术要闻

超模施特洛耶克写真曝光,简直美到窒息,别错过!

数码要闻

华为新机发布前瞻:阔折叠X Max+影像旗舰Pura 90,都没悬念了

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

旅游要闻

北京投入2.2亿元建成和田“三馆一院”

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版