网易首页 > 网易号 > 正文 申请入驻

原作者带队,【长短记忆神经网络】杀回来了!

0
分享至

机器之心报道

编辑:蛋酱

LSTM:这次重生,我要夺回 Transformer 拿走的一切。

20 世纪 90 年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM 经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,以可并行自注意力为核心 Transformer 横空出世之后,LSTM 自身所存在的局限性使其风光不再。

当人们都以为 Transformer 在语言模型领域稳坐江山的时候,LSTM 又杀回来了 —— 这次,是以 xLSTM 的身份。

5 月 8 日,LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。


论文的所属机构中还出现了一家叫做「NXAI」的公司,Sepp Hochreiter 表示:「借助 xLSTM,我们缩小了与现有最先进 LLM 的差距。借助 NXAI,我们已开始构建自己的欧洲 LLM。」


  • 论文标题:xLSTM: Extended Long Short-Term Memory

  • 论文链接:https://arxiv.org/pdf/2405.04517

具体来说,xLSTM 从三个层面解决了 LSTM 以往所存在的局限性:

(i) 无法修改存储决策。

可以通过「最近邻搜索」(Nearest Neighbor Search)问题来举例说明这一局限性:在给定参考向量的情况下,必须按顺序扫描序列,寻找最相似的向量,以便在序列末端提供其附加值。图 2 左侧显示了这项任务的均方误差。当发现更相似的向量时,LSTM 难以修改存储的值,而新的 xLSTM 通过指数门控弥补了这一限制。


(ii) 存储容量有限,即信息必须压缩成标量单元状态。

图 2 右侧给出了 Wikitext103 上不同 token 频率的 token 预测困惑度。由于 LSTM 的存储容量有限,它在不常见 token 上的表现较差。xLSTM 通过矩阵内存解决了这一问题。

(iii) 由于内存混合而缺乏可并行性,需要进行顺序处理。例如,从一个时间步到下一个时间步的隐藏状态之间的隐藏 - 隐藏连接。

与此同时,Sepp Hochreiter 和团队在这篇新论文中回答了一个关键问题:如果克服这些局限性并将 LSTM 扩展到当前大语言模型的规模时,能实现怎样的性能?

将 LSTM 扩展到数十亿参数

为了克服 LSTM 的局限性,xLSTM 对等式(1)中的 LSTM 理念进行了两项主要修改。


在原来的 LSTM 中,恒定误差选择轮盘是由单元输入 z_t 对单元状态 c_(t-1)(绿色)进行的加法更新,并由 sigmoid 门(蓝色)进行调节。输入门 i_t 和遗忘门 f_t 控制这一更新,而输出门 o_t 控制存储单元的输出,即隐藏状态 h_t。存储单元的状态被 ψ 归一化或压缩,然后输出门控得到隐藏状态。

xLSTM 的修改包括指数门控和新颖的内存结构,因此丰富了 LSTM 家族的两个成员:

(i) sLSTM(第 2.2 节),具有标量内存、标量更新和内存混合功能;

(ii) mLSTM(第 2.3 节),具有矩阵内存和协方差(外积)更新规则,完全可并行处理。

sLSTM 和 mLSTM 都通过指数门控增强了 LSTM。为了实现并行化,mLSTM 放弃了内存混合,即隐藏 - 隐藏递归连接。mLSTM 和 sLSTM 都可以扩展到多个存储单元,其中 sLSTM 具有跨单元内存混合的特点。此外,sLSTM 可以有多个头,但不存在跨头的内存混合,而只存在每个头内单元间的内存混合。通过引入 sLSTM 头和指数门控,研究者建立了一种新的内存混合方式。对于 mLSTM 而言,多头和多单元是等价的。

将这些新的 LSTM 变体集成到残差块模块中,就得到了 xLSTM 块。将这些 xLSTM 块剩余堆叠到架构中,就形成了 xLSTM 架构。xLSTM 架构及其组件见图 1。


xLSTM 块应在高维空间中对过去进行非线性总结,以便更好地分离不同的历史或上下文。分离历史是正确预测下一个序列元素(如下一个 token)的先决条件。研究者在此采用了 Cover 定理,该定理指出,在高维空间中,非线性嵌入模式比在原始空间中更有可能被线性分离。

他们考虑了两种残差块结构:(i) post up-projection 的残差块(如 Transformer),它非线性地概括了原始空间中的历史,然后线性地映射到高维空间,应用非线性激活函数,再线性地映射回原始空间(图 3 左侧和图 1 第三栏,更详细的版本见图 9)。(ii) pre up-projection 的残差块(如状态空间模型),它线性地映射到高维空间,在高维空间中非线性地总结历史,然后线性地映射回原始空间。对于包含 sLSTM 的 xLSTM 块,研究者主要使用了 post up-projection 块。对于包含 mLSTM 的 xLSTM 块,使用 pre up-projection 块,因为在高维空间中内存容量会变大。



实验

随后,研究者对 xLSTM 进行了实验评估,并将其与现有的语言建模方法进行了比较。

第 4.1 节讨论了 xLSTM 在合成任务中的具体能力。首先,研究者测试了 xLSTM 的新指数门控与内存混合在形式化语言上的有效性。然后,他们评估了 xLSTM 的新矩阵内存在多次查询联想记忆任务(Multi-Query Associative Recall,MQAR)中的有效性。最后,研究者评估了 xLSTM 在 Long Range Arena(LRA)中处理长序列的性能。



第 4.2 节比较了当前各种语言建模方法的验证集复杂度,包括在同一数据集上对 xLSTM 进行消融研究,然后对不同方法的缩放行为进行评估。

研究者在自回归语言建模设置中使用 SlimPajama 的 15B token 训练了 xLSTM、Transformers、状态空间模型(SSM)等模型。表 1 中的结果显示,xLSTM 在验证复杂度方面优于所有现有方法。


图 6 显示了该实验的扩展结果,表明 xLSTM 对于更大规模的模型也有良好的表现。


消融研究则表明,性能改进源于指数门控和矩阵内存。


第 4.3 节进行了更深入的语言建模实验。

研究者增加了训练数据量,对来自 SlimPajama 的 300B 个 token 进行了训练,并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型(125M、350M、760M 和 1.3B),进行了深入的评估。首先,评估这些方法在推断较长语境时的表现;其次,通过验证易混度和下游任务的表现来测试这些方法;此外,在 PALOMA 语言基准数据集的 571 个文本域上评估了这些方法;最后,评估了不同方法的扩展行为,但使用的训练数据多了 20 倍。

可以看出,xLSTM 在性能和扩展性上都更胜一筹。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部:如果菲方向中方提前通报,我们可以允许菲方撤离“坐滩”军舰相关人员

外交部:如果菲方向中方提前通报,我们可以允许菲方撤离“坐滩”军舰相关人员

环球网资讯
2024-06-07 15:34:34
好爱这片沙滩

好爱这片沙滩

缤纷糖果屋
2024-06-07 14:51:24
44万台军,3.5万美军,4.5万日军!若收台,须做好美日参战的准备

44万台军,3.5万美军,4.5万日军!若收台,须做好美日参战的准备

简读视觉
2024-06-06 19:55:02
闹大了!红领巾变红披巾,新系法引热议,评论区间谍论,炸锅了!

闹大了!红领巾变红披巾,新系法引热议,评论区间谍论,炸锅了!

皖声微言
2024-06-06 12:12:48
最惨收购者:大股东刚掏3.54亿入主上市公司,一天跌成863万元市值

最惨收购者:大股东刚掏3.54亿入主上市公司,一天跌成863万元市值

红星新闻
2024-06-06 17:16:23
多家银行悄然试水月供“先息后本”

多家银行悄然试水月供“先息后本”

南方都市报
2024-06-07 13:56:05
刘烨儿子疑遭同学控诉,开黄腔不尊重女生,一年追十几个女生!

刘烨儿子疑遭同学控诉,开黄腔不尊重女生,一年追十几个女生!

娱小小新
2024-06-06 13:59:25
电讯报:格拉利什落选在队内引起轩然大波有球员找主帅要说法

电讯报:格拉利什落选在队内引起轩然大波有球员找主帅要说法

直播吧
2024-06-07 06:50:06
逆天9.9分,HBO杀红眼,创下美剧史第一惨案

逆天9.9分,HBO杀红眼,创下美剧史第一惨案

影探
2024-06-06 13:35:06
裸体画见过,2800万的画你见过吗?

裸体画见过,2800万的画你见过吗?

书之大法
2024-06-07 18:14:14
石人峡事件白衣女是月入近万的退休老师,登山前最后合照令人不解

石人峡事件白衣女是月入近万的退休老师,登山前最后合照令人不解

棒棒糖画画
2024-06-07 00:49:01
杨爸遛鸟事件后又整活,小杨哥回应:为展示腿功。网友:真会玩!

杨爸遛鸟事件后又整活,小杨哥回应:为展示腿功。网友:真会玩!

糖果屋主
2024-06-07 18:03:37
在老婆的包包里发现出轨证据,戴绿帽子的我准备报复她

在老婆的包包里发现出轨证据,戴绿帽子的我准备报复她

马军情感故事
2024-05-30 10:51:59
8000万年薪!巴特勒超越布朗,排队向火箭道歉吧,哈登还蒙在鼓里

8000万年薪!巴特勒超越布朗,排队向火箭道歉吧,哈登还蒙在鼓里

小宸宸混奖
2024-06-07 11:24:22
刘和平:美国加速向台湾交付武器?

刘和平:美国加速向台湾交付武器?

直新闻
2024-06-06 22:30:08
CBA3消息:周鹏到期辽粤没签,任骏飞韩德君可留队,杜锋再次冲冠

CBA3消息:周鹏到期辽粤没签,任骏飞韩德君可留队,杜锋再次冲冠

阿信点评
2024-06-07 19:59:28
湖南:小伙捧鲜花表白女技师,做足疗一见钟情,网友:长得很哇塞

湖南:小伙捧鲜花表白女技师,做足疗一见钟情,网友:长得很哇塞

百晓史
2024-06-02 09:09:36
用导弹打航母?再厉害的导弹,也只能击伤航母,根本无法击沉

用导弹打航母?再厉害的导弹,也只能击伤航母,根本无法击沉

作家李楠枫
2024-05-15 23:57:11
台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

台湾问题根本不是武统与和统的问题了,而是以下这两方面问题

星辰故事屋
2024-05-24 20:01:38
云南59岁老妇藏情夫在阁楼24年,2012年被发现,原因是为何?

云南59岁老妇藏情夫在阁楼24年,2012年被发现,原因是为何?

可乐86
2024-06-02 08:40:42
2024-06-07 21:22:44
机器学习与Python社区
机器学习与Python社区
机器学习算法与Python
2452文章数 10251关注度
往期回顾 全部

科技要闻

6家大模型抢答高考作文,谁是你心中的Top1

头条要闻

于正新剧刚热播就遭举报 每集超45分钟被指踩"红线"

头条要闻

于正新剧刚热播就遭举报 每集超45分钟被指踩"红线"

体育要闻

优势在我?中国足球有自己的节奏

娱乐要闻

汤唯抵达巴黎将担任奥运火炬手

财经要闻

身陷退市股的投资者:我的钱瞬间没了

汽车要闻

2.0T混动售20.98万元起 福特蒙迪欧运动版上市

态度原创

时尚
旅游
游戏
数码
军事航空

夏天穿T恤,她们都在参考韩系和法式搭配!

旅游要闻

上海迪士尼年卡最高档位卡种八折优惠改为满减

OMG上单跑了?知情人爆料:cube眼红陪玩,又一直被喷!已经回家

数码要闻

中国首款民用宽带卫星上网设备发布:售价29800元

军事要闻

俄罗斯核潜艇将罕见访问古巴 古方强调"未携带核武器"

无障碍浏览 进入关怀版