网易首页 > 网易号 > 正文 申请入驻

原作者带队,LSTM真杀回来了!

0
分享至

机器之心报道

编辑:蛋酱

LSTM:这次重生,我要夺回 Transformer 拿走的一切。

20 世纪 90 年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM 经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,以可并行自注意力为核心 Transformer 横空出世之后,LSTM 自身所存在的局限性使其风光不再。

当人们都以为 Transformer 在语言模型领域稳坐江山的时候,LSTM 又杀回来了 —— 这次,是以 xLSTM 的身份。

5 月 8 日,LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。

论文的所属机构中还出现了一家叫做「NXAI」的公司,Sepp Hochreiter 表示:「借助 xLSTM,我们缩小了与现有最先进 LLM 的差距。借助 NXAI,我们已开始构建自己的欧洲 LLM。」

  • 论文标题:xLSTM: Extended Long Short-Term Memory
  • 论文链接:https://arxiv.org/pdf/2405.04517

具体来说,xLSTM 从三个层面解决了 LSTM 以往所存在的局限性:

(i) 无法修改存储决策。

可以通过「最近邻搜索」(Nearest Neighbor Search)问题来举例说明这一局限性:在给定参考向量的情况下,必须按顺序扫描序列,寻找最相似的向量,以便在序列末端提供其附加值。图 2 左侧显示了这项任务的均方误差。当发现更相似的向量时,LSTM 难以修改存储的值,而新的 xLSTM 通过指数门控弥补了这一限制。

(ii) 存储容量有限,即信息必须压缩成标量单元状态。

图 2 右侧给出了 Wikitext103 上不同 token 频率的 token 预测困惑度。由于 LSTM 的存储容量有限,它在不常见 token 上的表现较差。xLSTM 通过矩阵内存解决了这一问题。

(iii) 由于内存混合而缺乏可并行性,需要进行顺序处理。例如,从一个时间步到下一个时间步的隐藏状态之间的隐藏 - 隐藏连接。

与此同时,Sepp Hochreiter 和团队在这篇新论文中回答了一个关键问题:如果克服这些局限性并将 LSTM 扩展到当前大语言模型的规模时,能实现怎样的性能?

将 LSTM 扩展到数十亿参数

为了克服 LSTM 的局限性,xLSTM 对等式(1)中的 LSTM 理念进行了两项主要修改。

在原来的 LSTM 中,恒定误差选择轮盘是由单元输入 z_t 对单元状态 c_(t-1)(绿色)进行的加法更新,并由 sigmoid 门(蓝色)进行调节。输入门 i_t 和遗忘门 f_t 控制这一更新,而输出门 o_t 控制存储单元的输出,即隐藏状态 h_t。存储单元的状态被 ψ 归一化或压缩,然后输出门控得到隐藏状态。

xLSTM 的修改包括指数门控和新颖的内存结构,因此丰富了 LSTM 家族的两个成员:

(i) sLSTM(第 2.2 节),具有标量内存、标量更新和内存混合功能;

(ii) mLSTM(第 2.3 节),具有矩阵内存和协方差(外积)更新规则,完全可并行处理。

sLSTM 和 mLSTM 都通过指数门控增强了 LSTM。为了实现并行化,mLSTM 放弃了内存混合,即隐藏 - 隐藏递归连接。mLSTM 和 sLSTM 都可以扩展到多个存储单元,其中 sLSTM 具有跨单元内存混合的特点。此外,sLSTM 可以有多个头,但不存在跨头的内存混合,而只存在每个头内单元间的内存混合。通过引入 sLSTM 头和指数门控,研究者建立了一种新的内存混合方式。对于 mLSTM 而言,多头和多单元是等价的。

将这些新的 LSTM 变体集成到残差块模块中,就得到了 xLSTM 块。将这些 xLSTM 块剩余堆叠到架构中,就形成了 xLSTM 架构。xLSTM 架构及其组件见图 1。

xLSTM 块应在高维空间中对过去进行非线性总结,以便更好地分离不同的历史或上下文。分离历史是正确预测下一个序列元素(如下一个 token)的先决条件。研究者在此采用了 Cover 定理,该定理指出,在高维空间中,非线性嵌入模式比在原始空间中更有可能被线性分离。

他们考虑了两种残差块结构:(i) post up-projection 的残差块(如 Transformer),它非线性地概括了原始空间中的历史,然后线性地映射到高维空间,应用非线性激活函数,再线性地映射回原始空间(图 3 左侧和图 1 第三栏,更详细的版本见图 9)。(ii) pre up-projection 的残差块(如状态空间模型),它线性地映射到高维空间,在高维空间中非线性地总结历史,然后线性地映射回原始空间。对于包含 sLSTM 的 xLSTM 块,研究者主要使用了 post up-projection 块。对于包含 mLSTM 的 xLSTM 块,使用 pre up-projection 块,因为在高维空间中内存容量会变大。

实验

随后,研究者对 xLSTM 进行了实验评估,并将其与现有的语言建模方法进行了比较。

第 4.1 节讨论了 xLSTM 在合成任务中的具体能力。首先,研究者测试了 xLSTM 的新指数门控与内存混合在形式化语言上的有效性。然后,他们评估了 xLSTM 的新矩阵内存在多次查询联想记忆任务(Multi-Query Associative Recall,MQAR)中的有效性。最后,研究者评估了 xLSTM 在 Long Range Arena(LRA)中处理长序列的性能。

第 4.2 节比较了当前各种语言建模方法的验证集复杂度,包括在同一数据集上对 xLSTM 进行消融研究,然后对不同方法的缩放行为进行评估。

研究者在自回归语言建模设置中使用 SlimPajama 的 15B token 训练了 xLSTM、Transformers、状态空间模型(SSM)等模型。表 1 中的结果显示,xLSTM 在验证复杂度方面优于所有现有方法。

图 6 显示了该实验的扩展结果,表明 xLSTM 对于更大规模的模型也有良好的表现。

消融研究则表明,性能改进源于指数门控和矩阵内存。

第 4.3 节进行了更深入的语言建模实验。

研究者增加了训练数据量,对来自 SlimPajama 的 300B 个 token 进行了训练,并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型(125M、350M、760M 和 1.3B),进行了深入的评估。首先,评估这些方法在推断较长语境时的表现;其次,通过验证易混度和下游任务的表现来测试这些方法;此外,在 PALOMA 语言基准数据集的 571 个文本域上评估了这些方法;最后,评估了不同方法的扩展行为,但使用的训练数据多了 20 倍。

可以看出,xLSTM 在性能和扩展性上都更胜一筹。

更多研究细节,可参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人不会无缘无故患上糖尿病!专家发现:患糖尿病,多半爱干这9事

人不会无缘无故患上糖尿病!专家发现:患糖尿病,多半爱干这9事

岐黄传人孙大夫
2025-12-31 13:00:06
马杜罗之子号召支持者上街抗议美国入侵行径

马杜罗之子号召支持者上街抗议美国入侵行径

新华社
2026-01-05 13:39:44
女网红在柬埔寨流浪已找到,前后反差,让人脊背发凉

女网红在柬埔寨流浪已找到,前后反差,让人脊背发凉

半耳聆
2026-01-05 11:56:23
2026年地方政府发债拉开序幕 山东省率先发行723.81亿元

2026年地方政府发债拉开序幕 山东省率先发行723.81亿元

证券时报
2026-01-05 12:03:02
特朗普突然发动战争,中国代表团还在委内瑞拉!

特朗普突然发动战争,中国代表团还在委内瑞拉!

胜研集
2026-01-03 17:14:34
曼联官方:阿莫林不再担任球队主帅,达伦·弗莱彻将担任代理主教练

曼联官方:阿莫林不再担任球队主帅,达伦·弗莱彻将担任代理主教练

极目新闻
2026-01-05 18:26:24
业界微坦天花板?田中宁宁从暴力身型到发片机器,她到底经历了啥

业界微坦天花板?田中宁宁从暴力身型到发片机器,她到底经历了啥

素然追光
2026-01-06 05:35:03
接触的人多了你会明白如果一个人还在穿5年前的衣服只说明3个问题

接触的人多了你会明白如果一个人还在穿5年前的衣服只说明3个问题

深度报
2026-01-05 22:52:09
“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

“最美新生儿”火了,似乎在娘胎整容化妆一般,全网都想沾喜气

菁妈育儿
2026-01-03 12:44:30
米哈游旗下游戏投资人撤资?谣言,已被上海警方行政处罚

米哈游旗下游戏投资人撤资?谣言,已被上海警方行政处罚

贝壳财经
2026-01-05 16:35:36
真相大白!颜丙涛被爆提前回归赛场是真是假,3方面原因给出答案

真相大白!颜丙涛被爆提前回归赛场是真是假,3方面原因给出答案

曹说体育
2026-01-05 22:56:47
泪崩了!母亲走后22天,父亲凌晨去世,一18岁女孩独自放报丧炮…

泪崩了!母亲走后22天,父亲凌晨去世,一18岁女孩独自放报丧炮…

火山詩话
2026-01-05 05:33:10
再见,程序员!马斯克宣判:奇点就在2026

再见,程序员!马斯克宣判:奇点就在2026

新智元
2026-01-05 11:23:24
聂远女儿和李湘女儿同框,能看得出气质根本不是用钱打扮出来的

聂远女儿和李湘女儿同框,能看得出气质根本不是用钱打扮出来的

手工制作阿歼
2026-01-06 02:57:08
哥伦比亚总统:“特朗普先生,请停止诽谤”

哥伦比亚总统:“特朗普先生,请停止诽谤”

界面新闻
2026-01-05 11:47:29
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
爆冷,1.6秒3分压哨绝杀,布克带领太阳队108-105战胜雷霆队

爆冷,1.6秒3分压哨绝杀,布克带领太阳队108-105战胜雷霆队

好火子
2026-01-06 05:45:23
河北农村取暖问题,不能再耽搁了

河北农村取暖问题,不能再耽搁了

齐鲁壹点
2026-01-05 15:20:13
东北丢不了孩子!男子街头捡迷路小女孩,路人互相紧盯:但凡把车开1米,会被直接截停

东北丢不了孩子!男子街头捡迷路小女孩,路人互相紧盯:但凡把车开1米,会被直接截停

潇湘晨报
2026-01-05 16:58:18
美国发出“拦截军售就开战”的威胁

美国发出“拦截军售就开战”的威胁

安安说
2026-01-03 12:35:28
2026-01-06 06:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12060文章数 142529关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

家居
游戏
房产
本地
军事航空

家居要闻

白色大理石 奢华现代

魔坛每周节奏丨魔超联赛Life大秀光速GG,Lyn神今晚迎首秀

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

军事要闻

马杜罗预计5日在纽约"首次出庭"

无障碍浏览 进入关怀版