网易首页 > 网易号 > 正文 申请入驻

RNN回归!Bengio新作大道至简与Transformer一较高下

0
分享至

新智元报道

编辑:alan

【新智元导读】近日,深度学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。

在Transformer统治的AI时代之下,

散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:

毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表现惊艳。

直到后来遭遇了反向训练的瓶颈,因Scaling Law而跌落神坛。

然而,人们并没有忘记RNN。

RWKV、Mamba、xLSTM等RNN衍生模型接连出现,欲挑战Transformer之霸主地位。

就在近日,又有重量级人物下场——

深度学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。

论文地址:https://arxiv.org/pdf/2410.01201v1

研究人员对传统的两种RNN架构LSTM和GRU,进行了大刀阔斧的改造,从中诞生了两个新模型:minLSTM和minGRU。

这俩极简主义的版本到底怎么样?咱们先看疗效。

首先是RNN最大的问题:训练速度。

上图展示了几种模型在T4 GPU上训练花费的时间,以及新模型带来的加速比。横轴为输入数据的序列长度,批量大小为64。

可以看到,相比于原版的LSTM和GRU,minLSTM、minGRU和Mamba的运行时间不会随序列长度而增加(后3个模型的线在左图中重叠了)。

当序列长度为4096时,新架构相对于传统版本达到了1300多倍的加速比!

相当于原版GRU需要3年才能做完的事情,minGRU一天就搞定了。

那么对线Transformer的战绩如何?

在本文测试的语言建模任务中,minGRU和minLSTM分别在600步左右达到最佳性能点。

相比之下,Transformer需要比minGRU多花大概2000步,训练速度慢了约2.5倍。

对此,YC上的网友表示:「我非常喜欢这个新架构的简单性」。

毕竟,俗话说的好,「最好的PR是那些删除代码的PR」。

模型架构

下面来感受一下极简模型的诞生过程。

首先,这是传统的RNN架构:

LSTM在RNN的每个cell中加入了比较复杂的门控:

三个门控(input gate、output gate、forget gate)和输入的分量,都通过线性投影和非线性激活函数来得出,并且依赖于上一个时刻的隐藏状态ht-1。

这些值再经过线性和非线性计算,得到本时刻的输出ct和隐藏状态ht。

GRU在LSTM的基础上做了一些简化:

少了显式计算ct,用于门控的项也缩减到2个,相应的参数量和计算量也减少了。

那么我们就从相对简单的GRU入手,开始改造。

改造的目的是使RNN能够应用并行扫描(Parallel Scan)算法,解决自身训练困难的问题。

简单来说,就是将网络中的计算改造成vt = at ⊙ vt−1 + bt的形式。

minGRU

第一步,公式中含有对之前隐藏状态ht-1的依赖,没办法用并行扫描,所以把ht-1直接删掉。

ht-1没了,负责调控ht-1的rt也没用了,删掉。

第二步,双曲正切函数(tanh)负责限制隐藏状态的范围,并减轻因sigmoid(σ)而导致的梯度消失。

但是现在ht-1和rt都没了,tanh也失去了存在的意义,删掉。

那么最终,minGRU就是下面这三个公式:

相比于原版,参数量和计算量再次减少,最重要的是能够使用并行扫描来显著加快训练速度。

minLSTM

经过上面的叙述,minLSTM的由来就很好理解了。

首先还是去除隐藏状态的依赖:

接着是拿掉相关的tanh:

最后,为了保证LSTM输出的尺度与时间无关,以及hidden state在缩放上与时间无关,还需要删掉output gate。

output gate没了,ct也就没必要单独存在了,删掉;剩下的两个门控通过归一化来调配hidden state进入的比例。

——emmm......好像变成GRU了,算了不管了。

最终改造好的minLSTM是下面这个样子:

Were RNNs All We Needed?

全新的RNN搞出来了,能打Transformer吗?

别急,先打内战证明价值。

除了传统的RNN(LSTM和GRU),这里特别关注与Mamba的比较。

首先是训练上的提升:

实验在批次大小64的情况下改变序列长度,测量了模型执行前向传递、计算损失和向后传递计算梯度的总运行时间以及内存占用。

在运行时间方面,minLSTM、minGRU与Mamba实现了类似的效率。

序列长度为512时的运行时间(超过100次的平均值),分别为 2.97、2.72和2.71毫秒;序列长度为4096时,运行时间分别为3.41、3.25和3.15。

相比之下,LSTM和GRU的运行时间随序列长度线性增加。所以序列长度为512时,minGRU和minLSTM的训练加速了175倍和235倍;序列长度为4096时,加速比达到了1324和1361。

内存方面,利用并行扫描算法时会创建更大的计算图,所以minGRU、minLSTM和Mamba ,比传统RNN需要更多的内存(大概多出88%)。

——但这并不重要,因为对于RNN来说,训练时间才是瓶颈。

去除隐藏状态的效果

minLSTM和minGRU的训练效率是通过降低它们的门控对先前隐藏状态的依赖来实现的。

尽管单层minLSTM或minGRU的门控只与输入有关,而与时间无关,但是在深度学习中,模型是通过堆叠模块来构建的。

从第二层开始,minLSTM和minGRU的门也将与时间相关,从而对更复杂的函数进行建模。

下表比较了不同层数的模型在选择性复制任务上的性能。我们可以看到时间依赖性的影响:将层数增加会大大提高模型的性能。

训练稳定性

层数的另一个影响是稳定性,随着层数的增加,精度的方差减小。

此外,尽管minLSTM和minGRU都解决了选择性复制任务,但我们可以看到minGRU在经验上是一种比minLSTM更稳定的方法(更高的一致性和更低的方差)。

minLSTM丢弃旧信息并添加新信息,使用两组参数(forget gate 和input gate)控制比率。在训练期间,两组参数会向不同的方向进行调整,使得比率更难控制和优化。相比之下,minGRU的丢弃和添加信息由一组参数控制,更容易优化。

选择性复制

选择性复制任务的输入元素相对于其输出是随机间隔的,为了解决这项任务,模型需要执行内容感知推理,记住相关token并过滤掉不相关的token。

上表将minLSTM和minGRU与可以并行训练的知名RNN模型进行了比较(S4,H3,Hyena和Mamba(S6)),基线结果引自Mamba论文。

在所有这些基线中,只有Mamba的S6,以及本文的minGRU和minLSTM能够解决此任务,体现了LSTM和GRU的内容感知门控机制。

强化学习

下面开始对战Transformer。

考虑D4RL基准中的MuJoCo运动任务,包括三个环境:HalfCheetah、Hopper和Walker。

对于每个环境,模型在三个数据质量不同的数据集上进行训练:Medium(M)、Medium-Replay(M-R)和Medium-Expert(M-E)。

上表将minLSTM和minGRU与各种决策模型进行了比较,包括原始的Decision Transformer(DT)、Decision S4 (DS4) 、Decision Mamba和Aaren。

由结果可知,minLSTM和minGRU的性能优于Decision S4,与Decision Transformer、Aaren和Mamba相媲美(Decision S4的递归转换不是输入感知的,这会影响它的性能)。就平均分数而言,minLSTM和minGRU的表现优于除Decision Mamba之外的所有基线。

语言建模

最后考虑语言建模任务,使用nanoGPT框架在莎士比亚的作品上训练字符级GPT。

上图绘制了具有交叉熵损失的学习曲线,可以发现minGRU、 minLSTM、 Mamba和Transformers分别实现了1.548、1.555、1.575和1.547的可比测试损耗。

Mamba的表现略差于其他模型,但训练速度更快(400步),minGRU和minLSTM分别花费575步和625步。而Transformer直接比minGRU多了2000 步,慢了大概2.5倍。

参考资料:

https://arxiv.org/pdf/2410.01201v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在蒙古住了两个月,才知道,蒙古的艰苦,远远超乎你的想象

在蒙古住了两个月,才知道,蒙古的艰苦,远远超乎你的想象

诗意世界
2025-11-06 11:13:06
63岁吴镇宇刷老年卡坐公交,“打卡后车长就开始不爽,差点赶我下车”“我解释我不是故意的,天生如此”

63岁吴镇宇刷老年卡坐公交,“打卡后车长就开始不爽,差点赶我下车”“我解释我不是故意的,天生如此”

观威海
2025-11-05 10:42:03
退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

退休夫妇从32楼跃下,3年后房被贱卖,买主深夜竟听天花板有脚步声

罪案洞察者
2025-09-23 14:37:35
正式退出,王曼昱退赛原因找到,将遭罚款+积分赋0处罚

正式退出,王曼昱退赛原因找到,将遭罚款+积分赋0处罚

懂球社
2025-11-05 15:40:44
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
今晚开战!亚冠二级联赛第4轮:国安再战大埔 想出线必须争胜

今晚开战!亚冠二级联赛第4轮:国安再战大埔 想出线必须争胜

爱奇艺体育
2025-11-06 14:36:09
还没完了!赵鸿刚对手给所有武林大师下战书,中国武协或出面干预

还没完了!赵鸿刚对手给所有武林大师下战书,中国武协或出面干预

杨华评论
2025-11-05 23:59:12
坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

青史楼兰
2025-08-25 10:50:56
独领风骚,目前欧冠前8球队英超占4席,其余四大联赛各出1队

独领风骚,目前欧冠前8球队英超占4席,其余四大联赛各出1队

懂球帝
2025-11-06 08:14:10
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

印度开始围猎江浙沪独生女?有机构研究如何0成本拿下她们背后家产

趣笔谈
2025-09-29 16:51:57
中共广东省委党校决策咨询部副主任、教授林先扬:省委“1310”具体部署 承载“走在前列”的使命

中共广东省委党校决策咨询部副主任、教授林先扬:省委“1310”具体部署 承载“走在前列”的使命

新浪财经
2025-11-05 07:52:26
不到5天,被点名的秦雯再迎3大噩耗,袭警只是冰山一角

不到5天,被点名的秦雯再迎3大噩耗,袭警只是冰山一角

娱小北
2025-11-04 18:41:34
国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

来科点谱
2025-11-06 13:44:10
面相全变了,分手7年,马思纯欧豪罕见同框,才知两人差距在哪里

面相全变了,分手7年,马思纯欧豪罕见同框,才知两人差距在哪里

银河史记
2025-11-05 21:33:57
超级网红撒盐哥餐饮帝国塌了!门店狂亏540万,员工哭诉:他逼我们做足疗??

超级网红撒盐哥餐饮帝国塌了!门店狂亏540万,员工哭诉:他逼我们做足疗??

英国那些事儿
2025-10-21 23:27:06
贝森特以己度人,若中方在稀土问题上卡脖子,美国随时准备反悔

贝森特以己度人,若中方在稀土问题上卡脖子,美国随时准备反悔

司马平邦
2025-11-06 17:33:17
房贷断供率暴涨130%,失控恐惧下的楼市即将进入的周期终局

房贷断供率暴涨130%,失控恐惧下的楼市即将进入的周期终局

重远投资观
2025-11-05 13:00:18
主动出走,至今下落不明的三位红军高级将领,谁的离开最可惜?

主动出走,至今下落不明的三位红军高级将领,谁的离开最可惜?

明月清风阁
2025-11-06 14:10:03
哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

带你感受人间冷暖
2025-11-05 00:05:16
2025-11-06 18:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13801文章数 66238关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

孙东旭离开东方甄选 曾因与董宇辉"小作文风波"引争议

头条要闻

孙东旭离开东方甄选 曾因与董宇辉"小作文风波"引争议

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

教育
艺术
游戏
亲子
时尚

教育要闻

黔南:“石榴籽”抱紧,幸福路同行

艺术要闻

预定年度十佳!49岁的舒淇,杀疯了

《街头篮球》20年自由不息:你欠青春的那场重逢,该赴约了

亲子要闻

11月11日 | 陈慧敏督导专题讲座,破解迷思,剖析影子老师的角色定位

中国色特别策划 | 故宫技艺与古意新生

无障碍浏览 进入关怀版