网易首页 > 网易号 > 正文 申请入驻

Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文

0
分享至



编辑|泽南

最近,谷歌跟内存干上了。

上个月,谷歌的 TurboQuant 研究曾经引发过一场行业地震,其宣称能直接把大模型最吃显存的 KV Cache 压缩几倍,让市场开始担忧未来对内存的需求,引发了一波内存股暴跌,后续还有不小的学术争议。

这个星期,又有一篇谷歌论文引发了 AI 圈的关注,作者表示他们提出的方法解决了大模型处理长文本时的「内存瓶颈」(又来了),但实施的是完全不同的技术路线。

他们新开一条道路,通过对于大模型架构的机制创新,赋予了 RNN 「可生长的记忆容量」,找到了一种兼顾 Transformer 与 RNN 优势的新方法



该方法可以让 AI 处理更长的文本,解锁「超长上下文」能力,与此同时极大地降低了推理的资源门槛。

人们纷纷表示欢迎:大模型生产环境要的就是这个。





当前的大模型几乎都是基于 Transformer 架构打造的,它占据统治地位,主要归功于其可增长的记忆容量(注意力机制的计算和空间复杂度随上下文长度呈二次方增长)。这使得 Transformer 极其擅长长上下文的信息召回(Recall)。

然而,这种二次方复杂度也导致了严重的算力和显存瓶颈,使得处理超长文本的成本极高。

为解决这个问题,社区一直在复兴 RNN、线性注意力模型(Linear Attention)以及状态空间模型(SSM,如 Mamba 等)。这些循环架构的优势在于记忆容量固定(复杂度为),推理速度快且显存占用低。然而,它们的致命弱点在于:无论读了多少文本,都必须把所有过去的信息压缩到一个「固定大小」的隐藏状态(Hidden State)中。

这种「信息漏斗」导致它们在密集召回任务(Recall-intensive tasks,比如从极长的文档中精准提取某个细节)中表现往往远不如 Transformer。

为打破僵局,来自 Google Research 的研究团队提出了一种名为Memory Caching(MC)的技术,据说简单而有效。



  • 论文:《Memory Caching: RNNs with Growing Memory》
  • 论文链接:https://arxiv.org/abs/2602.24281

在这项研究的视角中,存在一个架构光谱:一端是 Transformer(无压缩,Token 级缓存),另一端是传统的 RNN(全压缩,单一记忆)。而「记忆缓存(MC)」则解锁了介于两者之间的新形态:将成组 Token 压缩并缓存到长期记忆状态中,然后在需要时进行检索。

Transformer 会缓存每一个单独的标记,而 RNN 则考虑一个固定大小的记忆,并将上下文中的一切压缩到记忆的参数中。那么,如果我们把 RNN 的历史记忆也缓存下来会怎样?

简单来说,与其让 RNN 只维护一个不断被覆盖和更新的「当前状态」,不如定期对这些隐藏状态进行「快照打卡」(Caching checkpoints)。这样,在进行信息检索时,模型不仅可以查看当前的「在线记忆」,还能直接调取「缓存记忆」中的历史快照,瞬间找回过去的相关信息。



在研究的过程中,作为概念验证,研究人员提出了三种变体,基于过去的信息如何组合在一起。

1、门控残差记忆(Gated Residual Memory):使用查询从过去检索相关信息,然后执行类似注意力的池化来组合检索到的信息。实际上,RNN 的记忆在增长,因此解码成本也在增长:



2、记忆汤(Memory Soup):另一种结合过去记忆的方式,是直接结合记忆的权重,而不是针对特定查询的输出。在这种情况下,我们需要对过去记忆的权重执行类似注意力的池化操作,然后对池化后的记忆执行一次检索。同样,这种变体相对于上下文长度具有不断增长的有效记忆,因此解码成本也在增长。



3、稀疏选择性缓存(Sparse Selective Caching,SSC):到目前为止,似乎没有免费的午餐,我们需要在不断增长的有效记忆和每 token 恒定的解码成本之间做出选择。

于是作者提出了 SSC,这是一种类似于 MoBA 的专家混合模型,在序列维度上稀疏地选择过去缓存记忆的一个子集,从而引出一个模型,其有效记忆在增长,但其每 token 解码成本保持相对恒定:



那么效果如何呢?

该方法可以作为一种通用框架,插入到各种现有的循环架构中,如线性注意力模型,或作者之前提出的深度内存模型 Titans 等。

实验结果表明了其强大的有效性:



模型在语言建模和常识推理任务上的表现。

作者在 13 亿参数的模型上进行了语言建模、召回密集型、长上下文以及 needle-in-a-haystack 等实验,结果显示 MC 相较于基础模型提供了改进。其中包括:

  • 长上下文能力提升:在语言建模和长上下文理解任务中,加入了 MC 机制的循环模型性能得到了全面提升。
  • 缩小与 Transformer 的差距:在最具挑战性的「上下文内召回(in-context recall)」任务中,加入了 MC 的模型击败了目前最先进(SOTA)的其他循环模型。
  • 依然存在上限:虽然 MC 极大地弥补了 RNN 的召回短板,并极大缩小了与 Transformer 之间的性能差距,但论文也指出,在纯粹的密集召回任务上限上,Transformer 依然保持着最佳的准确率。

总的来说,该研究利用一种极其优雅的算法直觉(缓存历史状态快照),解决了一个长期存在的理论难题,让非 Transformer 架构在实用性上又向前迈进了一大步。

尽管在极限的密集召回上,它依然尚未彻底超越 Transformer,但新路已经铺就,随着 RNN、SSM 等架构的持续进化,Transformer 一家独大的现状或许要有所改变了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
婆婆带人住进来的第一晚,我就开始悄悄准备,三个月后我拎包离开

婆婆带人住进来的第一晚,我就开始悄悄准备,三个月后我拎包离开

老红点评社
2026-04-13 11:19:12
程晓玥挺大肚为女庆生,富二代老公罕见同框,一家三口画面太甜

程晓玥挺大肚为女庆生,富二代老公罕见同框,一家三口画面太甜

黔乡小姊妹
2026-04-15 08:49:46
方力申自爆与太太闪婚生女原因!直呼单身太久,一下子被她外表吸引!

方力申自爆与太太闪婚生女原因!直呼单身太久,一下子被她外表吸引!

我爱追港剧
2026-04-19 13:39:35
采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

千秋文化
2026-04-15 20:18:32
郑钦文马德里或再战莱巴金娜!王欣瑜斯瓦泰克同区,张帅最先出战

郑钦文马德里或再战莱巴金娜!王欣瑜斯瓦泰克同区,张帅最先出战

排球黄金眼
2026-04-20 01:29:07
爱沙尼亚铁了心拒绝斯洛伐克总理过境,菲科莫斯科之旅再遭断航

爱沙尼亚铁了心拒绝斯洛伐克总理过境,菲科莫斯科之旅再遭断航

桂系007
2026-04-19 23:52:15
赵心童10-7晋级,赛后采访引热议!谈到克鲁斯堡魔咒以及下轮比赛

赵心童10-7晋级,赛后采访引热议!谈到克鲁斯堡魔咒以及下轮比赛

小火箭爱体育
2026-04-19 07:42:11
消失近40年再次出现!浙江渔民捕鱼数十年,第一次见到

消失近40年再次出现!浙江渔民捕鱼数十年,第一次见到

阿芒娱乐说
2026-04-19 20:06:16
历史留名!詹姆斯创季后赛神迹,湖人G1力克火箭旗开得胜

历史留名!詹姆斯创季后赛神迹,湖人G1力克火箭旗开得胜

夜白侃球
2026-04-19 20:19:51
三大顶级华人歌唱家新加坡首度合体,近20首金曲听到过瘾

三大顶级华人歌唱家新加坡首度合体,近20首金曲听到过瘾

新加坡眼
2026-04-19 18:16:15
为什么飞机提前40分钟停止值机了?网友:那40分钟就不是留给你的

为什么飞机提前40分钟停止值机了?网友:那40分钟就不是留给你的

夜深爱杂谈
2026-03-18 19:53:27
这4个蜀将战力达到一流水平,但是都没参加北伐,实在是太可惜了

这4个蜀将战力达到一流水平,但是都没参加北伐,实在是太可惜了

铭记历史呀
2026-04-19 15:38:51
240万手封跌停!4个月跌53%,抄底客亏麻了

240万手封跌停!4个月跌53%,抄底客亏麻了

慧眼看世界哈哈
2026-04-19 16:45:01
中方行使否决权,新加坡称感到失望,新国大使:应取消一票否决权

中方行使否决权,新加坡称感到失望,新国大使:应取消一票否决权

无法克制的烦恼
2026-04-20 01:15:27
德甲冠军排行榜:拜仁34冠居首,多特、门兴5冠并列第二

德甲冠军排行榜:拜仁34冠居首,多特、门兴5冠并列第二

懂球帝
2026-04-20 02:03:03
香港一工地近百人追讨欠薪,结果网友们却乐了

香港一工地近百人追讨欠薪,结果网友们却乐了

映射生活的身影
2026-04-19 09:55:59
等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

等不到特朗普访华了,美国提前对华摊牌:要求秘鲁把中国赶出港口

安珈使者啊
2026-04-19 11:44:14
潜伏在中国高层的大间谍,遍布军界政界,简直令人唏嘘

潜伏在中国高层的大间谍,遍布军界政界,简直令人唏嘘

咸説历史
2026-04-14 14:21:44
悲催!网传武汉某双非高校一寝室6人,仅1人找到月薪3500元工作…

悲催!网传武汉某双非高校一寝室6人,仅1人找到月薪3500元工作…

火山詩话
2026-04-16 13:58:24
人民日报:已投放500万辆!新国标电动车为何突然反转,有3大原因

人民日报:已投放500万辆!新国标电动车为何突然反转,有3大原因

电动车的那些事儿
2026-04-18 07:37:58
2026-04-20 02:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12795文章数 142632关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

游戏
健康
房产
亲子
公开课

如何将ZH-1火力最大化?《战舰世界》15.3版本造船厂加点攻略

干细胞抗衰4大误区,90%的人都中招

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版