网易首页 > 网易号 > 正文 申请入驻

Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文

0
分享至


来源:机器之心

编辑:泽南

最近,谷歌跟内存干上了。

上个月,谷歌的 曾经引发过一场行业地震,其宣称能直接把大模型最吃显存的 KV Cache 压缩几倍,让市场开始担忧未来对内存的需求,引发了一波内存股暴跌,后续还有。

这个星期,又有一篇谷歌论文引发了 AI 圈的关注,作者表示他们提出的方法解决了大模型处理长文本时的「内存瓶颈」(又来了),但实施的是完全不同的技术路线。

他们新开一条道路,通过对于大模型架构的机制创新,赋予了 RNN 「可生长的记忆容量」,找到了一种兼顾 Transformer 与 RNN 优势的新方法


该方法可以让 AI 处理更长的文本,解锁「超长上下文」能力,与此同时极大地降低了推理的资源门槛。

人们纷纷表示欢迎:大模型生产环境要的就是这个。


当前的大模型几乎都是基于 Transformer 架构打造的,它占据统治地位,主要归功于其可增长的记忆容量(注意力机制的计算和空间复杂度随上下文长度呈二次方增长)。这使得 Transformer 极其擅长长上下文的信息召回(Recall)。

然而,这种二次方复杂度也导致了严重的算力和显存瓶颈,使得处理超长文本的成本极高。

为解决这个问题,社区一直在复兴 RNN、线性注意力模型(Linear Attention)以及状态空间模型(SSM,如 Mamba 等)。这些循环架构的优势在于记忆容量固定(复杂度为),推理速度快且显存占用低。然而,它们的致命弱点在于:无论读了多少文本,都必须把所有过去的信息压缩到一个「固定大小」的隐藏状态(Hidden State)中。

这种「信息漏斗」导致它们在密集召回任务(Recall-intensive tasks,比如从极长的文档中精准提取某个细节)中表现往往远不如 Transformer。

为打破僵局,来自 Google Research 的研究团队提出了一种名为Memory Caching(MC)的技术,据说简单而有效。


  • 论文:《Memory Caching: RNNs with Growing Memory》

  • 论文链接:https://arxiv.org/abs/2602.24281

在这项研究的视角中,存在一个架构光谱:一端是 Transformer(无压缩,Token 级缓存),另一端是传统的 RNN(全压缩,单一记忆)。而「记忆缓存(MC)」则解锁了介于两者之间的新形态:将成组 Token 压缩并缓存到长期记忆状态中,然后在需要时进行检索。

Transformer 会缓存每一个单独的标记,而 RNN 则考虑一个固定大小的记忆,并将上下文中的一切压缩到记忆的参数中。那么,如果我们把 RNN 的历史记忆也缓存下来会怎样?

简单来说,与其让 RNN 只维护一个不断被覆盖和更新的「当前状态」,不如定期对这些隐藏状态进行「快照打卡」(Caching checkpoints)。这样,在进行信息检索时,模型不仅可以查看当前的「在线记忆」,还能直接调取「缓存记忆」中的历史快照,瞬间找回过去的相关信息。


在研究的过程中,作为概念验证,研究人员提出了三种变体,基于过去的信息如何组合在一起。

1、门控残差记忆(Gated Residual Memory):使用查询从过去检索相关信息,然后执行类似注意力的池化来组合检索到的信息。实际上,RNN 的记忆在增长,因此解码成本也在增长:


2、记忆汤(Memory Soup):另一种结合过去记忆的方式,是直接结合记忆的权重,而不是针对特定查询的输出。在这种情况下,我们需要对过去记忆的权重执行类似注意力的池化操作,然后对池化后的记忆执行一次检索。同样,这种变体相对于上下文长度具有不断增长的有效记忆,因此解码成本也在增长。


3、稀疏选择性缓存(Sparse Selective Caching,SSC):到目前为止,似乎没有免费的午餐,我们需要在不断增长的有效记忆和每 token 恒定的解码成本之间做出选择。

于是作者提出了 SSC,这是一种类似于 MoBA 的专家混合模型,在序列维度上稀疏地选择过去缓存记忆的一个子集,从而引出一个模型,其有效记忆在增长,但其每 token 解码成本保持相对恒定:


那么效果如何呢?

该方法可以作为一种通用框架,插入到各种现有的循环架构中,如线性注意力模型,或作者之前提出的深度内存模型 Titans 等。

实验结果表明了其强大的有效性:


模型在语言建模和常识推理任务上的表现。

作者在 13 亿参数的模型上进行了语言建模、召回密集型、长上下文以及 needle-in-a-haystack 等实验,结果显示 MC 相较于基础模型提供了改进。其中包括:

  • 长上下文能力提升:在语言建模和长上下文理解任务中,加入了 MC 机制的循环模型性能得到了全面提升。

  • 缩小与 Transformer 的差距:在最具挑战性的「上下文内召回(in-context recall)」任务中,加入了 MC 的模型击败了目前最先进(SOTA)的其他循环模型。

  • 依然存在上限:虽然 MC 极大地弥补了 RNN 的召回短板,并极大缩小了与 Transformer 之间的性能差距,但论文也指出,在纯粹的密集召回任务上限上,Transformer 依然保持着最佳的准确率。

总的来说,该研究利用一种极其优雅的算法直觉(缓存历史状态快照),解决了一个长期存在的理论难题,让非 Transformer 架构在实用性上又向前迈进了一大步。

尽管在极限的密集召回上,它依然尚未彻底超越 Transformer,但新路已经铺就,随着 RNN、SSM 等架构的持续进化,Transformer 一家独大的现状或许要有所改变了?

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”


未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大马首富之女建议香港教育改革,以普通话教学

大马首富之女建议香港教育改革,以普通话教学

侠客栈
2026-04-19 11:48:10
江苏南通多人称一餐饮老板长期欠债还扩大经营,相关门店停业后仍不还款 债务人:生意亏损,无力还钱

江苏南通多人称一餐饮老板长期欠债还扩大经营,相关门店停业后仍不还款 债务人:生意亏损,无力还钱

红星新闻
2026-04-19 14:58:21
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
CBA:山西汾酒队主教练潘江指责辱骂临场裁判员,被罚6万

CBA:山西汾酒队主教练潘江指责辱骂临场裁判员,被罚6万

界面新闻
2026-04-19 16:41:19
前队友考文顿:哈登常去夜店豪饮嗨到四五点 早上七点仍准时训练

前队友考文顿:哈登常去夜店豪饮嗨到四五点 早上七点仍准时训练

罗说NBA
2026-04-18 22:28:46
霍尔木兹还不够?美军称要在全球公海追捕所有“涉伊”船只

霍尔木兹还不够?美军称要在全球公海追捕所有“涉伊”船只

上观新闻
2026-04-17 17:08:05
何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

何润东:我已经51岁了,摔下来的话,会破坏大家对项羽的感受

懂球帝
2026-04-19 12:31:08
性需求是人的活力来源,性需求是成年人最强大的生命力

性需求是人的活力来源,性需求是成年人最强大的生命力

加油丁小文
2026-04-03 11:30:07
周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

春江财富
2026-04-19 09:27:59
长沙正在流行“新型出轨”:不开房、不暖昧,却比肉体背叛更诛心

长沙正在流行“新型出轨”:不开房、不暖昧,却比肉体背叛更诛心

风起见你
2026-04-16 02:29:16
朱八致歉!杜锋被质疑打假球,5理由解释没必要,3主力三分29中6

朱八致歉!杜锋被质疑打假球,5理由解释没必要,3主力三分29中6

金风说
2026-04-19 16:00:53
拉夫罗夫:西方将乌克兰推向更大范围冲突 俄方耐心有限

拉夫罗夫:西方将乌克兰推向更大范围冲突 俄方耐心有限

财联社
2026-04-19 17:41:04
古斯塔沃伤病疑云!两次称病缺席,媒体人:降薪后欠薪落差太大

古斯塔沃伤病疑云!两次称病缺席,媒体人:降薪后欠薪落差太大

奥拜尔
2026-04-19 13:40:33
首次曝光!B-21“突袭者”空中加油绝密视角,这是六代机的真面目

首次曝光!B-21“突袭者”空中加油绝密视角,这是六代机的真面目

武器鉴赏
2026-04-17 09:10:05
新空腹血糖标准已调整,不再6.1mmol/L,糖前期者,早知早管控

新空腹血糖标准已调整,不再6.1mmol/L,糖前期者,早知早管控

医学科普汇
2026-04-19 15:20:09
如果当初采纳梁思成先生的方案,北京将是世界上最宏伟的千年古都

如果当初采纳梁思成先生的方案,北京将是世界上最宏伟的千年古都

云霄纪史观
2026-04-19 17:27:29
匈牙利新总理上任,第一把火烧向中国,对华称呼改变,目的藏不住

匈牙利新总理上任,第一把火烧向中国,对华称呼改变,目的藏不住

记得那片海辛
2026-04-19 15:15:17
华谊兄弟,8年亏光85亿

华谊兄弟,8年亏光85亿

中国新闻周刊
2026-04-19 07:32:09
24架歼10直冲云霄!巴铁从名单中硬核抢人:以色列战机就在伏击圈

24架歼10直冲云霄!巴铁从名单中硬核抢人:以色列战机就在伏击圈

深析古今
2026-04-19 09:17:01
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
2026-04-19 18:19:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4672文章数 37450关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

数码
游戏
教育
健康
公开课

数码要闻

1500元档CPU谁才是王!Intel酷睿Ultra 5 250K Plus和AMD锐龙5 9600X对比实测:怎么选秒懂

玩家发现《《生化危机9》未使用音轨 或与佣兵模式有关

教育要闻

新加坡微观留学观察:新加坡比国内还卷?

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版