网易首页 > 网易号 > 正文 申请入驻

告别KV Cache枷锁,将长上下文压入权重,持续学习大模型有希望了?

0
分享至

来源:市场资讯

(来源:机器之心)

编辑|Panda

人类已经走上了创造 AGI(通用人工智能)的道路,而其中一个关键方面是持续学习,即 AI 能通过与环境互动而不断学习新的知识和能力。

为此,研究社区已经在探索多种不同的道路,比如开发能够实时更新状态的循环神经网络(RNN),或者试图通过极大的缓存空间来容纳海量历史。然而,真正的 AGI 或许不应仅仅被动地「存储」信息,而应像人类一样在阅读中「进化」。

想象一下你生命中的第一次机器学习讲座:你或许记不清教授开口说的第一个单词,但那场讲座留给你的直觉和逻辑,此刻正潜移默化地帮助你理解这篇复杂的论文。这种能力的本质在于压缩。

近日,Astera 研究所、英伟达、斯坦福大学、加州大学伯克利分校、加州大学圣地亚哥分校的一个联合团队提出的 TTT-E2E(端到端测试时训练)沿着这条 AGI 的必经之路迈出了重要一步。它彻底打破了传统模型在推理时静态不变的局限,让长上下文建模从一种「架构设计」进化为一种「学习问题」。


该方法可以在测试阶段通过给定上下文的下一个 token 预测持续学习,将读取的上下文信息压缩至权重参数中。


  • 论文标题:End-to-End Test-Time Training for Long Context

  • 论文地址:https://arxiv.org/abs/2512.23675

  • 代码地址:https://github.com/test-time-training/e2e

困难是什么?召回与效率的永恒博弈

论文开篇明确了当前长上下文建模的两难境地。

Transformer 的全注意力机制虽然在长文本上表现优异,但其推理成本随长度线性增长,这在处理 128K 甚至更长的上下文时会产生巨大的延迟压力。为了解决效率问题,业界曾转向循环神经网络(RNN)或状态空间模型(SSM,如 Mamba)。这些模型虽然拥有恒定的每 token 计算成本,但在处理超长文本时,性能往往会大幅下降,无法像 Transformer 那样有效利用远距离的信息。

这种性能下降的根源在于「压缩率」的固定。

传统的 RNN 将无限的序列压缩进固定大小的状态向量中,这不可避免地会导致信息丢失。

于是,该团队思考:是否能找到一种方案,既能像 RNN 一样拥有恒定的推理延迟,又能像 Transformer 一样通过增加「存储空间」来维持长距离性能?

端到端的测试时训练(TTT-E2E)

TTT-E2E 的核心思想是将模型在测试阶段(推理阶段)的行为定义为一个在线优化过程。

具体而言,当模型读取长上下文时,它不仅仅是在做前向传播,还在同步进行梯度下降。

这种方法基于这样一个逻辑:如果我们将上下文看作一份学习资料,那么模型在预测下一个 token 之前,可以先在已经读过的 token 上进行自监督学习。

通过这种方式,上下文中的信息就被编码进了模型的权重 W 中,而不是存储在外部的 KV Cache 里。这就像是在阅读一本书时,你不断根据新读到的内容修正自己的认知模型。



为了使这一构想在工程上可行且高效,团队引入了两大核心技术支撑。

首先是元学习(Meta-Learning)。传统的模型在预训练时并未考虑测试时的更新逻辑,这会导致训练与测试的脱节。TTT-E2E 通过外层循环(Outer Loop)优化模型的初始化参数,使得模型「学会如何学习」,即经过少量测试时梯度更新后,能达到最优的预测效果。

其次是架构的微调与滑动窗口的结合。该团队意识到,如果完全摒弃注意力机制,模型会丧失局部精确记忆能力。因此,TTT-E2E 采用了一种混合架构:使用一个固定大小(如 8K)的滑动窗口注意力(SWA)来处理短期记忆,确保局部逻辑的严密;而对于超出窗口的长期记忆,则交给 TTT 更新后的 MLP 层来承担。这种设计模仿了生物记忆系统的层级结构:滑动窗口如同瞬时感官记忆,而动态更新的权重则如同长期经验。

为了平衡计算开销,团队在实现细节上也极具匠心。他们并非更新模型的所有层,而是仅针对最后四分之一的 Transformer 块进行 TTT。

同时,他们为这些块设计了双 MLP 结构,一个保持静态以锁定预训练知识,另一个则作为「快速权重」在测试时动态更新,从而解决了知识遗忘的问题。

详细的数学描述请参阅原论文。

实验结果:性能与速度的双重飞跃

实验数据证明了 TTT-E2E 的强大潜力。研究团队在 3B 参数规模的模型上进行了系统性扩展实验。


在性能扩展性方面,TTT-E2E 展现出了与全注意力 Transformer 几乎一致的性能曲线。

随着上下文长度从 8K 扩展到 128K,其他 RNN 基准模型(如 Mamba 和 Gated DeltaNet)的测试损失在达到 32K 之后开始显著回升,这意味着它们无法处理更长的序列。而 TTT-E2E 的损失函数则持续下降,始终保持着对 Transformer 的追赶态势,甚至在某些指标上更优。

在推理效率方面,TTT-E2E 展现了压倒性优势。

由于它不需要存储海量的 KV Cache,其推理延迟不随上下文长度增加而改变。在 128K 上下文的测试中,TTT-E2E 的处理速度比全注意力 Transformer 快了 2.7 倍。

这意味着开发者可以在不牺牲模型表现的前提下,极大地降低长文本应用的响应时间。

然而,研究也坦诚地指出了天下没有免费的午餐。尽管推理极快,但 TTT-E2E 的训练成本目前仍然较高。由于训练时需要计算「梯度的梯度」(二阶导数),其在短上下文下的训练速度比传统模型慢得多。

不过,该团队提出,可以通过从预训练好的 Transformer 节点开始微调,或者开发专门的 CUDA 内核来弥补这一短板。

此外,在大海捞针(NIAH)这类极端依赖精确召回的任务中,全注意力模型依然是无可争议的霸主。这进一步印证了作者的观点:TTT 的本质是压缩和理解,而非逐字的暴力存储。


通往无限长度的未来

TTT-E2E 的意义远不止于一个更快的算法。它标志着大模型正在从静态模型转变为动态个体。在这一框架下,模型处理长文档的过程,本质上是一次微型的自我进化。


这种「以计算换存储」的思路,为我们描绘了一个充满想象力的未来:或许有一天,我们可以让模型在阅读一万本书的过程中不断调整自身,最终将人类的整个文明史浓缩进那跳动的参数矩阵之中,而无需担心硬件缓存的枯竭。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
德国总理将率团访华,创北约77年历史

德国总理将率团访华,创北约77年历史

青春染指红颜梦
2026-01-19 19:25:25
全民疯抢茅台,黄牛不干了

全民疯抢茅台,黄牛不干了

19号商研社
2026-01-19 08:11:41
以色列F-35战机空袭伊朗,特朗普放狠话48小时内德黑兰没还手机会

以色列F-35战机空袭伊朗,特朗普放狠话48小时内德黑兰没还手机会

世界探索者探索
2026-01-17 23:10:17
董璇自爆全年都穿一次性内裤,一条100多块,网友集体破防

董璇自爆全年都穿一次性内裤,一条100多块,网友集体破防

星创文化
2025-12-01 22:54:08
“初代硬汉”刘威:与何晴擦肩而过、拒娶杨若兮,年近70依旧滋润

“初代硬汉”刘威:与何晴擦肩而过、拒娶杨若兮,年近70依旧滋润

扒点半吃瓜
2026-01-20 07:00:11
面相变了!退出春晚解散公司,贾玲近况曝光,一脸男相疏离感强

面相变了!退出春晚解散公司,贾玲近况曝光,一脸男相疏离感强

风格豆腐干
2026-01-20 01:20:18
清退“专本科”医务人员,其实早有布局!

清退“专本科”医务人员,其实早有布局!

医客
2026-01-19 12:08:57
梁小龙临终前细节曝光,坚持7个小时等亲人赶到,东北妻子好贤惠

梁小龙临终前细节曝光,坚持7个小时等亲人赶到,东北妻子好贤惠

娱乐团长
2026-01-19 16:59:00
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

古事寻踪记
2025-08-13 07:37:39
突然宣布:对中国免签!

突然宣布:对中国免签!

澳洲红领巾
2026-01-17 13:13:26
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
中国不再忍让!稀土、电动车、乳制品三连击,欧盟这才发现谁是老大!

中国不再忍让!稀土、电动车、乳制品三连击,欧盟这才发现谁是老大!

老王日记
2026-01-19 23:25:08
一箱油半箱税,电车零成本上路?2026年政策调整,油电公平来了?

一箱油半箱税,电车零成本上路?2026年政策调整,油电公平来了?

现代小青青慕慕
2026-01-18 13:52:27
国乒高层大洗牌!3人上桌,2人换桌,1人下桌,肖战王皓位列其中

国乒高层大洗牌!3人上桌,2人换桌,1人下桌,肖战王皓位列其中

姩姩有娱
2026-01-19 15:54:53
再抛售61亿美债,特朗普急踩刹车,美媒:想赢中国只有一条路可走

再抛售61亿美债,特朗普急踩刹车,美媒:想赢中国只有一条路可走

史料布籍
2026-01-19 20:56:16
阿森纳欧冠6战全胜,阿尔特塔欲破圣西罗心魔

阿森纳欧冠6战全胜,阿尔特塔欲破圣西罗心魔

浮萍足球
2026-01-20 07:05:06
西班牙高铁相撞致39人遇难:铁轨笔直、设备全新、排除人为,原因诡异成谜

西班牙高铁相撞致39人遇难:铁轨笔直、设备全新、排除人为,原因诡异成谜

新欧洲
2026-01-19 20:23:06
拿下委内瑞拉后,特朗普针对中国的反扑,比大家想的还要迅猛

拿下委内瑞拉后,特朗普针对中国的反扑,比大家想的还要迅猛

近史博览
2026-01-18 22:46:42
冬窗0引援!曝利物浦憋大招:夏窗连签5人 斯洛特或将走人?

冬窗0引援!曝利物浦憋大招:夏窗连签5人 斯洛特或将走人?

球事百科吖
2026-01-20 03:32:58
不是迷信!明日大寒,记得:1不扔,2不洗,吃3样,过吉祥顺心年

不是迷信!明日大寒,记得:1不扔,2不洗,吃3样,过吉祥顺心年

神牛
2026-01-19 07:31:43
2026-01-20 07:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057572文章数 5289关注度
往期回顾 全部

科技要闻

OpenAI首款硬件设备有望于2026年下半年亮相

头条要闻

江西警方:在柬失联叶文斌被电诈园区送出 已被刑拘

头条要闻

江西警方:在柬失联叶文斌被电诈园区送出 已被刑拘

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

本地
教育
数码
亲子
手机

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

教育要闻

首都师大2025分数线公布!560分就能上?

数码要闻

荣耀手表GS 5发布:行业独家防猝筛查、23天蓝牙续航,699元

亲子要闻

宝妈必学,孩子不懂对侵犯说不,任何人都有可能是坏人!

手机要闻

荣耀Magic8 RSR保时捷设计图赏:经典飞线动感十足,细腻典雅

无障碍浏览 进入关怀版