网易首页 > 网易号 > 正文 申请入驻

学术分享丨MIT新论文:2026推理模型过时了,“套娃模型”当立

0
分享至

转自 量子位

推理模型这就过时了?

当中的扛把子GPT-5被一篇博士生论文打了个措手不及,上下文窗口被甩出两个数量级。

而且新方法面对长文本时的“上下文腐烂”现象也大幅减少,关键是成本还更便宜。


这就是MIT最新论文当中提出的“套娃模型”新范式,被预言将成为今年的主流。


“套娃模型”正式名称叫做递归模型,核心流程是将文本存入代码环境,让模型编写程序拆解并递归调用自身处理。


有网友评价说,递归模型不仅是在节省Token,更是在改变交互方式。


从它的各种指标来看,推理模型,看上去真的是不香了。

代码驱动的递归推理

递归语言模型(RLM)一改将长文本直接作为Prompt输入神经网络的传统做法,转而采用一种“环境化”的处理范式。

其核心逻辑在于将自然语言处理任务重构为交互式编程任务,引入一个外部的Python REPL(读取-求值-输出循环)环境,将超长文本作为一个静态字符串变量存储在内存中

在这种架构下,大模型不再一次性编码所有信息,而是作为一个拥有读写权限的Agent,通过生成和执行Python代码来对这个外部变量进行操作。

这种设计从根本上解耦了输入数据的长度与模型自身的上下文窗口大小,允许处理的文本长度仅受限于物理内存而非Transformer的注意力机制跨度。


在具体的执行流程中,RLM建立了一套基于代码的认知循环。

当系统接收到一个长文本任务时,它首先启动Python环境并将文本载入变量P,随后,模型进入一个迭代循环,首先观察当前的环境状态,编写一段Python代码来探测文本。

这些代码在REPL环境中被执行后,其运行结果会作为新的观测数据反馈给模型。

通过这种“编写代码-观察执行结果”的循环,模型能够以极低的计算成本在庞大的文本数据中进行索引和定位,仅在必要时读取关键段落,从而实现了对上下文的高效管理。

递归调用是该机制能够处理无限长上下文的关键所在。

RLM允许模型在编写的代码中调用一个特殊的接口函数,该函数的作用是启动模型自身的一个新实例(或更小的子模型)来处理特定的子任务。

当模型通过代码将长文本切割为多个部分后,它可以针对每一个部分生成一个新的Prompt,并调用子模型分别进行处理。

这些子模型的输出并不是直接返回给用户,而是被赋值给新的变量,存储在当前的Python环境中。

主模型随后可以编写代码读取这些变量,对其进行逻辑判断、拼接或进一步的语义整合。

这种递归结构不仅实现了任务的并行化分解,更重要的是它支持多层级的深度推理,每一层递归都只需要处理当前层级的局部信息,从而确保整个处理过程始终维持在模型原本的上下文窗口限制之内。


这种基于代码环境的交互方式为模型诱发了多种高效的涌现策略,模型在并未经过专门训练的情况下,自发学会了利用正则表达式等编程工具来过滤信息。

例如,在寻找特定信息时,模型会先构造查询语句在变量中进行关键词匹配,仅提取包含关键词的上下文片段进行阅读,这种先检索后阅读的策略极大地减少了Token的消耗。

此外,针对输出长度受限的问题,RLM显现出了通过变量拼接结果的能力。

在处理需要生成超长答案的任务时,模型会将子任务的生成结果分别存储在列表变量中,最后通过代码将这些字符串连接起来。

这种机制实际上是在外部环境中构建了一个动态的、可编程的工作记忆空间,使得模型能够像操作数据库一样操作自然语言文本,在不改变底层神经网络权重的前提下,具备了处理极高复杂度长文本的逻辑推理能力。

突破千万级Token的性能极限

实验数据显示,RLM的有效处理规模已达到1000万Token级别,超出GPT-5等前沿模型原生上下文窗口两个数量级。

在包含GPT-5和Qwen3-Coder-480B等模型的评测中,RLM突破了物理显存对上下文长度的限制,并在任务完成质量上超越了基础模型及现有的长文本处理方案。

并且针对长文本处理中常见的“上下文腐烂”问题,RLM也表现出了较强的稳定性。

传统基础模型在S-NIAH单针大海捞针等简单检索任务中尚能维持表现,但在信息密度更高的复杂任务中,其推理性能随输入长度增加而下降。相比之下,RLM在输入长度超过特定阈值区间后,依然保持得分稳定性。


RLM在对高密度、高复杂度信息的整合能力上也表现出了显著差异。

对于要求模型线性扫描并处理文中几乎所有信息的OOLONG任务,基础GPT-5的性能随长度增加而衰减,而RLM则实现了双位数的性能提升。

在难度更高的OOLONG-Pairs测试(该任务要求模型聚合文中成对的信息片段)中,处理复杂度随长度呈二次方增长。

面对这种高难度的推理任务,基础GPT-5和Qwen3-Coder模型F1分数不足0.1%。然而,搭载RLM架构的GPT-5和Qwen3-Coder在同一任务上分别取得了58.00%和23.11%的F1分数。


由于RLM将Prompt视为外部环境,有选择性地读取与任务相关的片段,而非被迫全量摄入,因此在成本效益方面,RLM改变了“上下文越长成本越高”的线性规律。

例如在BrowseComp-Plus基准测试中,GPT-5-mini处理600万至1100万Token输入的理论成本约为1.50至2.75美元,而RLM的平均实际花费仅为0.99美元。


这一成本低于全量阅读的基础模型,也比试图压缩上下文的Summary Agent方案更低。

这表明RLM能够在保持性能的同时,通过按需读取策略控制推理成本,为长文本应用的大规模落地提供了经济可行的路径。

作者简介

本文第一作者为MIT CASIL实验室博士生Alex Zhang。


Alex本科就读于普林斯顿,以该校计算机科学系第一名的成绩毕业。


其研究方向主要包括评估语言模型能力、机器学习系统和GPU编程,以及用于代码生成的AI。

另外两位署名者Omar Khattab和Tim Kraska都是Alex的导师。


Tim和Omar两人均为MIT助理教授。

论文地址:
https://arxiv.org/abs/2512.24601

【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
维尼修斯领衔!皇马仅4人未公开告别阿隆索 一人最为意外

维尼修斯领衔!皇马仅4人未公开告别阿隆索 一人最为意外

球事百科吖
2026-01-14 02:53:31
长江电力:2025年净利润约342亿元

长江电力:2025年净利润约342亿元

每日经济新闻
2026-01-13 16:51:02
A股:如果现在是牛市,务必死记“并列阳线满仓,并列阳线清仓”

A股:如果现在是牛市,务必死记“并列阳线满仓,并列阳线清仓”

股经纵横谈
2026-01-13 22:17:21
中东石油大亨之女重病赴华求医,山西老中医仅把了一次脉

中东石油大亨之女重病赴华求医,山西老中医仅把了一次脉

五元讲堂
2025-10-13 11:21:31
四川畜牲父亲李文忠被执行死刑,女儿生前哀求:疼,妈妈救我

四川畜牲父亲李文忠被执行死刑,女儿生前哀求:疼,妈妈救我

瑾瑜聊情感
2025-10-09 13:43:46
马斯克深夜直言:未来3-7年是生死局,中国基建狂潮早踩对风口!

马斯克深夜直言:未来3-7年是生死局,中国基建狂潮早踩对风口!

达文西看世界
2026-01-13 10:34:31
没指望了,公司停产结业,全员被裁!

没指望了,公司停产结业,全员被裁!

黯泉
2026-01-13 22:21:03
呆呆榜一“伙夫哥”续接杀猪饭,18日大摆5000桌,不用报名直接来

呆呆榜一“伙夫哥”续接杀猪饭,18日大摆5000桌,不用报名直接来

鋭娱之乐
2026-01-13 13:56:21
宗庆后杜建英香港旧照曝光,眼神拉丝同住一间房,那时宗馥莉才13

宗庆后杜建英香港旧照曝光,眼神拉丝同住一间房,那时宗馥莉才13

阿伧说事
2025-07-18 11:29:04
57岁邵兵与儿子拍杂志掰手腕,网友:还是老爸更阳刚!

57岁邵兵与儿子拍杂志掰手腕,网友:还是老爸更阳刚!

酒话醉人
2026-01-14 01:54:10
不想踢就走人,曼联不再养闲人

不想踢就走人,曼联不再养闲人

余蹮搞笑段子
2026-01-13 23:18:38
合川杀猪宴火到央视!人民日报点名,恶心事发生,网名呆呆难保住

合川杀猪宴火到央视!人民日报点名,恶心事发生,网名呆呆难保住

小鹿姐姐情感说
2026-01-14 02:11:36
评标专家集体饿晕?评标现场被120当场拉走,当地回应后越描越黑

评标专家集体饿晕?评标现场被120当场拉走,当地回应后越描越黑

你食不食油饼
2026-01-13 16:17:45
香港女大学生为还10万港元卡债,赴内地“假结婚”,到手仅3万还甩不掉“老公”!香港入境处:离婚程序繁琐,还可能被分财产

香港女大学生为还10万港元卡债,赴内地“假结婚”,到手仅3万还甩不掉“老公”!香港入境处:离婚程序繁琐,还可能被分财产

每日经济新闻
2026-01-13 19:18:09
岛内突然爆料,民进党官员已经去过大陆,未来或接受九二共识?

岛内突然爆料,民进党官员已经去过大陆,未来或接受九二共识?

DS北风
2026-01-13 17:42:13
一夜3大冷门!4冠王惨败16分!豪强狂输鱼腩13分,夺冠热门输10分

一夜3大冷门!4冠王惨败16分!豪强狂输鱼腩13分,夺冠热门输10分

老吴说体育
2026-01-14 01:19:07
72小时内,伊朗全国沉痛哀悼,特朗普发表战争讲话,报复史无前例

72小时内,伊朗全国沉痛哀悼,特朗普发表战争讲话,报复史无前例

博览历史
2026-01-12 17:59:45
“京圈格格”关晓彤评论区沦陷,男友和网红不清楚,昔日言论被扒

“京圈格格”关晓彤评论区沦陷,男友和网红不清楚,昔日言论被扒

热点风采
2026-01-12 21:11:16
伊朗媒体:“大量人员”在近期骚乱中死亡

伊朗媒体:“大量人员”在近期骚乱中死亡

新华社
2026-01-11 20:10:03
多名家庭成员被渗透 商人成蒋超良“大管家”

多名家庭成员被渗透 商人成蒋超良“大管家”

环球网资讯
2026-01-13 20:19:31
2026-01-14 03:35:00
中国人工智能学会
中国人工智能学会
中国人工智能学会网易官方账号
3819文章数 1489关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

特朗普:已取消所有与伊朗官员的会谈

头条要闻

特朗普:已取消所有与伊朗官员的会谈

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

蔡卓妍承认新恋情,与男友林俊贤感情稳定

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

房产
艺术
本地
教育
旅游

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

艺术要闻

461米!14亿美元!越南第一高楼,形如“竹捆”

本地新闻

云游内蒙|到巴彦淖尔去,赴一场塞上江南的邀约

教育要闻

江苏模特艺术学校在哪?精准地址揭秘!

旅游要闻

顺义区将硬核打造“工业时尚游”

无障碍浏览 进入关怀版