网易首页 > 网易号 > 正文 申请入驻

真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

让大模型轻松处理比自身上下文窗口长两个数量级的超长文本!

MIT CSAIL研究团队提出了一种叫做递归语言模型RLM的长文本处理新方法,来解决上下文腐烂问题。

不修改模型架构、不升级模块设计,但能让GPT-5、Qwen-3这类顶尖模型推理层具备千万级token的超长文本处理能力。



核心思路是不把提示词直接塞进大模型的上下文窗口,而把它“外包”给可交互的Python环境,让模型主动通过自动编程和递归调用拆解任务、按需处理。

啊?大模型读上下文也能递归操作?

上下文窗口不够,仍能推理

先说上下文腐烂这个扎心的问题。

不管大模型宣称自己的上下文窗口有多大,它们处理超长文本时,都会遇到文本越长,模型对早期信息的记忆越模糊,推理性能直线下滑的问题。

这就像我们读百万字小说,读到后半段,早就忘了前半段的关键情节。



现在主流的解决办法有上下文压缩、检索增强生成RAG,或者对模型进行架构级优化

比如,GPT-5.2-Codex采用的就是窗口内的原生上下文压缩技术,在持续数周的大型代码仓库协助任务中保持全上下文信息。

同时,GPT系列、Claude、Qwen等企业级版本原生集成RAG功能也是行业共识。

而架构级优化的例子,有社区普遍猜测的Gemini 3的环形注意力等。

现在的RLM和这些直接在模型上“硬磕”的方法不同,它把上下文处理给“外包”了



RLM给模型搭了一个可交互的Python编程环境REPL

开始处理上下文前,它先启动Python REPL交互式编程环境,将超长提示词作为字符串变量存入环境;

接着模型像程序员一样编写代码,对文本变量进行关键词筛选、局部探查、逻辑拆分等操作,通过「编写代码-观察结果」的交互循环减少无效信息摄入;

随后模型将复杂任务拆解为若干子任务,递归调用自身或轻量化子模型处理拆分后的文本片段,所有子任务输出均存储为新变量回流到REPL环境;

最后主模型编写代码读取并整合所有子任务结果变量,进行逻辑拼接或语义处理,形成最终输出。

全程由模型自主决策,实现按需处理,彻底解耦输入文本长度与模型上下文窗口的绑定。



实验显示,RLM有效处理规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口的两个数量级。

在复杂长文本任务中,RLM的优势也比较显著。面对要求聚合成对信息、复杂度呈二次方增长的OOLONG-Pairs任务,基础GPT-5和Qwen3-Coder的 F1分数不足0.1%;

采用RLM方案后,两款模型分别取得58.00%和23.11%的F1分数。

在600万至1100万Token规模的BrowseComp-Plus(1K)多文档推理任务中,RLM(GPT-5)的正确率高达91.33%,大幅超越其他长文本处理方案;

即便在要求线性扫描并处理几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升。



从调用成本上看,在50分位数这个指标上,RLM的成本和其他长文本处理方案处于同一水平,甚至更低。

这说明在大多数常规任务场景中,RLM的性价比是很有优势的。

但到了95分位数这类高百分位区间时,RLM的成本会出现明显飙升。

主要是因为RLM的推理过程是动态的,会根据任务复杂度自主决定代码编写、文本拆分和递归调用的次数,额外的步骤会增加API调用次数。



最后再划个小重点,RLM是一种不碰模型架构的通用推理策略,也就是说,理论上任何模型都能直接上车。

论文地址:https://arxiv.org/abs/2512.24601
参考链接:https://x.com/MatthewBerman/status/2012701592756383893


— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女司机踏宝马引擎盖后续!真相曝光车主身份被扒,难怪女方暴怒

女司机踏宝马引擎盖后续!真相曝光车主身份被扒,难怪女方暴怒

阿纂看事
2026-03-26 16:20:25
出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

出大事了,美军不宣而战,欧洲连夜统一口径,特朗普的威胁不灵了

共工之锚
2026-03-26 00:57:32
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
5月1日起,全国电动车彻底“变天”,家家户户都要注意

5月1日起,全国电动车彻底“变天”,家家户户都要注意

番外行
2026-03-26 08:19:47
裁员潮下的工程人普遍都不想找工作了!

裁员潮下的工程人普遍都不想找工作了!

黯泉
2026-03-26 18:41:24
上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

老叶评球
2026-03-26 17:04:22
“感谢中产家庭,让我偶尔能洗头,”12岁女孩低认知炫耀,被群嘲

“感谢中产家庭,让我偶尔能洗头,”12岁女孩低认知炫耀,被群嘲

妍妍教育日记
2026-03-23 20:06:00
瞒不住了!开战27天,乌鸦席卷特拉维夫天空,以色列高层夜不能寐

瞒不住了!开战27天,乌鸦席卷特拉维夫天空,以色列高层夜不能寐

Ck的蜜糖
2026-03-26 17:17:14
安切洛蒂的巴西队改造:桑巴魔法消亡,中场“钢铁革命”能赢第六星吗?

安切洛蒂的巴西队改造:桑巴魔法消亡,中场“钢铁革命”能赢第六星吗?

漫川舟船
2026-03-26 13:02:34
偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

偷偷结婚生子?移民国外?李梓萌消失2月引争议,担心的事发生了

离离言几许
2026-03-16 16:31:23
特朗普旧招重演!美国突然大规模增兵,第二个马杜罗即将到来?

特朗普旧招重演!美国突然大规模增兵,第二个马杜罗即将到来?

音乐时光的娱乐
2026-03-26 18:03:26
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

爱看剧的阿峰
2026-03-26 17:47:28
一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

一家四口都是演员,妈妈演过《红楼梦》,大儿子是国家一级演员

白面书誏
2026-03-24 14:40:27
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

冲突加剧,日本援兵赶到,中方直接封海四天,越南警告中国别造岛

云上乌托邦
2026-03-24 14:50:45
笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

老马拉车莫少装
2026-03-25 19:39:00
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
福建省委决定,颜桂炀履新(附简历)

福建省委决定,颜桂炀履新(附简历)

人民资讯
2026-03-26 16:28:52
击落202架了!2枚前卫导弹升空,美军F-18凌空爆炸,仓皇往航母跑

击落202架了!2枚前卫导弹升空,美军F-18凌空爆炸,仓皇往航母跑

军机Talk
2026-03-26 18:29:49
2026-03-26 19:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
游戏
本地
手机

艺术要闻

哪一座桥不是风景?

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

无障碍浏览 进入关怀版