网易首页 > 网易号 > 正文 申请入驻

人大&通义:IterResearch用40K上下文轻松实现2048轮交互不退化

0
分享至



以 40K 上下文,让 Agent 搜索 2048 轮,性能还能一路涨?这几乎是不可想象的。

当前主流的 Search Agent 都面临同一个尴尬:Agent 需要反复搜索网页、比对线索、验证假设、回溯修正,交互轮次动辄数十上百轮。但以 ReAct 为代表的传统范式,把每一轮的思考和工具返回结果不断追加到同一个上下文窗口中 —— 做得越多,上下文越臃肿,留给推理的空间越少,早期的噪声和错误路径还被永久「焊死」在记忆里。

结果就是:Agent 搜得越深入,反而「想」得越糊涂。

能不能让 Agent 在探索过程中不断「清理工作台」,始终在一个干净的空间里思考?

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。

通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

目前,该论文已被 ICLR 2026 接收。



  • 论文链接:https://arxiv.org/pdf/2511.07327
  • 代码链接:https://github.com/Chen-GX/IterResearch

「堆上下文」为什么难以实现 Interaction Scaling?

在 Search Agent 场景下,Agent 的工作本质上是一个与外部环境不断交互的循环。传统 ReAct 范式将这一过程建模为「单上下文堆叠」:每一轮的推理和工具返回被持续追加到同一个上下文窗口中,形成线性增长的记忆链。

这种看似自然的设计,在长程任务中会引发两个结构性问题:

  • 其一是上下文窒息(context suffocation):上下文窗口的总容量是有限的,历史信息不断堆积意味着留给后续推理的「生成预算」被持续压缩。Agent 被迫给出更短、更浅的回答,最终滑向草率的结论;
  • 其二是噪声污染(noise contamination):搜索过程中产生的大量网页摘要、早期的错误路径和无关线索被永久写入上下文,对后续推理产生级联干扰,信噪比持续走低。

社区已经意识到了这些问题,陆续提出了 context folding、summary 等缓解策略,试图为摇摇欲坠的上下文「续命」。但这些方法本质上是在补救,并未从根本上改变上下文线性增长的结构 —— 给 Agent 256K 甚至更长的窗口,也只是推迟崩溃,而非避免崩溃。

不再「堆叠」,而是「重构」:IterResearch 的核心思路

IterResearch 对这一问题的回应不是修修补补,而是从范式层面重新思考:与其不断往上下文里塞东西,不如让 Agent 学会「边做边清理」。



研究团队将长程研究过程形式化为一个马尔可夫决策过程(MDP)。核心思想是:Agent 不再维护一个不断膨胀的完整历史,而是通过一个持续进化的「演进式报告」(evolving report)来综合已有成果、压缩无关信息、更新推理状态。每一轮推理都在一个被重构过的、恒定复杂度的工作空间中展开。

具体来说,Agent 的每一步包含两个核心动作:

  • 决策阶段:Agent 基于当前状态,输出三部分 —— 思考过程(Think)、更新后的演进报告(Report)和本轮工具调用请求(Action)。报告在这里扮演了「压缩记忆」的角色,Agent 需要在每一轮主动决定哪些信息值得保留,哪些应该被丢弃。
  • 状态转移阶段:进入下一轮时,完整的历史轨迹被有意丢弃,Agent 仅保留更新后的报告、上一轮的工具调用及其返回结果,三者共同构成新的推理起点。

从上下文管理的视角看,传统 ReAct 的状态空间随交互轮次 t 线性增长(O (t)),而 IterResearch 的工作空间始终保持恒定(O (1))。

研究团队指出,这种机制与 RNN/LSTM 中的隐状态更新有结构上的相似性 —— 都通过一个隐状态来承载记忆并逐步更新。不同之处在于,IterResearch 的「隐状态」是一份显式、可解释的研究报告,既能浓缩历史,又能为下一步推理提供清晰的起点。



40K 上下文,2048 轮交互不退化:Interaction Scaling 的威力

这项工作中最核心的发现,就是 Interaction Scaling 特性 ——给 Agent 更多的交互预算,性能就能持续提升,而不会像传统方法那样因为上下文溢出而崩溃。



在 BrowseComp 基准上,研究团队将 Agent 的最大交互轮次从 2 逐步放宽到 2048。结果显示,IterResearch 的准确率从 3.5% 一路攀升到 42.5%,且在 2048 轮时依然没有出现明显的退化迹象。而传统单上下文方法在几十轮后就已经不堪重负。

值得强调的是,2048 并非 IterResearch 的交互上限,而仅是实验评测范围的终点。模型在 2048 轮时性能曲线仍保持上升趋势,表明该范式在理论上具备进一步扩展的潜力。

这一结果传递了一个重要信号:长程任务的「难」,可能并非完全来自模型推理能力不足,更有可能是探索深度受限。当 Agent 拥有一个干净的思维空间并被允许充分探索时,它确实有能力在超长任务中持续进步。

另一个有意思的发现是:尽管最大轮次被设置为 2048,Agent 实际上平均只用了约 80 轮。它学会了在获取足够信息后主动终止,而非机械地耗尽预算 —— 这说明Agent 不仅学会了「走得远」,还学会了「知道何时停」。

「即插即用」的推理范式:不训练也能提升闭源模型

如果仅把 IterResearch 的迭代逻辑作为提示策略(prompting strategy),直接应用于闭源模型而不做任何训练,效果会怎样?

研究团队在 o3 和 DeepSeek-V3.1 上做了验证。在完全相同的任务设定下,相比传统的 ReAct 提示范式,IterResearch 在最具挑战性的 BrowseComp 上分别为 o3 带来了 12.7 个百分点、为 DeepSeek-V3.1 带来了 19.2 个百分点的提升。



这说明IterResearch 的核心优势在于结构性的认知机制,而非依赖特定数据或微调技巧。无论底层模型是什么架构,它触及的都是长程推理中的共性瓶颈。

总结

IterResearch 提出了一个简洁而有效的范式转换:与其不断修补一个注定会崩溃的线性上下文,不如从结构上让 Agent 学会「边做边重构思维」。

这一思路在训练框架、提示策略和跨范式迁移三个层面都展现了一致的有效性,而其揭示的 Interaction Scaling 特性更是为长程 Agent 的能力边界打开了新的想象空间。在 Agent 走向真正长期、持续运行的未来,IterResearch 提供了一个值得关注的方向。

作者介绍

第一作者陈国鑫,中国人民大学高瓴人工智能学院博士生,导师为赵鑫教授和宋睿华教授,研究方向为 LLM 推理与 Agent,聚焦搜索智能体与代码智能体。曾在阿里巴巴通义实验室等机构实习,在 ICLR、ICML、NeurIPS、ACL 等顶级会议发表多篇论文。本工作由中国人民大学与阿里巴巴通义实验室合作完成。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
扫地出门!曝曼联决定出售两大主力!1.45亿强援强势“空降”

扫地出门!曝曼联决定出售两大主力!1.45亿强援强势“空降”

头狼追球
2026-03-02 09:34:35
河北省政协原副主席姜德果严重违纪违法被开除党籍

河北省政协原副主席姜德果严重违纪违法被开除党籍

界面新闻
2026-03-02 16:33:07
西方专家说出大实话:由于中国很稳定,所以被北约视为“威胁”

西方专家说出大实话:由于中国很稳定,所以被北约视为“威胁”

混沌录
2026-03-02 22:45:17
清华建筑学课改,快变成计算机系了!

清华建筑学课改,快变成计算机系了!

黯泉
2026-03-02 21:20:11
为什么有些人的预判能力这么强?网友:见微知著,比很多人都厉害

为什么有些人的预判能力这么强?网友:见微知著,比很多人都厉害

夜深爱杂谈
2026-02-20 22:02:31
不要再叫喊击沉美航母了:击沉一艘航母有多难?你根本看不懂

不要再叫喊击沉美航母了:击沉一艘航母有多难?你根本看不懂

起喜电影
2026-03-02 07:35:37
高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

好爸育儿
2026-02-12 16:04:52
韩国股市俩月涨45%,背后是全国人均2个账户的狠人散户

韩国股市俩月涨45%,背后是全国人均2个账户的狠人散户

知危
2026-03-02 16:04:37
九门提督,权力巨大,关上城门就能造反?皇帝并不傻,早就有提防

九门提督,权力巨大,关上城门就能造反?皇帝并不傻,早就有提防

傲傲讲历史
2026-03-02 11:15:29
最新:乌克兰突破红军村方向防线!曝俄军被迫撤退

最新:乌克兰突破红军村方向防线!曝俄军被迫撤退

项鹏飞
2026-03-02 21:32:29
王晶大胆预测:电影《镖人》的最终票房,会超过《惊蛰无声》

王晶大胆预测:电影《镖人》的最终票房,会超过《惊蛰无声》

五四观娱
2026-02-28 23:21:19
今天,主力大幅买入!

今天,主力大幅买入!

君临财富
2026-03-02 15:23:54
街头,伊朗人悲伤地跳了起来?

街头,伊朗人悲伤地跳了起来?

关尔东
2026-03-01 23:02:58
霍尔木兹海峡关闭!中国化工全产业链承压

霍尔木兹海峡关闭!中国化工全产业链承压

新浪财经
2026-03-02 11:48:58
当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

当时很多蒙古考察日记中,都提到蒙古人性交随意,得病者极多!

老范谈史
2026-02-24 14:51:55
1964年钱学森被人投毒,毛主席得知后大怒,破例批准一项特殊待遇

1964年钱学森被人投毒,毛主席得知后大怒,破例批准一项特殊待遇

小莜读史
2026-02-28 11:13:03
单季18球!191cm巴西高中锋横扫英超,安切洛蒂为何拒召?

单季18球!191cm巴西高中锋横扫英超,安切洛蒂为何拒召?

阿晞体育
2026-03-02 20:16:07
孔子的“遗产”真强大,后代吃了2000多年:第77代孙出生就是巅峰

孔子的“遗产”真强大,后代吃了2000多年:第77代孙出生就是巅峰

谈古论今历史有道
2026-03-02 09:50:03
巴铁:多亏了中国制造!一天报销115辆坦克!塔利班举白旗求饶

巴铁:多亏了中国制造!一天报销115辆坦克!塔利班举白旗求饶

他是她的岛熊
2026-03-01 11:56:55
烧掉几千万拦了个寂寞?法塔赫-2首战告捷,美以防空反导已成败家陷阱

烧掉几千万拦了个寂寞?法塔赫-2首战告捷,美以防空反导已成败家陷阱

荷兰豆爱健康
2026-03-02 17:59:58
2026-03-03 00:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12395文章数 142575关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

头条要闻

媒体:拉里贾尼走向前台 四大关键变量将决定伊朗命运

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

教育
房产
健康
数码
军事航空

教育要闻

特别猛,但在留学生心中存在感很低的英国大学!

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

转头就晕的耳石症,能开车上班吗?

数码要闻

英伟达发布595.71 WHQL驱动,修复显卡风扇“翻车”问题

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版