网易首页 > 网易号 > 正文 申请入驻

人大&通义:IterResearch用40K上下文轻松实现2048轮交互不退化

0
分享至

来源:市场资讯

(来源:机器之心Pro)


以 40K 上下文,让 Agent 搜索 2048 轮,性能还能一路涨?这几乎是不可想象的。

当前主流的 Search Agent 都面临同一个尴尬:Agent 需要反复搜索网页、比对线索、验证假设、回溯修正,交互轮次动辄数十上百轮。但以 ReAct 为代表的传统范式,把每一轮的思考和工具返回结果不断追加到同一个上下文窗口中 —— 做得越多,上下文越臃肿,留给推理的空间越少,早期的噪声和错误路径还被永久「焊死」在记忆里。

结果就是:Agent 搜得越深入,反而「想」得越糊涂。

能不能让 Agent 在探索过程中不断「清理工作台」,始终在一个干净的空间里思考?

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。

通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

目前,该论文已被 ICLR 2026 接收。


「堆上下文」为什么难以实现 Interaction Scaling?

在 Search Agent 场景下,Agent 的工作本质上是一个与外部环境不断交互的循环。传统 ReAct 范式将这一过程建模为「单上下文堆叠」:每一轮的推理和工具返回被持续追加到同一个上下文窗口中,形成线性增长的记忆链。

这种看似自然的设计,在长程任务中会引发两个结构性问题:

社区已经意识到了这些问题,陆续提出了 context folding、summary 等缓解策略,试图为摇摇欲坠的上下文「续命」。但这些方法本质上是在补救,并未从根本上改变上下文线性增长的结构 —— 给 Agent 256K 甚至更长的窗口,也只是推迟崩溃,而非避免崩溃。

不再「堆叠」,而是「重构」:IterResearch 的核心思路

IterResearch 对这一问题的回应不是修修补补,而是从范式层面重新思考:与其不断往上下文里塞东西,不如让 Agent 学会「边做边清理」。


研究团队将长程研究过程形式化为一个马尔可夫决策过程(MDP)。核心思想是:Agent 不再维护一个不断膨胀的完整历史,而是通过一个持续进化的「演进式报告」(evolving report)来综合已有成果、压缩无关信息、更新推理状态。每一轮推理都在一个被重构过的、恒定复杂度的工作空间中展开。

具体来说,Agent 的每一步包含两个核心动作:

从上下文管理的视角看,传统 ReAct 的状态空间随交互轮次 t 线性增长(O (t)),而 IterResearch 的工作空间始终保持恒定(O (1))。

研究团队指出,这种机制与 RNN/LSTM 中的隐状态更新有结构上的相似性 —— 都通过一个隐状态来承载记忆并逐步更新。不同之处在于,IterResearch 的「隐状态」是一份显式、可解释的研究报告,既能浓缩历史,又能为下一步推理提供清晰的起点。


40K 上下文,2048 轮交互不退化:Interaction Scaling 的威力

这项工作中最核心的发现,就是 Interaction Scaling 特性 ——给 Agent 更多的交互预算,性能就能持续提升,而不会像传统方法那样因为上下文溢出而崩溃。


在 BrowseComp 基准上,研究团队将 Agent 的最大交互轮次从 2 逐步放宽到 2048。结果显示,IterResearch 的准确率从 3.5% 一路攀升到 42.5%,且在 2048 轮时依然没有出现明显的退化迹象。而传统单上下文方法在几十轮后就已经不堪重负。

值得强调的是,2048 并非 IterResearch 的交互上限,而仅是实验评测范围的终点。模型在 2048 轮时性能曲线仍保持上升趋势,表明该范式在理论上具备进一步扩展的潜力。

这一结果传递了一个重要信号:长程任务的「难」,可能并非完全来自模型推理能力不足,更有可能是探索深度受限。当 Agent 拥有一个干净的思维空间并被允许充分探索时,它确实有能力在超长任务中持续进步。

另一个有意思的发现是:尽管最大轮次被设置为 2048,Agent 实际上平均只用了约 80 轮。它学会了在获取足够信息后主动终止,而非机械地耗尽预算 —— 这说明Agent 不仅学会了「走得远」,还学会了「知道何时停」。

「即插即用」的推理范式:不训练也能提升闭源模型

如果仅把 IterResearch 的迭代逻辑作为提示策略(prompting strategy),直接应用于闭源模型而不做任何训练,效果会怎样?

研究团队在 o3 和 DeepSeek-V3.1 上做了验证。在完全相同的任务设定下,相比传统的 ReAct 提示范式,IterResearch 在最具挑战性的 BrowseComp 上分别为 o3 带来了 12.7 个百分点、为 DeepSeek-V3.1 带来了 19.2 个百分点的提升。


这说明IterResearch 的核心优势在于结构性的认知机制,而非依赖特定数据或微调技巧。无论底层模型是什么架构,它触及的都是长程推理中的共性瓶颈。

总结

IterResearch 提出了一个简洁而有效的范式转换:与其不断修补一个注定会崩溃的线性上下文,不如从结构上让 Agent 学会「边做边重构思维」。

这一思路在训练框架、提示策略和跨范式迁移三个层面都展现了一致的有效性,而其揭示的 Interaction Scaling 特性更是为长程 Agent 的能力边界打开了新的想象空间。在 Agent 走向真正长期、持续运行的未来,IterResearch 提供了一个值得关注的方向。

作者介绍

第一作者陈国鑫,中国人民大学高瓴人工智能学院博士生,导师为赵鑫教授和宋睿华教授,研究方向为 LLM 推理与 Agent,聚焦搜索智能体与代码智能体。曾在阿里巴巴通义实验室等机构实习,在 ICLR、ICML、NeurIPS、ACL 等顶级会议发表多篇论文。本工作由中国人民大学与阿里巴巴通义实验室合作完成。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白敬亭和宋轶的瓜,有点炸

白敬亭和宋轶的瓜,有点炸

背包旅行
2026-03-01 15:06:07
人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

医学原创故事会
2026-02-21 23:54:05
真当中国不敢动手?中方向全世界宣布一件大事:退出1900亿大项目

真当中国不敢动手?中方向全世界宣布一件大事:退出1900亿大项目

科普100克克
2025-12-30 00:14:37
朱婷加比相撞,紧急送医治疗,检查结果出炉

朱婷加比相撞,紧急送医治疗,检查结果出炉

跑者排球视角
2026-03-02 23:29:37
我见过最傻的父母,攥着大把的存款和退休金,却等着给子女当遗产

我见过最傻的父母,攥着大把的存款和退休金,却等着给子女当遗产

i书与房
2026-02-25 17:22:34
国家安全部:NFC可能成为信息泄露乃至危害国家安全的渠道

国家安全部:NFC可能成为信息泄露乃至危害国家安全的渠道

上观新闻
2026-02-02 07:09:04
跌回一年前!恒生科技回撤23%变“老登科技”?港股跌到位了吗?

跌回一年前!恒生科技回撤23%变“老登科技”?港股跌到位了吗?

每日经济新闻
2026-03-02 19:14:36
台专家预言美以伊开战中国将获20年战略缓冲期

台专家预言美以伊开战中国将获20年战略缓冲期

乐享人生风雨
2026-03-03 02:53:53
这就是命啊!哥伦比亚一家4口出去玩,中途儿子内急下车如厕

这就是命啊!哥伦比亚一家4口出去玩,中途儿子内急下车如厕

忠于法纪
2025-12-28 20:35:41
所有AI全军覆没!学者出2500道题,GPT-5得分25.3%,GPT-4o 2.7%

所有AI全军覆没!学者出2500道题,GPT-5得分25.3%,GPT-4o 2.7%

DeepTech深科技
2026-03-01 17:25:27
去年涨价3次,今年突然集体降价!多个品牌陆续宣布,网友:再等等,还会降

去年涨价3次,今年突然集体降价!多个品牌陆续宣布,网友:再等等,还会降

佛山电视台小强热线
2026-03-02 19:30:36
因加速、倒放宣传视频引发争议 两家鸿蒙智行用户中心公开致歉

因加速、倒放宣传视频引发争议 两家鸿蒙智行用户中心公开致歉

中国能源网
2026-03-02 11:47:11
绕道阿曼!迪拜机场关闭后,滞留游客曲线回国:转机3次,耗时四五十个小时

绕道阿曼!迪拜机场关闭后,滞留游客曲线回国:转机3次,耗时四五十个小时

每日经济新闻
2026-03-02 18:10:27
560名美军伤亡,林肯号挨炸,美国爆发游行,特朗普算错一件事!

560名美军伤亡,林肯号挨炸,美国爆发游行,特朗普算错一件事!

钦点历史
2026-03-02 13:53:29
王楚钦击败林昀儒夺冠,赛后居然对王皓吐槽,说了三个字让人心疼

王楚钦击败林昀儒夺冠,赛后居然对王皓吐槽,说了三个字让人心疼

胡一舸南游y
2026-03-02 19:15:45
中国外贸商在伊朗战火中的48小时:货在仓库,客户失联了

中国外贸商在伊朗战火中的48小时:货在仓库,客户失联了

凤凰网财经
2026-03-02 21:18:50
美经济学家:美国出现了严重战略误判,压根没料到中国会这么强大

美经济学家:美国出现了严重战略误判,压根没料到中国会这么强大

乐天闲聊
2025-12-01 10:29:34
乌称精准袭击俄一港口军事及石油设施;泽连斯基:乌美俄三方会谈能否如期举行尚未确认

乌称精准袭击俄一港口军事及石油设施;泽连斯基:乌美俄三方会谈能否如期举行尚未确认

起喜电影
2026-03-03 01:21:24
中国人月薪过万很普遍了吗?网友:据说沿海基本上都过万哦

中国人月薪过万很普遍了吗?网友:据说沿海基本上都过万哦

带你感受人间冷暖
2026-03-01 04:35:13
老了才明白:父母一旦超过77,立刻停止几种行为,要注意

老了才明白:父母一旦超过77,立刻停止几种行为,要注意

荆医生科普
2026-03-02 19:20:08
2026-03-03 03:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2320935文章数 5646关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

亲子
旅游
数码
手机
艺术

亲子要闻

45岁这年,我这个二胎妈妈决定做一件“疯狂”的事

旅游要闻

热度飙升!非遗、冰雪…禹州元宵“文旅大餐”承包圆满佳节!

数码要闻

高通MWC 2026发布多项通信技术,定档2029年开启6G商用

手机要闻

iPhone 17e外观与前代几乎一致 旧款iPhone 16e保护壳可继续用

艺术要闻

这四位老人的花鸟画,竟让人欲罢不能!

无障碍浏览 进入关怀版