人大&通义：IterResearch用40K上下文轻松实现2048轮交互不退化|调用|推理|新论文|agent|iterresearch

人大&通义：IterResearch用40K上下文轻松实现2048轮交互不退化

2026-03-02 19:18:23　来源: 机器之心Pro

河北举报

分享至

以 40K 上下文，让 Agent 搜索 2048 轮，性能还能一路涨？这几乎是不可想象的。

当前主流的 Search Agent 都面临同一个尴尬：Agent 需要反复搜索网页、比对线索、验证假设、回溯修正，交互轮次动辄数十上百轮。但以 ReAct 为代表的传统范式，把每一轮的思考和工具返回结果不断追加到同一个上下文窗口中 —— 做得越多，上下文越臃肿，留给推理的空间越少，早期的噪声和错误路径还被永久「焊死」在记忆里。

结果就是：Agent 搜得越深入，反而「想」得越糊涂。

能不能让 Agent 在探索过程中不断「清理工作台」，始终在一个干净的空间里思考？

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch，一种全新的迭代式深度研究范式。

通过马尔可夫式的工作空间重构，IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减，在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

目前，该论文已被 ICLR 2026 接收。

论文链接：https://arxiv.org/pdf/2511.07327
代码链接：https://github.com/Chen-GX/IterResearch

「堆上下文」为什么难以实现 Interaction Scaling？

在 Search Agent 场景下，Agent 的工作本质上是一个与外部环境不断交互的循环。传统 ReAct 范式将这一过程建模为「单上下文堆叠」：每一轮的推理和工具返回被持续追加到同一个上下文窗口中，形成线性增长的记忆链。

这种看似自然的设计，在长程任务中会引发两个结构性问题：

其一是上下文窒息（context suffocation）：上下文窗口的总容量是有限的，历史信息不断堆积意味着留给后续推理的「生成预算」被持续压缩。Agent 被迫给出更短、更浅的回答，最终滑向草率的结论；
其二是噪声污染（noise contamination）：搜索过程中产生的大量网页摘要、早期的错误路径和无关线索被永久写入上下文，对后续推理产生级联干扰，信噪比持续走低。

社区已经意识到了这些问题，陆续提出了 context folding、summary 等缓解策略，试图为摇摇欲坠的上下文「续命」。但这些方法本质上是在补救，并未从根本上改变上下文线性增长的结构 —— 给 Agent 256K 甚至更长的窗口，也只是推迟崩溃，而非避免崩溃。

不再「堆叠」，而是「重构」：IterResearch 的核心思路

IterResearch 对这一问题的回应不是修修补补，而是从范式层面重新思考：与其不断往上下文里塞东西，不如让 Agent 学会「边做边清理」。

研究团队将长程研究过程形式化为一个马尔可夫决策过程（MDP）。核心思想是：Agent 不再维护一个不断膨胀的完整历史，而是通过一个持续进化的「演进式报告」（evolving report）来综合已有成果、压缩无关信息、更新推理状态。每一轮推理都在一个被重构过的、恒定复杂度的工作空间中展开。

具体来说，Agent 的每一步包含两个核心动作：

决策阶段：Agent 基于当前状态，输出三部分 —— 思考过程（Think）、更新后的演进报告（Report）和本轮工具调用请求（Action）。报告在这里扮演了「压缩记忆」的角色，Agent 需要在每一轮主动决定哪些信息值得保留，哪些应该被丢弃。
状态转移阶段：进入下一轮时，完整的历史轨迹被有意丢弃，Agent 仅保留更新后的报告、上一轮的工具调用及其返回结果，三者共同构成新的推理起点。

从上下文管理的视角看，传统 ReAct 的状态空间随交互轮次 t 线性增长（O (t)），而 IterResearch 的工作空间始终保持恒定（O (1)）。

研究团队指出，这种机制与 RNN/LSTM 中的隐状态更新有结构上的相似性 —— 都通过一个隐状态来承载记忆并逐步更新。不同之处在于，IterResearch 的「隐状态」是一份显式、可解释的研究报告，既能浓缩历史，又能为下一步推理提供清晰的起点。

40K 上下文，2048 轮交互不退化：Interaction Scaling 的威力

这项工作中最核心的发现，就是 Interaction Scaling 特性 ——给 Agent 更多的交互预算，性能就能持续提升，而不会像传统方法那样因为上下文溢出而崩溃。

在 BrowseComp 基准上，研究团队将 Agent 的最大交互轮次从 2 逐步放宽到 2048。结果显示，IterResearch 的准确率从 3.5% 一路攀升到 42.5%，且在 2048 轮时依然没有出现明显的退化迹象。而传统单上下文方法在几十轮后就已经不堪重负。

值得强调的是，2048 并非 IterResearch 的交互上限，而仅是实验评测范围的终点。模型在 2048 轮时性能曲线仍保持上升趋势，表明该范式在理论上具备进一步扩展的潜力。

这一结果传递了一个重要信号：长程任务的「难」，可能并非完全来自模型推理能力不足，更有可能是探索深度受限。当 Agent 拥有一个干净的思维空间并被允许充分探索时，它确实有能力在超长任务中持续进步。

另一个有意思的发现是：尽管最大轮次被设置为 2048，Agent 实际上平均只用了约 80 轮。它学会了在获取足够信息后主动终止，而非机械地耗尽预算 —— 这说明Agent 不仅学会了「走得远」，还学会了「知道何时停」。

「即插即用」的推理范式：不训练也能提升闭源模型

如果仅把 IterResearch 的迭代逻辑作为提示策略（prompting strategy），直接应用于闭源模型而不做任何训练，效果会怎样？

研究团队在 o3 和 DeepSeek-V3.1 上做了验证。在完全相同的任务设定下，相比传统的 ReAct 提示范式，IterResearch 在最具挑战性的 BrowseComp 上分别为 o3 带来了 12.7 个百分点、为 DeepSeek-V3.1 带来了 19.2 个百分点的提升。

这说明IterResearch 的核心优势在于结构性的认知机制，而非依赖特定数据或微调技巧。无论底层模型是什么架构，它触及的都是长程推理中的共性瓶颈。

总结

IterResearch 提出了一个简洁而有效的范式转换：与其不断修补一个注定会崩溃的线性上下文，不如从结构上让 Agent 学会「边做边重构思维」。

这一思路在训练框架、提示策略和跨范式迁移三个层面都展现了一致的有效性，而其揭示的 Interaction Scaling 特性更是为长程 Agent 的能力边界打开了新的想象空间。在 Agent 走向真正长期、持续运行的未来，IterResearch 提供了一个值得关注的方向。

作者介绍

第一作者陈国鑫，中国人民大学高瓴人工智能学院博士生，导师为赵鑫教授和宋睿华教授，研究方向为 LLM 推理与 Agent，聚焦搜索智能体与代码智能体。曾在阿里巴巴通义实验室等机构实习，在 ICLR、ICML、NeurIPS、ACL 等顶级会议发表多篇论文。本工作由中国人民大学与阿里巴巴通义实验室合作完成。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.