ICLR 2026 | 多轮推理越走越偏，T3让Agent找回主动思考|算法|轨迹|动作|显式|新论文|agent

分享至

来源：市场资讯

（来源：PaperWeekly）

随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」，各种各样如 OpenClaw 的 agentic applications 正在成为当前研究与产业共同关注的核心方向。

无论是在网页环境中进行信息检索与操作，还是完成代码生成与调试、个性化推荐等复杂决策任务，这些场景都要求 LLM agent 具备主动推理（active reasoning）能力：在与环境的多轮交互中主动获取信息、持续更新对潜在任务状态的判断，并据此规划后续行动。

最近，越来越多工作开始使用强化学习训练 LLM agents。

但一个在实践中反复出现、却仍缺乏系统理论解释的现象是：随着交互轮次增加，模型可能越做越偏；行动仍在继续，但对任务真正有帮助的进展却越来越少。

比如，它可能会不断重复无效动作、忽略已有反馈、或者在错误的理解上越走越远。这类错误不仅会影响单条轨迹的推理质量，同样也会对训练带来影响。

具体地，它会污染强化学习中的 credit assignment，最终导致训练不稳定、探索不足，甚至学出一个表面会交互、实则不会主动推理的 agent。

针对这一问题，香港中文大学、字节跳动和佐治亚理工学院的研究者提出了论文《Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents》。

这项工作从 belief tracking 的角度系统分析了 LLM agent 在多轮主动推理中的训练失败机制，并提出了一个非常简单但很有效的方法：T3 （Truncating Belief-Trapped Trajectories）。

论文已发表于 ICLR 2026 并入选 oral 口头报告（比例约1-2%）：

论文标题：

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents

项目代码：

https://github.com/unimpor/T3

论文链接：

https://openreview.net/forum?id=r8hzDA3pUY

引言：为什么 RL 训练出来的 agent 还是不会主动推理？

最近，越来越多工作开始关注 LLM agent 的多轮推理能力与各类 agentic application。

和传统的单轮问答不同，这类任务最大的挑战在于：agent 往往无法在一开始就获得完成任务所需的全部信息，而必须在与外部环境的连续交互中，逐步收集线索、更新判断，并推进任务完成。

这类能力可以概括为 active reasoning：agent 在信息不完备的情况下，能够主动采取有助于减少不确定性、推进决策的动作。具体来说，通常包括：

当前可见信息是不完整的；
agent 需要主动采取行动，例如提问、调用工具、检索信息、执行操作等；
外部环境会根据这些动作返回新的反馈或观测；
agent 必须结合历史交互，持续更新对当前任务状态的理解，并据此决定下一步行动。

从直觉上看，强化学习似乎是训练这类 agent 的自然选择：outcome-based reward 应该可以指导 agent 逐步学会采取更有信息价值的行动，并形成更高效的探索与决策策略。

然而在实际系统中，这一过程远没有如此理想化。无论是在 computer-using agent，coding agent，还是通用对话 agent 的长程交互中，人们都反复观察到类似现象：随着交互的持续进行，agent 的推理质量往往不升反降。

例如，在一些实际使用体验中，agent 可能会围绕某个局部错误假设展开多轮无效行动：

在 computer-using agent 场景中，这可能表现为对界面状态、目标位置或下一步操作判断出现偏差，进而在网页或桌面环境中反复执行无效操作；

在 coding agent 中，agent 有时会在一次错误修改后持续沿着错误调试路径迭代；

在长对话场景中，agent 也可能过早形成某种判断，并在后续交互中对新反馈整合不足，导致对问题的理解逐渐偏离。

随着交互轮次增加，这类低信息量或无关行动往往不断累积，使 trajectory 出现越来越长的“无效尾部”。

更进一步，这种现象不仅影响单次任务完成质量，还会在强化学习训练中表现为 reward 波动加剧、策略更新不稳定，甚至在后期出现性能的崩坏。

这篇论文关注的核心问题可以概括为：

为什么 LLM agent 在多轮主动推理中容易逐步偏离正确判断，并在后续交互中难以自行纠正？强化学习为什么没有自动修复这一过程？

作者的核心观点是：关键在于， agent 在交互过程中对潜在任务状态形成的内部判断会持续发生偏移，并对后续决策产生连锁影响。

论文将这一现象形式化为 belief deviation，并进一步分析其如何通过影响 trajectory 结构，系统性干扰强化学习中的 credit assignment。

从 belief tracking 视角形式化主动推理

在这篇工作里，作者将 active reasoning 建模为一个 POMDP（Partially Observable Markov Decision Process）。其中的关键是：

Agent 必须在部分可观测的环境中，维护对潜在真实任务状态的 belief。

理想情况下，一个 oracle agent 可以基于历史观测做出 Bayesian 的 belief update；但真实 LLM agent 并不能显式维护这样的 posterior，它只能依靠自己的内部推理去近似 belief tracking 过程。

这就带来一个根本问题：LLM 的 belief update 往往是不精确的，而且这种误差会随着偏离加剧而不断放大。

作者首先用一个 truth-anchored potential 来度量 agentic task的完成进度：

其中代表着 agent 不可见的真实潜在任务状态。

直观来说，越小，说明 agent 越不相信真相，就越大；而当模型越来越接近真实状态时，才会下降。

围绕这个量，论文定义了 belief update discrepancy，衡量 LLM 的更新规则相对于 Bayesian update 的误差，并进一步提出一个关键假设（原文Assumption 1。

作者对这一理论假设进行了实验验证：见原文 Figure 2 a/b & Appendix C）：

当 belief 偏差足够大时，LLM 的更新误差会至少线性增长。

这意味着，一旦 agent 已经理解偏了，后续每一步更新都有可能让它偏得更厉害，而不是自己纠正回来。

Belief Trap Region（BTR）：Agentic 任务进展为何停滞？

基于上述形式化，作者提出了一个关键概念：Belief Trap Region（BTR，原文 Definition 1 ）。

BTR 可以直观理解为一个认知陷阱区域：

agent 已经偏离了真实问题状态；
后续动作几乎不再带来有效信息增益；
推理进展停滞甚至恶化；
轨迹尾部变得越来越长、越来越无信息量。

论文证明（原文 Theorem 1），在若干温和的假设下，一旦 belief deviation 累积到一定程度，LLM agent 与环境的交互将不再带来有效任务进展，而是进入一种进展停滞、且难以自行逃离的状态。

进入这里之后，agent 虽然还在继续生成 token、继续和环境交互，但这些行为对真正解决问题已经帮助很小。

论文第一页给了一个很形象的例子：在一个 situation puzzle 任务中（即通过多轮提问逐步还原一个隐藏情境或事件逻辑的推理游戏，类似“海龟汤”游戏），agent 不断围绕“是否存在双胞胎”这一假设做重复确认，而没有继续探索更关键的因果线索。

作者指出，这类现象本质上反映了 agent 在错误 belief 上持续展开交互，即所谓的 belief-trap dynamics。

更严重的问题：BTR 会污染 RL 的 credit assignment

如果 belief trapping 只影响单条轨迹的推理质量，那么它更多只是 inference-time failure。

然而本文进一步指出，其更关键的影响发生在训练阶段：这些无信息的长尾轨迹，会反过来破坏强化学习本身。

论文考察了 outcome-based RL 中的 advantage estimation 行为，特别是对 GAE advantage 的影响。

作者证明，当 trajectory 的后部进入 BTR 后，这一段低信息量、低任务进展的 tail 会污染 credit assignment 过程。

现总结如下（详见原文 Theorem 2，作者同时对这一理论进行了实验验证，见原文 Figure 2 c/d & Appendix C）：

在进入 BTR 之前的轨迹前段，往往包含一些本来具有价值的 exploratory actions，这些动作可能确实在推动 agent 更接近真实状态；
一旦轨迹在后续阶段进入 BTR，尾部 uninformative tail 的累积负向影响会污染前缀探索性动作的 credit，即对其 advantage 形成 negative drift；
在此情况下，policy optimization 可能会将这些原本有益的前缀动作误判为低质量甚至“坏”的行为并加以惩罚；
长期来看，这种机制会系统性地抑制探索，使得 policy 逐渐保守，使 agent 无法提升主动推理能力。

至此，论文明确指出了 belief deviation → BTR → advantage inversion → policy optimization 失真这一条机制链路。

T3：截断 belief-trapped trajectory tail

既然问题集中出现在进入 BTR 之后的低信息量 tail，一个自然的思路是：

当轨迹已经进入 belief-trapped regime 时，不再让其后续部分参与策略优化。

这正是 T3 的基本思想。T3 全称为 Truncating Belief-Trapped Trajectories，其做法并不复杂：

在训练过程中监控 trajectory 是否出现持续性的 progress stall；
一旦判断轨迹已经进入 belief-trapped 状态，即提前截断该 trajectory；
仅保留前面仍具有信息价值的 prefix 用于后续的 policy optimization。

这一设计的目标并不是简单缩短 rollout，而是更精确地控制用于策略更新的 trajectory support，从而避免低信息量 tail 污染前缀动作的 advantage estimation。

从这个角度看，T3 可以理解为一种非常轻量的训练控制机制：它不要求修改 PPO/GRPO/GSPO 的核心更新公式，而是通过剔除进入 belief-trapped regime 之后的尾部片段，改善策略梯度所依赖的 credit assignment 质量。

从理论对象到可操作规则：如何判断轨迹是否进入 BTR

T3 真正的难点不在于“截断”本身，而在于如何在实际训练中检测和识别 agent 已经进入了BTR 。这主要涉及两个问题。

1. Belief state 本身不可直接观测

理论分析中的、以及进入 BTR 的精确时间都是隐变量，现实中的 LLM 并不会显式输出 belief distribution，因此无法直接基于理论量进行判断。

为此，我们可以转而寻找一些更容易直接观测到的信号。实验结果表明，其实并不需要对 BTR 进行精确检测。

相反，只要利用一些较为简单的 proxy 信号，对后续大部分 uninformative tails 进行截断，就已经足以有效鼓励 agent 提升其 active reasoning 能力。

2. 不同任务的 hypothesis space 结构差异很大

有些任务具有离散、可枚举的 candidate set；有些任务是开放式语义空间；还有些任务对应连续 latent variable。因而，“任务进展”的具体可观测形式本身是 task-dependent 的。

针对这一问题，作者提出了一个统一但可实例化的 T3 condition （原文 Definition 2 ）：

若在最近一个窗口内，如果任务的假设空间未体现出足够的收缩，则判定该 trajectory 已进入 belief-trapped regime，并触发截断。

这个定义本身是 task-agnostic principle，但具体实现可以借助任务结构设计 proxy。同时，为了增强 T3 的在不同任务结构下的适用性，文章还探索了 general belief-trap detector 设计，具体可参见 Appendix E。

实验设置：5 个主动推理任务，覆盖离散、开放和连续假设空间

论文在 4 个数据集、5 个主动推理任务上系统评测了 T3，包括：

SituationPuzzles（SP）：模仿了“海龟汤”游戏，agent 会先看到一个看似矛盾的 puzzle 描述，然后通过连续提出猜想询问 judge，最终给出对整个情境的完整解释。

正文中，T3 将连续收到 judge “Unknown” 的回复视为低信息量信号并进行截断。

GuessNumbers（GN）是交互式数字推理任务：目标是猜出一个未知的 a 位数字。每一轮 agent 直接给出一个猜测，环境返回基于 agent 当前猜测的结构化反馈。

T3 在该任务中直接监控当前 guess 是否已经违背历史反馈对应的候选集约束；一旦 guess 落到当前候选集之外，就立即截断。

CircuitDecoding（CD）：每个样本给出一个有限候选池，里面包含若干布尔电路结构，最终目标是识别 K 个隐藏的真实电路索引。

agent 需要在多轮交互中从 1...K 中选择某个位置并输入一个二进制配置，环境返回对应输出；T3 监控候选池大小是否继续收缩；若持续不缩小，就认为后续查询已难以继续减少不确定性并进行截断。

PreferenceEstimation（PE）：任务通过交互估计一个隐藏的用户偏好向量。每部电影带有若干 attribute score，用户对电影的偏好由隐藏向量与属性分数的加权和决定。

每一轮 agent 都要同时输出当前的偏好向量估计，以及一个关于两部 reference movies 的 pairwise comparison 问题；judge 只回答 “Yes / No / Equal”。

正文主实验里，T3 通过 agent 显式输出的向量估计来近似 belief progress：若该估计与真实偏好的相似度连续下降，就触发截断。

论文同时在 Appendix D.3 进一步给出一个不依赖 ground truth preference 的替代版本：只监控相邻轮次向量估计的变化幅度是否在滑动窗口内持续过小。

MovieRecommendation（MR）建立在 PE 之上：前半段仍是 preference elicitation 交互，最后一轮不再继续提问，而是要求 agent 用自己当前估计的 preference 为用户推荐新的电影。

也就是说，MR 评估的不只是交互期内的偏好恢复，还考察这种 inferred user model 能否泛化到未见候选上。正文中，MR 与 PE 共用同一套T3 proxy。

可以看到，T3 并不依赖统一的 belief 表示，而只需要定义一个简单的 progress proxy 来近似检测推理是否进入低信息量阶段，因此在实践中具有很强的可移植性与易集成特性。

主要 RL 训练基于 Qwen2.5-7B-Instruct，并结合 PPO、GRPO、GSPO 三种常用优化算法。训练为 200 steps，属于一个相对克制但足够观察训练动态的规模设定。从环境形式来看：

GN、CD、PE、MR 的反馈是 rule-based；
SP 的反馈由 Qwen2.5-14B-Instruct 扮演 user simulator。

这也使得论文涵盖了多种 active reasoning setting，在不同结构的 reasoning problems 上测试 T3 的适用性：

有限、可枚举 hypothesis space；
开放式、难枚举 hypothesis space；
连续 latent state setting。

代码已开源：

https://github.com/unimpor/T3

作者正在进一步探索 T3 在更具现实复杂度的 agentic benchmarks（如 tau2-bench）中的表现与适用性，并将在开源仓库中同步进展。

整体结果：T3 稳定提升性能，也显著减少无效 token

主结果非常清晰：

在几乎所有设置下，T3 都能稳定优于 vanilla RL。

除了最终指标外，更值得关注的是训练动态：

1. 训练更稳定

论文中的 reward curve 显示，vanilla RL 往往存在明显震荡，甚至在部分收敛后再次塌陷；而加入 T3 后，训练曲线更平滑、更稳定，reward 提升更接近单调增长。

2. Token 效率更高

T3 虽然会在早期截断一些 trajectory，但正因为删掉了大量无信息 tail，整体 token 消耗反而更低，token-efficiency更高。

3. 对不同 RL 算法都有效

PPO、GRPO、GSPO 都能从 T3 中获益。这说明 T3 不是绑定某种特定 optimization trick，而更像是一个上层训练原则。

OOD 泛化性与消融实验分析：T3 的收益并不依赖于某个特定设置

论文进一步进行了较完整的 OOD 泛化性与 ablation 分析。

OOD泛化性：更难的 hypothesis space 下仍然受益

在 CD 任务中，作者增加 candidate pool size 和 hidden circuit size；在 PE 中，改变 reference movie 的数量与采样分布。结果显示，T3 在所有这些 OOD 场景下都持续优于 vanilla PPO。这说明 T3 确实在更困难的 reasoning regimes 中减轻了 belief trapping。

Ablation Studies

作者系统比较了不同窗口长度、不同 proxy 规则，以及随机截断 baseline。一个很有意思的发现是：

适度随机截断有时也会带来有限的改进；
但收益最稳定、效果最好的仍然是那些更准确捕获 belief-trap 的 truncation rule；
过松的条件无法有效过滤低信息量 tail，过严的条件又会过早删除仍然有价值的 exploration prefix。

这些结果说明：

问题确实在无信息长尾上，并且 T3 的有效性并不来自粗暴缩短轨迹，而是更有效地估计 “什么时候模型已经开始进入belief-trap”。

模型规模分析：较强模型通常获得更显著收益

论文还比较了不同规模和架构的模型，包括 Qwen2.5 3B / 7B / 14B，以及 LLaMA-3.1-8B 与 DeepSeek-R1-Distill-LLaMA-8B。

整体趋势是：

3B 模型收益有限；
7B、14B 模型收益更明显；
一些 reasoning 能力更强的架构，往往能更充分利用 T3。

针对这一现象，作者给出了一个贴合本文理论的假说。若底层模型的 belief tracking 能力本身过弱，则轨迹可能很快进入严重偏离状态，此时即便执行 truncation，也难以保留足够高质量的 informative prefix。

相反，对于具有一定多轮推理基础的模型，T3 更能够发挥“保护前缀有效探索”的作用。

这项工作的意义与启示

从更高层面看，这篇工作传递了几个非常重要的 takeaways。

首先，它对多轮主动推理中的常见 failure mode 给出了一个可分析的理论刻画。

以往在交互过程中出现的冗余行动、围绕局部错误假设持续展开等现象，更多被视为经验观察。

本文将其系统化为 belief deviation 与 Belief Trap Region（BTR），使这些问题首次成为可以建模、分析并进行训练干预的对象。

其次，论文解释了一个长期困扰 RL for LLM agents 的现象，即 outcome-based reward 并不会自动奖励“有信息量的探索”。

Belief-trapped tails 的存在会污染 credit assignment，使其产生系统性偏差。

这表明，active reasoning 的困难不仅来自 sparse reward，本质上也来自 belief dynamics 对策略学习过程的干扰。

更进一步，T3 所提出的解决思路非常轻量：它不依赖额外 reward model，也不需要重写 PPO、GRPO 或 GSPO 的优化机制，而是通过控制 trajectory 中用于策略更新的有效片段来改善训练信号质量。

这种设计使其具有较强的可集成性，也为在更复杂 agentic settings 中应用提供了现实可行性。

从更长远的角度看，这项工作还指向了一个更一般的问题：

是否存在跨任务、较为通用的 belief-collapse detector，可用于大规模 long-horizon active reasoning agents 的训练控制？

论文 Appendix E 已经初步探索了若干可能路径，如基于语义冗余的检测等。

这些方向都表明，控制 belief dynamics 可能成为未来多轮 RL for LLM agents 中与 reward design、exploration strategy 同样关键的一条研究主线。

作者也正在进一步探索 T3 在更具现实复杂度的 agentic benchmarks（如 tau2-bench）中的表现与适用性，并将在开源仓库中持续更新相关进展。

欢迎查阅论文与代码以获取更多技术细节。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.