来源:市场资讯
(来源:PaperWeekly)
随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,各种各样如 OpenClaw 的 agentic applications 正在成为当前研究与产业共同关注的核心方向。
无论是在网页环境中进行信息检索与操作,还是完成代码生成与调试、个性化推荐等复杂决策任务,这些场景都要求 LLM agent 具备主动推理(active reasoning)能力:在与环境的多轮交互中主动获取信息、持续更新对潜在任务状态的判断,并据此规划后续行动。
最近,越来越多工作开始使用强化学习训练 LLM agents。
但一个在实践中反复出现、却仍缺乏系统理论解释的现象是:随着交互轮次增加,模型可能越做越偏;行动仍在继续,但对任务真正有帮助的进展却越来越少。
比如,它可能会不断重复无效动作、忽略已有反馈、或者在错误的理解上越走越远。这类错误不仅会影响单条轨迹的推理质量,同样也会对训练带来影响。
具体地,它会污染强化学习中的 credit assignment,最终导致训练不稳定、探索不足,甚至学出一个表面会交互、实则不会主动推理的 agent。
针对这一问题,香港中文大学、字节跳动和佐治亚理工学院的研究者提出了论文《Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents》。
这项工作从 belief tracking 的角度系统分析了 LLM agent 在多轮主动推理中的训练失败机制,并提出了一个非常简单但很有效的方法:T3 (Truncating Belief-Trapped Trajectories)。
论文已发表于 ICLR 2026 并入选 oral 口头报告(比例约1-2%):
![]()
论文标题:
Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents
项目代码:
https://github.com/unimpor/T3
论文链接:
https://openreview.net/forum?id=r8hzDA3pUY
![]()
引言:为什么 RL 训练出来的 agent 还是不会主动推理?
最近,越来越多工作开始关注 LLM agent 的多轮推理能力与各类 agentic application。
和传统的单轮问答不同,这类任务最大的挑战在于:agent 往往无法在一开始就获得完成任务所需的全部信息,而必须在与外部环境的连续交互中,逐步收集线索、更新判断,并推进任务完成。
这类能力可以概括为 active reasoning:agent 在信息不完备的情况下,能够主动采取有助于减少不确定性、推进决策的动作。具体来说,通常包括:
当前可见信息是不完整的;
agent 需要主动采取行动,例如提问、调用工具、检索信息、执行操作等;
外部环境会根据这些动作返回新的反馈或观测;
agent 必须结合历史交互,持续更新对当前任务状态的理解,并据此决定下一步行动。
从直觉上看,强化学习似乎是训练这类 agent 的自然选择:outcome-based reward 应该可以指导 agent 逐步学会采取更有信息价值的行动,并形成更高效的探索与决策策略。
然而在实际系统中,这一过程远没有如此理想化。无论是在 computer-using agent,coding agent,还是通用对话 agent 的长程交互中,人们都反复观察到类似现象:随着交互的持续进行,agent 的推理质量往往不升反降。
例如,在一些实际使用体验中,agent 可能会围绕某个局部错误假设展开多轮无效行动:
在 computer-using agent 场景中,这可能表现为对界面状态、目标位置或下一步操作判断出现偏差,进而在网页或桌面环境中反复执行无效操作;
在 coding agent 中,agent 有时会在一次错误修改后持续沿着错误调试路径迭代;
在长对话场景中,agent 也可能过早形成某种判断,并在后续交互中对新反馈整合不足,导致对问题的理解逐渐偏离。
随着交互轮次增加,这类低信息量或无关行动往往不断累积,使 trajectory 出现越来越长的“无效尾部”。
更进一步,这种现象不仅影响单次任务完成质量,还会在强化学习训练中表现为 reward 波动加剧、策略更新不稳定,甚至在后期出现性能的崩坏。
这篇论文关注的核心问题可以概括为:
为什么 LLM agent 在多轮主动推理中容易逐步偏离正确判断,并在后续交互中难以自行纠正?强化学习为什么没有自动修复这一过程?
作者的核心观点是:关键在于, agent 在交互过程中对潜在任务状态形成的内部判断会持续发生偏移,并对后续决策产生连锁影响。
论文将这一现象形式化为 belief deviation,并进一步分析其如何通过影响 trajectory 结构,系统性干扰强化学习中的 credit assignment。
![]()
从 belief tracking 视角形式化主动推理
在这篇工作里,作者将 active reasoning 建模为一个 POMDP(Partially Observable Markov Decision Process)。其中的关键是:
Agent 必须在部分可观测的环境中,维护对潜在真实任务状态的 belief。
理想情况下,一个 oracle agent 可以基于历史观测做出 Bayesian 的 belief update;但真实 LLM agent 并不能显式维护这样的 posterior,它只能依靠自己的内部推理去近似 belief tracking 过程。
这就带来一个根本问题:LLM 的 belief update 往往是不精确的,而且这种误差会随着偏离加剧而不断放大。
作者首先用一个 truth-anchored potential 来度量 agentic task的完成进度:
![]()
其中 代表着 agent 不可见的真实潜在任务状态。
直观来说, 越小,说明 agent 越不相信真相, 就越大;而当模型越来越接近真实状态时, 才会下降。
围绕这个量,论文定义了 belief update discrepancy,衡量 LLM 的更新规则相对于 Bayesian update 的误差,并进一步提出一个关键假设(原文Assumption 1。
作者对这一理论假设进行了实验验证:见原文 Figure 2 a/b & Appendix C):
![]()
当 belief 偏差足够大时,LLM 的更新误差会至少线性增长。
这意味着,一旦 agent 已经理解偏了,后续每一步更新都有可能让它偏得更厉害,而不是自己纠正回来。
![]()
Belief Trap Region(BTR):Agentic 任务进展为何停滞?
基于上述形式化,作者提出了一个关键概念:Belief Trap Region(BTR,原文 Definition 1 )。
BTR 可以直观理解为一个认知陷阱区域:
agent 已经偏离了真实问题状态;
后续动作几乎不再带来有效信息增益;
推理进展停滞甚至恶化;
轨迹尾部变得越来越长、越来越无信息量。
论文证明(原文 Theorem 1),在若干温和的假设下,一旦 belief deviation 累积到一定程度,LLM agent 与环境的交互将不再带来有效任务进展,而是进入一种进展停滞、且难以自行逃离的状态。
进入这里之后,agent 虽然还在继续生成 token、继续和环境交互,但这些行为对真正解决问题已经帮助很小。
论文第一页给了一个很形象的例子:在一个 situation puzzle 任务中(即通过多轮提问逐步还原一个隐藏情境或事件逻辑的推理游戏,类似“海龟汤”游戏),agent 不断围绕“是否存在双胞胎”这一假设做重复确认,而没有继续探索更关键的因果线索。
作者指出,这类现象本质上反映了 agent 在错误 belief 上持续展开交互,即所谓的 belief-trap dynamics。
![]()
![]()
更严重的问题:BTR 会污染 RL 的 credit assignment
如果 belief trapping 只影响单条轨迹的推理质量,那么它更多只是 inference-time failure。
然而本文进一步指出,其更关键的影响发生在训练阶段:这些无信息的长尾轨迹,会反过来破坏强化学习本身。
论文考察了 outcome-based RL 中的 advantage estimation 行为,特别是对 GAE advantage 的影响。
作者证明,当 trajectory 的后部进入 BTR 后,这一段低信息量、低任务进展的 tail 会污染 credit assignment 过程。
现总结如下(详见原文 Theorem 2,作者同时对这一理论进行了实验验证,见原文 Figure 2 c/d & Appendix C):
在进入 BTR 之前的轨迹前段,往往包含一些本来具有价值的 exploratory actions,这些动作可能确实在推动 agent 更接近真实状态;
一旦轨迹在后续阶段进入 BTR,尾部 uninformative tail 的累积负向影响会污染前缀探索性动作的 credit,即对其 advantage 形成 negative drift;
在此情况下,policy optimization 可能会将这些原本有益的前缀动作误判为低质量甚至“坏”的行为并加以惩罚;
长期来看,这种机制会系统性地抑制探索,使得 policy 逐渐保守,使 agent 无法提升主动推理能力。
至此,论文明确指出了 belief deviation → BTR → advantage inversion → policy optimization 失真这一条机制链路。
![]()
T3:截断 belief-trapped trajectory tail
既然问题集中出现在进入 BTR 之后的低信息量 tail,一个自然的思路是:
当轨迹已经进入 belief-trapped regime 时,不再让其后续部分参与策略优化。
这正是 T3 的基本思想。T3 全称为 Truncating Belief-Trapped Trajectories,其做法并不复杂:
在训练过程中监控 trajectory 是否出现持续性的 progress stall;
一旦判断轨迹已经进入 belief-trapped 状态,即提前截断该 trajectory;
仅保留前面仍具有信息价值的 prefix 用于后续的 policy optimization。
这一设计的目标并不是简单缩短 rollout,而是更精确地控制用于策略更新的 trajectory support,从而避免低信息量 tail 污染前缀动作的 advantage estimation。
从这个角度看,T3 可以理解为一种非常轻量的训练控制机制:它不要求修改 PPO/GRPO/GSPO 的核心更新公式,而是通过剔除进入 belief-trapped regime 之后的尾部片段,改善策略梯度所依赖的 credit assignment 质量。
![]()
从理论对象到可操作规则:如何判断轨迹是否进入 BTR
T3 真正的难点不在于“截断”本身,而在于如何在实际训练中检测和识别 agent 已经进入了BTR 。这主要涉及两个问题。
1. Belief state 本身不可直接观测
理论分析中的 、 以及 进入 BTR 的精确时间都是隐变量,现实中的 LLM 并不会显式输出 belief distribution,因此无法直接基于理论量进行判断。
为此,我们可以转而寻找一些更容易直接观测到的信号。实验结果表明,其实并不需要对 BTR 进行精确检测。
相反,只要利用一些较为简单的 proxy 信号,对后续大部分 uninformative tails 进行截断,就已经足以有效鼓励 agent 提升其 active reasoning 能力。
2. 不同任务的 hypothesis space 结构差异很大
有些任务具有离散、可枚举的 candidate set;有些任务是开放式语义空间;还有些任务对应连续 latent variable。因而,“任务进展”的具体可观测形式本身是 task-dependent 的。
针对这一问题,作者提出了一个统一但可实例化的 T3 condition (原文 Definition 2 ):
若在最近一个窗口内,如果任务的假设空间未体现出足够的收缩,则判定该 trajectory 已进入 belief-trapped regime,并触发截断。
这个定义本身是 task-agnostic principle,但具体实现可以借助任务结构设计 proxy。同时,为了增强 T3 的在不同任务结构下的适用性,文章还探索了 general belief-trap detector 设计,具体可参见 Appendix E。
![]()
实验设置:5 个主动推理任务,覆盖离散、开放和连续假设空间
论文在 4 个数据集、5 个主动推理任务上系统评测了 T3,包括:
SituationPuzzles(SP):模仿了“海龟汤”游戏,agent 会先看到一个看似矛盾的 puzzle 描述,然后通过连续提出猜想询问 judge,最终给出对整个情境的完整解释。
正文中,T3 将连续收到 judge “Unknown” 的回复视为低信息量信号并进行截断。
GuessNumbers(GN)是交互式数字推理任务:目标是猜出一个未知的 a 位数字。每一轮 agent 直接给出一个猜测,环境返回基于 agent 当前猜测的结构化反馈。
T3 在该任务中直接监控当前 guess 是否已经违背历史反馈对应的候选集约束;一旦 guess 落到当前候选集之外,就立即截断。
CircuitDecoding(CD):每个样本给出一个有限候选池,里面包含若干布尔电路结构,最终目标是识别 K 个隐藏的真实电路索引。
agent 需要在多轮交互中从 1...K 中选择某个位置 并输入一个二进制配置,环境返回对应输出;T3 监控候选池大小是否继续收缩;若持续不缩小,就认为后续查询已难以继续减少不确定性并进行截断。
PreferenceEstimation(PE):任务通过交互估计一个隐藏的用户偏好向量。每部电影带有若干 attribute score,用户对电影的偏好由隐藏向量与属性分数的加权和决定。
每一轮 agent 都要同时输出当前的偏好向量估计,以及一个关于两部 reference movies 的 pairwise comparison 问题;judge 只回答 “Yes / No / Equal”。
正文主实验里,T3 通过 agent 显式输出的向量估计来近似 belief progress:若该估计与真实偏好的相似度连续下降,就触发截断。
论文同时在 Appendix D.3 进一步给出一个不依赖 ground truth preference 的替代版本:只监控相邻轮次向量估计的变化幅度是否在滑动窗口内持续过小。
MovieRecommendation(MR)建立在 PE 之上:前半段仍是 preference elicitation 交互,最后一轮不再继续提问,而是要求 agent 用自己当前估计的 preference 为用户推荐新的电影。
也就是说,MR 评估的不只是交互期内的偏好恢复,还考察这种 inferred user model 能否泛化到未见候选上。正文中,MR 与 PE 共用同一套T3 proxy。
可以看到,T3 并不依赖统一的 belief 表示,而只需要定义一个简单的 progress proxy 来近似检测推理是否进入低信息量阶段,因此在实践中具有很强的可移植性与易集成特性。
主要 RL 训练基于 Qwen2.5-7B-Instruct,并结合 PPO、GRPO、GSPO 三种常用优化算法。训练为 200 steps,属于一个相对克制但足够观察训练动态的规模设定。从环境形式来看:
GN、CD、PE、MR 的反馈是 rule-based;
SP 的反馈由 Qwen2.5-14B-Instruct 扮演 user simulator。
这也使得论文涵盖了多种 active reasoning setting,在不同结构的 reasoning problems 上测试 T3 的适用性:
有限、可枚举 hypothesis space;
开放式、难枚举 hypothesis space;
连续 latent state setting。
代码已开源:
https://github.com/unimpor/T3
作者正在进一步探索 T3 在更具现实复杂度的 agentic benchmarks(如 tau2-bench)中的表现与适用性,并将在开源仓库中同步进展。
![]()
整体结果:T3 稳定提升性能,也显著减少无效 token
主结果非常清晰:
在几乎所有设置下,T3 都能稳定优于 vanilla RL。
![]()
除了最终指标外,更值得关注的是训练动态:
1. 训练更稳定
论文中的 reward curve 显示,vanilla RL 往往存在明显震荡,甚至在部分收敛后再次塌陷;而加入 T3 后,训练曲线更平滑、更稳定,reward 提升更接近单调增长。
2. Token 效率更高
T3 虽然会在早期截断一些 trajectory,但正因为删掉了大量无信息 tail,整体 token 消耗反而更低,token-efficiency更高。
3. 对不同 RL 算法都有效
PPO、GRPO、GSPO 都能从 T3 中获益。这说明 T3 不是绑定某种特定 optimization trick,而更像是一个上层训练原则。
![]()
![]()
OOD 泛化性与消融实验分析:T3 的收益并不依赖于某个特定设置
论文进一步进行了较完整的 OOD 泛化性与 ablation 分析。
![]()
OOD泛化性:更难的 hypothesis space 下仍然受益
在 CD 任务中,作者增加 candidate pool size 和 hidden circuit size;在 PE 中,改变 reference movie 的数量与采样分布。结果显示,T3 在所有这些 OOD 场景下都持续优于 vanilla PPO。这说明 T3 确实在更困难的 reasoning regimes 中减轻了 belief trapping。
Ablation Studies
作者系统比较了不同窗口长度 、不同 proxy 规则,以及随机截断 baseline。一个很有意思的发现是:
![]()
适度随机截断有时也会带来有限的改进;
但收益最稳定、效果最好的仍然是那些更准确捕获 belief-trap 的 truncation rule;
过松的条件无法有效过滤低信息量 tail,过严的条件又会过早删除仍然有价值的 exploration prefix。
这些结果说明:
问题确实在无信息长尾上,并且 T3 的有效性并不来自粗暴缩短轨迹,而是更有效地估计 “什么时候模型已经开始进入belief-trap”。
![]()
模型规模分析:较强模型通常获得更显著收益
论文还比较了不同规模和架构的模型,包括 Qwen2.5 3B / 7B / 14B,以及 LLaMA-3.1-8B 与 DeepSeek-R1-Distill-LLaMA-8B。
整体趋势是:
3B 模型收益有限;
7B、14B 模型收益更明显;
一些 reasoning 能力更强的架构,往往能更充分利用 T3。
针对这一现象,作者给出了一个贴合本文理论的假说。若底层模型的 belief tracking 能力本身过弱,则轨迹可能很快进入严重偏离状态,此时即便执行 truncation,也难以保留足够高质量的 informative prefix。
相反,对于具有一定多轮推理基础的模型,T3 更能够发挥“保护前缀有效探索”的作用。
![]()
这项工作的意义与启示
从更高层面看,这篇工作传递了几个非常重要的 takeaways。
首先,它对多轮主动推理中的常见 failure mode 给出了一个可分析的理论刻画。
以往在交互过程中出现的冗余行动、围绕局部错误假设持续展开等现象,更多被视为经验观察。
本文将其系统化为 belief deviation 与 Belief Trap Region(BTR),使这些问题首次成为可以建模、分析并进行训练干预的对象。
其次,论文解释了一个长期困扰 RL for LLM agents 的现象,即 outcome-based reward 并不会自动奖励“有信息量的探索”。
Belief-trapped tails 的存在会污染 credit assignment,使其产生系统性偏差。
这表明,active reasoning 的困难不仅来自 sparse reward,本质上也来自 belief dynamics 对策略学习过程的干扰。
更进一步,T3 所提出的解决思路非常轻量:它不依赖额外 reward model,也不需要重写 PPO、GRPO 或 GSPO 的优化机制,而是通过控制 trajectory 中用于策略更新的有效片段来改善训练信号质量。
这种设计使其具有较强的可集成性,也为在更复杂 agentic settings 中应用提供了现实可行性。
从更长远的角度看,这项工作还指向了一个更一般的问题:
是否存在跨任务、较为通用的 belief-collapse detector,可用于大规模 long-horizon active reasoning agents 的训练控制?
论文 Appendix E 已经初步探索了若干可能路径,如基于语义冗余的检测等。
这些方向都表明,控制 belief dynamics 可能成为未来多轮 RL for LLM agents 中与 reward design、exploration strategy 同样关键的一条研究主线。
作者也正在进一步探索 T3 在更具现实复杂度的 agentic benchmarks(如 tau2-bench)中的表现与适用性,并将在开源仓库中持续更新相关进展。
欢迎查阅论文与代码以获取更多技术细节。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.