网易首页 > 网易号 > 正文 申请入驻

激发多模态智能体决策潜力!清华&北大&腾讯联合提出GTR训练框架

0
分享至



论文第一作者为魏彤,清华大学在读博士生,研究方向为大模型智能体和强化学习,导师为清华大学兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够在大语言模型(LLMs)上有效提升思维链(Chain-of-Thought, CoT)决策的能力。然而对于多模态大模型(VLM)智能体的目标导向的动作推理任务,强化学习在复杂问题上并不能很好地提升决策能力,甚至会导致思维过程的退化。

来自清华、北大和腾讯的研究团队深入研究了这一“思维崩塌”(thought collapse)的现象,发现由于模型训练的反馈仅依赖于最终动作,RL 训练无法有效约束 CoT 思维过程,导致 VLM 智能体思维退化,丧失多样性,并输出不一致和不完整的思路。



为了对抗思维崩塌,研究团队提出思维引导的强化学习(Guided Thought Reinforcement, GTR)框架,通过自动化修正器提供过程引导,在 RL 训练中实时优化模型的思路,且无需依赖人类的精细标注。在困难的卡牌游戏和具身智能任务中,基于 LLaVA-7B 的智能体用很小的规模实现了相比 SOTA 显著的成功率提升。



  • 论文标题:GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
  • 论文链接:https://arxiv.org/pdf/2503.08525

1.“思维崩塌” 现象影响 RLVR 训练效果

不像纯文本的智能体训练,由于多模态信息的引入和决策流程复杂性的提高,在交互性视觉环境中用 RL 训练 VLM 智能体更加困难。而其中 “思维崩塌” 的现象则主要体现在以下几点:

  • 智能体的 CoT 过程失去多样性,对于不同的视觉和文本输入给出相同的思路。
  • 模型输出思路不正确、不一致、不完整,虽在输出思路,但已丧失思考能力。
  • 思维能力的丧失极大限制了模型的决策能力,难以释放模型潜力。

实验中发现,更大的模型、更长的训练时间也均展示出思维崩塌的情况。因此,问题的核心原因是强化学习的训练机制:

  • 环境提供的奖励完全由模型最终的动作决定。
  • 比动作输出更长且更基础的思维过程缺少评估和监督,只能依赖结果奖励间接引导。
  • 在动作步骤多、状态空间大、复杂程度高的任务中,这一问题更加显著。

因此,这证明了 VLM 智能体的强化学习训练中,过程引导有着至关重要的作用。

2.GTR 框架如何避免模型 “不懂装懂”?

此前的相关工作也对过程引导的方法做出了研究。然而,常见的过程奖励模型(Process Reward Models, PRMs)需要精细标注的多模态数据训练,昂贵且费力;且固定数据集上的训练容易产生偏差,不适用于动态的交互式环境。

此外,用 VLM 进行打分的 VLM-as-a-judge 方法效果也不佳。这是由于简单的数值奖励难以提供充足的信息量和有效的指导,尤其考虑到大模型更强的 reward hacking 能力。在模型基础能力较差的情况下,缺少正向激励也容易导致悲观探索的问题。



因此,我们需要找到一个足够简单、可规模化且有信息量的思维引导方式。在 GTR 框架中,“修正器模型”(corrector model)承担了这一至关重要的角色。



GTR 利用一个外部的 VLM 模型作为修正器,在强化学习的每一步,先对智能体思路中识别和推理的正确性进行评估,如果发现不正确或者不一致的情况,则利用智能体的状态输入进行修正。通过在常规的 PPO 过程中加入一个针对思路 token 的 SFT loss,将模型的思路与修正器给出的正确结果对齐,形成一个“思维 + 动作”、“SFT+PPO” 的联合训练框架。

通过这种方式,强化学习与思维引导互相形成了补充。思维引导为训练提供了更多的监督信号,强化学习也能通过可验证奖励的反馈,使得修正过程无需专家级别的外部模型提供高质量的参考轨迹,让智能体能够突破外部模型的能力天花板。

针对在线训练样本偏移的问题,GTR 引入了 DAgger 策略缓解错误累积。框架还通过为智能体增加格式奖励和重复惩罚、为修正器模型提供工具调用弥补专业知识等方法,进一步提升了数据质量。

GTR 训练过程的伪代码如下:



3.GTR 的实验效果


论文在 gym_cards 和 ALFWorld 两个常用的 VLM 智能体测试任务上进行了实验评估。智能体基于 LLaVA-7B,使用 GPT-4o 作为修正器训练。以仅包含强化学习的 RL4VLM 和仅包含思路引导的方法(SFT-only)作为基线进行比较。

在 gym_cards 中最困难的 24 点纸牌游戏中,GTR 在 15k 的训练步数内达到了最高 17.5% 的成功率,大幅超过了两个基线方法(2.5%、11.0%),甚至突破了 GPT-4o,即其修正器模型的水平(13.5%)。



而在更简单的、思维崩塌现象不显著的另外三个游戏中,GTR 相比于 RL4VLM 也能取得突破,并达到10 倍其规模的预训练模型的能力水平。



对于家用机器人场景的具身智能任务 ALFWorld,为了模拟真实环境,同时避免模型利用额外文本信息绕开多模态决策,实验中去掉了环境提供的文本观察,模型仅能依赖视觉信息进行决策。GTR 比起 RL4VLM 能够有效避免思维崩塌带来的性能下降,提升模型决策能力。







消融实验研究则证明了训练全过程思维引导的重要性、工具调用提升修正器专业知识的必要性和 DAgger 缓解在线训练分布偏移的有效性。同时指出,采用完整输出的 SFT 会限制 RL 的反馈,并使训练容易受到修正器幻觉的影响。

4. 研究意义与展望

本项研究揭示了多模态大模型智能体强化学习训练中,思维崩塌现象对训练稳定性和性能提升的限制。而通过修正器模型进行思路修改,GTR 在无需数据标注的条件下实现了实时自动化的思维过程监督,使过程引导与强化学习有机结合,互为补充,展现出强大的性能优势。

这一创新性的分析和解决方案也能够为复杂长时任务中大模型智能体的训练提供更多的启发和可能性。

更多细节请见原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内塔尼亚胡:中俄朝再怎么反美,也没像伊朗那样喊“美国去死”!

内塔尼亚胡:中俄朝再怎么反美,也没像伊朗那样喊“美国去死”!

阿龙聊军事
2026-03-31 19:31:00
年仅18却疯狂捞金,单依纯家境被曝光后,才知道她为何着急赚钱!

年仅18却疯狂捞金,单依纯家境被曝光后,才知道她为何着急赚钱!

天天热点见闻
2026-03-31 12:39:20
不打伊朗了?特朗普通告全世界,战争费由22国承担,一共5万亿

不打伊朗了?特朗普通告全世界,战争费由22国承担,一共5万亿

知法而形
2026-03-31 18:13:14
直降3519元!新iPhone 又降价了,这次真的离谱啊

直降3519元!新iPhone 又降价了,这次真的离谱啊

科技堡垒
2026-03-31 10:56:16
伊朗武装部队针对美可能发动地面战:“将斩断侵略者的腿”

伊朗武装部队针对美可能发动地面战:“将斩断侵略者的腿”

新京报
2026-03-31 16:13:09
广州长隆野生动物园的狮子在暴雨中营业?园方工作人员:打开了笼道给它避雨,淋雨是它的自发行为

广州长隆野生动物园的狮子在暴雨中营业?园方工作人员:打开了笼道给它避雨,淋雨是它的自发行为

极目新闻
2026-03-31 11:48:35
乒乓球世界杯:温瑞博连赢2局2-1逆转!8-3后连丢3分,11-9险胜!

乒乓球世界杯:温瑞博连赢2局2-1逆转!8-3后连丢3分,11-9险胜!

刘姚尧的文字城堡
2026-03-31 21:23:39
男子花1880元买了单依纯深圳演唱会门票,因列车晚点错过,申请大麦退票被拒后又称可全额退款;大麦:与主办方进行沟通,已退款

男子花1880元买了单依纯深圳演唱会门票,因列车晚点错过,申请大麦退票被拒后又称可全额退款;大麦:与主办方进行沟通,已退款

洪观新闻
2026-03-31 14:40:02
从现在开始,汽车价格的暴跌序幕彻底拉开

从现在开始,汽车价格的暴跌序幕彻底拉开

流苏晚晴
2026-03-31 18:09:36
国乒首败!王皓气惨了,世乒赛或遭弃用,张本智和3-1开门红

国乒首败!王皓气惨了,世乒赛或遭弃用,张本智和3-1开门红

十点街球体育
2026-03-31 19:21:04
伊朗划定通航 “朋友圈”,中方三艘船舶顺利通过霍尔木兹海峡

伊朗划定通航 “朋友圈”,中方三艘船舶顺利通过霍尔木兹海峡

上观新闻
2026-03-31 18:49:07
比亚迪:净减员10万人!

比亚迪:净减员10万人!

品牌头版
2026-03-30 17:00:40
演员鞠婧祎被实名举报偷税漏税,其收入明细被曝光,半年收入估算不少于5000万元,瞒报比率达88%

演员鞠婧祎被实名举报偷税漏税,其收入明细被曝光,半年收入估算不少于5000万元,瞒报比率达88%

大风新闻
2026-03-31 10:39:07
张雪机车卖疯!其爱人晒出早年借款账单,为助创业,全家都被掏空

张雪机车卖疯!其爱人晒出早年借款账单,为助创业,全家都被掏空

火山詩话
2026-03-31 19:00:48
高市早苗回应“嘲讽拜登”

高市早苗回应“嘲讽拜登”

参考消息
2026-03-30 21:43:31
被逼到墙角?莫迪发出最后警告:再不放行化肥,14亿人将迎来危机

被逼到墙角?莫迪发出最后警告:再不放行化肥,14亿人将迎来危机

泠泠说史
2026-03-31 16:36:07
国足唯一遮羞布!拜合拉木替补封神,造2红3黄硬刚非洲劲旅喀麦隆

国足唯一遮羞布!拜合拉木替补封神,造2红3黄硬刚非洲劲旅喀麦隆

侧身凌空斩
2026-03-31 16:24:50
演员陈妍希突发意外!已紧急手术

演员陈妍希突发意外!已紧急手术

大象新闻
2026-03-31 19:13:09
以媒称以色列决定停止从法国采购安全装备

以媒称以色列决定停止从法国采购安全装备

环球网资讯
2026-03-31 16:02:09
美军被曝奔赴中东战场前,在脱衣舞俱乐部挥金如土,俱乐部舞者:他们花光了所有的钱,看起来很年轻,像胎儿一样

美军被曝奔赴中东战场前,在脱衣舞俱乐部挥金如土,俱乐部舞者:他们花光了所有的钱,看起来很年轻,像胎儿一样

观威海
2026-03-31 09:51:34
2026-03-31 22:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12648文章数 142600关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

知情人:最鹰派的是阿联酋 极力敦促美国发动地面进攻

头条要闻

知情人:最鹰派的是阿联酋 极力敦促美国发动地面进攻

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

本地
家居
手机
艺术
公开课

本地新闻

用Color Walk的方式解锁城市春日

家居要闻

新婚爱巢 甜蜜情趣拉满

手机要闻

曝华为Pura 90系列4 月下旬发布,还有新一代阔折叠

艺术要闻

石涛『野色册』

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版