网易首页 > 网易号 > 正文 申请入驻

腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o

0
分享至



本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」,旨在为用户提供高度拟人、可信赖的数字伙伴,进而实现富有温度与信任的情感交互。

自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学生」,其成功往往依赖于运气和低效的试错,而非真正高效、可泛化的推理能力。一旦环境稍作改变,它们便漏洞百出。

这种「结果正确,但过程混乱」的现象,是当前长程智能体(Long-Horizon Agents)强化学习(RL)范式的一大瓶颈。智能体在探索中,只因最终能完成任务便获得奖励,而其间大量的冗余操作、无效探索,甚至错误的推理路径,都被无意中 「强化」 和固化。这导致了两个核心难题:

1.低效探索难题:智能体容易陷入「无效内卷」,反复尝试无意义的动作,训练成本高,推理效率低下。

2.泛化脆弱难题:靠「蒙对」学会的策略缺乏逻辑基础,在新任务面前不堪一击,难以实现真正的鲁棒性。

如何让智能体不仅「知其然」,更能「知其所以然」?

面对这些难题,腾讯混元 AI 数字人团队提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。这项工作开创性地将认知科学中的「元认知」(即 「思考自己的思考」)理论引入 RL,通过奖励「好的思考过程」而非仅仅奖励「好的结果」,首次实现了对智能体推理过程的端到端强化学习,成功解决了长程任务中的低效探索与泛化难题。



  • 论文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
  • 项目代码: digitalhuman/RLVMR at main・Tencent/digitalhuman・GitHub

RLVMR:如何教会智能体「思考」,而不仅是「做事」?

传统方法要么依赖僵化的专家数据(SFT),要么依赖稀疏的结果奖励(RL),都无法有效塑造智能体高质量的「思维习惯」。RLVMR 的破局点在于:为智能体的「思考过程」本身,设计一套可验证、可优化的奖励机制。



1. 智能体学会「三思而后行」:引入元推理状态

RLVMR 赋予智能体「自我意识」的能力。在行动前,智能体需要先思考并给自己贴上一个「元推理标签」,明确自己当前处于哪个认知阶段:

  • 规划(Planning):我准备做什么?计划是什么?
  • 探索(Exploring):我正在执行计划,探索方案。
  • 反思(Reflecting):计划出错了?我需要纠正什么?

这套机制让智能体的「内心戏」变得明确、可追踪,为奖励其「优质思考」提供了抓手。

2. 奖励「好思路」,惩罚「坏习惯」:可验证的过程奖励

光有标签还不够,RLVMR 设计了一套轻量级的验证规则,实时评估智能体的思考质量,并给予即时奖励:

  • 奖励高效思考:当智能体在「反思」后成功纠错,或制定出有效「规划」时,给予正向奖励。
  • 惩罚低效行为:当智能体陷入无意义的动作循环或重复犯错时,给予负向奖励。

这种「过程奖励」机制,像一位贴身教练,不断引导智能体优化其思考与决策路径,从根本上杜绝「瞎蒙」行为。

3. 从「结果导向」到「过程与结果并重」

RLVMR 将「过程奖励」与最终的「任务成功奖励」相结合,通过策略梯度方法进行端到端优化。这使得智能体在追求最终目标的同时,必须学会如何更聪明、更高效地达成目标。

核心实验成果:7B 模型比肩「巨头旗舰」

在极具挑战性的 ALFWorld 和 ScienceWorld 两大长程任务基准上,RLVMR 展现了统治级的性能。经过 RLVMR 训练的 7B 模型,在难度最高、从未见过的任务(L2 泛化等级)上,成功率高达 83.6%,不仅远超此前所有 SOTA 模型,更证明了其强大的泛化能力。



此外,我们的方法训练出的智能体更「聪明」,解决任务的路径更直接,在 ALFWorld 和 ScienceWorld 的 L2 复杂环境中,所需动作数最高减少 28.1%。此外,训练过程本身也告别了「反复横跳」式的低效学习,收敛速度更快、策略更稳定,显著缓解了无效探索问题。





超越分数:RLVMR 实验中的深度洞察

洞察一:智能体学会「反思」,告别「无效内卷」

传统 RL 智能体像一个埋头刷题但从不复盘的学生,容易在错误路径上反复挣扎。RLVMR 的核心贡献在于教会了智能体「反思」(Reflecting)。



实验数据显示,引入「反思」机制后,智能体在遇到困难时,不再是盲目重试,而是能够主动识别问题、调整策略。这正是其重复动作率大幅降低、任务成功率飙升的根本原因。它揭示了一个关键点:对于复杂任务,教会智能体如何从失败中学习,比单纯「喂」给它成功的经验更重要。

洞察二:好的推理习惯,是泛化能力的基石

为什么 RLVMR 在未见任务上表现如此出色?



我们发现,通过奖励「好的思考过程」,RLVMR 帮助智能体建立了一套通用的、不依赖于特定任务的「元问题解决框架」(如何规划、如何探索、如何反思)。当面对新环境(L2)时,智能体调用的不再是某个僵化的「解题模板」,而是这套灵活的「思维方法论」。

这证实了一个重要猜想:真正的泛化能力,源自于对问题解决过程的深刻理解,而非对问题答案的机械记忆。 RLVMR 正是通往这条道路的有效路径。

洞察三:先 「冷启动」 再 「强化」—— 智能体的成长阶梯设计

RLVMR 采用了「冷启动 SFT + 强化学习 RL」的两阶段训练流程。这并非简单的流程拼接,而是一种符合认知规律的「成长曲线」设计。

  • 冷启动阶段(SFT):如同基础教育,让智能体先通过模仿学习,快速掌握「规划」「反思」等元推理概念的基本表达方式。
  • 强化学习阶段(RL):如同进入社会实践,让智能体在真实环境中自由探索,通过「过程奖励」的不断反馈,将学到的概念内化为真正的能力。



这一策略启示我们:在训练高级智能体时,「先教会它如何思考,再放手让它去犯错成长」,可能是比单一训练范式更高效的路径。

总结与展望

RLVMR 的提出,为智能体训练带来了从「结果导向」到「过程导向」的范式革新。它证明了,通过对智能体「思考过程」的直接建模与奖励,我们能够有效破解长程任务中的「低效探索」与「泛化脆弱」两大难题。

我们对 AGI 的终极期待,是一个能够独立思考、理性决策的伙伴,而不是一个只会寻找捷径的「做题家」。RLVMR 的工作,正是鼓励大模型从偶然涌现的能力,走向特定思维模式的强化,为构建更鲁棒、更高效、更可解释的通用智能体迈出了坚实的一步。

这项研究不仅为长程智能体训练提供了新思路,也为我们探索能真正理解世界、应对未知的下一代 AI 带来了新的曙光。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

柴狗夫斯基
2025-11-17 21:16:32
雷军急坏了,小米汽车卖不动了,销量下滑22%

雷军急坏了,小米汽车卖不动了,销量下滑22%

吃瓜盟主
2025-11-18 14:29:35
太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

太及时了!防止规模性返乡滞乡,农民工的工作“出口”是关键

火山诗话
2025-11-18 09:14:18
3-0!王曼昱大获全胜:国乒世界第四败北,全运会女单冠军太强势

3-0!王曼昱大获全胜:国乒世界第四败北,全运会女单冠军太强势

郝小小看体育
2025-11-18 11:06:09
台湾退役少校怒怼日本:这次千万别投降

台湾退役少校怒怼日本:这次千万别投降

扬子晚报
2025-11-18 12:25:32
衡水中学崩了!考入清北人数越来越少,只因不能全省掐尖

衡水中学崩了!考入清北人数越来越少,只因不能全省掐尖

西虹市闲话
2025-11-18 12:48:41
王妃精致到发丝,王子直接变秃子

王妃精致到发丝,王子直接变秃子

Yuki女人故事
2025-11-17 15:03:06
日本歌手美依礼芽发文称永远支持一个中国,目前其账号IP仍在日本;曾参加《乘风2023》人气暴涨

日本歌手美依礼芽发文称永远支持一个中国,目前其账号IP仍在日本;曾参加《乘风2023》人气暴涨

极目新闻
2025-11-18 13:14:13
日本高官离京前,中方收抗议通知,美国已介入,高市在等友邦帮忙

日本高官离京前,中方收抗议通知,美国已介入,高市在等友邦帮忙

时时有聊
2025-11-18 15:14:19
已确认!是知名演员周润发

已确认!是知名演员周润发

大象新闻
2025-11-18 13:14:07
超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

超市被偷到倒闭,女老板起诉合伙人案二审因法官为同一人延期,提交的审计材料也被弄丢

大风新闻
2025-11-18 11:34:09
著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

极目新闻
2025-11-18 09:42:29
不好,开始还钱了!!

不好,开始还钱了!!

TopView
2025-11-18 11:32:38
突发两大利空!全球股市大跳水,A股超4100家下跌,AI泡沫带崩全球?

突发两大利空!全球股市大跳水,A股超4100家下跌,AI泡沫带崩全球?

看财经show
2025-11-18 17:09:18
速报 |高市早苗正考虑12 月 26 日参拜靖国神社

速报 |高市早苗正考虑12 月 26 日参拜靖国神社

日本评论
2025-11-18 08:49:50
突然走红,深圳也有!有人吃完直接烧到39℃进ICU!

突然走红,深圳也有!有人吃完直接烧到39℃进ICU!

深圳晚报
2025-11-18 16:25:39
为什么三体火了之后,几乎所有的星际航行剧都在中国遭受嘲讽?

为什么三体火了之后,几乎所有的星际航行剧都在中国遭受嘲讽?

带你感受人间冷暖
2025-11-18 00:20:04
退费、取消!中国旅行社冻结寒假赴日团,全日空、资生堂、伊势丹等股价大跌

退费、取消!中国旅行社冻结寒假赴日团,全日空、资生堂、伊势丹等股价大跌

爱看头条
2025-11-17 14:24:36
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
长荣货轮入天津港被拒?帮美运坦克入台!损失惨重苦不堪言

长荣货轮入天津港被拒?帮美运坦克入台!损失惨重苦不堪言

云舟史策
2025-11-18 07:30:28
2025-11-18 17:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11747文章数 142507关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

刚刚,中美机器人爆发了一场论战

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

家居
游戏
时尚
教育
军事航空

家居要闻

彰显奢华 意式经典风格

国外大神攻破《极品飞车:热力追踪重制版》D加密

从百元到大牌,《新闻女王2》的职场穿搭,每种预算都能找到参考

教育要闻

思辨性阅读与表达任务群的模型建构——语文组第四届学术节观课评课交流

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版