网易首页 > 网易号 > 正文 申请入驻

腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o

0
分享至

本论文的主要作者来自腾讯混元 AI 数字人团队 (Tencent Hunyuan AI Digital Human)。该团队致力于打造「有智商、有情商、有温度的数字人」,旨在为用户提供高度拟人、可信赖的数字伙伴,进而实现富有温度与信任的情感交互。

自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学生」,其成功往往依赖于运气和低效的试错,而非真正高效、可泛化的推理能力。一旦环境稍作改变,它们便漏洞百出。

这种「结果正确,但过程混乱」的现象,是当前长程智能体(Long-Horizon Agents)强化学习(RL)范式的一大瓶颈。智能体在探索中,只因最终能完成任务便获得奖励,而其间大量的冗余操作、无效探索,甚至错误的推理路径,都被无意中 「强化」 和固化。这导致了两个核心难题:

1.低效探索难题:智能体容易陷入「无效内卷」,反复尝试无意义的动作,训练成本高,推理效率低下。

2.泛化脆弱难题:靠「蒙对」学会的策略缺乏逻辑基础,在新任务面前不堪一击,难以实现真正的鲁棒性。

如何让智能体不仅「知其然」,更能「知其所以然」?

面对这些难题,腾讯混元 AI 数字人团队提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。这项工作开创性地将认知科学中的「元认知」(即 「思考自己的思考」)理论引入 RL,通过奖励「好的思考过程」而非仅仅奖励「好的结果」,首次实现了对智能体推理过程的端到端强化学习,成功解决了长程任务中的低效探索与泛化难题。

  • 论文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
  • 项目代码: digitalhuman/RLVMR at main・Tencent/digitalhuman・GitHub

RLVMR:如何教会智能体「思考」,而不仅是「做事」?

传统方法要么依赖僵化的专家数据(SFT),要么依赖稀疏的结果奖励(RL),都无法有效塑造智能体高质量的「思维习惯」。RLVMR 的破局点在于:为智能体的「思考过程」本身,设计一套可验证、可优化的奖励机制。

1. 智能体学会「三思而后行」:引入元推理状态

RLVMR 赋予智能体「自我意识」的能力。在行动前,智能体需要先思考并给自己贴上一个「元推理标签」,明确自己当前处于哪个认知阶段:

  • 规划(Planning):我准备做什么?计划是什么?
  • 探索(Exploring):我正在执行计划,探索方案。
  • 反思(Reflecting):计划出错了?我需要纠正什么?

这套机制让智能体的「内心戏」变得明确、可追踪,为奖励其「优质思考」提供了抓手。

2. 奖励「好思路」,惩罚「坏习惯」:可验证的过程奖励

光有标签还不够,RLVMR 设计了一套轻量级的验证规则,实时评估智能体的思考质量,并给予即时奖励:

  • 奖励高效思考:当智能体在「反思」后成功纠错,或制定出有效「规划」时,给予正向奖励。
  • 惩罚低效行为:当智能体陷入无意义的动作循环或重复犯错时,给予负向奖励。

这种「过程奖励」机制,像一位贴身教练,不断引导智能体优化其思考与决策路径,从根本上杜绝「瞎蒙」行为。

3. 从「结果导向」到「过程与结果并重」

RLVMR 将「过程奖励」与最终的「任务成功奖励」相结合,通过策略梯度方法进行端到端优化。这使得智能体在追求最终目标的同时,必须学会如何更聪明、更高效地达成目标。

核心实验成果:7B 模型比肩「巨头旗舰」

在极具挑战性的 ALFWorld 和 ScienceWorld 两大长程任务基准上,RLVMR 展现了统治级的性能。经过 RLVMR 训练的 7B 模型,在难度最高、从未见过的任务(L2 泛化等级)上,成功率高达 83.6%,不仅远超此前所有 SOTA 模型,更证明了其强大的泛化能力。

此外,我们的方法训练出的智能体更「聪明」,解决任务的路径更直接,在 ALFWorld 和 ScienceWorld 的 L2 复杂环境中,所需动作数最高减少 28.1%。此外,训练过程本身也告别了「反复横跳」式的低效学习,收敛速度更快、策略更稳定,显著缓解了无效探索问题。

超越分数:RLVMR 实验中的深度洞察

洞察一:智能体学会「反思」,告别「无效内卷」

传统 RL 智能体像一个埋头刷题但从不复盘的学生,容易在错误路径上反复挣扎。RLVMR 的核心贡献在于教会了智能体「反思」(Reflecting)。

实验数据显示,引入「反思」机制后,智能体在遇到困难时,不再是盲目重试,而是能够主动识别问题、调整策略。这正是其重复动作率大幅降低、任务成功率飙升的根本原因。它揭示了一个关键点:对于复杂任务,教会智能体如何从失败中学习,比单纯「喂」给它成功的经验更重要。

洞察二:好的推理习惯,是泛化能力的基石

为什么 RLVMR 在未见任务上表现如此出色?

我们发现,通过奖励「好的思考过程」,RLVMR 帮助智能体建立了一套通用的、不依赖于特定任务的「元问题解决框架」(如何规划、如何探索、如何反思)。当面对新环境(L2)时,智能体调用的不再是某个僵化的「解题模板」,而是这套灵活的「思维方法论」。

这证实了一个重要猜想:真正的泛化能力,源自于对问题解决过程的深刻理解,而非对问题答案的机械记忆。 RLVMR 正是通往这条道路的有效路径。

洞察三:先 「冷启动」 再 「强化」—— 智能体的成长阶梯设计

RLVMR 采用了「冷启动 SFT + 强化学习 RL」的两阶段训练流程。这并非简单的流程拼接,而是一种符合认知规律的「成长曲线」设计。

  • 冷启动阶段(SFT):如同基础教育,让智能体先通过模仿学习,快速掌握「规划」「反思」等元推理概念的基本表达方式。
  • 强化学习阶段(RL):如同进入社会实践,让智能体在真实环境中自由探索,通过「过程奖励」的不断反馈,将学到的概念内化为真正的能力。

这一策略启示我们:在训练高级智能体时,「先教会它如何思考,再放手让它去犯错成长」,可能是比单一训练范式更高效的路径。

总结与展望

RLVMR 的提出,为智能体训练带来了从「结果导向」到「过程导向」的范式革新。它证明了,通过对智能体「思考过程」的直接建模与奖励,我们能够有效破解长程任务中的「低效探索」与「泛化脆弱」两大难题。

我们对 AGI 的终极期待,是一个能够独立思考、理性决策的伙伴,而不是一个只会寻找捷径的「做题家」。RLVMR 的工作,正是鼓励大模型从偶然涌现的能力,走向特定思维模式的强化,为构建更鲁棒、更高效、更可解释的通用智能体迈出了坚实的一步。

这项研究不仅为长程智能体训练提供了新思路,也为我们探索能真正理解世界、应对未知的下一代 AI 带来了新的曙光。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒重磅判断:中国将成全球首个武器不用进口的大国

日媒重磅判断:中国将成全球首个武器不用进口的大国

杨风
2026-03-24 22:16:20
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

湖人结束客场之旅两喜一忧,詹姆斯开启季后赛模式,实力榜进前五

谢说篮球
2026-03-26 16:45:05
以军对伊朗基础设施发动大规模打击

以军对伊朗基础设施发动大规模打击

新华社
2026-03-26 12:29:02
欧盟威胁越南:若中方参与了…

欧盟威胁越南:若中方参与了…

观察者网
2026-03-25 15:19:16
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
写小说判十年,把生殖器放女孩嘴巴里判两年九个月

写小说判十年,把生殖器放女孩嘴巴里判两年九个月

昊轩看世界
2026-03-24 19:56:42
如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

如果美国疯狂印钞还完所有债会怎样 网友深度剖析 原来有人等着呢

侃神评故事
2026-03-23 17:20:03
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

志愿军功臣行刑时朝鲜姑娘冲上前,彭总感慨:让他们在一起吧

老范谈史
2026-03-23 17:49:13
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

比亚迪巴西“杀疯了”10万辆大单背后藏着一个没人注意的真相

风风顺
2026-03-26 15:03:26
伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

伊朗警告:情报显示敌对势力在“某地区国家”支持下准备占领伊朗岛屿,若敌人胆敢采取行动,将对该地区国家所有重要基础设施进行猛烈攻击

极目新闻
2026-03-26 09:09:58
东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

东契奇43分7助攻湖人战胜步行者,勒布朗23分9板9助里夫斯25分

湖人崛起
2026-03-26 09:32:48
2026-03-26 17:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
数码
亲子
旅游
公开课

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版