网易首页 > 网易号 > 正文 申请入驻

训练奖励太稀疏?港中文联合美团给Agent加上「过程分」

0
分享至



在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。

在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷网页、写代码、读文件的长链任务,就变成用一个 bit 去概括一整条复杂轨迹。

结果就是:差一点就做成功的过程,和从第一步就跑偏的过程,在奖励眼里没区别;训练看不出哪种失败更有价值,手写规则或人工细粒度打分又很难覆盖开放环境、多模态这些复杂情况。

港中文和美团在这篇工作里,盯上的就是这个核心矛盾:

Agent 需要长程、细粒度的反馈,但我们手里大多只有终局对错这样的粗粒度奖励。



  • 论文标题:Exploring Reasoning Reward Model for Agents
  • 论文链接:https://arxiv.org/pdf/2601.22154
  • 项目地址:https://github.com/kxfan2002/Reagent

为了解决这个矛盾,作者先造了一个「懂推理、看得懂工具调用」的评审器,给 Agent 的整条轨迹打「过程分」和「评语」,再把这份反馈喂回训练。

这也是 Reagent 框架的核心出发点:让 Agent 不再只看结果,而是也要为自己的思考和工具调用过程负责。

给 Agent 的思路打个分

这篇工作最重要的一步,就是不再只看 Agent 最后有没有把题做对,而是开始认真给整个思考过程打分。

研究团队先搭了一套专门面向智能体的「思考评分类」数据:里面收集了各种真实的 Agent 轨迹,有推理顺畅但执行失误的,有一路乱猜却刚好蒙对的,也有工具用得乱七八糟的。每一条轨迹,都被标注成一份「阅卷意见」,既指出思路哪里站得住脚、哪里明显跑偏,也给出一个 0~1 之间的整体分数。

基于这套数据,他们训练了一个专门的「思考评分模型」——Agent-RRM。它不会只看最后一行答案,而是把整个过程从头看到尾,然后输出三样东西:一段内部分析、一小段给 Agent 看的批评意见,再加上一个综合分数。

举个简单的例子:

  • 两条轨迹最后都答对了,但一条逻辑跳跃严重、工具乱用,只是误打误撞到达正确答案,那 Agent-RRM 可能只给个 0.3;
  • 另一条从一开始就分析清楚、什么时候该搜、什么时候该点进网页、怎么利用信息都说得明明白白,这种思路就可能拿到 0.9。

就像老师改卷,不是只看「A/B/C/D」选了啥,还会看你中间的演算过程,给「过程分」。这一招的目标很明确:

教会 Agent「怎么想」「怎么用工具」,而不是教它「怎么猜对答案」。

统一文本批评和奖励信号:Reagent 框架

有了会打「思维分」的 Agent-RRM,还要想清楚怎么把这些反馈喂回给 Agent。这就是 Reagent 框架要解决的事情:把「文字点评」和「分数奖励」统一起来,用在智能体训练里。



作者设计了三种用法,可以理解成三档「加持程度」:

① 只加点评,不改模型(Reagent-C)

最轻的一种:不动 Agent 参数,只在推理时多一步「听老师讲评」。

大致流程就是:Agent 先做一遍题,Agent-RRM 看完给一小段 critique,指出关键问题,然后让 Agent 在这段点评的基础上重做一遍。这相当于给任何现成的大模型,外挂一个「老师帮你看一眼再交卷」的过程。

② 给奖励加一条「过程分」(Reagent-R)

再往上走一步,就是把 Agent-RRM 打出来的分数,当成额外奖励加进来。

以前的训练只看「做对 / 做错」那一分,现在变成「结果对错 + 过程好坏」两条线一起算:哪怕最后没完全做对,只要思路清晰、工具用得合理,也不会被当作垃圾样本一票否决。这对长链、多工具的任务特别重要,可以缓解那种「一不小心就全是 0 分」的奖励稀疏问题。

③ 把「第一次想」和「批评后再想」一起训(Reagent-U)

最强的一档,是这篇文章重点强调的 Reagent-U。它一口气把两种反馈都用上:

  • 一方面,让 Agent 学会第一次就少犯低级错误;
  • 另一方面,也教它「听完批评以后,怎样更聪明地改答案」。

训练时,同一个问题会有「首答」和「听完点评后的再答」两条轨迹,它们都拿到「结果奖励 + 过程分数」,一起放进同一个训练循环里优化。这样做的好处是:模型不会只在某一种模式上刷分,而是整体上把「想清楚」「用好工具」「能根据反馈修正自己」这几件事,一起学进去。

实际部署时,Reagent-U 又不用再依赖外部的 Agent-RRM 提点评,直接就能像普通 Agent 一样用 —— 那些「老师改卷时说过的话」,已经被揉进模型参数里了。

这套设计带来了什么提升?

在实验里,作者主要看了三件事:文字点评本身有没有用、过程分数能不能帮 RL 学得更好、统一之后是不是有效提升。





先看最轻量的那种:只加一段文本点评、不改模型参数。结果表明,在不少数学和搜索任务上,「听完一段 Agent-RRM 的批评再答一次」,确实能稳定把正确率拉上去。

再把过程分数加进训练里之后,Agent 不是只会去迎合最后那一个对错信号,而是更愿意走那些「虽然这次没完全做成,但整体思路是对的」的方向。

最后,当文本批评和奖励分数在 Reagent-U 里统一起来时,提升就更直观了:

在 GAIA 这个通用 Agent 基准的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成绩拉到43.7%,基本追上甚至部分超过了一些更大参数量的开源 Agent。在 WebWalkerQA、HLE、xbench 等其他复杂任务上,也普遍比「只看终局奖励」的版本更稳,更不容易被「瞎蒙对」或者「瞎忙活」带偏。

作者还测试了模型在 GAIA 全集上的表现,面对多模态的通用 agent 任务,Reagent-U 也依然能打。



港中文联合美团这套 Reagent 框架,把「老师给过程打分」这件事,真正搬进了 Agent 训练里。结果证明,只要能看懂、能评价思考过程,8B 级别的 Agent 也有机会在很多复杂任务上打出和大模型一样好看的成绩单。

更多细节请参考论文原文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美媒称,革命卫队总司令瓦希迪成为美军最新打击目标

美媒称,革命卫队总司令瓦希迪成为美军最新打击目标

山河路口
2026-04-24 13:23:02
埃梅里:我们力争进英超前三,我带维拉三年半还没有拿过第三

埃梅里:我们力争进英超前三,我带维拉三年半还没有拿过第三

懂球帝
2026-04-25 00:17:12
清华博士劝高二儿子别考大学:AI时代,高考不重要,学习重要

清华博士劝高二儿子别考大学:AI时代,高考不重要,学习重要

狐狸先森讲升学规划
2026-04-23 05:55:03
金莎近照曝光翻车!妆容失败像大妈,穿宽松裙子被猜怀孕

金莎近照曝光翻车!妆容失败像大妈,穿宽松裙子被猜怀孕

小徐讲八卦
2026-04-24 06:06:44
焦点访谈,错了吗?

焦点访谈,错了吗?

鱼眼观察
2026-04-23 20:42:20
网红莫氏鸡煲凉透了!从通宵排队到空无一人,终究逃不过昙花一现

网红莫氏鸡煲凉透了!从通宵排队到空无一人,终究逃不过昙花一现

阿郎娱乐
2026-04-23 15:28:38
郑钦文霸气逆转!3连胜前澳网冠军 重夺中国1姐宝座 下轮约战莱巴

郑钦文霸气逆转!3连胜前澳网冠军 重夺中国1姐宝座 下轮约战莱巴

我爱英超
2026-04-24 19:15:22
拒绝AC米兰!曼城30岁后防功勋1500万欧转会国米已成定局!

拒绝AC米兰!曼城30岁后防功勋1500万欧转会国米已成定局!

顺静自然
2026-04-24 12:38:38
“双胞胎兄弟残留在咽喉”,有软骨有脂肪!6岁男孩饮食习惯不对劲,医生一查吓一跳

“双胞胎兄弟残留在咽喉”,有软骨有脂肪!6岁男孩饮食习惯不对劲,医生一查吓一跳

深圳晚报
2026-04-24 19:00:42
Ubuntu 26.04 LTS重磅发布:支持英伟达CUDA

Ubuntu 26.04 LTS重磅发布:支持英伟达CUDA

我不叫阿哏
2026-04-25 01:51:31
26岁女子因常年脚冷,习惯穿着袜子睡觉,脚趾甲变“千层糕”,最终不得不接受拔甲治疗

26岁女子因常年脚冷,习惯穿着袜子睡觉,脚趾甲变“千层糕”,最终不得不接受拔甲治疗

观威海
2026-04-24 09:12:16
施明离世引发李氏家族内斗!九龙塘祖屋涵碧别墅市价曝光 这栋豪宅当年曾是杨思琦分手的导火索

施明离世引发李氏家族内斗!九龙塘祖屋涵碧别墅市价曝光 这栋豪宅当年曾是杨思琦分手的导火索

TVB资讯台
2026-04-25 00:00:46
胜江苏发布会!乌戈直指二阵改变局势,赵继伟寄语季后赛回馈球迷

胜江苏发布会!乌戈直指二阵改变局势,赵继伟寄语季后赛回馈球迷

篮球资讯达人
2026-04-25 00:59:05
又遇苦主!郑钦文第5次挑战世界第2 交手1-3落后 2月前遭3盘逆转

又遇苦主!郑钦文第5次挑战世界第2 交手1-3落后 2月前遭3盘逆转

我爱英超
2026-04-24 22:13:09
网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

网友莫斯科遇见58岁伊能静与47岁秦昊,女方脸型紧致比男方还年轻

明星私服穿搭daily
2026-03-21 14:25:06
2.5亿股民:下周一定要管住手!别乱动!接下来大概率这样走了!

2.5亿股民:下周一定要管住手!别乱动!接下来大概率这样走了!

风风顺
2026-04-25 00:00:04
“人养屋,屋养人”真有道理,家里这3个地方越干净,人越有福!

“人养屋,屋养人”真有道理,家里这3个地方越干净,人越有福!

唯晨说
2026-04-11 08:40:06
新房打不开门,我叫了物业,竟看见大姑姐穿我睡衣,指挥工人砸墙

新房打不开门,我叫了物业,竟看见大姑姐穿我睡衣,指挥工人砸墙

红豆讲堂
2026-01-25 08:20:11
第一集就全裸出镜,女神新剧太生猛了

第一集就全裸出镜,女神新剧太生猛了

来看美剧
2026-04-24 22:03:11
嫁给谌龙后,国羽女神生下一娃,如今实现财富自由,已是北体博士

嫁给谌龙后,国羽女神生下一娃,如今实现财富自由,已是北体博士

秋姐居
2026-04-24 19:44:29
2026-04-25 03:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12852文章数 142635关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

欧盟公布制裁中国企业和个人名单 中方回应

头条要闻

欧盟公布制裁中国企业和个人名单 中方回应

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

艺术
手机
本地
旅游
公开课

艺术要闻

世界最高20座大楼,你见过几栋?

手机要闻

续航大战!红米、vivo、荣耀手机,电池都往一万毫安时以上堆

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

旅游要闻

“嗨”在春风里丨盐溪烟树引“仙客”,七灶村里绘“远方”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版