网易首页 > 网易号 > 正文 申请入驻

RewardMap: 通过多阶段强化学习解决细粒度视觉推理Sparse Reward

0
分享至



本研究由西湖大学 ENCODE Lab 牵头,联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

但一个朴素而尖锐的问题始终横在面前:当视觉信息变得极其繁复、结构密集,模型究竟能不能「看懂图」?比如以高分辨率地铁图为代表的真实场景,既要求精细的视觉感知,又要求跨线路、跨站点的空间推理。

来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题:在高分辨率地铁图等真实场景下,即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出现「看错线」「漏站」「重复路线」等推理幻觉。

团队进一步发现,在高分辨率、信息极其密集的地铁图上,仅依靠最终答案给出成败信号的强化学习,很容易陷入奖励极度稀疏的困境:多数输出几乎得不到任何正反馈,少数「偶然对」的样本又会造成高方差梯度,训练既慢又不稳,这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。

为此,该团队进一步提出 RewardMap:一个围绕真实 map reasoning 任务场景设计的多阶段强化学习框架,用难度感知的细粒度奖励与从易到难的课程式训练,系统提升 MLLMs 的细粒度视觉理解与空间推理能力。



  • 论文标题:RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
  • 论文链接:
  • https://arxiv.org/abs/2510.02240
  • 项目主页:
  • https://fscdc.github.io/RewardMap/
  • 代码:
  • https://github.com/fscdc/RewardMap
  • 数据集:
  • https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656



ReasonMap-Plus:

为「冷启动」准备的密集监督

团队首先在 ReasonMap 的基础上构建 ReasonMap-Plus,它与 ReasonMap 一致采用高分辨率的地铁/轨交地图,覆盖 30 座城市,共计 4018 个问题样本,并在设计上明确区分了五类更偏感知的细粒度题型(两类 Local Counting、Global Counting、两类 True/False),以便为强化学习阶段提供更细密的监督与可拆解的目标。数据集还给出了易/中/难的难度标签,并在训练/测试划分上保持城市与难度分布的多样性与均衡性。



我们提出了什么:

RewardMap 框架

RewardMap 的核心思想并不复杂,却紧扣痛点。第一步,用「细节可分解」的奖励把一项路线规划题拆成若干可评估的子目标,让模型不再只有「对/错」两级的冰冷信号;第二步,以「从易到难」的课程式训练组织数据分布,先让模型在更密集、噪声更小的子任务上「热身」,再稳步迁移到真实的路线规划上。

具体而言,RewardMap 包含两大组件:其一是「难度感知的细节奖励」;其二是「多阶段强化学习」,后者显式利用 ReasonMap-Plus 中更易获得稠密信号的问题类型进行冷启动,从一开始就提升训练信噪比并降低不稳定性。

在难度感知上,团队对训练样本的奖励总和施加难度感知权重,综合考虑地图难度以及问题难度两个维度:前者针对 ReasonMap 与 ReasonMap-Plus 的全部地图统一划分为三档;后者在 ReasonMap 的规划题中可由换乘次数来度量,换乘越多、难度越高,权重也越大。

RewardMap 的奖励函数同样体现了「把复杂问题拆成可学信号」的思路。总奖励由三部分组成:格式合规(format)、最终正确性(correctness)与细节项(detail),并由难度权重进行缩放以体现题目的真实复杂度;其中细节项以 α=0.5 的系数参与总分,确保它既能提供稳定梯度,又不会喧宾夺主。

在细节项的具体计算里,我们对「起点/终点是否正确、线路名称是否匹配、换乘站点是否合理、路线分段数是否正确」等要素分别给出加/扣分,形成一个「部分正确即可得分」的连续型信号,而不是过去那种「一票否决」的全或无。

关键结果

那么,RewardMap 在多基准上的综合表现如何?除了在 ReasonMap/ReasonMap-Plus 上带来持续且可复现实验增益之外,我们还将其推广到覆盖「空间推理、细粒度视觉、通用视觉问答」三大类别的六项外部评测。

结果显示,RewardMap 在所有基准上均取得一致提升,其中在 SpatialEval 上的增幅最高,达到 +13.51%;相较之下,传统的 SFT → RL 虽然也有稳定提升,但整体仍弱于 RewardMap。这些结果表明,「细粒度奖励 + 多阶段课程」这一策略不仅在地铁图路径规划上奏效,也能迁移到更宽泛的高分辨率与空间理解任务上。





质化对比同样直观地揭示了改进点。以多城多图的真实样例为参照,配合 RewardMap 训练后的模型更少出现「把线路看错」的视觉混淆,更少出现「把同一路线在答案中重复多次」的幻觉现象,能够更稳健地给出正确的首末站与换乘点,并在路线分段上匹配真实地图结构。



未来展望

站在更宏观的角度,RewardMap 带来的价值不止于「刷榜」。它为高分辨率、强结构的视觉任务提供了一套可复用的强化学习范式:把复杂问题拆解为可度量的细节子目标,用难度建模去矫正样本分布的「偏与稀」,再以多阶段课程衔接「感知优先」的子任务与「推理密集」的规划任务。这样一来,模型从「看清楚」到「想明白」的路径被系统化了,训练过程的信噪比与稳定性也随之可控。

同时,基于地图数据的后训练对多模态大模型通用能力的提升也得到了验证,未来地图这类真实数据还将在多模态大模型不同的阶段发挥更大的作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

姆巴佩正在步卡卡后尘,皇马赶快续约维尼修斯吧!

刘笤说体坛
2026-03-26 08:57:48
余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

余承东宣布华为手机全面回归!大方公布CPU型号 支持5A网络 麒麟处理器全国产突破美国制裁

快科技
2026-03-24 15:22:21
前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

古希腊掌管松饼的神
2026-03-25 15:38:23
男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

男子买菜顺手买体彩!花4元中698万 先上班再领奖 现场捐2000元

念洲
2026-03-26 13:12:32
普通人一生的存款标准

普通人一生的存款标准

捣蛋窝
2026-03-21 11:14:00
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

轰21+10!湖人捡漏2米13悍将真香:年薪345万,变三巨头喂饼绝配

李喜林篮球绝杀
2026-03-26 11:34:01
40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

40年后才揭开谜底对越真相:越南真正的溃败始于许世友的3道军令

鉴史录
2026-03-22 10:01:56
王曼昱看到可能会心痛!张雪峰曾放话:迟早邀你做公司代言人

王曼昱看到可能会心痛!张雪峰曾放话:迟早邀你做公司代言人

铿锵格斗
2026-03-26 13:01:34
周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

周边5大邻国做出选择,亚洲大地震!美国知道:中国正在静待时机

掉了颗大白兔糖
2026-03-26 01:00:31
一字之差变味儿了!防止规模性返贫,被扭曲成“防止规模性返乡”

一字之差变味儿了!防止规模性返贫,被扭曲成“防止规模性返乡”

雪中风车
2026-03-05 14:10:29
原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

原来她是张雪峰母亲,一生操劳全力托举儿子,却中年丧夫晚年丧子

以茶带书
2026-03-26 13:38:50
内塔尼亚胡话音刚落,城市就遭袭击,联合国出面后,以军目的曝光

内塔尼亚胡话音刚落,城市就遭袭击,联合国出面后,以军目的曝光

小小科普员
2026-03-26 14:03:46
千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

千万不要小看F-35,虽然打不过歼-20,却是东风快递、红旗导弹的巨大威胁

利刃号
2026-02-02 19:07:20
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

余飩搞笑段子
2026-03-26 11:33:35
逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

逃难的林冲杀了收留他的王伦,这样的人进不了任何人的圈子

凉湫瑾言
2026-03-23 13:29:51
2026-03-26 14:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
房产
手机
数码
军事航空

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

数码要闻

配件制造商清单泄露:2026款iPad将搭载A18芯片

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版