网易首页 > 网易号 > 正文 申请入驻

RewardMap: 通过多阶段强化学习解决细粒度视觉推理Sparse Reward

0
分享至

本研究由西湖大学 ENCODE Lab 牵头,联合同济大学、浙江大学和新加坡国立大学共同完成。团队在大模型强化学习与多模态推理方向具有深厚研究基础。

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

但一个朴素而尖锐的问题始终横在面前:当视觉信息变得极其繁复、结构密集,模型究竟能不能「看懂图」?比如以高分辨率地铁图为代表的真实场景,既要求精细的视觉感知,又要求跨线路、跨站点的空间推理。

来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题:在高分辨率地铁图等真实场景下,即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出现「看错线」「漏站」「重复路线」等推理幻觉。

团队进一步发现,在高分辨率、信息极其密集的地铁图上,仅依靠最终答案给出成败信号的强化学习,很容易陷入奖励极度稀疏的困境:多数输出几乎得不到任何正反馈,少数「偶然对」的样本又会造成高方差梯度,训练既慢又不稳,这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。

为此,该团队进一步提出 RewardMap:一个围绕真实 map reasoning 任务场景设计的多阶段强化学习框架,用难度感知的细粒度奖励与从易到难的课程式训练,系统提升 MLLMs 的细粒度视觉理解与空间推理能力。

  • 论文标题:RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
  • 论文链接:
  • https://arxiv.org/abs/2510.02240
  • 项目主页:
  • https://fscdc.github.io/RewardMap/
  • 代码:
  • https://github.com/fscdc/RewardMap
  • 数据集:
  • https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656

ReasonMap-Plus:

为「冷启动」准备的密集监督

团队首先在 ReasonMap 的基础上构建 ReasonMap-Plus,它与 ReasonMap 一致采用高分辨率的地铁/轨交地图,覆盖 30 座城市,共计 4018 个问题样本,并在设计上明确区分了五类更偏感知的细粒度题型(两类 Local Counting、Global Counting、两类 True/False),以便为强化学习阶段提供更细密的监督与可拆解的目标。数据集还给出了易/中/难的难度标签,并在训练/测试划分上保持城市与难度分布的多样性与均衡性。

我们提出了什么:

RewardMap 框架

RewardMap 的核心思想并不复杂,却紧扣痛点。第一步,用「细节可分解」的奖励把一项路线规划题拆成若干可评估的子目标,让模型不再只有「对/错」两级的冰冷信号;第二步,以「从易到难」的课程式训练组织数据分布,先让模型在更密集、噪声更小的子任务上「热身」,再稳步迁移到真实的路线规划上。

具体而言,RewardMap 包含两大组件:其一是「难度感知的细节奖励」;其二是「多阶段强化学习」,后者显式利用 ReasonMap-Plus 中更易获得稠密信号的问题类型进行冷启动,从一开始就提升训练信噪比并降低不稳定性。

在难度感知上,团队对训练样本的奖励总和施加难度感知权重,综合考虑地图难度以及问题难度两个维度:前者针对 ReasonMap 与 ReasonMap-Plus 的全部地图统一划分为三档;后者在 ReasonMap 的规划题中可由换乘次数来度量,换乘越多、难度越高,权重也越大。

RewardMap 的奖励函数同样体现了「把复杂问题拆成可学信号」的思路。总奖励由三部分组成:格式合规(format)、最终正确性(correctness)与细节项(detail),并由难度权重进行缩放以体现题目的真实复杂度;其中细节项以 α=0.5 的系数参与总分,确保它既能提供稳定梯度,又不会喧宾夺主。

在细节项的具体计算里,我们对「起点/终点是否正确、线路名称是否匹配、换乘站点是否合理、路线分段数是否正确」等要素分别给出加/扣分,形成一个「部分正确即可得分」的连续型信号,而不是过去那种「一票否决」的全或无。

关键结果

那么,RewardMap 在多基准上的综合表现如何?除了在 ReasonMap/ReasonMap-Plus 上带来持续且可复现实验增益之外,我们还将其推广到覆盖「空间推理、细粒度视觉、通用视觉问答」三大类别的六项外部评测。

结果显示,RewardMap 在所有基准上均取得一致提升,其中在 SpatialEval 上的增幅最高,达到 +13.51%;相较之下,传统的 SFT → RL 虽然也有稳定提升,但整体仍弱于 RewardMap。这些结果表明,「细粒度奖励 + 多阶段课程」这一策略不仅在地铁图路径规划上奏效,也能迁移到更宽泛的高分辨率与空间理解任务上。

质化对比同样直观地揭示了改进点。以多城多图的真实样例为参照,配合 RewardMap 训练后的模型更少出现「把线路看错」的视觉混淆,更少出现「把同一路线在答案中重复多次」的幻觉现象,能够更稳健地给出正确的首末站与换乘点,并在路线分段上匹配真实地图结构。

未来展望

站在更宏观的角度,RewardMap 带来的价值不止于「刷榜」。它为高分辨率、强结构的视觉任务提供了一套可复用的强化学习范式:把复杂问题拆解为可度量的细节子目标,用难度建模去矫正样本分布的「偏与稀」,再以多阶段课程衔接「感知优先」的子任务与「推理密集」的规划任务。这样一来,模型从「看清楚」到「想明白」的路径被系统化了,训练过程的信噪比与稳定性也随之可控。

同时,基于地图数据的后训练对多模态大模型通用能力的提升也得到了验证,未来地图这类真实数据还将在多模态大模型不同的阶段发挥更大的作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6-2!巴西大轮换仍横扫世界杯参赛队,皇马1.5亿巨星传射+世界波

6-2!巴西大轮换仍横扫世界杯参赛队,皇马1.5亿巨星传射+世界波

我爱英超
2026-06-01 07:34:53
上海政法学院再通报女厕发现摄像头:决定开除涉事学生学籍

上海政法学院再通报女厕发现摄像头:决定开除涉事学生学籍

界面新闻
2026-06-01 15:05:36
男子隐瞒病情和女友发生亲密关系,致女友感染高危型HPV,被告上法庭;法院判了:存在明显过错,赔偿1.5万元

男子隐瞒病情和女友发生亲密关系,致女友感染高危型HPV,被告上法庭;法院判了:存在明显过错,赔偿1.5万元

扬子晚报
2026-06-01 07:49:01
中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

中央定调!2026年养老金从1月补发,去年涨2%,今年会涨多少呢?

社保小达人
2026-06-01 11:03:56
军事 | 普京将此残骸交于美方,到底什么意思?

军事 | 普京将此残骸交于美方,到底什么意思?

新民周刊
2026-06-01 09:08:31
市委常委,拟任省属高校正职!

市委常委,拟任省属高校正职!

EOL教育在线
2026-06-01 14:13:24
中国人民解放军将于6月1日至14日在黄海进行实弹射击

中国人民解放军将于6月1日至14日在黄海进行实弹射击

俄罗斯卫星通讯社
2026-06-01 15:08:19
中国电动车正以惊人速度贬值

中国电动车正以惊人速度贬值

体坛观察猿
2026-06-01 01:13:10
日元大跌,全世界都抢着薅日本的羊毛!

日元大跌,全世界都抢着薅日本的羊毛!

青青子衿
2026-06-01 00:07:51
给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

扬子晚报
2026-06-01 12:26:28
4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

4名顾客吃火锅写5000字差评:称食材腥,不愿买单,现场画面扒出

李晚书
2026-06-01 10:53:54
7月1日起!投资美股不报备,就要没收违法所得...

7月1日起!投资美股不报备,就要没收违法所得...

玛丽姬丝
2026-06-01 15:29:35
关停三年后,天涯社区今起开放访问:争取6月逐步恢复互动功能

关停三年后,天涯社区今起开放访问:争取6月逐步恢复互动功能

澎湃新闻
2026-06-01 08:02:27
拯救华夏的大英雄:若非这四人挺身而出,中华文明或已断绝

拯救华夏的大英雄:若非这四人挺身而出,中华文明或已断绝

长风文史
2026-05-31 22:12:43
益阳橡胶塑料机械集团有限公司原党委书记、董事长、总经理姚宏建被查

益阳橡胶塑料机械集团有限公司原党委书记、董事长、总经理姚宏建被查

益阳广电
2026-06-01 16:43:40
白捡24TB硬盘!员工拆开公司淘汰设备后直接乐坏了

白捡24TB硬盘!员工拆开公司淘汰设备后直接乐坏了

游民星空
2026-05-31 12:27:20
胖东来致歉:设计重大失误,新包装矿泉水停止销售

胖东来致歉:设计重大失误,新包装矿泉水停止销售

每日经济新闻
2026-05-31 21:56:45
美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

每日经济新闻
2026-06-01 12:29:55
界面调查|起底留神峪煤矿及实控人任铁柱:草根出身,煤改中幸存,管理混乱酿成大祸

界面调查|起底留神峪煤矿及实控人任铁柱:草根出身,煤改中幸存,管理混乱酿成大祸

界面新闻
2026-05-31 16:40:39
奚梦瑶婚礼晚宴,4700万珠宝上身,谷爱凌拎24万爱马仕赴宴成陪衬

奚梦瑶婚礼晚宴,4700万珠宝上身,谷爱凌拎24万爱马仕赴宴成陪衬

好贤观史记
2026-06-01 11:38:36
2026-06-01 17:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13133文章数 142656关注度
往期回顾 全部

科技要闻

两大芯片巨头打起来了

头条要闻

执业3年无合同被认为是"小时工" 上海女医生拟提仲裁

头条要闻

执业3年无合同被认为是"小时工" 上海女医生拟提仲裁

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

零跑5月交付超8万台再创纪录 全新C10、C11、C16即将焕新上市

态度原创

手机
时尚
旅游
本地
军事航空

手机要闻

麒麟9010S+冰桥散热架构,华为nova 16系列性能与温控全面升级

女人不管多大年纪,夏天都要准备一条白色阔腿裤,百搭又清爽

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

本地新闻

用剪纸的方式,打开江苏扬州

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版