网易首页 > 网易号 > 正文 申请入驻

RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

0
分享至


新智元报道

编辑:LRST

【新智元导读】复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法,系统化合成游戏任务数据,构建GameQA数据集,验证了游戏数据在复杂推理训练中的优势。

现有工作利用RL提升了视觉语言模型(VLM)的推理能力,但其任务场景往往是几何或者图表推理。这种领域上的局限,制约了VLM的探索和学习。

如何拓展VLM的RL训练领域呢?

电子游戏视觉元素丰富,且规则明确而可验证,因而是理想的多模态推理数据源。

由此,复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。


论文链接:https://arxiv.org/abs/2505.13886

代码仓库:https://github.com/tongjingqi/Game-RL

数据和模型:https://huggingface.co/Code2Logic

为获得训练数据(如图1的示例),研究人员还提出了新颖的Code2Logic方法,通过游戏代码系统化合成数据。


图1:GameQA数据集中各游戏类别的代表性游戏:3D重建、七巧板(变体)、数独和推箱子。各游戏展示两个视觉问答示例,包含当前游戏状态图片,相应的问题,以及逐步推理过程和答案。

Code2Logic方法创新性地基于游戏代码合成多模态可验证游戏任务数据。

如图2,利用强LLM生成游戏代码、设计任务及其模板、构建数据引擎代码,最后只要执行代码便能自动生成数据。


图2:Code2Logic方法,借助LLM通过三个核心步骤将游戏代码转换为推理数据。第一步:游戏代码构建;第二步:游戏任务及其QA模板设计;第三步:数据引擎构建,基于前两步构建自动化程序,然后只要执行代码就能自动批量生成数据。

GameQA

丰富的游戏任务数据集

利用Code2Logic方法构建了GameQA数据集,这些多模态可验证游戏数据可以用于VLM推理能力的训练和评测。

GameQA有:4大认知能力类别、30个游戏(如图3)、158个推理任务、14万个问答对。

难度分级:任务按难度分三级;样本按视觉输入复杂度分三级。


图3:GameQA的30个游戏,分为4个认知能力类别,涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。20个域内游戏用于训练和测试,而10个域外游戏不参与训练,用于测试模型在未见游戏场景下的泛化能力。

核心发现

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO训练,4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展现出跨领域泛化,如表1。


表1:通用视觉语言推理基准上的评测结果

训练效果

GameQA匹敌几何数据集

研究团队用GameQA和几何与图表推理数据集进行对比训练,发现GameQA可与之匹敌

如表2,尽管训练数据量更少且领域不匹配,但GameQA训的模型在通用基准上总体表现很有竞争力。而且在MathVista与MathVerse这两个和几何与函数推理有关的基准上,Game竟能匹敌更「对口」的几何推理数据训练。

这表明游戏中的认知多样性和推理复杂性,具有通用性和迁移能力。


表2:对比训练,5K GameQA样本 vs. 8K MAVIS(几何与函数视觉推理)vs. 8K Multimodal-Open-R1(以几何推理为主)vs. 8K MultiMath(综合的数学领域多模态推理),GameQA训练的模型总体很有竞争力,实验也显示混合训练(MultiMath中加入GameQA数据)能助力模型提得更多。

Scaling Effect

训练数据量和游戏个数的影响

数据量的Scaling Effect:加大训练的GameQA数据量至20K,实验显示,模型在通用推理基准上的表现总体呈持续提升,如图4。


图4:训练数据量的Scaling Effect

游戏个数的Scaling Effect:随着训练的游戏种类变多,域外泛化效果增强,如图5。


图5:使用20种游戏的任务训练,模型在域外通用基准上的提升优于使用4种或10种游戏的配置。

深度剖析

Game-RL后模型能力提升在哪?

为更好理解Game-RL对VLM推理能力的提升,研究团队随机采样了案例进行了细致的人工分析。结果显示,Game-RL后,模型在视觉感知和文本推理两个方面都有提升,如图6。


图6:人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上,视觉感知和文本推理能力的变化情况,下方是视觉感知能力提升的一个案例。

结论

研究提出了Game-RL以及游戏数据合成方法Code2Logic,构建了GameQA数据集,将VLM强化训练领域拓展到游戏场景。

通过实验,研究团队验证了Game-RL能提升VLM的通用推理。

进一步而言,也揭示了游戏场景可以提供多模态、可控、可验证数据,具有重要价值。

参考资料:

https://arxiv.org/abs/2505.13886

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“白天800晚上900元”,女子陪爬泰山时,被一男子“白嫖”800元

“白天800晚上900元”,女子陪爬泰山时,被一男子“白嫖”800元

江山挥笔
2026-03-28 16:50:15
统一是唯一选择,天然气即将断供,台湾快坚持不下去,赖清德摆烂

统一是唯一选择,天然气即将断供,台湾快坚持不下去,赖清德摆烂

云舟史策
2026-03-31 07:32:19
雍正王朝穿帮镜头:康熙戴劳力士忍了,乔引娣穿球鞋真忍不了

雍正王朝穿帮镜头:康熙戴劳力士忍了,乔引娣穿球鞋真忍不了

杰丝聊古今
2026-03-29 07:16:55
李荣浩大师课:为什么《歌手》能唱《李白》,演唱会就不行?

李荣浩大师课:为什么《歌手》能唱《李白》,演唱会就不行?

风月得自难寻
2026-03-31 09:26:01
美人鱼安排老公伺候大佬!超哥被混合双打!

美人鱼安排老公伺候大佬!超哥被混合双打!

八卦疯叔
2026-03-31 11:37:47
一定要大量读书:经常读书的人,一眼就能看出来

一定要大量读书:经常读书的人,一眼就能看出来

欣辰读书
2026-03-29 22:35:04
《毛选》中的顶级思维,读懂这52句话,受益一辈子!

《毛选》中的顶级思维,读懂这52句话,受益一辈子!

诗词天地
2026-03-30 14:09:45
切忌熟人“借运”,风水师:熟人若带这3样东西上门,千万别要!

切忌熟人“借运”,风水师:熟人若带这3样东西上门,千万别要!

一根香烟的少女
2026-03-18 13:21:11
挣了老百姓几个亿,死后却被人排长队送别,他做对了什么?

挣了老百姓几个亿,死后却被人排长队送别,他做对了什么?

李昕言温度空间
2026-03-28 15:50:27
收退赛大礼!中国女乒19岁新星死磕早田希娜:死亡之组大逃杀?

收退赛大礼!中国女乒19岁新星死磕早田希娜:死亡之组大逃杀?

李喜林篮球绝杀
2026-03-31 13:05:53
贵州省黔南州政府原副州长、福泉市委原书记黄桂林被“双开”

贵州省黔南州政府原副州长、福泉市委原书记黄桂林被“双开”

界面新闻
2026-03-31 10:34:47
67岁王朔现状:只能死在这儿了,女儿不让死屋里,怕房子不好卖

67岁王朔现状:只能死在这儿了,女儿不让死屋里,怕房子不好卖

谈史论天地
2026-03-27 17:05:03
富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

富人的生活能有多夸张?网友:根本找不到心动还门当户对的人

带你感受人间冷暖
2026-03-27 00:05:14
特朗普:若达不成协议将彻底摧毁伊朗所有发电厂、油井及哈尔克岛

特朗普:若达不成协议将彻底摧毁伊朗所有发电厂、油井及哈尔克岛

每日经济新闻
2026-03-30 20:56:46
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
2012年一伙歹徒劫机,快得手时,有女乘客大吼一声,结局意想不到

2012年一伙歹徒劫机,快得手时,有女乘客大吼一声,结局意想不到

阿胡
2025-04-07 16:04:09
4月见!华为多款新品爆料,真的猛啊!

4月见!华为多款新品爆料,真的猛啊!

科技堡垒
2026-03-29 11:35:26
味多美正在遭遇北京人的抵制

味多美正在遭遇北京人的抵制

微言微评
2026-03-31 07:31:36
莫布里34+17+3,最后5秒,哈登走到场边,一把抱住爵士主教练哈迪

莫布里34+17+3,最后5秒,哈登走到场边,一把抱住爵士主教练哈迪

担酒
2026-03-31 11:23:13
李毅教授这样说牢A,有点太过分了,让沈逸教授情何以堪

李毅教授这样说牢A,有点太过分了,让沈逸教授情何以堪

读鬼笔记
2026-03-30 20:32:04
2026-03-31 14:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14857文章数 66728关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

头条要闻

从俄乌冲突到伊朗战争:4年间AI从"打辅助"到"做决策"

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

旅游
游戏
亲子
房产
艺术

旅游要闻

春假趣玩合肥!20+A级景区集结,承包你的春日欢乐时光

PS5多款即将上线重点游戏!含科乐美IGN高分新作

亲子要闻

胡图图早上发现自己有一只乌龟不见了,所以不太开心 杨雪呀

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

艺术要闻

石涛『野色册』

无障碍浏览 进入关怀版