网易首页 > 网易号 > 正文 申请入驻

RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

0
分享至


新智元报道

编辑:LRST

【新智元导读】复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法,系统化合成游戏任务数据,构建GameQA数据集,验证了游戏数据在复杂推理训练中的优势。

现有工作利用RL提升了视觉语言模型(VLM)的推理能力,但其任务场景往往是几何或者图表推理。这种领域上的局限,制约了VLM的探索和学习。

如何拓展VLM的RL训练领域呢?

电子游戏视觉元素丰富,且规则明确而可验证,因而是理想的多模态推理数据源。

由此,复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。


论文链接:https://arxiv.org/abs/2505.13886

代码仓库:https://github.com/tongjingqi/Game-RL

数据和模型:https://huggingface.co/Code2Logic

为获得训练数据(如图1的示例),研究人员还提出了新颖的Code2Logic方法,通过游戏代码系统化合成数据。


图1:GameQA数据集中各游戏类别的代表性游戏:3D重建、七巧板(变体)、数独和推箱子。各游戏展示两个视觉问答示例,包含当前游戏状态图片,相应的问题,以及逐步推理过程和答案。

Code2Logic方法创新性地基于游戏代码合成多模态可验证游戏任务数据。

如图2,利用强LLM生成游戏代码、设计任务及其模板、构建数据引擎代码,最后只要执行代码便能自动生成数据。


图2:Code2Logic方法,借助LLM通过三个核心步骤将游戏代码转换为推理数据。第一步:游戏代码构建;第二步:游戏任务及其QA模板设计;第三步:数据引擎构建,基于前两步构建自动化程序,然后只要执行代码就能自动批量生成数据。

GameQA

丰富的游戏任务数据集

利用Code2Logic方法构建了GameQA数据集,这些多模态可验证游戏数据可以用于VLM推理能力的训练和评测。

GameQA有:4大认知能力类别、30个游戏(如图3)、158个推理任务、14万个问答对。

难度分级:任务按难度分三级;样本按视觉输入复杂度分三级。


图3:GameQA的30个游戏,分为4个认知能力类别,涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。20个域内游戏用于训练和测试,而10个域外游戏不参与训练,用于测试模型在未见游戏场景下的泛化能力。

核心发现

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO训练,4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展现出跨领域泛化,如表1。


表1:通用视觉语言推理基准上的评测结果

训练效果

GameQA匹敌几何数据集

研究团队用GameQA和几何与图表推理数据集进行对比训练,发现GameQA可与之匹敌

如表2,尽管训练数据量更少且领域不匹配,但GameQA训的模型在通用基准上总体表现很有竞争力。而且在MathVista与MathVerse这两个和几何与函数推理有关的基准上,Game竟能匹敌更「对口」的几何推理数据训练。

这表明游戏中的认知多样性和推理复杂性,具有通用性和迁移能力。


表2:对比训练,5K GameQA样本 vs. 8K MAVIS(几何与函数视觉推理)vs. 8K Multimodal-Open-R1(以几何推理为主)vs. 8K MultiMath(综合的数学领域多模态推理),GameQA训练的模型总体很有竞争力,实验也显示混合训练(MultiMath中加入GameQA数据)能助力模型提得更多。

Scaling Effect

训练数据量和游戏个数的影响

数据量的Scaling Effect:加大训练的GameQA数据量至20K,实验显示,模型在通用推理基准上的表现总体呈持续提升,如图4。


图4:训练数据量的Scaling Effect

游戏个数的Scaling Effect:随着训练的游戏种类变多,域外泛化效果增强,如图5。


图5:使用20种游戏的任务训练,模型在域外通用基准上的提升优于使用4种或10种游戏的配置。

深度剖析

Game-RL后模型能力提升在哪?

为更好理解Game-RL对VLM推理能力的提升,研究团队随机采样了案例进行了细致的人工分析。结果显示,Game-RL后,模型在视觉感知和文本推理两个方面都有提升,如图6。


图6:人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上,视觉感知和文本推理能力的变化情况,下方是视觉感知能力提升的一个案例。

结论

研究提出了Game-RL以及游戏数据合成方法Code2Logic,构建了GameQA数据集,将VLM强化训练领域拓展到游戏场景。

通过实验,研究团队验证了Game-RL能提升VLM的通用推理。

进一步而言,也揭示了游戏场景可以提供多模态、可控、可验证数据,具有重要价值。

参考资料:

https://arxiv.org/abs/2505.13886

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
14岁就2米11!!这是文班+字母哥啊!NBA要疯了!

14岁就2米11!!这是文班+字母哥啊!NBA要疯了!

柚子说球
2026-03-23 18:41:01
全球七成高端麻花钻来自江苏一小镇,欧美工程师破防:我们输在哪

全球七成高端麻花钻来自江苏一小镇,欧美工程师破防:我们输在哪

荒野科技
2026-03-24 11:32:47
郑钦文0-2出局!却收获2个好消息,重返前10有戏,下一站时间曝光

郑钦文0-2出局!却收获2个好消息,重返前10有戏,下一站时间曝光

体育就你秀
2026-03-24 07:38:00
曼联希望1亿欧元购入巴塞罗那中场大将

曼联希望1亿欧元购入巴塞罗那中场大将

本泽体育
2026-03-24 17:01:22
从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

颗粒度财经1
2026-03-22 20:13:29
特朗普真不想打了?消息人士:以色列首要目标不再是伊朗政权更迭,而是“铀”

特朗普真不想打了?消息人士:以色列首要目标不再是伊朗政权更迭,而是“铀”

红星新闻
2026-03-24 13:55:34
1.74 亿镑!利物浦砸破队史纪录,豪赌萨拉赫接班人

1.74 亿镑!利物浦砸破队史纪录,豪赌萨拉赫接班人

奶盖熊本熊
2026-03-24 03:45:21
伊朗头号球星与以色列球员互换球衣!或被国家队开除无缘世界杯

伊朗头号球星与以色列球员互换球衣!或被国家队开除无缘世界杯

念洲
2026-03-24 08:08:22
詹皇留守湖人前提曝光:5千万年薪梦碎,薪资恐被里夫斯反超

詹皇留守湖人前提曝光:5千万年薪梦碎,薪资恐被里夫斯反超

仰卧撑FTUer
2026-03-24 12:32:03
广东队最新消息!威姆斯正式跟队,将取代杜锋出任新主教练?

广东队最新消息!威姆斯正式跟队,将取代杜锋出任新主教练?

绯雨儿
2026-03-24 11:56:26
黑龙江发布告知书!

黑龙江发布告知书!

绥化华信网
2026-03-24 15:30:50
山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

山东小伙娶只有8岁智商的新娘,笑的合不拢嘴,网友:赚大了!

观察鉴娱
2026-02-01 15:02:49
忍无可忍!25万捷克人上街怒吼:我们拒绝成为下一个匈牙利

忍无可忍!25万捷克人上街怒吼:我们拒绝成为下一个匈牙利

阿凫爱吐槽
2026-03-24 17:59:04
OpenClaw逼出Claude最强反击!GUI操控电脑和真人无差别

OpenClaw逼出Claude最强反击!GUI操控电脑和真人无差别

量子位
2026-03-24 10:19:32
招标失败!广州黄埔“最惨旧改”再遇波折!

招标失败!广州黄埔“最惨旧改”再遇波折!

乐居财经官方
2026-03-24 09:05:24
看了几百个“凌乱”的家,我窥见了中国家庭的“通病”,太真实了

看了几百个“凌乱”的家,我窥见了中国家庭的“通病”,太真实了

室内设计师有料儿
2026-03-13 22:52:34
重大升级!美以伊终极大战,还是打响了!

重大升级!美以伊终极大战,还是打响了!

大嘴说天下
2026-03-19 18:34:03
1992年中央军委秘书长杨白冰询问对降职处分的意见

1992年中央军委秘书长杨白冰询问对降职处分的意见

阿黼体育评论
2026-03-18 11:57:43
大快人心!日本持续暴跌达45%,中国人真不来了,高市已付出代价

大快人心!日本持续暴跌达45%,中国人真不来了,高市已付出代价

杰丝聊古今
2026-03-22 19:24:47
华为全新智能绿水鬼正式发布!腕上高球教练仅需7999元

华为全新智能绿水鬼正式发布!腕上高球教练仅需7999元

雷科技
2026-03-23 17:20:39
2026-03-24 19:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14804文章数 66714关注度
往期回顾 全部

科技要闻

黄仁勋看透中国AI圈 人情世故卷出最快创新

头条要闻

外媒披露特朗普"急转弯"原因:盟友和海湾国家发出警告

头条要闻

外媒披露特朗普"急转弯"原因:盟友和海湾国家发出警告

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

林峰张馨月全家浙江游 岳母帮忙带女儿

财经要闻

很多人,都被黄金吓怕了!

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

家居
数码
游戏
健康
公开课

家居要闻

智慧生活 奢享家居

数码要闻

芝奇XMP 3.0 DDR5内存支持英特尔酷睿Ultra 200S Plus处理器

任天堂百亿日元大作销售遇冷 第一方这样做太罕见!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版