网易首页 > 网易号 > 正文 申请入驻

复旦Game-RL用游戏数据解锁增强VLM通用推理新路径

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。

现有工作利用RL提升了视觉语言模型(VLM)的推理能力,但其任务场景往往是几何或者图表推理。这种领域上的局限,制约了VLM的探索和学习。如何拓展VLM的RL训练领域呢?

电子游戏视觉元素丰富,且规则明确而可验证,因而是理想的多模态推理数据源。由此,复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。为获得训练数据(如图1的示例),研究人员还提出了新颖的Code2Logic方法,通过游戏代码系统化合成数据。


图1:GameQA数据集中各游戏类别的代表性游戏:3D重建、七巧板(变体)、数独和推箱子。各游戏展示两个视觉问答示例,包含当前游戏状态图片,相应的问题,以及逐步推理过程和答案。

Code2Logic方法创新性地基于游戏代码合成多模态可验证游戏任务数据。如图2,利用强LLM生成游戏代码、设计任务及其模板、构建数据引擎代码,最后只要执行代码便能自动生成数据。


图2:Code2Logic方法,借助LLM通过三个核心步骤将游戏代码转换为推理数据。第一步:游戏代码构建;第二步:游戏任务及其QA模板设计;第三步:数据引擎构建,基于前两步构建自动化程序,然后只要执行代码就能自动批量生成数据。

目前研究成果均已上线始智AI-wisemodel开源社区,欢迎体验。


模型和数据集地址

https://www.wisemodel.cn/organization/Code2Logic

01.

GameQA丰富的游戏任务数据集

利用Code2Logic方法构建了GameQA数据集,这些多模态可验证游戏数据可以用于VLM推理能力的训练和评测。

GameQA有:4大认知能力类别、30个游戏(如图3)、158个推理任务、14万个问答对。

难度分级:任务按难度分三级;样本按视觉输入复杂度分三级。


图3:GameQA的30个游戏,分为4个认知能力类别,涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。20个域内游戏用于训练和测试,而10个域外游戏不参与训练,用于测试模型在未见游戏场景下的泛化能力。

02.

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO训练,4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展现出跨领域泛化,如表1。


表1:通用视觉语言推理基准上的评测结果

03.

GameQA匹敌几何数据集

研究团队用GameQA和几何与图表推理数据集进行对比训练,发现GameQA可与之匹敌

如表2,尽管训练数据量更少且领域不匹配,但GameQA训的模型在通用基准上总体表现很有竞争力。而且在MathVista与MathVerse这两个和几何与函数推理有关的基准上,Game竟能匹敌更「对口」的几何推理数据训练。

这表明游戏中的认知多样性和推理复杂性,具有通用性和迁移能力。


表2:对比训练,5K GameQA样本 vs. 8K MAVIS(几何与函数视觉推理)vs. 8K Multimodal-Open-R1(以几何推理为主)vs. 8K MultiMath(综合的数学领域多模态推理),GameQA训练的模型总体很有竞争力,实验也显示混合训练(MultiMath中加入GameQA数据)能助力模型提得更多。

04.

训练数据量和游戏个数的影响

数据量的Scaling Effect:加大训练的GameQA数据量至20K,实验显示,模型在通用推理基准上的表现总体呈持续提升,如图4。


图4:训练数据量的Scaling Effect

游戏个数的Scaling Effect:随着训练的游戏种类变多,域外泛化效果增强,如图5。


图5:使用20种游戏的任务训练,模型在域外通用基准上的提升优于使用4种或10种游戏的配置。

05.

Game-RL后模型能力提升在哪?

为更好理解Game-RL对VLM推理能力的提升,研究团队随机采样了案例进行了细致的人工分析。结果显示,Game-RL后,模型在视觉感知和文本推理两个方面都有提升,如图6。


图6:人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上,视觉感知和文本推理能力的变化情况,下方是视觉感知能力提升的一个案例。

研究提出了Game-RL以及游戏数据合成方法Code2Logic,构建了GameQA数据集,将VLM强化训练领域拓展到游戏场景。通过实验,研究团队验证了Game-RL能提升VLM的通用推理。进一步而言,也揭示了游戏场景可以提供多模态、可控、可验证数据,具有重要价值。

----- END -----


wisemodel相关:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
获刑!情节恶劣!南通顾某被“限高”仍高消费,甚至向申请执行人挑衅

获刑!情节恶劣!南通顾某被“限高”仍高消费,甚至向申请执行人挑衅

南通濠生活
2026-01-29 09:42:19
解放军硬刚表态,锁定赖清德可直捕,台岛已成铁笼插翅难飞!

解放军硬刚表态,锁定赖清德可直捕,台岛已成铁笼插翅难飞!

达文西看世界
2026-01-27 10:04:48
498万买“百强县”排名:打肿脸充胖子的政绩泡沫该戳破了

498万买“百强县”排名:打肿脸充胖子的政绩泡沫该戳破了

戗词夺理
2026-01-21 15:33:17
“复仇”开始!弹劾特朗普第一人温德曼参选:要彻底终结暴政!

“复仇”开始!弹劾特朗普第一人温德曼参选:要彻底终结暴政!

有牙的兔纸
2026-01-29 03:57:19
涨价大潮来临,背后是史诗级成本大转移。

涨价大潮来临,背后是史诗级成本大转移。

流苏晚晴
2026-01-29 18:20:57
韩媒:中国足球表现出根除“假赌黑”的决心;孙准浩却仍含糊其辞

韩媒:中国足球表现出根除“假赌黑”的决心;孙准浩却仍含糊其辞

懂球帝
2026-01-29 20:49:51
世界5大禁片,全看完的人,心理素质堪比特种兵

世界5大禁片,全看完的人,心理素质堪比特种兵

i书与房
2026-01-26 15:07:05
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
大妈在深圳当保姆10年,被冤枉偷手镯,回家打开行李箱后愣住了

大妈在深圳当保姆10年,被冤枉偷手镯,回家打开行李箱后愣住了

青青会讲故事
2025-10-17 17:06:25
冯绍峰没想到,离婚4年,赵丽颖会因黄晓明的一句话实现口碑暴增

冯绍峰没想到,离婚4年,赵丽颖会因黄晓明的一句话实现口碑暴增

娱小余
2026-01-28 23:14:08
段睿不再隐忍!自曝为蔡磊付出巨大,辞职投身电商,带货利润极低

段睿不再隐忍!自曝为蔡磊付出巨大,辞职投身电商,带货利润极低

寒士之言本尊
2026-01-29 12:13:27
王岳伦发文声明,离谱了

王岳伦发文声明,离谱了

听风听你
2026-01-28 22:40:00
秦志戬点名,陈梦迎大事,或官宣决定,国乒名单公布,球迷期待

秦志戬点名,陈梦迎大事,或官宣决定,国乒名单公布,球迷期待

江湖第一菜鸡
2026-01-29 08:04:25
被停职审查、转移格力资产、搞办公室恋情,董明珠身上谣言太离谱

被停职审查、转移格力资产、搞办公室恋情,董明珠身上谣言太离谱

星星没有你亮
2025-12-30 20:57:58
2026年央视马年春晚官宣,看完导演和拟邀名单,厕所都不敢去上了

2026年央视马年春晚官宣,看完导演和拟邀名单,厕所都不敢去上了

包饺子ai剪辑
2025-12-11 11:52:28
妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

胖胖侃咖
2025-04-13 08:00:08
黄国昌这步棋,真是教科书级别的!

黄国昌这步棋,真是教科书级别的!

达文西看世界
2026-01-23 20:25:49
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
共和党元老惊叹:特朗普只用一年,就让美国制度向恶霸统治投降

共和党元老惊叹:特朗普只用一年,就让美国制度向恶霸统治投降

阿器谈史
2026-01-18 21:24:07
姚明:中国球员去NBA起码有退路,不像外国球员需要拼命求生存

姚明:中国球员去NBA起码有退路,不像外国球员需要拼命求生存

林小湜体育频道
2026-01-29 17:12:12
2026-01-30 03:36:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
448文章数 14关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

教育
亲子
手机
公开课
军事航空

教育要闻

求两圆交点的方法还记得吗

亲子要闻

严格婴幼儿配方液态乳生产许可条件,市场监管总局发布审查细则

手机要闻

澎湃OS 3 Beta第二期招募开启:多款机型均在列,你的在内吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中方被指支持俄生产武器 外交部回应

无障碍浏览 进入关怀版