RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据|模态|rl|vlm|深度思考模型

RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

2025-10-21 09:07:45　来源: 新智元

北京举报

分享至

新智元报道

编辑：LRST

【新智元导读】复旦大学NLP实验室研发Game-RL，利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据，通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法，系统化合成游戏任务数据，构建GameQA数据集，验证了游戏数据在复杂推理训练中的优势。

现有工作利用RL提升了视觉语言模型（VLM）的推理能力，但其任务场景往往是几何或者图表推理。这种领域上的局限，制约了VLM的探索和学习。

如何拓展VLM的RL训练领域呢？

电子游戏视觉元素丰富，且规则明确而可验证，因而是理想的多模态推理数据源。

由此，复旦大学NLP实验室的研究团队提出了Game-RL——构造多模态可验证的游戏任务来强化训练VLM。

论文链接：https://arxiv.org/abs/2505.13886

代码仓库：https://github.com/tongjingqi/Game-RL

数据和模型：https://huggingface.co/Code2Logic

为获得训练数据（如图1的示例），研究人员还提出了新颖的Code2Logic方法，通过游戏代码系统化合成数据。

图1：GameQA数据集中各游戏类别的代表性游戏：3D重建、七巧板（变体）、数独和推箱子。各游戏展示两个视觉问答示例，包含当前游戏状态图片，相应的问题，以及逐步推理过程和答案。

Code2Logic方法创新性地基于游戏代码合成多模态可验证游戏任务数据。

如图2，利用强LLM生成游戏代码、设计任务及其模板、构建数据引擎代码，最后只要执行代码便能自动生成数据。

图2：Code2Logic方法，借助LLM通过三个核心步骤将游戏代码转换为推理数据。第一步：游戏代码构建；第二步：游戏任务及其QA模板设计；第三步：数据引擎构建，基于前两步构建自动化程序，然后只要执行代码就能自动批量生成数据。

GameQA

丰富的游戏任务数据集

利用Code2Logic方法构建了GameQA数据集，这些多模态可验证游戏数据可以用于VLM推理能力的训练和评测。

GameQA有：4大认知能力类别、30个游戏（如图3）、158个推理任务、14万个问答对。

难度分级：任务按难度分三级；样本按视觉输入复杂度分三级。

图3：GameQA的30个游戏，分为4个认知能力类别，涵盖3D空间推理、模式识别与匹配、多步推理、策略规划。20个域内游戏用于训练和测试，而10个域外游戏不参与训练，用于测试模型在未见游戏场景下的泛化能力。

核心发现

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO训练，4个开源VLM在7个完全域外的通用视觉语言推理基准上均取得提升（Qwen2.5-VL-7B平均提升2.33%），展现出跨领域泛化，如表1。

表1：通用视觉语言推理基准上的评测结果

训练效果

GameQA匹敌几何数据集

研究团队用GameQA和几何与图表推理数据集进行对比训练，发现GameQA可与之匹敌。

如表2，尽管训练数据量更少且领域不匹配，但GameQA训的模型在通用基准上总体表现很有竞争力。而且在MathVista与MathVerse这两个和几何与函数推理有关的基准上，Game竟能匹敌更「对口」的几何推理数据训练。

这表明游戏中的认知多样性和推理复杂性，具有通用性和迁移能力。

表2：对比训练，5K GameQA样本 vs. 8K MAVIS（几何与函数视觉推理）vs. 8K Multimodal-Open-R1（以几何推理为主）vs. 8K MultiMath（综合的数学领域多模态推理），GameQA训练的模型总体很有竞争力，实验也显示混合训练（MultiMath中加入GameQA数据）能助力模型提得更多。

Scaling Effect

训练数据量和游戏个数的影响

数据量的Scaling Effect：加大训练的GameQA数据量至20K，实验显示，模型在通用推理基准上的表现总体呈持续提升，如图4。

图4：训练数据量的Scaling Effect

游戏个数的Scaling Effect：随着训练的游戏种类变多，域外泛化效果增强，如图5。

图5：使用20种游戏的任务训练，模型在域外通用基准上的提升优于使用4种或10种游戏的配置。

深度剖析

Game-RL后模型能力提升在哪？

为更好理解Game-RL对VLM推理能力的提升，研究团队随机采样了案例进行了细致的人工分析。结果显示，Game-RL后，模型在视觉感知和文本推理两个方面都有提升，如图6。

图6：人工定性分析得知模型的视觉感知和文本推理能力均有提升。上方的两个饼图分别是域外通用基准上，视觉感知和文本推理能力的变化情况，下方是视觉感知能力提升的一个案例。

结论

研究提出了Game-RL以及游戏数据合成方法Code2Logic，构建了GameQA数据集，将VLM强化训练领域拓展到游戏场景。

通过实验，研究团队验证了Game-RL能提升VLM的通用推理。

进一步而言，也揭示了游戏场景可以提供多模态、可控、可验证数据，具有重要价值。

参考资料：

https://arxiv.org/abs/2505.13886

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.