网易首页 > 网易号 > 正文 申请入驻

强化学习新发现:无需数学样本,仅游戏训练AI推理大增

0
分享至

第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解。

Project Leader肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille。

第二作者马崟淞是约翰斯・霍普金斯大学博士生。

第三作者兰石懿是英伟达 Research Scientist。

最近,强化学习领域出现了一个颠覆性发现:研究人员不再需要大量数学训练样本,仅仅让 AI 玩简单游戏,就能显著提升其数学推理能力。

此前已有研究发现,即使不提供标准答案,仅用数学问题进行强化学习也能提高模型性能,这让人们开始重新思考强化学习的训练方式。而来自莱斯大学、约翰斯・霍普金斯大学和英伟达的研究团队更进一步:他们让多模态大语言模型 (MLLM) 玩贪吃蛇等简单游戏,无需任何数学或多学科训练数据,就显著提升了模型的多模态推理能力。研究团队提出了 ViGaL (Visual Game Learning) 方法,在多个主流视觉数学基准测试和MMMU系列基准测试中,超越此前在数学等领域内数据上训练的强化学习模型。

  • 论文标题:Play to Generalize: Learning to Reason Through Game Play
  • 论文链接:https://arxiv.org/abs/2506.08011
  • 项目主页:https://yunfeixie233.github.io/ViGaL/

不用数学样本,游戏训练在数学基准取得突破

近期研究表明,相比监督微调(SFT),强化学习(RL)往往能实现更强的 “举一反三” 的跨领域泛化能力。以往的工作已经证明,在数学问题训练的模型能够扩展推理到物理问题,经过导航训练的智能体能够成功适应全新环境。然而,这些成功的泛化案例通常仍局限在单一领域内,源任务与泛化的目标任务依然属于同一类型。

图 1: 我们发现,只在例如贪吃蛇这种游戏上进行强化学习训练,模型就能涌现出领域外的泛化能力,在数学、多学科等多个任务上提高性能。

这篇工作的突破在于实现了更强形式的跨域泛化:从游戏领域完全迁移到数学推理、空间推理和多学科推理等领域。研究团队用 7B 参数的 Qwen2.5-VL 模型进行训练,发现仅通过强化学习训练模型玩贪吃蛇和旋转游戏,就能在多个基准测试中实现了显著提升:

  • 数学推理提升:不用数学样本,仅通过游戏训练,ViGaL 在 MathVista 等数学推理基准上平均提升 2.9%,相比之下,在高质量数学数据集上进行强化学习的方法仅提升 2.4%。
  • 多学科推理突破:在 MMMU 系列多学科推理任务上,ViGaL 超越在多学科数据上进行 RL 训练的 R1-OneVision-7B 模型 5.4 个百分点。
  • 通用能力保持:经过测试,之前的强化学习推理模型在提升特定领域性能时,大部分都损害通用视觉能力,但 ViGaL 在保持原有通用性能的同时实现了推理能力的跃升。

图 2: 不使用数学或者多学科样本,仅通过游戏训练,模型在数学推理基准上平均提升 2.9%(左图),在多学科推理基准上平均提升 2.0%(右图),超过此前专门在数学或者多学科数据上训练的强化学习方法。

为什么游戏训练如此有效?

图 3: 我们在贪吃蛇游戏和旋转游戏上利用强化学习进行训练。在每个游戏里面,模型会接收图片和文本形式的游戏环境作为输入,遵循游戏指令进行推理,抉择一个动作在游戏环境里执行。执行后会从环境获得奖励,用于进行强化学习。通过在游戏中训练,模型获得了推理能力,并且能迁移至下游的数学和多学科等任务。

为什么玩游戏能提升数学能力?这个发现其实并不违背认知科学的基本规律。

回想一下我们自己的成长过程:小时候通过搭积木学会了空间概念,通过躲猫猫理解了位置关系,通过各种益智游戏培养了逻辑思维。儿童正是通过这些看似 "玩耍" 的活动,逐步构建起抽象思维的基础 —— 模式识别、空间推理、因果推断。

认知科学研究也证实了这一点:游戏常被用作探索人类心智的实验平台。研究人员通过 "四子连珠" 游戏研究规划能力,通过 "虚拟工具" 游戏探索问题解决的认知机制。

基于这样的理论启发,研究团队巧妙地设计了两款互补的训练游戏:

贪吃蛇游戏:这是一个经典的策略决策游戏。在 10×10 的网格上,模型需要控制蛇的移动,避免撞墙、撞到自己或对手,同时尽可能多地收集苹果。游戏培养的核心能力包括路径规划、避障决策和空间导航,这些技能直接对应数学中的坐标几何和函数图像理解。

旋转游戏:这是研究团队自主设计的 3D 空间推理游戏。模型需要观察同一 3D 物体的两个视角 —— 初始视角和旋转后视角,判断物体旋转了 90 度还是 180 度。这个游戏专门训练空间几何理解能力,直接对应角度和长度相关的数学推理问题。

两款游戏的设计哲学互补:贪吃蛇主要提升 2D 坐标相关的数学表现,旋转游戏则更适合角度和长度推理。实验证实,联合训练两款游戏比单独训练效果更佳,展现了游戏多样性的可扩展潜力。

结语:合成任务的新时代

ViGaL 的成功揭示了一个潜在的新趋势:当高质量人类数据枯竭,简单任务性能饱和的时候,精心设计的游戏,作为一种合成任务,可能为多模态推理能力的发展开辟新道路。

与传统的直接训练方法相比,这种游戏化的训练范式展现出独特的优势:

  • 成本极低:无需人工标注,可无限扩展
  • 效果显著:零数学样本超越数学专训模型
  • 拓展性强:可以组合多个任务进一步提升性能
  • 通用性好:不会造成 "偏科" 问题,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一个朴素但深刻的道理:在直接学习目标任务之外,培养底层的通用推理能力,也许同样有助于模型性能的提升。就像我们不只是通过死记硬背数学公式来培养数学思维,而是通过各种思维训练来发展抽象推理能力一样。

在 Scaling Law 可能逐渐面临困境的今天,ViGaL 用一个简单而优雅的想法提醒我们:有时候,让 AI"玩游戏" 可能比让它 "刷题" 更有效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二选一,詹姆斯下家基本确定,去这两队都比留湖人强

二选一,詹姆斯下家基本确定,去这两队都比留湖人强

海阔山遥YAO
2026-06-27 11:20:27
毛岸英入朝作战牺牲,主要责任人是谁?毛主席其实早就点明过真相

毛岸英入朝作战牺牲,主要责任人是谁?毛主席其实早就点明过真相

听风行天涯
2026-06-25 17:37:54
属虎:6月28到1日连续四天有人找你,其中姓李的人格外上心

属虎:6月28到1日连续四天有人找你,其中姓李的人格外上心

叮当当科技
2026-06-27 04:48:34
河南男生高考536分“捡漏”北大,却因分数过低被北大三次退档,遭全网嘲笑,7年后现状曝光,网友彻底傻眼了

河南男生高考536分“捡漏”北大,却因分数过低被北大三次退档,遭全网嘲笑,7年后现状曝光,网友彻底傻眼了

背包旅行
2026-06-27 11:45:05
祁宏近况:定居上海做青训,50岁锋芒褪去,妻子不离不弃等他5年

祁宏近况:定居上海做青训,50岁锋芒褪去,妻子不离不弃等他5年

胡一舸南游y
2026-06-25 23:22:44
欧洲民众疯抢中国空调,一直不愿装空调的欧洲,40度高温下妥协了

欧洲民众疯抢中国空调,一直不愿装空调的欧洲,40度高温下妥协了

王新喜
2026-06-27 12:01:28
梅西已成最完美球王?先别封神,世界杯数据说明,他还欠点火候

梅西已成最完美球王?先别封神,世界杯数据说明,他还欠点火候

说历史的女人
2026-06-27 12:02:02
中央考核巡查组向广西反馈明查暗访情况,现场移交重大事故隐患追责问责交办单

中央考核巡查组向广西反馈明查暗访情况,现场移交重大事故隐患追责问责交办单

政知新媒体
2026-06-27 15:01:43
全网刷屏!肖战杨紫时隔多年同框,两种声音吵翻热搜

全网刷屏!肖战杨紫时隔多年同框,两种声音吵翻热搜

繁华羽淡洛
2026-06-26 15:15:23
原来他们早已离婚,如今一个在北京当会长,一个发福明显商演谋生

原来他们早已离婚,如今一个在北京当会长,一个发福明显商演谋生

胡一舸南游y
2026-06-25 23:22:59
白玉兰奖落幕:3人口碑暴涨,2人升咖,1人镀金失败,唯她被骂惨

白玉兰奖落幕:3人口碑暴涨,2人升咖,1人镀金失败,唯她被骂惨

荣亭小吏
2026-06-27 10:27:59
父母催婚,并不完全是因为“你该结婚了”,而是因为一旦你不结婚,他们就突然不知道你接下来会走向哪里了

父母催婚,并不完全是因为“你该结婚了”,而是因为一旦你不结婚,他们就突然不知道你接下来会走向哪里了

LULU生活家
2026-06-27 18:18:38
央视点赞杨紫“获奖感言”,释放2大信号,于和伟的话有人信了

央视点赞杨紫“获奖感言”,释放2大信号,于和伟的话有人信了

史料布籍
2026-06-27 12:52:08
索内斯:戈登表现低迷,巴萨现在可能怀疑他值不值7000万英镑

索内斯:戈登表现低迷,巴萨现在可能怀疑他值不值7000万英镑

懂球帝
2026-06-27 18:53:13
闲着没事,你抓什么特务,吃饱了撑的!

闲着没事,你抓什么特务,吃饱了撑的!

雨秋闲话
2026-06-26 11:28:46
震惊了!坐飞机,发现了一名超像豆包的空姐

震惊了!坐飞机,发现了一名超像豆包的空姐

微微热评
2026-06-25 12:35:51
吃着中国的稀土,却往死里卡中国的脖子!对台积电,该下狠手了

吃着中国的稀土,却往死里卡中国的脖子!对台积电,该下狠手了

流史岁月
2026-06-24 21:10:04
据爆料:听说某大厂西安研究所一个女员工,终身合同耗了三年不走,今年被hr带着保安抬出公司了。

据爆料:听说某大厂西安研究所一个女员工,终身合同耗了三年不走,今年被hr带着保安抬出公司了。

纯洁的微笑
2026-06-25 12:49:08
iPhone 17 将打破历史纪录,成为寿命最长的苹果手机!

iPhone 17 将打破历史纪录,成为寿命最长的苹果手机!

XCiOS俱乐部
2026-06-25 19:31:03
国产豪华MPV,补贴价16.55万起掀桌子了!

国产豪华MPV,补贴价16.55万起掀桌子了!

米粒说车唯一呀
2026-06-27 19:44:56
2026-06-27 21:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13372文章数 142681关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

"挖眼案"受害男孩高考721分 曾问"天为啥一直是黑的"

头条要闻

"挖眼案"受害男孩高考721分 曾问"天为啥一直是黑的"

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

数码
本地
时尚
艺术
教育

数码要闻

8999元成历史!iPhone 18 Pro涨价不可逆:内存问题解决也不降回原价

本地新闻

世界杯球迷节:比球赛更好玩的派对

夏天裤子不要总穿黑的,看看这几款牛仔裤,舒适减龄又百搭

艺术要闻

看完他的局部,我原谅了整个世界的不完美

教育要闻

成都“七中系”报考干货来了!各校办学特色、招生数据大盘点

无障碍浏览 进入关怀版