网易首页 > 网易号 > 正文 申请入驻

AGILE:自监督+交互式强化学习助力VLMs感知与推理全面提升

0
分享至

现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。

AGILE 提出一种全新的自监督学习范式,将「智能体交互」迁移至多模态大模型的强化学习训练中,通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过程,让模型像人一样边观察、边推理、边学习,从而显著提升模型视觉感知与逻辑推理能力。

  • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
  • Paper:https://arxiv.org/pdf/2510.01304
  • Project Page:https://yuzeng0-0.github.io/AGILE/
  • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
  • Code:https://github.com/yuzeng0-0/AGILE
  • 作者单位:中科大、上海 AI Lab、华东师大、港中文

图 1:AGILE 主要工作框架

方法核心:

交互式智能体 + 拼图代理任务

为了克服数据瓶颈与可扩展性问题,研究者们选择「拼图」作为一种高效的兼具感知和推理的代理任务,提出 AGILE。将拼图过程建模为「可控、可验证」的交互式形式:

  • 模型在每一步生成 Python 动作代码(Swap、Observe、Crop、Zoom);
  • 环境执行代码、返回视觉反馈;
  • 模型根据环境反馈继续规划调整拼图,该循环重复至拼图完成。

这一闭环交互形成了「观察–交互–反馈–学习」的智能体训练范式,使 VLMs 能在自监督方式下持续提升感知和推理能力。

AGILE 的完整流程分为两个阶段:

Cold-Start 阶段,使用 Gemini 2.5 Pro 生成 1.6K 条高质量专家拼图交互轨迹,教会模型如何正确生成动作代码与交互逻辑,解决初期模型「不会动手」的问题;

Reinforcement Learning 阶段,在 15.6K 张图像上训练拼图任务,采用 GRPO 算法,通过准确率、格式规范与交互轮数三重奖励信号优化策略。

图 2:模型拼图过程中激发出来的感知和推理行为

实验

研究者们进行了大量实验,验证了 AGILE 的有效性,并得到了多条富有启发意义的结论:

  • 研究者们设计了系统的拼图评估数据集,涵盖不同难度(2×2、3×3)与不同初始正确块数(L0–L7)。模型性能以两种指标衡量:Acc,所有块完全放对的比例;Score,正确拼块数占总拼块数的比例。在最简单的 2×2 任务中,AGILE 使准确率从 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 个百分点。在更具挑战性的 3×3 拼图中,也从 0.4% 提升至 20.8%,标志着模型感知和推理能力大幅跃升。

表 1:拼图 Acc 结果。LN 表示难度级别,N 表示初始正确拼图块数。N 值越小,拼图越乱,难度越高。最佳结果以粗体显示,次佳结果以下划线显示。

  • 通用能力即泛化性评测:经过拼图训练,模型在 9 项通用视觉任务中(涵盖真实世界场景、高分辨率场景、细粒度感知、幻觉和多模态推理)平均提升 3.1%,展现出强大的泛化能力。进一步验证了拼图任务作为代理任务对于通用视觉能力的泛化价值。

表 2:不同模型在 9 个基准测试上的性能比较。缩写:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 个基准测试的平均性能。∆ 表示强化学习相对于基础模型 Qwen2.5-VL-7B 获得的相对性能提升。最佳结果以粗体突出显示,次佳结果以下划线标出。

  • Scaling 实验:数据规模带来的持续增益。研究者们进一步探究了拼图数据规模对性能的影响。当训练数据从 0 扩展至 16K 时:拼图任务准确率从 22.0% → 82.8%;HRBench4K 准确率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的训练在数据量扩增下持续有效。由于拼图环境可自动生成,AGILE 的数据扩展几乎零成本、无限扩容,为多模态 RL 提供了可持续的自监督范式。

图 3:(左图)训练数据规模的影响。左侧 y 轴表示 HRBench4K 和 RealWorldQA 的准确率,右侧 y 轴表示拼图任务的准确率。(右图)与常规 QA 数据的比较,在两种实验设置中,样本总数始终保持在 20K。

  • 与常规 QA 数据的对比实验:研究者们替换 20K 常规 QA 数据中的其中 10K 为拼图数据,发现模型可以表现出更好的性能。这说明拼图任务提供了更强的结构感知与监督信号。这一发现凸显了拼图任务在缓解多模态强化学习数据稀缺方面的潜力,并为推进多模态模型开发开辟了一个充满前景的新方向。

意义与未来

AGILE = 交互式拼图代理 + 自监督 RL,在无需额外人工标注的前提下,持续提升 VLMs 的感知与推理能力。它证明了「交互式拼图代理任务」作为突破数据瓶颈、强化 VLMs 的可行性和自监督强化学习范式的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
科普:世界杯战绩最好8支小组第3怎么计算?韩媒庆幸94%出线概率

科普:世界杯战绩最好8支小组第3怎么计算?韩媒庆幸94%出线概率

新杀猪的秀才
2026-06-25 20:52:25
世界杯传来新消息!韩国球员心态崩了,2场拿1分就出线惨遭2连败

世界杯传来新消息!韩国球员心态崩了,2场拿1分就出线惨遭2连败

不写散文诗
2026-06-25 18:36:12
在旧金山生活了40多年,每月房租仅281美元!92岁华人老奶奶突然收到驱逐令:我可能真的要睡大街了……

在旧金山生活了40多年,每月房租仅281美元!92岁华人老奶奶突然收到驱逐令:我可能真的要睡大街了……

华人生活网
2026-06-26 02:14:50
院士感慨:磷酸铁锂是上帝给中国最好的礼物之一!1000公里10分钟快充,还有很长的生命周期,该满足的都满足了!

院士感慨:磷酸铁锂是上帝给中国最好的礼物之一!1000公里10分钟快充,还有很长的生命周期,该满足的都满足了!

大白聊IT
2026-06-25 16:28:03
一场4-2逆转改写整个淘汰赛格局!日本陷入生死二选一

一场4-2逆转改写整个淘汰赛格局!日本陷入生死二选一

林子说事
2026-06-26 03:11:15
终于有人为韩红发声!网友:只有北京人对她的这次拉票有评价资质

终于有人为韩红发声!网友:只有北京人对她的这次拉票有评价资质

火山詩话
2026-06-26 05:58:59
北京考生多少分才能触碰211门槛?分档讲清楚,看完心里有数

北京考生多少分才能触碰211门槛?分档讲清楚,看完心里有数

手工制作阿爱
2026-06-26 03:25:39
又有纸尿裤送检后被检测出甲酰胺,涉及Babycare品牌,检测机构还在部分婴幼儿血液、尿液中检出该物质;检测机构:有一份正在复测

又有纸尿裤送检后被检测出甲酰胺,涉及Babycare品牌,检测机构还在部分婴幼儿血液、尿液中检出该物质;检测机构:有一份正在复测

大象新闻
2026-06-25 19:09:57
委内瑞拉代总统:感谢中国

委内瑞拉代总统:感谢中国

政知新媒体
2026-06-25 18:19:40
世界杯疯狂:亚洲杯冠亚军全部出局,亚足联颜面尽失

世界杯疯狂:亚洲杯冠亚军全部出局,亚足联颜面尽失

民哥台球解说
2026-06-25 06:57:51
悲催!57岁领导突发脑梗离世,办公室被清空翻新,仿佛他从未出现

悲催!57岁领导突发脑梗离世,办公室被清空翻新,仿佛他从未出现

火山詩话
2026-06-25 07:53:57
直降3.5万!特斯拉新车突然降价!

直降3.5万!特斯拉新车突然降价!

科技堡垒
2026-06-24 10:49:19
中央定调,2026年养老金调整或将启动,企业退休涨幅2.4%难不难?

中央定调,2026年养老金调整或将启动,企业退休涨幅2.4%难不难?

虎哥闲聊
2026-06-25 13:27:27
“港剧第一贵妇”苗金凤于今日下午3时去世,享年80岁,凭电影《双凤仇》一举成名,还曾出演《妙手仁心》《第三类法庭》《一水隔天涯》等

“港剧第一贵妇”苗金凤于今日下午3时去世,享年80岁,凭电影《双凤仇》一举成名,还曾出演《妙手仁心》《第三类法庭》《一水隔天涯》等

大风新闻
2026-06-25 21:45:05
不是姆巴佩!不是哈兰德!3场比赛4球1助,成世界杯最被低估球星

不是姆巴佩!不是哈兰德!3场比赛4球1助,成世界杯最被低估球星

篮球圈里的那些事
2026-06-25 13:58:12
空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

空调“铝代铜”争议持续发酵 格力、松下、海尔三家立场清晰

鳌头财经
2026-06-23 17:41:39
张雪机车首次批量出口欧洲,200余辆摩托将运抵波兰

张雪机车首次批量出口欧洲,200余辆摩托将运抵波兰

IT之家
2026-06-25 21:01:09
3换1!活塞达成交易!曝下一步梭哈詹姆斯

3换1!活塞达成交易!曝下一步梭哈詹姆斯

篮球实战宝典
2026-06-25 19:23:21
3-0和4-2过后,死亡半区锁定:梅西的路也太顺了

3-0和4-2过后,死亡半区锁定:梅西的路也太顺了

刘哥谈体育
2026-06-26 03:17:32
韩红风波再升级!官媒发文锐评,句句直戳心窝,大批网友暂停捐助

韩红风波再升级!官媒发文锐评,句句直戳心窝,大批网友暂停捐助

领悟看世界
2026-06-26 01:25:37
2026-06-26 06:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13360文章数 142682关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

超巴西独享第1 德国1-2厄瓜多尔时隔12年重返淘汰赛

头条要闻

超巴西独享第1 德国1-2厄瓜多尔时隔12年重返淘汰赛

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
旅游
数码
亲子
公开课

教育要闻

山东高考生注意!近800个高考志愿填报咨询服务站,分两时段开放 ,免费服务考生

旅游要闻

“新特产”何以圈粉外国游客(财米油盐)

数码要闻

突发!苹果全面涨价:MacBook Neo上涨900元

亲子要闻

套路啊

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版