网易首页 > 网易号 > 正文 申请入驻

AGILE:自监督+交互式强化学习助力VLMs感知与推理全面提升

0
分享至



现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。

AGILE 提出一种全新的自监督学习范式,将「智能体交互」迁移至多模态大模型的强化学习训练中,通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过程,让模型像人一样边观察、边推理、边学习,从而显著提升模型视觉感知与逻辑推理能力。



  • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
  • Paper:https://arxiv.org/pdf/2510.01304
  • Project Page:https://yuzeng0-0.github.io/AGILE/
  • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
  • Code:https://github.com/yuzeng0-0/AGILE
  • 作者单位:中科大、上海 AI Lab、华东师大、港中文



图 1:AGILE 主要工作框架

方法核心:

交互式智能体 + 拼图代理任务

为了克服数据瓶颈与可扩展性问题,研究者们选择「拼图」作为一种高效的兼具感知和推理的代理任务,提出 AGILE。将拼图过程建模为「可控、可验证」的交互式形式:

  • 模型在每一步生成 Python 动作代码(Swap、Observe、Crop、Zoom);
  • 环境执行代码、返回视觉反馈;
  • 模型根据环境反馈继续规划调整拼图,该循环重复至拼图完成。

这一闭环交互形成了「观察–交互–反馈–学习」的智能体训练范式,使 VLMs 能在自监督方式下持续提升感知和推理能力。

AGILE 的完整流程分为两个阶段:

Cold-Start 阶段,使用 Gemini 2.5 Pro 生成 1.6K 条高质量专家拼图交互轨迹,教会模型如何正确生成动作代码与交互逻辑,解决初期模型「不会动手」的问题;

Reinforcement Learning 阶段,在 15.6K 张图像上训练拼图任务,采用 GRPO 算法,通过准确率、格式规范与交互轮数三重奖励信号优化策略。



图 2:模型拼图过程中激发出来的感知和推理行为

实验

研究者们进行了大量实验,验证了 AGILE 的有效性,并得到了多条富有启发意义的结论:

  • 研究者们设计了系统的拼图评估数据集,涵盖不同难度(2×2、3×3)与不同初始正确块数(L0–L7)。模型性能以两种指标衡量:Acc,所有块完全放对的比例;Score,正确拼块数占总拼块数的比例。在最简单的 2×2 任务中,AGILE 使准确率从 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 个百分点。在更具挑战性的 3×3 拼图中,也从 0.4% 提升至 20.8%,标志着模型感知和推理能力大幅跃升。



表 1:拼图 Acc 结果。LN 表示难度级别,N 表示初始正确拼图块数。N 值越小,拼图越乱,难度越高。最佳结果以粗体显示,次佳结果以下划线显示。

  • 通用能力即泛化性评测:经过拼图训练,模型在 9 项通用视觉任务中(涵盖真实世界场景、高分辨率场景、细粒度感知、幻觉和多模态推理)平均提升 3.1%,展现出强大的泛化能力。进一步验证了拼图任务作为代理任务对于通用视觉能力的泛化价值。



表 2:不同模型在 9 个基准测试上的性能比较。缩写:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 个基准测试的平均性能。∆ 表示强化学习相对于基础模型 Qwen2.5-VL-7B 获得的相对性能提升。最佳结果以粗体突出显示,次佳结果以下划线标出。

  • Scaling 实验:数据规模带来的持续增益。研究者们进一步探究了拼图数据规模对性能的影响。当训练数据从 0 扩展至 16K 时:拼图任务准确率从 22.0% → 82.8%;HRBench4K 准确率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的训练在数据量扩增下持续有效。由于拼图环境可自动生成,AGILE 的数据扩展几乎零成本、无限扩容,为多模态 RL 提供了可持续的自监督范式。



图 3:(左图)训练数据规模的影响。左侧 y 轴表示 HRBench4K 和 RealWorldQA 的准确率,右侧 y 轴表示拼图任务的准确率。(右图)与常规 QA 数据的比较,在两种实验设置中,样本总数始终保持在 20K。

  • 与常规 QA 数据的对比实验:研究者们替换 20K 常规 QA 数据中的其中 10K 为拼图数据,发现模型可以表现出更好的性能。这说明拼图任务提供了更强的结构感知与监督信号。这一发现凸显了拼图任务在缓解多模态强化学习数据稀缺方面的潜力,并为推进多模态模型开发开辟了一个充满前景的新方向。

意义与未来

AGILE = 交互式拼图代理 + 自监督 RL,在无需额外人工标注的前提下,持续提升 VLMs 的感知与推理能力。它证明了「交互式拼图代理任务」作为突破数据瓶颈、强化 VLMs 的可行性和自监督强化学习范式的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
要把女生送往伊朗前线的博主,销号跑路了

要把女生送往伊朗前线的博主,销号跑路了

大张的自留地
2026-03-22 15:33:24
福建宁德一派出所教导员办公室猥亵15岁女生,一审被判2年9个月,家属欲申请抗诉

福建宁德一派出所教导员办公室猥亵15岁女生,一审被判2年9个月,家属欲申请抗诉

大风新闻
2026-03-21 11:58:12
19岁少女帮人带行李恐终身监禁?收7千美元,落地才发现藏了毒!

19岁少女帮人带行李恐终身监禁?收7千美元,落地才发现藏了毒!

英国报姐
2026-03-21 21:10:36
以色列迪莫纳被伊朗导弹“直接击中” 附近有敏感核设施

以色列迪莫纳被伊朗导弹“直接击中” 附近有敏感核设施

新华社
2026-03-22 02:48:03
同样演受气包母亲,46岁董璇和55岁闫妮一对比,差距彻底藏不住了

同样演受气包母亲,46岁董璇和55岁闫妮一对比,差距彻底藏不住了

肆季娱乐
2026-03-21 21:14:24
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
以色列民众集会抗议美以军事行动 抗议者:以政府撒谎 丧失人性

以色列民众集会抗议美以军事行动 抗议者:以政府撒谎 丧失人性

新华社
2026-03-22 17:26:47
人到60岁后,最值得打的4种疫苗,每一针都可能在关键时刻救命!

人到60岁后,最值得打的4种疫苗,每一针都可能在关键时刻救命!

医学科普汇
2026-03-20 20:25:06
王道席任湖南省政府常务副省长、党组副书记

王道席任湖南省政府常务副省长、党组副书记

中国经济网
2026-03-22 16:36:03
“金价是把我们当猴耍吗”,黄金大跌,投资者被折磨得心力交瘁:“每天睁眼第一件事就是看金价脸色”

“金价是把我们当猴耍吗”,黄金大跌,投资者被折磨得心力交瘁:“每天睁眼第一件事就是看金价脸色”

观威海
2026-03-22 11:23:03
醉汉公交车上猥亵殴打初中女生,同车一位高一男生将其制服并交给警方,校方:男生没学过擒拿格斗,会对他进行表彰

醉汉公交车上猥亵殴打初中女生,同车一位高一男生将其制服并交给警方,校方:男生没学过擒拿格斗,会对他进行表彰

极目新闻
2026-03-22 11:47:54
价格大跳水,暴跌50%!最近广州人都在买!

价格大跳水,暴跌50%!最近广州人都在买!

羊城攻略
2026-03-21 23:34:59
世界排名更新!赵心童中国最高,塔猜亚飙升17位丁俊晖保住前16!

世界排名更新!赵心童中国最高,塔猜亚飙升17位丁俊晖保住前16!

世界体坛观察家
2026-03-22 21:46:06
爸妈!真的不要再往马桶里倒水了!

爸妈!真的不要再往马桶里倒水了!

家居设计师宅哥
2026-03-08 18:21:44
西甲领头羊狂飙:豪取5连胜,73分领跑,皇马被压制屈居第2

西甲领头羊狂飙:豪取5连胜,73分领跑,皇马被压制屈居第2

足球狗说
2026-03-22 23:00:44
又一惊天变局!卡斯特罗外孙开启「古巴之春」

又一惊天变局!卡斯特罗外孙开启「古巴之春」

家传编辑部
2026-03-22 17:27:25
抗美援朝时,5名中国女战士被美军包围后主动投降,此后下落不明

抗美援朝时,5名中国女战士被美军包围后主动投降,此后下落不明

南权先生
2026-03-14 15:21:15
迪拜崩了!伊朗美国大战,迪拜40年的造富神话,11天就崩了!

迪拜崩了!伊朗美国大战,迪拜40年的造富神话,11天就崩了!

澳洲红领巾
2026-03-19 14:27:38
地面战要来了?美军2艘“准航母”载数千士兵增援,第82空降师已待命!特朗普38年前就提出夺取哈尔克岛,伊朗:已准备好俘虏美军

地面战要来了?美军2艘“准航母”载数千士兵增援,第82空降师已待命!特朗普38年前就提出夺取哈尔克岛,伊朗:已准备好俘虏美军

每日经济新闻
2026-03-22 01:05:15
又有证监局领导失联。。。

又有证监局领导失联。。。

新浪财经
2026-03-22 11:51:44
2026-03-22 23:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12557文章数 142590关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

体育要闻

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

手机
房产
艺术
公开课
军事航空

手机要闻

华为蝉联榜首,苹果紧追不舍,OPPO、vivo、小米、荣耀差距不大!

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

艺术要闻

扎哈事务所掌门人:建筑学,已经死了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊导弹击中以核设施附近 爆炸视频公布

无障碍浏览 进入关怀版