网易首页 > 网易号 > 正文 申请入驻

复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

0
分享至

本文的主要作者来自复旦大学和南洋理工大学 S-Lab,研究方向聚焦于视觉推理与强化学习优化。

先进的多模态大模型(Large Multi-Modal Models, LMMs)通常基于大语言模型(Large Language Models, LLMs)结合原生分辨率视觉 Transformer(NaViT)构建。然而,这类模型在处理高分辨率图像时面临瓶颈:高分辨率图像会转化为海量视觉 Token,其中大部分与任务无关,既增加了计算负担,也干扰了模型对关键信息的捕捉。

为解决这一问题,复旦大学、南洋理工大学的研究者提出一种基于视觉 Grounding 的多轮强化学习方法 MGPO,使 LMM 能在多轮交互中根据问题,自动预测关键区域坐标,裁剪子图像并整合历史上下文,最终实现高分辨率图像的精准推理。相比监督微调(SFT)需要昂贵的 Grounding 标注作为监督,MGPO 证明了在强化学习(RL)范式中,即使没有 Grounding 标注,模型也能从 「最终答案是否正确」的反馈中,涌现出鲁棒的视觉 Grounding 能力。

MGPO 的核心创新点包括: 1)自上而下的可解释视觉推理:赋予了 LMMs 针对高分辨率场景的 「自上而下、问题驱动」 视觉搜索机制,提供可解释的视觉 Grounding 输出; 2)突破最大像素限制:即使因视觉 Token 数受限导致高分辨率图像缩放后模糊,模型仍能准确识别相关区域坐标,从原始高分辨率图像中裁剪出清晰子图像用于后续分析; 3)无需额外 Grounding 标注:可直接在标准 VQA 数据集上进行 RL 训练,仅基于答案监督就能让模型涌现出鲁棒的视觉 Grounding 能力。

  • 标题:High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
  • 论文地址:https://arxiv.org/abs/2507.05920
  • 代码地址:https://github.com/EvolvingLMMs-Lab/MGPO

图 1:基于 MGPO 训练的模型性能展示,在处理高分辨率图像时,模型会根据问题输出关键区域坐标,然后自动触发图像裁剪函数,返回清晰的子图帮助模型回答问题。

介绍

当前,以 Qwen2.5-VL 为代表的多模态大模型(LMMs)通常基于强大的语言模型(如 Qwen2.5)结合外部原生分辨率视觉 Transformer(NaViT)构建。然而,这类模型在处理高分辨图像任务时面临挑战:高分辨率图像会转换成海量视觉 Token,其中大部分与任务无关,既增加了计算负担,也干扰了模型对关键信息的捕捉。

相比之下,在处理高分辨率真实场景时,人类视觉系统会采用任务驱动的视觉搜索策略,首先定位,再仔细审视关键兴趣区域。受这一生物机制启发,我们尝试通过视觉 Grounding 为 LMMs 赋予类似的视觉搜索能力,使其聚焦于图像中的关键区域。

但传统视觉 Grounding 模型需依赖大量 Grounding 标注进行训练,而此类标注成本较高。有没有可能不需要额外 Grounding 标注,仅通过最终答案的正确性对模型进行奖励,就让模型自动学会 「找重点」?

我们的答案是:可以。本文提出基于视觉 Grounding 的多轮强化学习算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多轮交互中自动预测关键区域坐标、裁剪子图像并整合历史上下文,最终实现高分辨率图像的精准推理。我们的实验证明,即使没有任何 Grounding 标注,模型也能从 「最终答案是否正确」 的奖励反馈中,涌现出鲁棒的视觉定位能力

方法概览

MGPO 的核心思想是模拟人类的多步视觉推理过程:给定高分辨率图像和问题,模型先预测关键区域的坐标,裁剪出子图像;再结合原始图像和子图像的上下文,进行下一步推理。

下图比较了 MGPO 与 SFT、GRPO 的区别,MGPO 可以仅靠正确答案的监督信息,涌现鲁棒的视觉 Grounding 能力。

解决 「冷启动」:固定两回合对话模板

在实际训练中,我们发现 LLMs 在 Rollout 过程中,难以自主在中间过程调用 Grounding 能力,使得 RL 训练过程缓慢。为了解决模型的冷启动问题,我们设计了一个固定两轮对话模板(如下图所示),在第一轮对话中明确要求模型只输出与问题相关的区域坐标,在第二轮对话中再要求模型回答问题。

处理高分辨率:坐标归一化与子图像裁剪

受限于模型能够处理的视觉 Token 数量,高分辨率图往往会被缩放成模糊图像,导致细节丢失。如下图所示,当处理缩放图像时,MGPO 会先定位到与问题相关的区域,再从原始图像中裁剪出清晰的子图,确保模型能够正确回答相关问题。

实验结果

1.不同范式对比

基于相同训练数据下,我们对比了 SFT、GRPO、MGPO 在两个高分辨率图像 Benchmark 的表现:MME-Realworld(In-Distribution)和 V* Bench (Out of Distribution)。实验结果显示,GRPO 相较于 SFT 并未带来显著性能提升,这与之前多模态数学任务的研究结论相反。我们推测,对于高分辨率视觉中心任务,核心挑战在于让模型感知细粒度图像细节,而非进行复杂的长链推理。

相比之下,MGPO 取得了显著提升,相比 GRPO 在 MME-Realworld、V* Bench 分别提升 5.4%、5.2%。我们还将结果与 OpenAI 的 o1、GPT-4o 在 V* Bench 上进行了对比,尽管我们的模型仅基于 7B 模型、用 2.1 万样本训练,经过 MGPO 训练的模型仍超过了这两个商业大模型。

2.RL 训练过程中视觉 Grounding 能力的涌现

我们统计了 GRPO 与 MGPO 两种 RL 框架训练过程中,模型生成的有效 Grounding 坐标比例。结果显示,MGPO 的有效比例随训练迭代呈现显著上升趋势,证明了 MGPO 仅需利用标准 VQA 数据(无需额外 Grounding 标注),就能在 RL 训练过程中自主涌现出稳定、精准的视觉 Grounding 能力。

总结

MGPO 通过多轮强化学习算法激活视觉 Grounding 能力,有效提升了多模态大模型处理高分辨率图像时的 「视觉 Token 冗余」 和 「关键信息丢失」 等问题。同时,实验证明了,相比 SFT 需要昂贵的 Grounding 标注,RL 算法可以仅通过最终答案的奖励反馈,使得模型自主涌现出鲁棒的 Grounding 能力,避免了对昂贵 Grounding 标注的依赖。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
鱼的生长周期好像也没多长时间,为啥长江禁渔要长达10年?

鱼的生长周期好像也没多长时间,为啥长江禁渔要长达10年?

向航说
2026-01-18 00:50:03
美军敢为台海军火船开火?答案早已明确

美军敢为台海军火船开火?答案早已明确

安安说
2026-01-23 09:24:12
日本最大的误判就是没想到中国坚决不投降,裕仁坦言低估了中国

日本最大的误判就是没想到中国坚决不投降,裕仁坦言低估了中国

鹤羽说个事
2026-01-22 11:40:05
阿卡慢热遭阻击赛场突发意外,虎妞再赢抢七进八强约战小美女

阿卡慢热遭阻击赛场突发意外,虎妞再赢抢七进八强约战小美女

网球之家
2026-01-25 12:36:31
陈幸同发文表心情,周启豪更新社媒,连发3条博文,另有所指

陈幸同发文表心情,周启豪更新社媒,连发3条博文,另有所指

翰飞观事
2026-01-24 21:20:02
特朗普,会在春天来访吗?

特朗普,会在春天来访吗?

中国新闻周刊
2026-01-24 10:51:34
法国专家:中国国产氦气产能狂飙,美国禁令将成为一个“笑话”

法国专家:中国国产氦气产能狂飙,美国禁令将成为一个“笑话”

通鉴史智
2026-01-06 11:34:53
这位上将一家咋了,二儿子被开除军籍,四儿子被拘留,妻子又入狱

这位上将一家咋了,二儿子被开除军籍,四儿子被拘留,妻子又入狱

领悟看世界
2025-12-23 01:53:23
55年张云逸错失元帅席位,毛主席提笔批示:行政3级,享元帅待遇

55年张云逸错失元帅席位,毛主席提笔批示:行政3级,享元帅待遇

春秋砚
2026-01-25 14:10:03
老人除了防摔倒不吃饱外,还要注意这四件事,谁看谁受益

老人除了防摔倒不吃饱外,还要注意这四件事,谁看谁受益

情感大使馆
2026-01-19 09:24:25
医院最难治的是病人反骨!护士:大妈不语,只一味打自己屁股

医院最难治的是病人反骨!护士:大妈不语,只一味打自己屁股

夜深爱杂谈
2026-01-24 20:16:32
柯文哲曾言:大陆若胆敢对台湾出手,我随随便便就能让大陆瘫痪?

柯文哲曾言:大陆若胆敢对台湾出手,我随随便便就能让大陆瘫痪?

墨兰史书
2026-01-24 05:00:03
不出意外的话,现在全网最尴尬的就是朱珠了

不出意外的话,现在全网最尴尬的就是朱珠了

喜欢历史的阿繁
2026-01-25 06:42:44
官宣:王励勤正式辞任!

官宣:王励勤正式辞任!

十点街球体育
2026-01-23 17:05:38
小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

心中的麦田
2026-01-21 20:18:15
日本大选乱成一锅粥!菅义伟出局、麻生梦碎,高市坐不住了!

日本大选乱成一锅粥!菅义伟出局、麻生梦碎,高市坐不住了!

小鬼头体育
2026-01-25 01:32:08
李湘和许家印前妻的瓜!

李湘和许家印前妻的瓜!

八卦疯叔
2026-01-25 11:22:46
和平委员会刚宣布就生变?不到两天有国家退出,特朗普急发撤销令

和平委员会刚宣布就生变?不到两天有国家退出,特朗普急发撤销令

策略述
2026-01-25 14:15:52
马斯克最新震撼发言:人类终有一天将找到逆转衰老之法

马斯克最新震撼发言:人类终有一天将找到逆转衰老之法

闪电新闻
2026-01-24 08:51:22
安徽合肥蜀山经济技术开发区管委会副主任邓杰义接受审查调查

安徽合肥蜀山经济技术开发区管委会副主任邓杰义接受审查调查

界面新闻
2026-01-25 11:54:14
2026-01-25 15:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

霉霉翻车了:短信中爆粗辱骂闺蜜的导演 口碑急剧下跌

头条要闻

霉霉翻车了:短信中爆粗辱骂闺蜜的导演 口碑急剧下跌

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

健康
数码
时尚
艺术
公开课

耳石脱落为何让人天旋地转+恶心?

数码要闻

消息称带屏版苹果HomePod今年春季发布

2025年度榜单|| 真金白银票选出来的“真爱”,今天破价1.6折!

艺术要闻

全认识这13个字的人,能否复印王羲之的作品?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版