网易首页 > 网易号 > 正文 申请入驻

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

0
分享至

新智元报道

编辑:LRST

【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。

让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:

1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;

2. 教会模型新的看图思考方式动辄要成千上万条有标注的数据,门槛极高。

针对此问题,加州大学圣克鲁斯分校的研究人员提出了GRIT (Grounded Reasoning with Images & Texts)模型,具有高关联和轻量级的特性。

论文地址:https://arxiv.org/abs/2505.15879

代码链接:https://github.com/eric-ai-lab/GRIT

在线Demo:https://grounded-reasoning.github.io/

· 高关联

模型可以在思考链里随时插入框坐标,实现真正的 「图像思维」(Thinking with Images)。

GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接织进思考链,实现「思路和证据同步」,所想即所见。

· 轻量级

其训练方法GRPO-GR具备三重奖励(答案、格式、框),实现零人工标注,仅用20张图像与问答的训练数据就能教会模型画框+推理。

GRIT二板斧

Grounded Reasoning

Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上,目标是把二者深度融合

让模型在「想」(生成推理链)的同时「指」(输出精准框坐标),从而让「慢思考」不再停留在纯自然语言,而是真正做到「所见即所想,所想即所指」。

给模型一张图和问题 ,会一次性返回两段式结果(c, a)

  • 推理链c—以 开头,模型边写自然语言,边在需要时插入[x1,y1,x2,y2]形式的框坐标,之后 引导的重思考将进一步整合框坐标对应的图像信息;

  • 最终答案a—在 标签后给出答案。

c的生成过程中,模型每一步都可以自由决定是继续写文字还是生成一个框坐标。

输出框坐标后,模型不会再回读对应像素,而是继续token输出,要求模型理解并利用框坐标信息,融入后续推理,就像模型给自己出了一道Referring Expression Generation(REC)任务一样。

Grounded Reasoning范式通过只传递数字坐标,避免了裁剪图像或多轮回输信息的计算开销,流程轻量。

在此范式之下模型的输出里的框坐标可以直接画出,成为其推理的「看图」依据,读者既能读到它的思考,也能顺着坐标直接验证图中证据。

GRPO-GR训练

为了让模型在极小的数据量下就学会画框来辅助推理,GRIT 采用了专门的强化学习方法GRPO-GR

它在GRPO的基础上,引入三个奖励信号来直接驱动策略 π_θ 生成符合grounded reasoning范式的序列。

格式奖励 (r_format)信号检查模型输出的整体结构是否合规:

  • 是否正确使用 等特殊标记;

  • 插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。 通过惩罚任何格式错误,模型很快学会在文字与坐标之间灵活、规范地切换。

计数奖励 (r_count):对于要求回答某物体数量的问题,计数奖励的信号鼓励模型的输出要数量上符合答案,最好一个框对应一个相关物体

r_count对比推理链里框的个数真实答案中的数量:二者一致即得分,否则扣分;可以让模型在标记目标时兼顾完整性,避免多框、漏框或随意画框。

答案正确性奖励 (r_ans):最终答案是否答对,由GPT-4o进行语义评估并结合BLEU相似度给分。 这样的「老师」对自然语言表述具有强鲁棒性,避免模型钻格式空子,也进一步降低了人工评判成本。

得益于这三重奖励的协同作用,GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目、图像和最终答案

在实践中,即便训练集只有20条数据,模型依旧能够稳定学到「边框边想」的行为,并在多项基准测试上取得亮眼表现。

实验结果:20 条样本即可「看得准、想得对」

准确性评测

Qwen-2.5-VL-3B和InternVL-3-2B作为基座模型,只用来自VSR+TallyQA的共20张图-问题-答案和GRIT方法训练。

在6个测试集中,用GRIT方法,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高。而基线模型表现出割裂定位推理能力,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。

即使GRPO-GR训练中没有包含任何对画框的位置的训练信号,测试结果现实框的准确性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。

推理与画框相互关联


研究人员提出了VL Reasoning Cross-Modal Correlation来衡量推理链中的文字与框区域的对齐程度。

结果显示,用GRIT方法的模型输出的内容更好的融合了推理与画框:框住什么,就谈什么。

另外,在用GRIT方法的模型中,把推理链里的框坐标全部抹掉,再让模型继续生成。

结果显示,后续生成的推理内容对图像的注意力会大幅下降,说明画出的框能进一步促进推理。

数据规模效应


研究人员进一步将训练数据扩大,20到500,再增长到7000。

结果表明,随着数据规模的增加,模型准确率虽可以进一步提高,但跨领域泛化依旧是难点。
即使同类训练数据增加,在与训练域差异较大的测试集上模型提升依然有限,提示未来需要更丰富、更异质的训练数据,而不只是「更多同类题」。

即便是极小样本设置,GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力,并且画框和推理在模型输出中相辅相成;进一步放大数据规模,则带来渐进式收益,并揭示了跨域推理的新挑战。

参考资料:

https://arxiv.org/abs/2505.15879

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我跟48岁女邻居开玩笑说娶她,第二天她28岁女儿拿着户口本找上门

我跟48岁女邻居开玩笑说娶她,第二天她28岁女儿拿着户口本找上门

千秋文化
2026-05-30 20:05:32
从0-1,2-1到2-3,刘建业的错误换人,让重庆铜梁龙从3分变0分

从0-1,2-1到2-3,刘建业的错误换人,让重庆铜梁龙从3分变0分

硬腿子聊个球
2026-05-30 22:52:25
湖北“面积最小地级市”,凭啥接住全球“天上的流量”?

湖北“面积最小地级市”,凭啥接住全球“天上的流量”?

极目新闻
2026-05-30 23:20:19
初中的几个潜规则:初一成绩就中下,甚至倒数的,基本跟高中无缘

初中的几个潜规则:初一成绩就中下,甚至倒数的,基本跟高中无缘

好爸育儿
2026-04-20 15:00:49
家里出现这3种迹象,竟是难得旺宅!老祖宗叮嘱,千万别乱动

家里出现这3种迹象,竟是难得旺宅!老祖宗叮嘱,千万别乱动

阿离家居
2026-05-31 00:31:20
董路的“强盗逻辑”:你必须召我的人,召了还必须当首发核心使

董路的“强盗逻辑”:你必须召我的人,召了还必须当首发核心使

中场阴谋家
2026-05-30 09:19:34
宇宙中最诡异的骗局:地球根本没有悬浮,它一直在往太阳里掉?

宇宙中最诡异的骗局:地球根本没有悬浮,它一直在往太阳里掉?

一簌月光
2026-05-30 02:12:17
全红婵被网暴到主动请假!人民日报罕见发声:别把她修剪成盆景

全红婵被网暴到主动请假!人民日报罕见发声:别把她修剪成盆景

子芫伴你成长
2026-04-02 19:12:58
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
穿情侣装现身谢霆锋演唱会!王菲素颜坐提词器旁,两人已复合12年

穿情侣装现身谢霆锋演唱会!王菲素颜坐提词器旁,两人已复合12年

手工制作阿歼
2026-05-31 01:06:10
脏乱差!美媒曾评:国际空间站像垃圾堆,中国空间站像苹果专卖店

脏乱差!美媒曾评:国际空间站像垃圾堆,中国空间站像苹果专卖店

混沌录
2026-05-28 22:53:01
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
杰西卡·阿尔芭17岁女儿考上耶鲁,前夫深情发文:你注定属于这一刻

杰西卡·阿尔芭17岁女儿考上耶鲁,前夫深情发文:你注定属于这一刻

追星雷达站
2026-05-31 01:11:49
日本迈出最危险一步,借援乌之名,终把自卫队送进北约军事指挥链

日本迈出最危险一步,借援乌之名,终把自卫队送进北约军事指挥链

忠诚TALK
2026-05-30 19:53:57
62岁的我狠心戒烟戒酒一年,复查时医生一番话,让我彻底醒悟

62岁的我狠心戒烟戒酒一年,复查时医生一番话,让我彻底醒悟

千秋文化
2026-03-01 22:14:37
期盼窦唯复出的呼声空前高涨,网友喊话窦靖童:带老爸从综艺开始

期盼窦唯复出的呼声空前高涨,网友喊话窦靖童:带老爸从综艺开始

玖宇维
2026-05-30 16:09:53
年终奖3000万变300,当场提离职,董事长懵了——脑子进水?我却笑了!

年终奖3000万变300,当场提离职,董事长懵了——脑子进水?我却笑了!

麦子情感故事
2026-05-30 17:51:29
1夜7大转会!曼联第二签,阿莱格里执教那不勒斯,B席加盟巴萨!

1夜7大转会!曼联第二签,阿莱格里执教那不勒斯,B席加盟巴萨!

田先生篮球
2026-05-30 09:35:25
天涯神贴之东三省人口持续流出的真正原因

天涯神贴之东三省人口持续流出的真正原因

回旋镖
2026-04-26 13:42:15
空姐的一句大实话,戳穿所有男人的本性,有钱还安分的男人太难得

空姐的一句大实话,戳穿所有男人的本性,有钱还安分的男人太难得

千秋文化
2026-05-27 19:49:01
2026-05-31 05:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15343文章数 66893关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

巴黎再度捧起欧冠奖杯 枪手众将黯然神伤

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
游戏
健康
教育
军事航空

艺术要闻

我想有个小院,从此荒度余生

巫师3新DLC跨十年:年轻玩家在初发售时还是小孩!

尝试干细胞疗法如何避免踩坑?

教育要闻

一“苹”心态 二“苹”实力 三“苹”运气

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版