网易首页 > 网易号 > 正文 申请入驻

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

0
分享至

新智元报道

编辑:LRST

【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。

让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:

1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;

2. 教会模型新的看图思考方式动辄要成千上万条有标注的数据,门槛极高。

针对此问题,加州大学圣克鲁斯分校的研究人员提出了GRIT (Grounded Reasoning with Images & Texts)模型,具有高关联和轻量级的特性。

论文地址:https://arxiv.org/abs/2505.15879

代码链接:https://github.com/eric-ai-lab/GRIT

在线Demo:https://grounded-reasoning.github.io/

· 高关联

模型可以在思考链里随时插入框坐标,实现真正的 「图像思维」(Thinking with Images)。

GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接织进思考链,实现「思路和证据同步」,所想即所见。

· 轻量级

其训练方法GRPO-GR具备三重奖励(答案、格式、框),实现零人工标注,仅用20张图像与问答的训练数据就能教会模型画框+推理。

GRIT二板斧

Grounded Reasoning

Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上,目标是把二者深度融合

让模型在「想」(生成推理链)的同时「指」(输出精准框坐标),从而让「慢思考」不再停留在纯自然语言,而是真正做到「所见即所想,所想即所指」。

给模型一张图和问题 ,会一次性返回两段式结果(c, a)

  • 推理链c—以 开头,模型边写自然语言,边在需要时插入[x1,y1,x2,y2]形式的框坐标,之后 引导的重思考将进一步整合框坐标对应的图像信息;

  • 最终答案a—在 标签后给出答案。

c的生成过程中,模型每一步都可以自由决定是继续写文字还是生成一个框坐标。

输出框坐标后,模型不会再回读对应像素,而是继续token输出,要求模型理解并利用框坐标信息,融入后续推理,就像模型给自己出了一道Referring Expression Generation(REC)任务一样。

Grounded Reasoning范式通过只传递数字坐标,避免了裁剪图像或多轮回输信息的计算开销,流程轻量。

在此范式之下模型的输出里的框坐标可以直接画出,成为其推理的「看图」依据,读者既能读到它的思考,也能顺着坐标直接验证图中证据。

GRPO-GR训练

为了让模型在极小的数据量下就学会画框来辅助推理,GRIT 采用了专门的强化学习方法GRPO-GR

它在GRPO的基础上,引入三个奖励信号来直接驱动策略 π_θ 生成符合grounded reasoning范式的序列。

格式奖励 (r_format)信号检查模型输出的整体结构是否合规:

  • 是否正确使用 等特殊标记;

  • 插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。 通过惩罚任何格式错误,模型很快学会在文字与坐标之间灵活、规范地切换。

计数奖励 (r_count):对于要求回答某物体数量的问题,计数奖励的信号鼓励模型的输出要数量上符合答案,最好一个框对应一个相关物体

r_count对比推理链里框的个数真实答案中的数量:二者一致即得分,否则扣分;可以让模型在标记目标时兼顾完整性,避免多框、漏框或随意画框。

答案正确性奖励 (r_ans):最终答案是否答对,由GPT-4o进行语义评估并结合BLEU相似度给分。 这样的「老师」对自然语言表述具有强鲁棒性,避免模型钻格式空子,也进一步降低了人工评判成本。

得益于这三重奖励的协同作用,GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目、图像和最终答案

在实践中,即便训练集只有20条数据,模型依旧能够稳定学到「边框边想」的行为,并在多项基准测试上取得亮眼表现。

实验结果:20 条样本即可「看得准、想得对」

准确性评测

Qwen-2.5-VL-3B和InternVL-3-2B作为基座模型,只用来自VSR+TallyQA的共20张图-问题-答案和GRIT方法训练。

在6个测试集中,用GRIT方法,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高。而基线模型表现出割裂定位推理能力,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。

即使GRPO-GR训练中没有包含任何对画框的位置的训练信号,测试结果现实框的准确性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。

推理与画框相互关联


研究人员提出了VL Reasoning Cross-Modal Correlation来衡量推理链中的文字与框区域的对齐程度。

结果显示,用GRIT方法的模型输出的内容更好的融合了推理与画框:框住什么,就谈什么。

另外,在用GRIT方法的模型中,把推理链里的框坐标全部抹掉,再让模型继续生成。

结果显示,后续生成的推理内容对图像的注意力会大幅下降,说明画出的框能进一步促进推理。

数据规模效应


研究人员进一步将训练数据扩大,20到500,再增长到7000。

结果表明,随着数据规模的增加,模型准确率虽可以进一步提高,但跨领域泛化依旧是难点。
即使同类训练数据增加,在与训练域差异较大的测试集上模型提升依然有限,提示未来需要更丰富、更异质的训练数据,而不只是「更多同类题」。

即便是极小样本设置,GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力,并且画框和推理在模型输出中相辅相成;进一步放大数据规模,则带来渐进式收益,并揭示了跨域推理的新挑战。

参考资料:

https://arxiv.org/abs/2505.15879

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有高人预测:不出10年,社会将出现“6大”改变,早看早做准备!

有高人预测:不出10年,社会将出现“6大”改变,早看早做准备!

水大叔
2026-03-30 20:41:42
俄罗斯巨富向普京捐出千亿,花钱买平安总好过被抄家

俄罗斯巨富向普京捐出千亿,花钱买平安总好过被抄家

闻识
2026-03-31 17:10:47
日本诺贝尔奖得主大江健三郎表示:很遗憾,日本很可能将重复历史

日本诺贝尔奖得主大江健三郎表示:很遗憾,日本很可能将重复历史

议纪史
2025-11-27 14:35:03
苹果用户7年不换机,电池崩了后ChatGPT给了个反常识解法

苹果用户7年不换机,电池崩了后ChatGPT给了个反常识解法

硬核玩家2哈
2026-03-26 14:27:05
1-4!中国男足输法国沦为垫底 日本0-0 最新排名:欧洲2队包揽前2

1-4!中国男足输法国沦为垫底 日本0-0 最新排名:欧洲2队包揽前2

侃球熊弟
2026-04-01 03:28:40
特朗普:各国应自行去霍尔木兹海峡“抢石油”

特朗普:各国应自行去霍尔木兹海峡“抢石油”

21世纪经济报道
2026-03-31 20:33:13
香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

香港艳星下嫁山东农村,曾不雅照满天飞,现状曝光,生了一个儿子

深度解析热点
2026-02-13 11:55:13
郑丽文访问大陆,又获得一国民党要员支持,比蒋万安赵少康更给力

郑丽文访问大陆,又获得一国民党要员支持,比蒋万安赵少康更给力

小陆搞笑日常
2026-03-31 12:06:16
“八成拒统”闹剧:绿营自嗨的丑态

“八成拒统”闹剧:绿营自嗨的丑态

烽火瞭望者
2026-03-31 06:19:27
创历史!雷霆首次连两季60胜 亚历山大47分连136场20+历史第一

创历史!雷霆首次连两季60胜 亚历山大47分连136场20+历史第一

醉卧浮生
2026-03-31 12:36:31
张皓嘉末节超神10分4板1帽引热议!赛后泪洒现场获陈家政安慰

张皓嘉末节超神10分4板1帽引热议!赛后泪洒现场获陈家政安慰

狼叔评论
2026-03-31 23:10:06
1万美军瞄准大动脉!德黑兰或将亡国?伊朗强硬派:要死一起死!

1万美军瞄准大动脉!德黑兰或将亡国?伊朗强硬派:要死一起死!

无意争春
2026-04-01 03:35:56
伊朗划定通航 “朋友圈”,中方三艘船舶顺利通过霍尔木兹海峡

伊朗划定通航 “朋友圈”,中方三艘船舶顺利通过霍尔木兹海峡

上观新闻
2026-03-31 18:49:07
比乌克兰还要危险!日本效仿以色列,北上侵略的野心藏不住了

比乌克兰还要危险!日本效仿以色列,北上侵略的野心藏不住了

黑鹰观军事
2026-03-31 23:06:46
贾跃亭晒喜讯:儿子圆梦斯坦福大学研究生 为他骄傲

贾跃亭晒喜讯:儿子圆梦斯坦福大学研究生 为他骄傲

快科技
2026-03-30 09:40:20
三任娇妻皆绝色,他却晚景凄凉,一生令人唏嘘

三任娇妻皆绝色,他却晚景凄凉,一生令人唏嘘

唠叨说历史
2026-03-27 16:39:19
人民币汇率升破6.83,中国美元GDP重估,何时能突破21万亿美元

人民币汇率升破6.83,中国美元GDP重估,何时能突破21万亿美元

壹号股权
2026-03-31 12:11:07
张雪峰遗产分配有眉目!公司总经理发文承诺,但悬着的心仍难放下

张雪峰遗产分配有眉目!公司总经理发文承诺,但悬着的心仍难放下

叨唠
2026-04-01 00:43:00
不夺霍尔木兹了?特朗普又想了个馊主意,阿拉伯国家后背发凉

不夺霍尔木兹了?特朗普又想了个馊主意,阿拉伯国家后背发凉

邱震海
2026-03-31 21:00:03
湖北厅官王炜任上被查!

湖北厅官王炜任上被查!

中国青年报
2026-03-31 22:16:11
2026-04-01 05:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14861文章数 66731关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

头条要闻

伊朗总统:愿意结束战争 前提是诉求得到满足

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

数码
旅游
艺术
手机
公开课

数码要闻

飞利浦“32M2N8900X“31.5英寸显示器开售,6999元

旅游要闻

沿沪宁好去处丨上海西站出发,逛花海、品早茶、看球赛!泰州发布三大春季主题线路

艺术要闻

震撼!他笔下的美女,色彩美得让人无法自拔!

手机要闻

vivo X300s线下上手:体验后,不吐不快!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版