网易首页 > 网易号 > 正文 申请入驻

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类

0
分享至


新智元报道

编辑:LRST

【新智元导读】加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。

前沿的人工智能模型虽然在众多任务上取得了显著进展,但研究发现,它们在组合推理 (compositional reasoning) 方面仍表现不佳,在多个经典基准测试上甚至低于随机猜测水平。

加州大学河滨分校Yinglun Zhu研究团队重新审视了这一问题,发现其根源之一在于评测指标本身——它系统性地低估了模型的真实能力。


博客链接:https://yinglunz.com/blogs/ttm.html

论文链接:https://arxiv.org/pdf/2510.07632

代码链接:https://github.com/yinglunz/test-time-matching

团队据此提出了新的GroupMatch指标,能够挖掘被现有评测掩盖的潜在能力,使GPT-4.1首次在Winoground基准测试上超越人类表现。

基于这一洞见,团队进一步提出一种无需外部监督、能够自我改进的迭代算法Test-Time Matching(TTM),可在模型推理阶段显著提升性能。

得益于TTM,仅0.2B参数的SigLIP-B16就在MMVP-VLM基准测试上超越了GPT-4.1,刷新了当前最优结果。

研究背景

组合推理(compositional reasoning)体现了AI是否具备「举一反三」的能力——能否将对象、属性和关系重新组合,去理解新的情境。

像Winoground这样的基准测试通过2×2群组设计来考察这种能力:其中两条文本用词相同但顺序不同,每条只对应其中一张图像。

尽管这些模型在多模态任务中表现出强大能力,但对比式视觉语言模型(VLMs)和多模态大语言模型(MLLMs)在这类基准测试中表现依然有限。

在Winoground基准测试上,即便是前沿模型的得分也远低于人类水平(约85.5分);

此前的最佳结果仅为58.75,且是通过对GPT-4V进行scaffolding和prompt tuning实现的。

重新审视评测指标

从随机猜测到群组匹配

加州大学河滨分校(UCR)研究团队发现,模型在组合推理任务中的低分,部分源自评测指标本身。

当前广泛使用的GroupScore指标过于严格:它要求每张图像都与正确的文本匹配、每段文本也与正确的图像匹配,但并不检查整个群组的全局一致性

只要有一次错配,整组得分就会被判为0。

假设每组包含k张图像和k条文本描述,GroupScore只逐一检查图像与文本之间的匹配情况,而忽略整体关系。

在随机匹配下,成功率仅为 (k−1)! / (2k−1)!;当k = 2时,这个概率只有六分之一。

为解决这一问题,团队提出了新的GroupMatch指标,用于评估群组内的整体最优匹配,而不是孤立的成对比较。

GroupMatch会考虑所有可能的匹配方式(共k!种),并选择最可能的那一个。

这样,在随机猜测下的成功率提升为1 / k!——当k = 2时为二分之一,比原来的六分之一大幅提高。

更关键的是,如果模型能在GroupMatch下找到正确匹配,只需在测试阶段对该匹配进行过拟合,就能在原始GroupScore下获得满分。

基于这一发现,团队提出了一个简单的SimpleMatch两步法:

1. 使用 GroupMatch 选择最可能的匹配;

2. 在测试阶段对该匹配进行过拟合。


如上图所示,SimpleMatch揭示了模型中大量「被隐藏」的潜力——它让仅有0.2B参数的SigLIP-B16超越了此前所有结果,并使GPT-4.1首次在Winoground上超过人类表现。

Test-Time Matching

在测试阶段自我迭代提升模型能力

为进一步提升模型表现,UCR研究团队提出了一种无需外部监督、能够自我改进的迭代算法Test-Time Matching (TTM)

每次迭代包括三个步骤:

1. 模型对所有群组进行匹配预测;

2. 仅保留置信度高的匹配(即得分差距超过阈值)作为伪标签,并在这些伪标签上自我微调;

3. 随着迭代进行,逐步放宽阈值,以纳入更多样本。

TTM的核心在于两点:

1. 基于GroupMatch的伪标签能更有效地利用群组结构,提供更强的监督信号;

2. 阈值的逐步衰减机制让模型先从高置信数据学习,再逐步扩展覆盖范围。

这一算法可以看作测试时训练 (test-time training) 的一种形式,结合了自训练 (self-training)、半监督学习 (semi-supervised learning) 和主动学习 (active learning) 的思想。

从实验结果来看,TTM在多个数据集和模型上都稳定优于 SimpleMatch:相对性能提升最高可达 10.5%,相对错误率下降54.8%

值得注意的是,TTM让SigLIP-L16在ColorSwap数据集上提升至GPT-4.1的水平,并使SigLIP-B16(仅0.2B参数)在MMVP-VLM上超越GPT-4.1,刷新了当前最优结果


TTM的广泛适用性

虽然前面的结果主要基于方形群组(k×k)的组合推理任务,但TTM同样适用于矩形群组,甚至是没有群组结构的数据集。

指标变化不带来提升的情况

在只有1×k结构的群组中,GroupMatch与GroupScore等价,因此单纯更换指标并不会改进结果。

即便如此,TTM在SugarCrepe和WhatsUp等数据集上依然带来了显著提升,其中在WhatsUp上的相对增幅高达85.7%,让原本困难的任务变得可解。


无群组结构的情况

TTM还能将整个数据集视为一个全局的「图像-文本匹配问题」(assignment problem),并在多项式时间内求解。

即使将Winoground、MMVP-VLM和ColorSwap等数据集全部「打平」为无群组结构,TTM依然能显著提升表现,最高可带来33.3%的相对错误率下降。


讨论与展望

UCR研究团队重新审视了多模态模型在组合推理上的长期难题,指出:许多被认为的「失败」,其实源自评测指标的局限。

团队提出的GroupMatch指标与Test-Time Matching (TTM) 算法表明,模型的组合推理能力早已存在——只需要在测试阶段,用合适的方法将其「解锁」。

在覆盖16个不同数据集变体的系统实验中,TTM在多种设置下都展现出稳定而显著的改进,推动了多模态推理研究的前沿进展。

展望未来,团队认为有两个方向值得进一步探索:

  • 重新思考模型评估:同一个模型在不同指标下可能表现出截然不同的能力,这提醒我们需要建立更稳健、更统一的评测框架。

  • 将TTM推广至组合推理之外:虽然TTM起源于组合推理,但它的核心思想——在测试阶段进行匹配式自训练——具有普适性。该思路有望在更广泛的多模态和语言任务中发挥作用,推动AI模型迈向真正的「自适应、自进化」。

参考资料:

https://arxiv.org/pdf/2510.07632

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全运男篮:广东大胜浙江头名进八强 赵睿13+8+7胡明轩徐杰均14分

全运男篮:广东大胜浙江头名进八强 赵睿13+8+7胡明轩徐杰均14分

醉卧浮生
2025-11-08 21:13:36
东莞电子厂搬越南,工人要失业!网友:下月就失业,求助网友咋办

东莞电子厂搬越南,工人要失业!网友:下月就失业,求助网友咋办

眼光很亮
2025-11-08 11:35:56
40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

40岁黄希扬泪如雨下!1265天两次落泪:终于把中超还给球迷

奥拜尔
2025-11-08 17:09:49
男医生的更多生活细节被扒,妻子生活照曝光,比曾医生长得好看

男医生的更多生活细节被扒,妻子生活照曝光,比曾医生长得好看

魔都姐姐杂谈
2025-11-08 16:50:38
《西游记》沙僧扮演者刘大刚先生因病去逝,剧中数位演员已永远离开

《西游记》沙僧扮演者刘大刚先生因病去逝,剧中数位演员已永远离开

潇湘晨报
2025-11-07 18:49:54
落马官员出狱当天,又被逮捕

落马官员出狱当天,又被逮捕

中国新闻周刊
2025-11-08 18:55:04
11月8日俄乌最新:重大胜利

11月8日俄乌最新:重大胜利

西楼饮月
2025-11-08 15:38:25
祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

祖雄兵、曾琦因生活作风问题被停职调查!两人可能会有5种结局

鋭娱之乐
2025-11-08 15:05:47
西贝闭店潮汹涌,贾国龙天要塌了

西贝闭店潮汹涌,贾国龙天要塌了

财经三分钟pro
2025-11-08 11:49:36
印尼不买了,泰国也不买了,中国千亿大单遭冲击

印尼不买了,泰国也不买了,中国千亿大单遭冲击

花花娱界
2025-11-08 21:54:27
俄副总理自曝亲自参战:用狙击步枪在乌军袭击时还击

俄副总理自曝亲自参战:用狙击步枪在乌军袭击时还击

鲁中晨报
2025-11-08 18:52:01
祖院长报警就对了!这事明显的是被人做了局,必须要严惩偷拍者…

祖院长报警就对了!这事明显的是被人做了局,必须要严惩偷拍者…

火山诗话
2025-11-08 07:54:20
詹姆斯·沃森去世,因发现“DNA双螺旋结构”享誉世界,晚年宣称“黑人因基因智力低”而饱受争议

詹姆斯·沃森去世,因发现“DNA双螺旋结构”享誉世界,晚年宣称“黑人因基因智力低”而饱受争议

生物世界
2025-11-08 08:11:39
特朗普返美后立马变脸,就台湾问题发出威胁:中方清楚动武的后果

特朗普返美后立马变脸,就台湾问题发出威胁:中方清楚动武的后果

boss外传
2025-11-08 00:00:04
9名大法官罕见意见一致,对华关税或再下降10%,特朗普败局已定

9名大法官罕见意见一致,对华关税或再下降10%,特朗普败局已定

南宫一二
2025-11-08 20:46:16
第93分钟绝平,凯恩绝境救主,德甲霸主爆冷,连胜终结

第93分钟绝平,凯恩绝境救主,德甲霸主爆冷,连胜终结

足球狗说
2025-11-09 00:28:14
军事专家:福建舰让一些国外决策者变冷静了

军事专家:福建舰让一些国外决策者变冷静了

环球网资讯
2025-11-07 15:47:09
冲动了!网传广州业主投诉无果,花2000把窗台一捆电缆线全剪断了

冲动了!网传广州业主投诉无果,花2000把窗台一捆电缆线全剪断了

火山诗话
2025-11-08 12:26:10
祖副院长妻子身份被扒,同院的护士长,一头短发,五官精致

祖副院长妻子身份被扒,同院的护士长,一头短发,五官精致

魔都姐姐杂谈
2025-11-08 17:05:17
终于见到本人了 没有传说中那么漂亮 不是保安护驾 感觉就是一路人甲

终于见到本人了 没有传说中那么漂亮 不是保安护驾 感觉就是一路人甲

沙雕小琳琳
2025-11-09 00:08:55
2025-11-09 02:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13819文章数 66238关注度
往期回顾 全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

头条要闻

张家界荒野求生选手抓到野猪吃得满嘴流油 赛事方回应

体育要闻

马刺绞赢火箭,不靠文班亚马?

娱乐要闻

古二再度放料!秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市 但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线:28.85 万元

态度原创

手机
健康
房产
公开课
军事航空

手机要闻

iPhone 18全系标配2400万前摄:苹果史上最强

超声探头会加重受伤情况吗?

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

福建舰常驻地为三亚军港

无障碍浏览 进入关怀版