网易首页 > 网易号 > 正文 申请入驻

GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准

0
分享至

All-Angles Bench 团队 投稿至 凹非寺
量子位 | 公众号 QbitAI

多视图理解推理有新的评判标准了!

什么是多视图理解?也就是从不同视角整合视觉信息进而实现理解决策。

想象一下,机器人在复杂环境中执行任务,这就需要根据多个摄像头的画面准确判断物体位置、距离和运动方向,这就依赖于强大的多视图理解能力。

但过去,由于评估多视图推理能力的基准测试稀缺,这一领域的研究进展相对缓慢。

来自UC伯克利、忆生科技、香港大学、纽约大学、加州大学戴维斯分校、牛津大学等多家机构的研究者联合提出了All-Angles Bench,旨在全面评估MLLMs的多视图理解能力。它涵盖了90个真实场景下,超过2100组人工标注的多视图问答对。

其评测数据集以及评测代码现已全部开源。

他们对27个领先的多模态大语言模型进行基准测试,其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。

结果显示,多模态大语言模型与人类水平之间存在显著差距,并进一步发现模态大语言模型存在两种主要的缺陷模式:(1)在遮挡情况下跨视图对应能力较弱;(2)对粗略相机位姿的估计能力较差。

具体来看:

多视图理解Bench

数据构建

All-Angles Bench是一个包含超过2100组人工标注的多视图问答对的大规模基准,涵盖了90个来源于EGO4D-EXO和EgoHumans数据集的真实世界场景。

数据集包含六大具有挑战性的任务,分别是Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

这些任务旨在从多角度考察MLLMs对3D场景的理解能力,包括物体之间的位置关系、物体与相机之间的位置关系等。

构建过程

1. 数据收集与问题类型设计:研究团队精心挑选了90个多样化的多视图场景,并利用GPT设计了上述六大任务下的相关问题。

2. 问题筛查与人工标注:通过人工标注对问题进行细化,修饰以及答案生成。研究团队并且使用交叉检查的方法,确保了问题的清晰度、正确性和相关性,使得测试问题能够准确地评估模型的能力。

3. 成对问题生成与人工质量检查:为了评估模型在跨视图一致性方面的表现,研究团队通过重新表述问题或改变视角来生成成对问题。在生成过程中,保持视角对应关系不变,并进行最后的质量控制,以确保成对问题的有效性。

性能评估

研究团队对27个领先的MLLMs进行了全面评估,其中包括知名的Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4o,以及多种开源和闭源模型。

结果发现,无论是闭源还是开源的多模态大语言模型,在多视图理解能力方面与人类水平之间仍存在显著差距。

发现1:对人类来说简单的任务,比如粗略的相机位姿估计,对多模态大语言模型而言却颇具挑战。

在Camera Pose Estimation任务中,人类标注者的准确率达到88.9%,而Gemini-2.0-Flash、Qwen2.5-VL-72B和InternVL2.5-38B这些顶尖的多模态大语言模型,其准确率落后超过50%,这凸显了其与人类推理水平的显著差距。

发现2:某些开源多模态大语言模型在方向敏感的任务上超越了闭源模型。

有趣的是,Ovis2-34B和Qwen2.5-VL-72B在Relative Direction和Object Manipulation任务上的表现甚至优于Gemini-2.0-Flash和Claude-3.7-Sonnet等闭源模型。推测这可能得益于开源模型集成的视频理解能力和精细的视觉定位能力,使得在跨视图跟踪物体重新定向方面表现出色。

实验分析

1、多模态大语言模型在成对问答中的不一致性

研究人员将模型的回答分为三类:CC(两个回答都正确)、WW(两个回答都错误)和IC(一个正确,一个错误)。较高的IC占比表明模型的多视图理解能力较弱,即简单的换个说法就会导致其回答出错。

在对六个顶尖的多模态大语言模型进行评估时发现:

1)GPT-4o在Relative Distance任务上的IC得分最高(约70%),远高于其他模型在该任务上的IC得分。

2)所有模型在Relative Direction任务上平均IC得分最高,表明在处理方向变化时存在困难。

3)Gemini-2.0-Flash和Claude-3.7-Sonnet在各个任务中的不一致性较为均衡,而Ovis2-34B和GPT-4o则表现出显著的基于任务的不一致性差异。

2、多模态大语言模型在多视图对应方面表现不佳

虽然在所有物体在单一视角下都可见(完全可见)的情况下,多模态大语言模型(MLLMs)往往能够成功处理任务,但在跨视角整合碎片化信息(部分可见)时,它们有时会出现问题。

例如,GPT-4o 有时会选择每个视角中的最大数量,而不是对跨视角的物体数量进行统一统计.

研究人员还在完全可见和部分可见的设置下,对 GPT-4o、Ovis2-34B 和 InternVL2.5-38B 这三款模型评估了以下三种方法:1)Zero-Shot CoT;2)Self-Consistency;3)Identification CoT。

虽然思维链方法在部分可见的情况下提升了 GPT-4o 的表现,但对于在多视图计数方面本就表现出色的模型(如 InternVL2.5-38B)而言,带来的提升比较微少。

这表明,仅靠优化提示词并不够,如果要对多视图理解有根本性的性能提升,还需要进行专门的多视图训练。

3、多模态大语言模型在粗略的相机位姿估计方面表现不佳

通过可视化的方法,研究人员让MLLM推理多视图下的物体和和相机的位置与朝向,可以发现,虽然 GPT-4o 和 Gemini-2.0-Flash 对单张图像的场景理解表现尚可,但它们在对齐不同的相机视角时存在困难,难以正确处理视角变换,进而影响多模态大语言模型的多视图一致性。

论文地址:https://arxiv.org/abs/2504.15280
项目主页:https://danielchyeh.github.io/All-Angles-Bench/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

这就是杜月笙妻妾真实的样貌,并非演员扮演,货真价实的罕见照片

云霄纪史观
2026-03-26 17:17:24
陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

猎云网
2026-03-19 15:28:10
张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

张雪峰背后的万霞太戳心!001号员工月薪3500熬到并肩成王

冷桂零落
2026-03-26 22:55:08
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

特朗普万万没想到!第一个敢掀桌子的,竟然是马来西亚

黑鹰观军事
2026-03-25 17:12:13
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有3个共性

健康之光
2026-03-26 13:55:06
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

林轻吟
2026-03-25 19:25:45
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
30万!不是工资,是汪峰每个月要给的抚养费

30万!不是工资,是汪峰每个月要给的抚养费

小光侃娱乐
2026-03-25 16:45:05
30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

30多辆大巴车一天只卖几张票!甘肃一地客运中心即将停运

快科技
2026-03-26 17:01:50
参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

参数全赢,销量没赢:尚界Z7销量输给小米SU7!差哪呢?

生活魔术专家
2026-03-26 18:07:46
在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

在茶水间我帮老公整理领带,女总监冲过来推开我:别碰我男人!

萧竹轻语
2026-03-10 17:04:51
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
夏日清凉:一种关于存在的轻盈宣言

夏日清凉:一种关于存在的轻盈宣言

疾跑的小蜗牛
2026-03-26 21:48:38
重大转折!俄罗斯,公开下场了!

重大转折!俄罗斯,公开下场了!

大嘴说天下
2026-03-26 22:17:57
看是御姐,脸还能打,肉却 “软趴趴” 了

看是御姐,脸还能打,肉却 “软趴趴” 了

飛娱日记
2026-03-13 11:31:29
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

张雪峰去世,他留下的30个金句,涵盖志愿填报、成长与认知

光影新天地
2026-03-24 22:25:14
吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

吴柳芳:我本不想跳擦边!被管晨辰指责后失去收入 直播1年赚40万

念洲
2026-03-26 13:14:22
2026-03-27 00:12:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
房产
艺术
本地
军事航空

亲子要闻

看看把孩子吓得哈哈哈

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版