网易首页 > 网易号 > 正文 申请入驻

这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分

0
分享至

机器之心报道

编辑:蛋酱、佳琪

眼下最顶尖的一批 LMM 是哪些?你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等……

但这些大模型,遇到一个名为「ZeroBench」的视觉基准之后,纷纷败下阵来。

20 多个知名模型,首次作答成绩如下,全部是零分:

震惊之后,我们仔细研究了这个 ZeroBench 基准里的问题。

对于大模型来说,许多现有的基准已经没有任何挑战性,也失去了作为衡量大模型真实视觉理解能力标准的价值。ZeroBench 的出现,显然打破了这个局面。

ZeroBench 包含 100 个具有挑战性的全新问题,具体多有挑战性呢?请听题:

第一题:不用优惠,菜单上每款点一个,总共需要多少港币?

好家伙,这菜单上下颠倒就算了,还反光看不清字,让在其中找到每道菜的价格,再做加法,这不是为难我胖虎吗?

对于需要更多步骤才能得到答案的多模态模型来说,可能它也需要:「服务器繁忙,请稍后再试」。

问题 2:(i) 计算壶铃的总重量?(ii) 计算重量在 5 至 15 磅之间(含 5 磅和 15 磅)的哑铃总重量,单位为磅。(iii) 估计每个绿色壶铃的重量,单位为磅。

知识面不够宽,还真做不了这题。不光要算总重量,还得挑出绿色的,还得分类统计......

多模态模型见了这题都要暗地里蛐蛐:我连自己重多少斤都不知道,您这让我数哑铃?

问题 3:你正试图破解一个保险箱,需要一个 6 位数密码。根据失主留下的线索和物品,请推理出完整密码。

这是在考眼力,考数学,还是在拍《达芬奇密码》?

看来,ZeroBench 对多模态模型确实很高,不仅得明察秋毫,还得拥有福尔摩斯般的推理能力。

问题 4:在八方位指南针上,身体朝南的鹅占总数的百分比是多少?请精确到小数点后一位。

想要判断鹅的身体是否朝南,首先得知道这张图的南在哪边?接下来还需要考虑冬季夏季,南北半球,上午下午?

停停,在高中毕业之后,我就停止如此深度地使用自己的大脑了。

GPT-4o 做了这道题,分析了半天,最后摆烂了,让我们重新上传图片,「以便它从头开始处理。」可能它也要停下来发一句:鹅太南(难)了。

问题 5:

(1)现在是英国牛津的傍晚,这个时钟是根据物品使用方向来安装的。距离正午大约过去了多少小时?

(2)这个时钟是用一个八人赛艇队员的装备制成的,他的队伍使用标准装备。他可能坐在哪些座位?把座位号加起来等于多少?

(3)如果将图像水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度,时针最接近哪个整点?

(4)把前三个答案相乘等于多少?

「从这块只有指针的表判断距离正午的时间」、「表皮是由赛艇队员的装备做成的,他的座位号是多少?」,「水平翻转一次,垂直翻转一次,然后顺时针旋转 90 度......」

如果说前几题查查资料,努努力还能写出来,现在已经来到连题目都读不懂的境地了。

看完这些题目,不难理解为什么它叫 ZeroBench —— 因为 AI 做完这些题后,自信可能就归零了!

想来出题人也是颇费了一番心思才能琢磨出如此刁钻的角度。ZeroBench 的研究团队组织了一个 20 多人的专家出题组,每道题都是手工高定。

由于很难事先知道一个问题对多模态模型来说有多难,因此在开发过程中,出题人还会拿最新、最好的模型来「试水」。发现题目太简单就加料,发现还能做出来就继续加料,直到调节到「难度适中」。

ZeroBench 概述

项目主页: https://zerobench.github.io/

论文地址: https://arxiv.org/pdf/2502.09696

数据集构建

伴随着大模型能力的不断进化,想要创建一个难度足够高的问题集越来越难。

ZeroBench 中的每个问题是由 20 多位人类问题创建者手工定制的。为了增加问题的多样性,对问题创建者的指导还是比较宽泛的:(1)包含对回答问题至关重要的困难视觉元素,(2)包含多步骤推理,(3)尽可能具有挑战性。

由于很难事先知道一个问题对 LMM 来说有多难,因此在开发过程中,研究者鼓励问题创建者在一些前沿模型上对候选问题进行评估,衡量其难度并相应地调整问题。

在获得了 140 个候选问题后,研究者使用了以下由 4 个部分组成的筛选流程,最终选出了 100 个问题用于 ZeroBench:

  • 反馈。对候选问题进行筛选,必要时通过反复审查和反馈进行改进。
  • 初步评估。为了衡量难度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)对问题进行了初步评估。
  • 审查。在初步评估的基础上,对每个候选问题都进行了全面审查,以确保这些问题可以回答、格式和注释正确、难度足够且简明扼要。审查人员的分配确保了出题者不会审查到自己的试题。许多试题也被修改了,旨在增加难度。此外,为了降低正确答案被猜中的可能性,必要时还对问题进行了修改,以确保答案范围足够广泛。这就排除了二进制、多项选择或答案为小整数(即小于 10)的问题。不符合要求的问题都被过滤掉了,因此第一次就有了 106 个合适的问题。
  • 对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估,并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大,表现最好的模型也只能得到 4/106 分。有些问题只有一个相对较弱的模型能正确回答。研究者认为这是一种将问题分布与当前模型能力相联系的有效方法。

经过反复推敲,研究者最终确定了共 100 个问题。为了在评估过程中区分模型性能,他们在审查过程中为每个问题创建了一个或多个子问题。子问题(图 6)由明确的问题子部分、自然推理步骤或与得出最终答案相关的其他数量生成。

统计

表 1 显示了 ZeroBench 的核心统计数据,其中包括 100 个主问题和 334 个子问题,在单幅和多幅图像设置中包含自然图像和合成图像。

如图 4 所示,主问题的文本长度分布广泛,最长可达 2k 字符;在子问题中,短问题的比例明显较高。问题中图片的平均大小(图 5)分布较为均匀。ZeroBench 中的问题以难度为优先考虑因素,大多数问题都包含多个步骤,需要不同的视觉能力。同样,问题的背景也往往是混合的,需要不同领域的知识。因此,为每个问题或子问题指定不同的类别是不可行的。

评估

研究者在 ZeroBench 主问题和子问题上对 20 个 LMM 进行了评估,结果见表 2。从中可以得出几个结论:

对于当下 LMM 的水准而言,ZeroBench 是不可能挑战成功的。在可重现的环境中,研究者发现所有模型在该基准测试中都只有 0% 的及格率。

有些问题是可以回答的,大多数模型的得分都不是零。表现最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分达到了 7%(正确回答 7 个问题);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表现也相对较好,正确回答了 3 个问题。

子问题区分开了模型的性能。这部分问题对模型的挑战性较小,所有模型的得分都不为零。虽然与主问题相比,推理模型的难度要低得多,但总体而言,这些模型仍然难以正确回答这些小问题,其中绝大多数都太难了。推理模型在推理过程中通常会产生一个扩展的思维链,允许它们在得出最终解决方案之前探索多种路径。然而,在 ZeroBench 上,此类模型与传统模型相比似乎并无明显优势。

在主问题上,开放源代码和封闭源代码模型的表现仍然很差,没有明显的区别。不过,通过比较子问题的得分,可以发现两者的性能差距很大,领先的开源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 个百分点。

错误分析

图 7 展示了在 ZeroBench 子问题中经常出现的视觉解读错误,例如错误地计算物体数量、无法「看到」细微细节或准确提取信息,以及难以理解空间关系。更多例子可参考附录。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
美日达成一致,特朗普让日本在台海“打响第一枪”!中方反击到了

美日达成一致,特朗普让日本在台海“打响第一枪”!中方反击到了

寻迹追心
2026-03-26 09:15:11
黄金跳水跌破4430美元,白银失守70美元

黄金跳水跌破4430美元,白银失守70美元

21世纪经济报道
2026-03-26 14:15:54
现货黄金突破4540美元/盎司

现货黄金突破4540美元/盎司

证券时报
2026-03-26 09:22:05
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
特斯拉车主被售后暖到,15 万元电池免费换,还送带 FSD 的 Model 3 代步!

特斯拉车主被售后暖到,15 万元电池免费换,还送带 FSD 的 Model 3 代步!

新浪财经
2026-03-25 01:53:52
王国本:江西省人大常委会原副主任

王国本:江西省人大常委会原副主任

王姐懒人家常菜
2026-03-26 13:38:47
国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

体坛鉴春秋
2026-03-26 12:23:21
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
20亿美元还不够!中企宣布,对巴拿马索赔涨价,巴政府内部已乱套

20亿美元还不够!中企宣布,对巴拿马索赔涨价,巴政府内部已乱套

李健政观察
2026-03-26 11:11:27
以色列批准战争期间征召40万名预备役人员!美国陆军将新兵征召年龄上限从35岁提升至42岁,还给曾犯大麻持有罪的人开绿灯

以色列批准战争期间征召40万名预备役人员!美国陆军将新兵征召年龄上限从35岁提升至42岁,还给曾犯大麻持有罪的人开绿灯

大象新闻
2026-03-25 22:45:22
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

澎湃新闻
2026-03-25 13:14:37
马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

懂球帝
2026-03-26 12:27:11
同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

铭记历史呀
2026-03-26 11:13:56
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

大风新闻
2026-03-26 08:55:08
等不来特朗普,普京抢先一步来华!美国终于认栽:拦不住中国了

等不来特朗普,普京抢先一步来华!美国终于认栽:拦不住中国了

小聪明说科普
2026-03-25 17:19:57
2026-03-26 14:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
亲子
教育
健康
时尚

艺术要闻

哪一座桥不是风景?

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

教育要闻

高考地理中的花海经济

转头就晕的耳石症,能开车上班吗?

2026年了,最好看的还是“这件针织”!

无障碍浏览 进入关怀版