这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分|推理|大模型|gpt-4

这届出题太难了！新基准让多模态模型集体自闭，GPT-4o都是零分

2025-02-18 14:02:59　来源: 机器之心Pro

天津举报

分享至

机器之心报道

编辑：蛋酱、佳琪

眼下最顶尖的一批 LMM 是哪些？你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等……

但这些大模型，遇到一个名为「ZeroBench」的视觉基准之后，纷纷败下阵来。

20 多个知名模型，首次作答成绩如下，全部是零分：

震惊之后，我们仔细研究了这个 ZeroBench 基准里的问题。

对于大模型来说，许多现有的基准已经没有任何挑战性，也失去了作为衡量大模型真实视觉理解能力标准的价值。ZeroBench 的出现，显然打破了这个局面。

ZeroBench 包含 100 个具有挑战性的全新问题，具体多有挑战性呢？请听题：

第一题：不用优惠，菜单上每款点一个，总共需要多少港币？

好家伙，这菜单上下颠倒就算了，还反光看不清字，让在其中找到每道菜的价格，再做加法，这不是为难我胖虎吗？

对于需要更多步骤才能得到答案的多模态模型来说，可能它也需要：「服务器繁忙，请稍后再试」。

问题 2：(i) 计算壶铃的总重量？(ii) 计算重量在 5 至 15 磅之间（含 5 磅和 15 磅）的哑铃总重量，单位为磅。(iii) 估计每个绿色壶铃的重量，单位为磅。

知识面不够宽，还真做不了这题。不光要算总重量，还得挑出绿色的，还得分类统计......

多模态模型见了这题都要暗地里蛐蛐：我连自己重多少斤都不知道，您这让我数哑铃？

问题 3：你正试图破解一个保险箱，需要一个 6 位数密码。根据失主留下的线索和物品，请推理出完整密码。

这是在考眼力，考数学，还是在拍《达芬奇密码》？

看来，ZeroBench 对多模态模型确实很高，不仅得明察秋毫，还得拥有福尔摩斯般的推理能力。

问题 4：在八方位指南针上，身体朝南的鹅占总数的百分比是多少？请精确到小数点后一位。

想要判断鹅的身体是否朝南，首先得知道这张图的南在哪边？接下来还需要考虑冬季夏季，南北半球，上午下午？

停停，在高中毕业之后，我就停止如此深度地使用自己的大脑了。

GPT-4o 做了这道题，分析了半天，最后摆烂了，让我们重新上传图片，「以便它从头开始处理。」可能它也要停下来发一句：鹅太南（难）了。

问题 5：

（1）现在是英国牛津的傍晚，这个时钟是根据物品使用方向来安装的。距离正午大约过去了多少小时？

（2）这个时钟是用一个八人赛艇队员的装备制成的，他的队伍使用标准装备。他可能坐在哪些座位？把座位号加起来等于多少？

（3）如果将图像水平翻转一次，垂直翻转一次，然后顺时针旋转 90 度，时针最接近哪个整点？

（4）把前三个答案相乘等于多少？

「从这块只有指针的表判断距离正午的时间」、「表皮是由赛艇队员的装备做成的，他的座位号是多少？」，「水平翻转一次，垂直翻转一次，然后顺时针旋转 90 度......」

如果说前几题查查资料，努努力还能写出来，现在已经来到连题目都读不懂的境地了。

看完这些题目，不难理解为什么它叫 ZeroBench —— 因为 AI 做完这些题后，自信可能就归零了！

想来出题人也是颇费了一番心思才能琢磨出如此刁钻的角度。ZeroBench 的研究团队组织了一个 20 多人的专家出题组，每道题都是手工高定。

由于很难事先知道一个问题对多模态模型来说有多难，因此在开发过程中，出题人还会拿最新、最好的模型来「试水」。发现题目太简单就加料，发现还能做出来就继续加料，直到调节到「难度适中」。

ZeroBench 概述

项目主页: https://zerobench.github.io/

论文地址: https://arxiv.org/pdf/2502.09696

数据集构建

伴随着大模型能力的不断进化，想要创建一个难度足够高的问题集越来越难。

ZeroBench 中的每个问题是由 20 多位人类问题创建者手工定制的。为了增加问题的多样性，对问题创建者的指导还是比较宽泛的：（1）包含对回答问题至关重要的困难视觉元素，（2）包含多步骤推理，（3）尽可能具有挑战性。

由于很难事先知道一个问题对 LMM 来说有多难，因此在开发过程中，研究者鼓励问题创建者在一些前沿模型上对候选问题进行评估，衡量其难度并相应地调整问题。

在获得了 140 个候选问题后，研究者使用了以下由 4 个部分组成的筛选流程，最终选出了 100 个问题用于 ZeroBench：

反馈。对候选问题进行筛选，必要时通过反复审查和反馈进行改进。
初步评估。为了衡量难度，研究者使用 o1 pro（OpenAI，2024a）和 QVQ（Qwen-Team，2024）对问题进行了初步评估。
审查。在初步评估的基础上，对每个候选问题都进行了全面审查，以确保这些问题可以回答、格式和注释正确、难度足够且简明扼要。审查人员的分配确保了出题者不会审查到自己的试题。许多试题也被修改了，旨在增加难度。此外，为了降低正确答案被猜中的可能性，必要时还对问题进行了修改，以确保答案范围足够广泛。这就排除了二进制、多项选择或答案为小整数（即小于 10）的问题。不符合要求的问题都被过滤掉了，因此第一次就有了 106 个合适的问题。
对抗过滤。研究者使用贪婪解码对每个 LMM 基线的剩余问题进行了评估，并删除了任何一个模型都能正确回答的问题。每个模型能正确回答的问题差异很大，表现最好的模型也只能得到 4/106 分。有些问题只有一个相对较弱的模型能正确回答。研究者认为这是一种将问题分布与当前模型能力相联系的有效方法。

经过反复推敲，研究者最终确定了共 100 个问题。为了在评估过程中区分模型性能，他们在审查过程中为每个问题创建了一个或多个子问题。子问题（图 6）由明确的问题子部分、自然推理步骤或与得出最终答案相关的其他数量生成。

统计

表 1 显示了 ZeroBench 的核心统计数据，其中包括 100 个主问题和 334 个子问题，在单幅和多幅图像设置中包含自然图像和合成图像。

如图 4 所示，主问题的文本长度分布广泛，最长可达 2k 字符；在子问题中，短问题的比例明显较高。问题中图片的平均大小（图 5）分布较为均匀。ZeroBench 中的问题以难度为优先考虑因素，大多数问题都包含多个步骤，需要不同的视觉能力。同样，问题的背景也往往是混合的，需要不同领域的知识。因此，为每个问题或子问题指定不同的类别是不可行的。

评估

研究者在 ZeroBench 主问题和子问题上对 20 个 LMM 进行了评估，结果见表 2。从中可以得出几个结论：

对于当下 LMM 的水准而言，ZeroBench 是不可能挑战成功的。在可重现的环境中，研究者发现所有模型在该基准测试中都只有 0% 的及格率。

有些问题是可以回答的，大多数模型的得分都不是零。表现最好的模型是 Gemini 2 Flash Thinking，它的 pass@5 得分达到了 7%（正确回答 7 个问题）；QVQ、Gemini 2 Flash 和 Pixtral-Large 的表现也相对较好，正确回答了 3 个问题。

子问题区分开了模型的性能。这部分问题对模型的挑战性较小，所有模型的得分都不为零。虽然与主问题相比，推理模型的难度要低得多，但总体而言，这些模型仍然难以正确回答这些小问题，其中绝大多数都太难了。推理模型在推理过程中通常会产生一个扩展的思维链，允许它们在得出最终解决方案之前探索多种路径。然而，在 ZeroBench 上，此类模型与传统模型相比似乎并无明显优势。

在主问题上，开放源代码和封闭源代码模型的表现仍然很差，没有明显的区别。不过，通过比较子问题的得分，可以发现两者的性能差距很大，领先的开源模型（QVQ 19.78%）落后于 SOTA（Claude 3.5 Sonnet v2 24.30%）近 5 个百分点。

错误分析

图 7 展示了在 ZeroBench 子问题中经常出现的视觉解读错误，例如错误地计算物体数量、无法「看到」细微细节或准确提取信息，以及难以理解空间关系。更多例子可参考附录。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.