网易首页 > 网易号 > 正文 申请入驻

2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?

90%人都会的读钟题,顶尖AI全军覆没!

AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。

结果让人吃惊:

人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。

就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。

ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。

论文链接:https://clockbench.ai/ClockBench.pdf

虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:

训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

也有好消息:表现最好的模型已展现出一定的视觉推理(虽有限)。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

ClockBench如何拷打AI?

在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。

甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。

一个典型例子是Humanity’s Last Exam):

在该基准上,OpenAI GPT-4o的得分仅2.7% ,而xAI Grok 4却提升到 25.4%;

结合工具使用等优化手段后,结果甚至能进入40–50%区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。

因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通来说很简单,但对LLM却很难

ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难

因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench究竟包含什么?

  • 36个全新设计的定制表盘,每个表盘生成5个样本时钟

  • 总计180个时钟,每个时钟设置4个问题,共720道测试题

  • 测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比

问题分为4大类:

1. 判断时间是否有效

有一个时钟️,大模型需要判断这个时钟显示的时间是不是有效的。

如果时间是合法的,大模型需要把它分解成几个部分,并以JSON格式输出:

小时 (Hours)、分钟 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、 星期几 (Day of the week)

只要表盘包含上述信息,就要求LLM一并输出。

2. 时间的加减

该任务要求LLM对给定时间进行加减,得到新时间。

3. 旋转时钟指针

这个任务是关于操作时钟的指针。该任务要求模型选择时/分/秒针,并按指定角度顺时针或逆时针旋转。

4. 时区转换

这个任务是关于不同地方的时间。比如,给定纽约的夏令时,模型需推算不同地点的当地时间。

结果出乎意料

结果有哪些出乎意料的发现?

模型与人类不仅正确率差距巨大,错误模式也截然不同:

  • 人类误差中位数仅3分钟,最佳模型却高达1小时

  • 较弱模型的误差约3小时,结合12小时制表盘循环特性,相当于随机噪声

另一个有趣发现是,某些钟表特征的读取难度存在显著差异:

  • 在读取非常见的复杂钟表及高精度要求场景时,模型表现最差

  • 罗马数字与环形数字的朝向最难识别,其次是秒针、杂乱背景和镜像时钟

除了读时,其他问题对模型而言反而更简单:

  • 表现最佳的模型能高精度回答时间加减、指针旋转角度或时区转换问题,部分场景准确率可达100%

在不同模型的表现对比中,总体趋势是:规模更大的推理型模型普遍优于规模较小或非推理型模型

不过,也出现了一些值得注意的现象:

  • 谷歌的Gemini 2.5系列模型在各自类别中往往领先于其他模型;

  • Anthropic系列模型则普遍落后于同类模型;

  • Grok 4的表现远低于预期,与其规模和通用能力并不相称。

GPT-5排名第三,且推理预算对结果影响不大(中等与高预算得分高度接近)值得思考的是:何种因素制约了GPT-5在此类视觉推理任务的表现?

在原始数据集中,180个时钟里有37个属于无效(不可能存在)的时间。无论是人类还是模型,在识别「无效时间」时的成功率都更高

  • 人类差异不大:在无效时钟上的准确率为96.2%,而在有效时钟上为89.1%

  • 模型差异明显:在无效时钟上的准确率平均高出349%,并且所有模型在这类任务中的表现都更好;

  • Gemini 2.5 Pro依旧是总体最佳模型,准确率达到40.5%

  • Grok 4则是一个异常值:它在识别无效时钟上的准确率最高,达到64.9%,但问题在于,它把整个数据集里63.3%的时钟都标记为无效,这意味着结果很可能是「随机撞对」。

在模型能够正确读时的钟面上,存在明显的重叠现象:

  • 61.7%的时钟没有被任何模型正确读出;

  • 38.3%的时钟至少被1个模型读对;

  • 22.8%的时钟至少被2个模型读对;

  • 13.9%的时钟至少被3个模型读对;

  • 8.9%的时钟至少被4个或以上的模型读对。

整体来看,分布情况和有效性数据表明:模型的正确答案集中在某一小部分时钟上,而不是均匀分布。

参考资料:

https://x.com/alek_safar/status/1964383077792141390

https://clockbench.ai/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

懂球帝
2026-03-26 06:43:09
蛊惑人心 结局:留下悬念

蛊惑人心 结局:留下悬念

金昔说故事
2026-03-26 19:50:53
炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

炸锅!利物浦 1.25 亿标王主动申请离队,首选下家完全出乎意料

澜归序
2026-03-26 06:08:07
生死皆是命数!网友:注定你要活,就会用各种方式把你拉离危险

生死皆是命数!网友:注定你要活,就会用各种方式把你拉离危险

夜深爱杂谈
2026-03-26 20:25:44
连续9场遭雪藏!失意神射离开辽宁仍未受重用 还能翻身吗?

连续9场遭雪藏!失意神射离开辽宁仍未受重用 还能翻身吗?

体娱天下
2026-03-26 15:27:26
又不缺土地,为什么全世界只有中国,在疯狂地修建高层住宅?

又不缺土地,为什么全世界只有中国,在疯狂地修建高层住宅?

张鼋卤说体育
2026-02-07 12:45:26
一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

一觉醒来天塌了!美国突然发现,命脉被中国控制,这仗还怎么打?

谷盟a
2026-03-24 13:43:01
3月26日人民币对美元中间价调贬145个基点

3月26日人民币对美元中间价调贬145个基点

证券时报
2026-03-26 09:34:06
曼联5出3进,中场推倒重来!2人合同到期 2人铁心想走 3天才锁定

曼联5出3进,中场推倒重来!2人合同到期 2人铁心想走 3天才锁定

万花筒体育球球
2026-03-25 19:02:23
这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

这4种鱼,可能含有甲醛和重金属,建议:还是少吃比较好!

阿龙美食记
2026-03-24 21:52:23
忍了9年,中国终于对欧美航空霸权掀桌子!C919用硬实力杀出重围

忍了9年,中国终于对欧美航空霸权掀桌子!C919用硬实力杀出重围

朝子亥
2026-03-26 23:35:03
稀土贸易战:WTO判中国输,美西方终成输家

稀土贸易战:WTO判中国输,美西方终成输家

遁走的两轮
2026-03-15 03:13:32
巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社
2026-03-26 18:55:07
金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

金智媛现身宝格丽米兰大秀站C位,刘亦菲惨沦配角,尴尬表情曝光

流云随风去远方
2026-03-26 18:36:05
郜林:来铭途一个月没开过会;当总经理和踢球不同

郜林:来铭途一个月没开过会;当总经理和踢球不同

懂球帝
2026-03-26 22:00:56
我谈了5个对象都被我爸搅黄,直到他住进ICU,我才明白谁是外人

我谈了5个对象都被我爸搅黄,直到他住进ICU,我才明白谁是外人

木子言故事
2026-03-26 09:35:08
华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

智东西
2026-03-26 20:49:23
伊朗的第一次回球:以攻代守,极限反拉

伊朗的第一次回球:以攻代守,极限反拉

西楼饮月
2026-03-26 21:28:25
已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

已被禁赛4年 俄罗斯不后悔未加入亚足联 主帅:就5队能打难获进步

我爱英超
2026-03-26 18:25:55
美方就伊朗将领遇袭事件发声 公开呼吁伊方人员撤离岗位

美方就伊朗将领遇袭事件发声 公开呼吁伊方人员撤离岗位

老马拉车莫少装
2026-03-27 00:00:56
2026-03-27 01:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
健康
手机
本地
公开课

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

转头就晕的耳石症,能开车上班吗?

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版