网易首页 > 网易号 > 正文 申请入驻

新研究:人类读指针式时钟准确率达 89.1%,顶尖 AI 仅 13.3%

0
分享至

IT之家 9 月 14 日消息,一项新研究发现,人类读取指针式时钟的准确率可达 89.1%,而目前最优秀的人工智能(AI)模型准确率仅为 13.3%,该结果凸显出当前语言模型在视觉推理能力方面与人类存在巨大差距。


阿莱克・萨法尔(Alek Safar)采用名为“ClockBench”的全新测试,让来自 6 家企业的 11 个大型语言模型与 5 名人类展开正面较量。该基准测试包含 180 个定制的指针式时钟及 720 道测试题,遵循“人类易上手、AI 难突破”的设计思路,这一思路在 ARC-AGI、SimpleBench 等基准测试中也有所体现。

为确保公平性并避免与模型训练数据重叠,萨法尔从零开始构建了该数据集。数据集包含 36 种独特的钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素。每种设计他都制作了 5 个不同的时钟,总共有 180 个时钟。

每个时钟均通过四类问题进行测试:读取时间、时间计算、按特定角度调整指针,以及时区转换。萨法尔根据时钟类型设置了不同的误差允许范围,例如,仅含时针的时钟比同时具备时针、分针、秒针的时钟误差容忍度更高。

萨法尔表示,相较于“人类终极测试”(Humanity's Last Exam)这类侧重知识储备的测试,ClockBench 对 AI 模型的难度更高。测试结果表明,即便面对看似简单的视觉任务,AI 与人类的差距仍十分显著。

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的准确率位居榜首,Gemini 2.5 Flash 紧随其后,准确率为 10.5%。GPT-5 排名第三,准确率 8.4%,且调整模型的推理预算对提升准确率效果甚微。


Grok 4 模型表现垫底,准确率仅 0.7%,这一结果颇为出人意料,因为该模型在其他基准测试中常常表现出色。Grok 4 将 63.3% 的时钟判定为“无效”,但实际上 180 个时钟中仅 37 个显示的是“不可能时间”。这种极度谨慎的方式意味着,从技术层面来讲,Grok 4 的正确答案数量最多,但这只是通过随机将时钟标记为无效实现的。

Anthropic 公司的 Claude 4 Sonnet(准确率 4.2%)与 Claude 4.1 Opus(准确率 5.6%)表现同样不佳。研究还发现,61.7% 的时钟未能被任何一个 AI 模型正确读取。

相较于准确率,误差的严重程度更能反映问题本质。人类读取时间的中位误差仅为 3 分钟,而表现最佳的 AI 模型中位误差达 1 小时,性能最差的 AI 模型误差约为 3 小时,对于 12 小时制时钟而言,这几乎和随机猜测差不多。


IT之家注意到,部分钟面特征对 AI 而言难度极高:当钟面采用罗马数字时,AI 准确率降至 3.2%;采用圆形数字时,准确率仅为 4.5%。此外,秒针、彩色背景及镜像布局也会对 AI 的判断造成干扰。

仅含时针的时钟对 AI 而言相对容易(准确率 23.6%),这得益于其更高的误差容忍度。采用阿拉伯数字和基础表盘的标准时钟,也能让 AI 取得相对更好的成绩。


测试还获得了一个意外发现:当 AI 模型成功读取时间后,它们在时间计算、指针调整或时区转换任务中几乎都能得出正确结果。这意味着,AI 面临的挑战并非“进行时间相关的数学运算”,而是“从视觉信息中读取时间”这一初始步骤。

萨法尔认为,背后原因可能有三点:其一,读取指针式时钟对视觉推理能力是一项严峻考验;其二,罕见或特殊的钟面设计在训练数据中出现频率极低;其三,将钟面视觉信息转化为文字描述,对当前 AI 模型而言很可能是一项难题。

ClockBench 被定位为一项长期基准测试。其完整数据集目前处于保密状态,以避免污染未来 AI 的训练过程,但已有一个规模较小的公开版本可供测试使用。

尽管 AI 在该测试中的得分普遍较低,萨法尔仍看到了希望:性能最佳的模型表现优于随机猜测,且展现出基础的视觉推理能力。不过,这些能力能否通过“扩大现有方法规模”得到提升,还是需要全新技术路径来突破,目前仍是一个待解的问题。

一年前,中国一项研究也曾发现多模态语言模型存在类似的能力短板,但当时的结果要好得多。彼时,GPT-4o 模型在包含“读时钟、读仪表”的仪表盘任务中,准确率达到 54.8%。而此次 ClockBench 测试中,AI 的最高准确率仅为 13.3%,这一差距既表明新基准测试难度显著提升,也反映出 AI 的时钟读取能力并未取得明显进步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冬天控制体重的5个方法:坚持“早上2个坚持,晚上3个不”

冬天控制体重的5个方法:坚持“早上2个坚持,晚上3个不”

增肌减脂
2026-01-19 18:33:30
步入70岁后,我和老伴商量好:如果有一人先走,剩下的就这样养老

步入70岁后,我和老伴商量好:如果有一人先走,剩下的就这样养老

人间百态大全
2026-01-18 06:40:03
刘浩帆:我主动提出来第一个罚点球,想好了发力踢右边

刘浩帆:我主动提出来第一个罚点球,想好了发力踢右边

懂球帝
2026-01-19 13:00:09
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
中美俄意见一致,宁可让日本从地球上消失,也坚决不允许它拥核!

中美俄意见一致,宁可让日本从地球上消失,也坚决不允许它拥核!

古史青云啊
2026-01-19 19:47:16
美国专家事后诸葛亮:换下彭德怀能赢?真要让粟裕去指挥,美军主力恐怕连撤退的机会都没有,全得交代在那!

美国专家事后诸葛亮:换下彭德怀能赢?真要让粟裕去指挥,美军主力恐怕连撤退的机会都没有,全得交代在那!

史海残云
2025-12-13 21:54:16
北京每年有多少考不上高中的孩子,他们去哪了?

北京每年有多少考不上高中的孩子,他们去哪了?

小鬼头体育
2026-01-19 11:47:20
北京体感零下20℃,通勤的打工人还好吗?

北京体感零下20℃,通勤的打工人还好吗?

开水与白面包0
2026-01-19 19:45:36
全广州喜茶买一送一!连续5天!

全广州喜茶买一送一!连续5天!

广州生活美食圈
2026-01-19 15:30:04
不满喊邱彪下课?山东媒体人怒了,直言不可思议,透露外援新情况

不满喊邱彪下课?山东媒体人怒了,直言不可思议,透露外援新情况

萌兰聊个球
2026-01-19 22:10:48
笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

笑死,果然大多数中年人都意识不到自己有多老!8090后也跟着破防了

另子维爱读史
2026-01-07 20:53:19
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

史之铭
2026-01-12 16:26:19
护士长曝光李亚鹏感人细节!医院早没钱了,却硬不裁员,不停手术

护士长曝光李亚鹏感人细节!医院早没钱了,却硬不裁员,不停手术

谈史论天地
2026-01-18 13:23:55
新款MacBook,即将来了

新款MacBook,即将来了

放毒
2026-01-19 16:12:09
杜锋不整活!28分大胜四川,广东5人满分,胡队复苏徐杰却糟透了

杜锋不整活!28分大胜四川,广东5人满分,胡队复苏徐杰却糟透了

后仰大风车
2026-01-19 21:33:51
李亚鹏,画风变了

李亚鹏,画风变了

冰川思想库
2026-01-18 21:37:42
回归正常!火箭小将完美爆发令人欣慰 火记:正打出生涯最佳赛季

回归正常!火箭小将完美爆发令人欣慰 火记:正打出生涯最佳赛季

惊奇侃球
2026-01-19 22:30:42
惨败湖人中为数不多的亮点,猛龙内线大将的得分能力确实相当不错

惨败湖人中为数不多的亮点,猛龙内线大将的得分能力确实相当不错

稻谷与小麦
2026-01-19 23:03:20
突发!特朗普下达最后通牒,英国果断“宣战”,战争已无法避免?

突发!特朗普下达最后通牒,英国果断“宣战”,战争已无法避免?

百科密码
2026-01-19 17:50:19
2026-01-19 23:56:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
325377文章数 606892关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

亲子
时尚
数码
教育
家居

亲子要闻

孩子消极躺平,是因为妈妈过得不开心!

女人过了40岁真该看看这些穿搭,不老气、不单薄,简单又耐看

数码要闻

荣耀手表GS 5发布:行业独家防猝筛查、23天蓝牙续航,699元

教育要闻

2026成都最新转学政策来了,家长们请注意

家居要闻

隽永之章 清雅无尘

无障碍浏览 进入关怀版