网易首页 > 网易号 > 正文 申请入驻

新研究:人类读指针式时钟准确率达 89.1%,顶尖 AI 仅 13.3%

0
分享至

IT之家 9 月 14 日消息,一项新研究发现,人类读取指针式时钟的准确率可达 89.1%,而目前最优秀的人工智能(AI)模型准确率仅为 13.3%,该结果凸显出当前语言模型在视觉推理能力方面与人类存在巨大差距。


阿莱克・萨法尔(Alek Safar)采用名为“ClockBench”的全新测试,让来自 6 家企业的 11 个大型语言模型与 5 名人类展开正面较量。该基准测试包含 180 个定制的指针式时钟及 720 道测试题,遵循“人类易上手、AI 难突破”的设计思路,这一思路在 ARC-AGI、SimpleBench 等基准测试中也有所体现。

为确保公平性并避免与模型训练数据重叠,萨法尔从零开始构建了该数据集。数据集包含 36 种独特的钟面设计,融合了罗马数字与阿拉伯数字、不同朝向、时针标识、镜像布局及彩色背景等元素。每种设计他都制作了 5 个不同的时钟,总共有 180 个时钟。

每个时钟均通过四类问题进行测试:读取时间、时间计算、按特定角度调整指针,以及时区转换。萨法尔根据时钟类型设置了不同的误差允许范围,例如,仅含时针的时钟比同时具备时针、分针、秒针的时钟误差容忍度更高。

萨法尔表示,相较于“人类终极测试”(Humanity's Last Exam)这类侧重知识储备的测试,ClockBench 对 AI 模型的难度更高。测试结果表明,即便面对看似简单的视觉任务,AI 与人类的差距仍十分显著。

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的准确率位居榜首,Gemini 2.5 Flash 紧随其后,准确率为 10.5%。GPT-5 排名第三,准确率 8.4%,且调整模型的推理预算对提升准确率效果甚微。


Grok 4 模型表现垫底,准确率仅 0.7%,这一结果颇为出人意料,因为该模型在其他基准测试中常常表现出色。Grok 4 将 63.3% 的时钟判定为“无效”,但实际上 180 个时钟中仅 37 个显示的是“不可能时间”。这种极度谨慎的方式意味着,从技术层面来讲,Grok 4 的正确答案数量最多,但这只是通过随机将时钟标记为无效实现的。

Anthropic 公司的 Claude 4 Sonnet(准确率 4.2%)与 Claude 4.1 Opus(准确率 5.6%)表现同样不佳。研究还发现,61.7% 的时钟未能被任何一个 AI 模型正确读取。

相较于准确率,误差的严重程度更能反映问题本质。人类读取时间的中位误差仅为 3 分钟,而表现最佳的 AI 模型中位误差达 1 小时,性能最差的 AI 模型误差约为 3 小时,对于 12 小时制时钟而言,这几乎和随机猜测差不多。


IT之家注意到,部分钟面特征对 AI 而言难度极高:当钟面采用罗马数字时,AI 准确率降至 3.2%;采用圆形数字时,准确率仅为 4.5%。此外,秒针、彩色背景及镜像布局也会对 AI 的判断造成干扰。

仅含时针的时钟对 AI 而言相对容易(准确率 23.6%),这得益于其更高的误差容忍度。采用阿拉伯数字和基础表盘的标准时钟,也能让 AI 取得相对更好的成绩。


测试还获得了一个意外发现:当 AI 模型成功读取时间后,它们在时间计算、指针调整或时区转换任务中几乎都能得出正确结果。这意味着,AI 面临的挑战并非“进行时间相关的数学运算”,而是“从视觉信息中读取时间”这一初始步骤。

萨法尔认为,背后原因可能有三点:其一,读取指针式时钟对视觉推理能力是一项严峻考验;其二,罕见或特殊的钟面设计在训练数据中出现频率极低;其三,将钟面视觉信息转化为文字描述,对当前 AI 模型而言很可能是一项难题。

ClockBench 被定位为一项长期基准测试。其完整数据集目前处于保密状态,以避免污染未来 AI 的训练过程,但已有一个规模较小的公开版本可供测试使用。

尽管 AI 在该测试中的得分普遍较低,萨法尔仍看到了希望:性能最佳的模型表现优于随机猜测,且展现出基础的视觉推理能力。不过,这些能力能否通过“扩大现有方法规模”得到提升,还是需要全新技术路径来突破,目前仍是一个待解的问题。

一年前,中国一项研究也曾发现多模态语言模型存在类似的能力短板,但当时的结果要好得多。彼时,GPT-4o 模型在包含“读时钟、读仪表”的仪表盘任务中,准确率达到 54.8%。而此次 ClockBench 测试中,AI 的最高准确率仅为 13.3%,这一差距既表明新基准测试难度显著提升,也反映出 AI 的时钟读取能力并未取得明显进步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

“眼科女王”曾琦,多张漂亮优雅照片曝光,未来3大困境等着她

李昕言温度空间
2025-11-06 21:03:20
菲军演练在南海开战,将独自抵抗一个月,美国援军才能赶到

菲军演练在南海开战,将独自抵抗一个月,美国援军才能赶到

第一军情
2025-11-10 12:10:03
火箭两小将已慢慢蜕变!一人三分领跑联盟 一人已慢慢撑起后卫线

火箭两小将已慢慢蜕变!一人三分领跑联盟 一人已慢慢撑起后卫线

惊奇侃球
2025-11-09 20:16:40
全世界最大的笑话就是中国人学英语。

全世界最大的笑话就是中国人学英语。

玉辞心
2025-10-22 07:09:40
花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

通鉴史智
2025-11-01 07:24:00
中国失散千年的“亲兄弟”?匈牙利与中国,相似之处多到让人惊叹

中国失散千年的“亲兄弟”?匈牙利与中国,相似之处多到让人惊叹

超人强动物俱乐部
2025-11-10 02:07:20
央八明晚播出!37集谍战电视剧来袭

央八明晚播出!37集谍战电视剧来袭

情感大头说说
2025-11-10 04:10:51
长得丑演技烂,求求“资本家的丑孩子”们,放过观众的眼睛吧

长得丑演技烂,求求“资本家的丑孩子”们,放过观众的眼睛吧

娱塘主呱呱
2025-10-16 09:31:21
他丢弃的猫抓板,却被流浪猫当成珍宝,用执着赌赢了余生幸福!

他丢弃的猫抓板,却被流浪猫当成珍宝,用执着赌赢了余生幸福!

Magic宠物社
2025-11-01 18:35:03
辽宁球迷怒喷王俊杰背信弃义,2米10内线驰援辽宁队,让球迷感动

辽宁球迷怒喷王俊杰背信弃义,2米10内线驰援辽宁队,让球迷感动

中国篮坛快讯
2025-11-10 12:12:50
乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

史料布籍
2025-11-09 21:58:31
中国将迎来 “死亡高峰期”:一代人集体老去,人口天平彻底倾斜

中国将迎来 “死亡高峰期”:一代人集体老去,人口天平彻底倾斜

禾寒叙
2025-11-07 19:07:09
泰州多条公路高调挂起“苏超冠军城”路牌,当地居民:是该多宣传,好多人原以为泰州是山东的

泰州多条公路高调挂起“苏超冠军城”路牌,当地居民:是该多宣传,好多人原以为泰州是山东的

极目新闻
2025-11-10 11:13:25
祖副院妻子太漂亮了吧!一头秀丽的短发,温润尔雅,网友闹翻了…

祖副院妻子太漂亮了吧!一头秀丽的短发,温润尔雅,网友闹翻了…

火山诗话
2025-11-08 17:02:53
大搞权钱交易,副部级李春良被处分!被国务院免职两年后落马

大搞权钱交易,副部级李春良被处分!被国务院免职两年后落马

上观新闻
2025-11-10 13:29:03
热水器能不能24小时开着?多亏维修师傅及时提醒,还好知道的早

热水器能不能24小时开着?多亏维修师傅及时提醒,还好知道的早

小蜜情感说
2025-11-10 01:33:35
国产系统为何都不碰Windows?番茄花园的教训太深刻了!

国产系统为何都不碰Windows?番茄花园的教训太深刻了!

呼呼历史论
2025-10-11 01:58:25
曼晚:伊萨克英超内部转会后仍未融入,而姆伯莫与库尼亚相反

曼晚:伊萨克英超内部转会后仍未融入,而姆伯莫与库尼亚相反

懂球帝
2025-11-10 13:09:15
俄:攻陷扎波罗热一村庄 并在红军城挫败乌突围,乌:战斗仍在进行

俄:攻陷扎波罗热一村庄 并在红军城挫败乌突围,乌:战斗仍在进行

凤凰卫视
2025-11-10 14:33:11
国家官宣:大批医院将面临转型,一场无声的洗牌正在逼近

国家官宣:大批医院将面临转型,一场无声的洗牌正在逼近

深蓝夜读
2025-11-09 21:29:55
2025-11-10 15:20:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
314364文章数 606727关注度
往期回顾 全部

科技要闻

存储芯片大厂涨价50%!华强北一天一个价

头条要闻

特朗普扬言要撒"关税红利":反对关税的人都是傻瓜

头条要闻

特朗普扬言要撒"关税红利":反对关税的人都是傻瓜

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

郝蕾风波升级?

财经要闻

俄罗斯大幅加税 中国汽车出口骤降58%

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

手机
数码
艺术
旅游
军事航空

手机要闻

魅族 20 等机型推送 Flyme 12.4.0.0A 稳定版

数码要闻

华为八连冠,小米第三,vivo、OPPO还没上榜

艺术要闻

“隶书之冠”刘炳森:楷书艺术之美惊艳四座

旅游要闻

北京今年上半年接待游客1.84亿人次,文旅产业发展势头强劲

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版