网易首页 > 网易号 > 正文 申请入驻

万能的AI大模型,患上“看表困难症”

0
分享至


图源:Unsplash / Thomas Bormans

导读:

发表在IEEE Internet Computing的一项研究显示,多模态大语言模型无法正确识别模拟时钟的时间,暴露出此类大模型的一个根本局限:缺乏人类式的抽象思维和泛化能力。

你能想象吗?一个能解读医学影像、分析复杂图纸的多模态大模型,却栽在了一个幼儿园孩子都能搞定的任务——看表上。

你可能会想,这不就是瞅一眼指针位置的事儿吗?但最新研究发现,多模态大语言模型在读取老式模拟时钟(Analog Clocks)时间这项“简单任务”上的表现却不尽如人意。这背后暴露的,正是当前人工智能在抽象思维和泛化能力上的天然短板。

SAIXIANSHENG

高材生模型的“看表困难症”

我们熟知的大语言模型(Large Language Model,简称LLM),主要是利用海量的文本数据,生成各种回答。在大语言模型成功的基础上,许多人工智能公司也推出了多模态大语言模型(Multimodal Large Language Model,简称 MLLM)。它不仅可以处理文字,还能利用图像、视频和音频等信息,进行表达、交流和理解。在人工智能领域,多模态让机器能够同时处理、整合和理解上述形态的信息,并进行信息推理和生成。

但是,这样一位顶尖学霸,能处理复杂的视觉问答,却看不懂墙上的模拟时钟,就是那种带有指针(时针、分针、秒针)的传统时钟。这就是目前多模态大语言模型的真实写照。

去年7月,来自西班牙和意大利的一个合作研究团队,报告了对包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在内的多个主流多模态大模型的一个测试,发现它们在没有经过专门训练前,基本上都无法正确读取模拟时钟的时间。


图1 网络搜索中常见的钟表图像示例

问题根源很有趣:这些模型的训练数据主要来自互联网,而网络上的钟表图片高度偏向于“经典造型”,比如广告中常见的10:10位置(指针形成优美对称角度)。模型们只记住了常见样式,却没真正理解看表的内在原理。

SAIXIANSHENG

特训立竿见影,但治标不治本

研究人员当起了“补习老师”,创建了一个包含4.3万种可能时间的时钟图像数据集,并使用其中的5000个样本对模型进行精细微调。

结果如何?特训后模型们在“模拟考试”中成绩飙升,在大多数情况下,能够准确读出之前没见过的时钟时间。虽然仍然存在一些误差,但预测时间与实际值相比更加吻合。


图2 微调对模型预测性能的影响(a)调优前(b)调优后,模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微调前,四个大模型的预测值都距离实际值相差较远,而且结果很分散。微调后,虽然预测结果并不能都完全正确,但总体来说,预测值距离实际值更加接近

但是,当面对131张真实环境中的时钟图片,所有模型都被打回原形:这四个模型都不能正确读取时间。

研究者认为,这表明模型未能将学习成果有效泛化到真实场景。

SAIXIANSHENG

达利式的挑战:当时钟开始“融化”

研究者们在测试以上四种大模型时,意外发现OpenAI的多模型大模型已经更新到GPT-4.1。当他们对该模型测试时,发现GPT-4.1能够轻松读取他们建立的时钟图像数据集中的时间,而且在真实时钟图像数据集上的表现更好。研究者们推测,这可能是因为GPT-4.1训练的数据集样本更多。

若多模态大模型通过更多训练,也有可能辨识别出真实的时钟图像。那么,增加一点难度,如果是变形的模拟时钟呢?

研究团队脑洞大开,创作了两种“魔幻时钟”:一种是表盘扭曲变形的,另一种是指针变细并加上箭头的。这一灵感源于萨尔瓦多·达利的名画《记忆的永恒》中那些软塌塌的融化时钟。

结果显示,最新版的GPT-4.1面对这些“达利式”时钟时无法准确判断。



图3.(a) 正常时钟 (b) 扭曲形状表盘 (c) 修改指针的时钟图像 三种情况下GPT-4.1原始和精调后的识别结果

具体来说,GPT-4.1模型在变形表盘上的误差增加了近6倍,在修改指针后误差更是飙升到16倍!一个指针上的小箭头,就能让聪明的AI模型晕头转向。这表明模型并未真正理解看时间的原理,而是依赖训练数据中的表面模式。

而另外三个模型,也没能成功读取扭曲或修改指针后的时钟图像的时间。

研究人员分析认为,多模态大模型看表有两个致命误区。

误区一:“方向感”差劲

模型在判断指针指向时经常出错,不够敏感。

误区二:“指鹿为马”

更严重的是,模型经常分不清时针、分针和秒针。它似乎主要依靠指针的粗细来区分它们,一旦指针样式变化,就彻底混乱。


图4. GPT-4.1原始模型和精调后,指针功能混淆的示例(a)修改指针后(b)变形表盘时钟

研究人员指出,这暴露了模型的真实学习方式:它缺乏人类式的抽象思维和泛化能力,不是在学习“看表”这个概念,而是在记忆训练数据中的表面模式。

SAIXIANSHENG

给AI发展的启示

这项研究的意义远不止于时钟读取这个具体任务。它揭示了当前多模态大预言模型的一个根本局限:缺乏人类式的抽象思维和泛化能力。

当模型在一个环节,如区分指针功能,遇到困难时,它在其他环节(如判断指针方向)的表现也会受到影响。这种“连锁反应”式的性能下降在真实世界中可能带来严重后果。

想象一下,一个用于医疗影像分析的AI,如果因为它没见过的某个设备型号或拍摄角度而判断失误,代价将是巨大的。

目前的解决方案主要是“填鸭式”教育——通过增加更多训练数据来覆盖各种情况。但研究人员指出,真正的突破需要模型能够像人类一样进行抽象学习,理解事物的本质原理而非表面特征。

毕竟,我们希望AI是达利那样的创意艺术家,而不是只会复制老师板书的好学生。

而作为人类,当你轻松瞥一眼时钟就知道时间时,不妨对大脑的抽象思维能力多一份感激。至少,这还是我们当前的优势之一。



图5. GPT-4.1在不同时钟变体上的性能及微调影响

作者简介:

黄磊,香港大学管理学博士,同济大学自动控制硕士,目前在互联网企业从事数字营销相关业务管理工作。

参考资料:(上下滑动可浏览)

[1] T. Fu, M. González, J. Conde, E. Merino-Gómez and P. Reviriego, "Have Multimodal Large Language Models Really Learned to Tell the Time on Analog Clocks?," in IEEE Internet Computing, vol. 29, no. 4, pp. 48-54, July-Aug. 2025, doi: 10.1109/MIC.2025.3618144.

来源:赛先生

编辑:ThymolBlue

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
嫁到荷兰住进豪宅,日本太太却被丈夫活活逼疯:不准吃饱、不准理发、不准用电?!

嫁到荷兰住进豪宅,日本太太却被丈夫活活逼疯:不准吃饱、不准理发、不准用电?!

日本通
2026-02-07 10:34:27
穿始祖鸟的中产快把北京近郊爬成珠穆朗玛峰了,“零下20度趴在人造冰瀑上当壁虎”

穿始祖鸟的中产快把北京近郊爬成珠穆朗玛峰了,“零下20度趴在人造冰瀑上当壁虎”

Vista氢商业
2026-02-04 13:44:56
纪实:2015年江苏一桩因伴娘太漂亮引发的荒唐伦理闹剧

纪实:2015年江苏一桩因伴娘太漂亮引发的荒唐伦理闹剧

谈史论天地
2026-02-07 14:40:03
1只都不行!2015年广东老人半个小时徒手抓了22只,想煲汤喝

1只都不行!2015年广东老人半个小时徒手抓了22只,想煲汤喝

万象硬核本尊
2026-02-07 21:05:46
苏翊鸣获得米兰冬奥会中国代表团首枚奖牌;央行连续第15个月增持黄金;我国成功发射可重复使用试验航天器;飞天茅台价格全线上涨丨每经早参

苏翊鸣获得米兰冬奥会中国代表团首枚奖牌;央行连续第15个月增持黄金;我国成功发射可重复使用试验航天器;飞天茅台价格全线上涨丨每经早参

每日经济新闻
2026-02-08 06:54:06
最高检2月5日下死命令:这类“保护伞”必须连根拔起

最高检2月5日下死命令:这类“保护伞”必须连根拔起

芭比衣橱
2026-02-07 20:47:29
周末利空!30个消费龙头亏损,白酒牛奶业绩暴雷,仅4个高增长

周末利空!30个消费龙头亏损,白酒牛奶业绩暴雷,仅4个高增长

风风顺
2026-02-08 01:00:03
利物浦应回绝维拉无理要求,艾利奥特新协议的决定权握在红军手中

利物浦应回绝维拉无理要求,艾利奥特新协议的决定权握在红军手中

小鬼头体育
2026-02-07 20:39:33
上了年纪女人,都逃不过这“3大变丑定律”,中一个直接显老十岁

上了年纪女人,都逃不过这“3大变丑定律”,中一个直接显老十岁

小陈聊搭配
2026-02-05 19:19:54
良品铺子坚果礼盒标注引争议

良品铺子坚果礼盒标注引争议

中国能源网
2026-02-07 12:56:26
004航母全力加速,福建舰2号舰没了,中国海军二选一,只要10万吨

004航母全力加速,福建舰2号舰没了,中国海军二选一,只要10万吨

健身狂人
2026-02-07 20:59:51
33岁娜扎微博之夜:衣着暴露大长腿抢镜,没程潇妩媚,气质差距大

33岁娜扎微博之夜:衣着暴露大长腿抢镜,没程潇妩媚,气质差距大

翰飞观事
2026-02-06 16:39:53
陈幸同为何输给张本美和?邱贻可毫不避讳说出原因,说的非常实在

陈幸同为何输给张本美和?邱贻可毫不避讳说出原因,说的非常实在

林子说事
2026-02-08 07:25:04
在东京街头,我被日本人吃饭的方式震惊:这简直太颠覆认知!

在东京街头,我被日本人吃饭的方式震惊:这简直太颠覆认知!

复转这些年
2026-01-31 23:50:59
占据昆明机场五年多的“死亡飞机”,终于挪走了

占据昆明机场五年多的“死亡飞机”,终于挪走了

奇思妙想生活家
2026-02-08 00:32:12
英国48家集团主席:“到中国去,拥抱中国!”

英国48家集团主席:“到中国去,拥抱中国!”

环球网资讯
2026-02-07 16:41:41
川普终决定:对华25%关税,打破中美贸易休战

川普终决定:对华25%关税,打破中美贸易休战

几人尽弃
2026-02-08 02:46:22
踩红线就打!解放军拿美军开刀,通告全球,断的就是台独退路

踩红线就打!解放军拿美军开刀,通告全球,断的就是台独退路

主宰稳场
2026-02-04 13:47:03
爆大冷!火箭掀翻卫冕冠军:杜兰特盛赞全队,悍将26分创新高

爆大冷!火箭掀翻卫冕冠军:杜兰特盛赞全队,悍将26分创新高

体坛小李
2026-02-08 09:01:33
95比39狂胜56分!中国女篮首秀杀红眼:张子宇11投9中砍21分

95比39狂胜56分!中国女篮首秀杀红眼:张子宇11投9中砍21分

篮球快餐车
2026-02-08 00:47:22
2026-02-08 10:39:00
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9852文章数 136447关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

媒体:特朗普发奥巴马视频 美国"欣赏"该视频的人不少

头条要闻

媒体:特朗普发奥巴马视频 美国"欣赏"该视频的人不少

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

健康
家居
旅游
教育
艺术

转头就晕的耳石症,能开车上班吗?

家居要闻

现代轻奢 温馨治愈系

旅游要闻

上海:庙会打破次元壁 又潮又燃中国年

教育要闻

聚焦“四个关键” 扎实推进中小学校党组织领导的校长负责制落地生效

艺术要闻

10秒内认全狂草的人只有1%,你敢挑战吗?

无障碍浏览 进入关怀版