万能的AI大模型，患上“看表困难症”|指针|模态|新论文

万能的AI大模型，患上“看表困难症”

分享至

图源：Unsplash / Thomas Bormans

导读：

发表在IEEE Internet Computing的一项研究显示，多模态大语言模型无法正确识别模拟时钟的时间，暴露出此类大模型的一个根本局限：缺乏人类式的抽象思维和泛化能力。

你能想象吗？一个能解读医学影像、分析复杂图纸的多模态大模型，却栽在了一个幼儿园孩子都能搞定的任务——看表上。

你可能会想，这不就是瞅一眼指针位置的事儿吗？但最新研究发现，多模态大语言模型在读取老式模拟时钟（Analog Clocks）时间这项“简单任务”上的表现却不尽如人意。这背后暴露的，正是当前人工智能在抽象思维和泛化能力上的天然短板。

SAIXIANSHENG

高材生模型的“看表困难症”

我们熟知的大语言模型（Large Language Model，简称LLM），主要是利用海量的文本数据，生成各种回答。在大语言模型成功的基础上，许多人工智能公司也推出了多模态大语言模型（Multimodal Large Language Model，简称 MLLM）。它不仅可以处理文字，还能利用图像、视频和音频等信息，进行表达、交流和理解。在人工智能领域，多模态让机器能够同时处理、整合和理解上述形态的信息，并进行信息推理和生成。

但是，这样一位顶尖学霸，能处理复杂的视觉问答，却看不懂墙上的模拟时钟，就是那种带有指针（时针、分针、秒针）的传统时钟。这就是目前多模态大语言模型的真实写照。

去年7月，来自西班牙和意大利的一个合作研究团队，报告了对包括GPT-4o、Gemma3、LLaMa3.2和QwenVL-2.5在内的多个主流多模态大模型的一个测试，发现它们在没有经过专门训练前，基本上都无法正确读取模拟时钟的时间。

图1 网络搜索中常见的钟表图像示例

问题根源很有趣：这些模型的训练数据主要来自互联网，而网络上的钟表图片高度偏向于“经典造型”，比如广告中常见的10：10位置（指针形成优美对称角度）。模型们只记住了常见样式，却没真正理解看表的内在原理。

SAIXIANSHENG

特训立竿见影，但治标不治本

研究人员当起了“补习老师”，创建了一个包含4.3万种可能时间的时钟图像数据集，并使用其中的5000个样本对模型进行精细微调。

结果如何？特训后模型们在“模拟考试”中成绩飙升，在大多数情况下，能够准确读出之前没见过的时钟时间。虽然仍然存在一些误差，但预测时间与实际值相比更加吻合。

图2 微调对模型预测性能的影响（a）调优前（b）调优后，模型包括GPT-4o、Gemma3-12B、LLaMa3.2-11B和QwenVL-2.5-7B。微调前，四个大模型的预测值都距离实际值相差较远，而且结果很分散。微调后，虽然预测结果并不能都完全正确，但总体来说，预测值距离实际值更加接近

但是，当面对131张真实环境中的时钟图片，所有模型都被打回原形：这四个模型都不能正确读取时间。

研究者认为，这表明模型未能将学习成果有效泛化到真实场景。

SAIXIANSHENG

达利式的挑战：当时钟开始“融化”

研究者们在测试以上四种大模型时，意外发现OpenAI的多模型大模型已经更新到GPT-4.1。当他们对该模型测试时，发现GPT-4.1能够轻松读取他们建立的时钟图像数据集中的时间，而且在真实时钟图像数据集上的表现更好。研究者们推测，这可能是因为GPT-4.1训练的数据集样本更多。

若多模态大模型通过更多训练，也有可能辨识别出真实的时钟图像。那么，增加一点难度，如果是变形的模拟时钟呢？

研究团队脑洞大开，创作了两种“魔幻时钟”：一种是表盘扭曲变形的，另一种是指针变细并加上箭头的。这一灵感源于萨尔瓦多·达利的名画《记忆的永恒》中那些软塌塌的融化时钟。

结果显示，最新版的GPT-4.1面对这些“达利式”时钟时无法准确判断。

图3.(a) 正常时钟 (b) 扭曲形状表盘 (c) 修改指针的时钟图像三种情况下GPT-4.1原始和精调后的识别结果

具体来说，GPT-4.1模型在变形表盘上的误差增加了近6倍，在修改指针后误差更是飙升到16倍！一个指针上的小箭头，就能让聪明的AI模型晕头转向。这表明模型并未真正理解看时间的原理，而是依赖训练数据中的表面模式。

而另外三个模型，也没能成功读取扭曲或修改指针后的时钟图像的时间。

研究人员分析认为，多模态大模型看表有两个致命误区。

误区一：“方向感”差劲

模型在判断指针指向时经常出错，不够敏感。

误区二：“指鹿为马”

更严重的是，模型经常分不清时针、分针和秒针。它似乎主要依靠指针的粗细来区分它们，一旦指针样式变化，就彻底混乱。

图4. GPT-4.1原始模型和精调后，指针功能混淆的示例（a）修改指针后（b）变形表盘时钟

研究人员指出，这暴露了模型的真实学习方式：它缺乏人类式的抽象思维和泛化能力，不是在学习“看表”这个概念，而是在记忆训练数据中的表面模式。

SAIXIANSHENG

给AI发展的启示

这项研究的意义远不止于时钟读取这个具体任务。它揭示了当前多模态大预言模型的一个根本局限：缺乏人类式的抽象思维和泛化能力。

当模型在一个环节，如区分指针功能，遇到困难时，它在其他环节（如判断指针方向）的表现也会受到影响。这种“连锁反应”式的性能下降在真实世界中可能带来严重后果。

想象一下，一个用于医疗影像分析的AI，如果因为它没见过的某个设备型号或拍摄角度而判断失误，代价将是巨大的。

目前的解决方案主要是“填鸭式”教育——通过增加更多训练数据来覆盖各种情况。但研究人员指出，真正的突破需要模型能够像人类一样进行抽象学习，理解事物的本质原理而非表面特征。

毕竟，我们希望AI是达利那样的创意艺术家，而不是只会复制老师板书的好学生。

而作为人类，当你轻松瞥一眼时钟就知道时间时，不妨对大脑的抽象思维能力多一份感激。至少，这还是我们当前的优势之一。

图5. GPT-4.1在不同时钟变体上的性能及微调影响

作者简介：

黄磊，香港大学管理学博士，同济大学自动控制硕士，目前在互联网企业从事数字营销相关业务管理工作。

参考资料：（上下滑动可浏览）

[1] T. Fu, M. González, J. Conde, E. Merino-Gómez and P. Reviriego, "Have Multimodal Large Language Models Really Learned to Tell the Time on Analog Clocks?," in IEEE Internet Computing, vol. 29, no. 4, pp. 48-54, July-Aug. 2025, doi: 10.1109/MIC.2025.3618144.

来源：赛先生

编辑：ThymolBlue

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.