网易首页 > 网易号 > 正文 申请入驻

新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几

0
分享至

IT之家 5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错成绩,但在日常生活中最基础的“看钟”“算日子”这类事情上,却频繁出错 —— 要么读不准指针位置,要么算不出星期几

研究人员在 2025 年“国际学习表征会议”( ICLR )上介绍了这项发现,有关的论文已经在 arXiv 上发布,目前尚未通过同行评审。

爱丁堡大学研究员、论文作者 Rohit Saxena 表示:“人类从小就能掌握时间与日历概念,而 AI 在这方面的不足,是一个值得警惕的信号。”他指出,若要将 AI 应用于现实生活中对时间敏感的场景,比如排班、自动化流程或辅助技术,这类基本能力的缺陷必须解决。

研究团队向多个具备图文处理能力大语言模型的输入了一组专门制作的时钟与日历图像,受测模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。测试结果显示,这些模型在判断时钟时间或推算日期星期的任务上,正确率都未超过一半。

Saxena 表示:“过去的 AI 训练依赖大量带标签的例子,而读时钟需要的是空间推理。模型不仅要识别指针是否重叠,还要理解角度、分辨各种风格的表盘,比如罗马数字或艺术化设计。这远比单纯识别‘这是一个时钟’更复杂。”

日历问题同样难住了 AI。例如在“每年第 153 天是星期几”这类问题上,错误率依然居高不下。研究显示,AI 读时钟的正确率仅为 38.7%,判断日历的准确率更低,只有 26.3%

Saxena 解释道:“对传统计算机来说,算术轻而易举,但对大模型而言则不然。AI 并不执行算法,而是依靠从训练数据中学到的模式来预测答案。”他指出,虽然 AI 有时能答对问题,但其推理过程缺乏一致性,也不基于固定规则,这正是研究所揭示的差距。

研究还揭示了另一个问题,即当 AI 的训练样本缺乏某类现象时,比如闰年或复杂的日历规则,其表现往往更差。Saxena 表示:“即使模型了解‘闰年’这一概念,也不代表它们能将这个知识正确应用到具体的视觉判断中。”

IT之家从报道中获悉,研究强调了两个方面的改进方向:一是训练数据应包含更多具有代表性的示例;二是应重新审视 AI 如何整合逻辑推理与空间感知,尤其是在处理不常遇到的任务时。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
还在坚持交电视收视费?免费渠道全覆盖,没必要花冤枉钱

还在坚持交电视收视费?免费渠道全覆盖,没必要花冤枉钱

坠入二次元的海洋
2026-06-04 01:00:37
成为迷人的姐姐:不是年龄,是魅力

成为迷人的姐姐:不是年龄,是魅力

疾跑的小蜗牛
2026-06-03 21:02:09
重磅!2026年深圳入户政策调整!

重磅!2026年深圳入户政策调整!

深圳本地宝
2026-06-03 22:21:46
敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

敢拦就开战?美国给“台独”递刀,中方:公海销毁没商量

华山穹剑
2026-01-19 21:32:59
局势失控,俄军深夜发动空袭,摧毁基辅2大中枢,卢比奥直呼可怕

局势失控,俄军深夜发动空袭,摧毁基辅2大中枢,卢比奥直呼可怕

铁锤简科
2026-06-03 13:24:19
三年只花一顿饭钱,这款VPN凭什么拿下全球3200台服务器?

三年只花一顿饭钱,这款VPN凭什么拿下全球3200台服务器?

字节漫游指南
2026-06-01 17:30:17
知名歌手回广州开唱:我曾是一名“广漂”,就住在同和

知名歌手回广州开唱:我曾是一名“广漂”,就住在同和

广州生活美食圈
2026-06-03 11:33:52
旗舰的魅力,全新一代奔驰GLS高端SUV车型曝光

旗舰的魅力,全新一代奔驰GLS高端SUV车型曝光

华庭讲美食
2026-06-03 10:34:00
江西女子称凌晨入睡后银行卡多次被转账超52万,自己未做任何操作,银行回应:其手机被操控,需等警方调查

江西女子称凌晨入睡后银行卡多次被转账超52万,自己未做任何操作,银行回应:其手机被操控,需等警方调查

大风新闻
2026-06-03 15:50:14
网传北京大学发表在顶刊《Nature》一篇文论文被质疑数据造假?

网传北京大学发表在顶刊《Nature》一篇文论文被质疑数据造假?

文忆天下
2026-06-03 21:38:08
古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

古代太监净身到底是割蛋还是割鸡?他们说话的声音真的是娘娘腔?

史之铭
2026-05-28 00:48:09
月入130万,排队两小时!下沉市场真能接住漂亮饭?

月入130万,排队两小时!下沉市场真能接住漂亮饭?

红餐网
2026-06-03 12:08:10
恭喜!中国女网15岁新星2-1进八强:蜕变冲冠,李娜接班人来了

恭喜!中国女网15岁新星2-1进八强:蜕变冲冠,李娜接班人来了

李喜林篮球绝杀
2026-06-03 22:32:21
6300万欧加盟1年就想走?18岁的他正寻找信任

6300万欧加盟1年就想走?18岁的他正寻找信任

慢享生活集
2026-06-03 01:48:41
京雄高速二期进入路面施工新阶段

京雄高速二期进入路面施工新阶段

新浪财经
2026-06-03 07:32:11
江苏养老金调整或将开始,历年调整方案,3800元能涨上100元吗?

江苏养老金调整或将开始,历年调整方案,3800元能涨上100元吗?

虎哥闲聊
2026-06-03 15:04:19
徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

庭小娱
2026-06-01 15:20:06
李家鼎长子眼神空洞现身印度参加法会,遭鼎爷官宣断绝父子关系

李家鼎长子眼神空洞现身印度参加法会,遭鼎爷官宣断绝父子关系

TVB剧评社
2026-06-03 21:09:58
你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

你见过的土豪是什么样子的?网友:前台小姐直接跟着他走了

特约前排观众
2025-08-19 00:20:03
2026-06-04 02:11:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
347812文章数 607266关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

健康
教育
时尚
房产
本地

违规干细胞抗衰美容,为何肆无忌惮

教育要闻

重磅教育部官宣2026年高考报名人数!清华北大扩招不用留学了?

月经、初潮与生育真相,那些藏在动画片里的性启蒙

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

本地新闻

用杨柳青年画的方式,打开天津

无障碍浏览 进入关怀版