网易首页 > 网易号 > 正文 申请入驻

MLLM集体翻车,缺乏婴儿级常识!业界首个核心认知基准发布,LeCun转赞

0
分享至


新智元报道

编辑:LRST

【新智元导读】当前大模型在最基础的感知、物理常识等12项核心认知上普遍落后人类10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知识的极少。团队公开首个系统评测框架和题库,呼吁先把「三岁孩子都懂」的常识打牢,再谈更高层的智能。

最近,一篇被Yann LeCun转发的ICML 2025研究结果显示,在CoreCognition基准1,503题大考中,230个主流模型纷纷暴露对于世界模型的「常识性盲区」。

再大的多模态语言模型,也缺少人类婴儿就有的「核心知识」地基,即使高层推理再花哨,也架不住地基塌陷。


从下面这张震撼的对比表中,我们可以看到模型在12项「幼儿园」测试中,集体翻车。

  • Object Permanence:人类88.1%,最强模型InternVL3-78B仅74.1%,差距14%;

  • Perspective Taking:人类91.99%,最强模型QVQ-72B-Preview也仅83.25%,差距9%;

  • Intuitive Physics:人类91.52%,最强模型GPT-o1仅75.45%,差距超16%,各大模型普遍落后10-30%不等。


来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人员联合认知科学领域科学家,花费一年时间构造并开源了业界首个核心认知基准CoreCognition。

其中包含1,503道精选题目从感知运动到形式运算12项核心能力,每个概念95+样本,全面覆盖人类认知各个发展阶段。


论文链接:https://arxiv.org/pdf/2410.10855

项目网站:https://williamium3000.github.io/core-knowledge/

开源数据集:https://huggingface.co/datasets/williamium/CoreCognition

此外,联合团队还维持了三个高标准:

  • 判别性(缺乏目标核心知识的模型必然选错答案)

  • 最小混淆(避免依赖物体识别等无关能力)

  • 最小文本捷径(答案不能仅通过文本推导获得)

12名标注员协作完成数据集构建,经过双轮交叉验证和20人Amazon Mechanical Turk人工校验。

230个模型大考,涵盖GPT、Claude、Qwen等主流商业模型及开源模型;11种提示策略,全方位测试模型真实能力。



据悉,团队不仅构建了均衡答案位置和混合答案解析的完整评测基础设施,而且还计划开源一个支持这230个模型的MLLM统一测试框架,亮点是极易上手

只需几行代码就能复现本文章及其他热门数据的全部实验结果!

「概念黑客」双重盲盒

捅破捷径学习的遮羞布

更绝的是团队独创的Concept Hacking方法,专门用来识破模型是「真懂」还是「假懂」

核心思路给每道题做一个保持所有无关细节完全相同,只把核心概念反转的「孪生题」


例如其中的Perspective Taking测试

  • 原版题:图像顺时针旋转90°后,看起来像鸭子还是兔子?→ 测试真正的perspective taking转换理解

  • 孪生版:同样的旋转操作,但正确答案相反 → 测试是否只是在套用固定模板

  • 人类表现两题都答对(真正理解空间旋转后的形状变化)

  • 模型表现原版答对,孪生版直接翻车(暴露对「鸭兔错觉」的刻板印象依赖)

把MLLM的「高级智能」拆解标题

Finding 1:核心知识缺失——高层推理没地基


实验里,模型在低阶任务上集体表现不佳。这说明它们的高级推理/感知没有扎根于人类婴幼儿就具备的核心知识。面对不同表述方式和背景变化时无法表现出robust且稳定高水平的能力。

Finding 2:能力之间「各玩各的」


关联性矩阵显示了模型能力间的「分裂」现象:低阶能力如Permanence、Continuity与对应高阶能力如Perspective Taking、Conservation几乎零相关。人类认知发展是下层搭积木,上层盖高楼,层层递进;

模型现状是高楼直接悬空,缺乏发育链条支撑。这种能力间的断裂意味着任何基础认知的扰动,都可能让整个「智能大厦」瞬间散架。

Finding 3:核心知识在更多任务上管用


统计发现,除了Perspective和 Intuitive Physics,10项核心能力得分与26个公开基准(除了偏向检验OCR能力的ChartQA)强正相关。

换句话说:核心知识越好,高层任务越稳。

而作为人类高级推理的基础Perspective和Intuitive Physics能力,在基准测试评估结果中展现的低相关性,与我们之前在关系矩阵中观察到的结果一致,正是核心知识缺陷的体现。

Finding 4:坏消息——参数多目前并不能「长出」核心知识


把219个模型从1B拉到110B,低阶能力曲线几乎一条水平线;perspective taking甚至随规模下降。

过往「大力出奇迹」的经验,在核心知识面前直接失灵。一个尚未解决却又可能帮助构建世界模型的关键课题是从「如何scale」变成「如何scale出core-knowledge」。

Finding 5:规模越大,捷径越香

Concept Hacking结果显示:大模型在孪生题上的表现相对小模型整体并无提升,甚至有些更加糟糕,说明scaling无法解决在核心知识问题上的「捷径依赖」。

直观感受:模型不是「长大变聪明」,而是长大变滑头。


通过定量分析发现,模型可以分为四类:

  • 核心知识型控制题和操作题都答对(接近人类,但数量极少)

  • 捷径依赖型控制题对,操作题错(最常见,包括GPT-4o等明星模型)

  • 核心缺陷型控制题就答错,操作题表现无意义

  • 盲猜型两题都靠运气

研究启示

认知指令可带来短期提升

推理增强也救不了(10/12 任务无提升):问题不在「用没用好」,而在「底子有没有」,「预训练缺失」仍是最大嫌疑。

有趣的是,团队发现认知指令提示——直接告诉模型「这是perspective taking任务」等概念描述,可瞬间带来6%的性能提升,表明模型内部可能已经分布式地存储了相关知识,但缺乏有效的检索和调用机制。

然而,这种方法在实际应用中局限性明显,因为现实场景中模型不太可能获得如此明确的概念指导。

更令人担忧的是,这种核心知识缺陷可能在关键应用中带来风险:比如自动驾驶中对遮挡物体的理解偏差,或者机器人在复杂场景下的物理常识判断失误。

重新思考AI发展路径

从「写诗作画」到「常识翻车」,这项研究再次提醒我们:真正的智能,不只是参数规模,更是对世界最朴素、最基础的理解。

当我们惊叹于大模型在高阶任务上的神奇表现时,是否忽略了连三岁孩子都懂的常识?忽略了正在悄悄放大的低阶核心知识空洞?

规模、推理、提示,都只是裱糊匠——地基没打好,楼越高越危险。

或许,这正是我们重新思考AI发展路径的契机:不是一味追求更大、更强,而是回到最初——那些让人类智能如此稳健可靠的核心认知能力。

参考资料:

https://arxiv.org/pdf/2410.10855


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

40岁无腿廖智现状:赴美产下四胎女儿,被美籍丈夫宠成大公主

暖心萌阿菇凉
2026-02-02 22:59:12
阿卡澳网夺冠被曝赛场情场双丰收,确定退役时间称不会打到35岁

阿卡澳网夺冠被曝赛场情场双丰收,确定退役时间称不会打到35岁

网球之家
2026-02-04 13:17:52
抗战时,一个军阀手握20万重兵,却始终没动一兵一卒,这人是谁?

抗战时,一个军阀手握20万重兵,却始终没动一兵一卒,这人是谁?

卿昀
2025-01-25 21:22:58
库兹马31+10+6赛季最高!雄鹿三杀公牛终结5连败 河村勇辉5+5+7

库兹马31+10+6赛季最高!雄鹿三杀公牛终结5连败 河村勇辉5+5+7

醉卧浮生
2026-02-04 11:25:26
百度搜索Kimi官网前4条都是广告,Kimi不忍了,公开喊话百度

百度搜索Kimi官网前4条都是广告,Kimi不忍了,公开喊话百度

龚进辉
2026-02-02 12:17:36
固始新娘遭避雷后续:身份真容被扒,涉事人员发声,更多黑史曝光

固始新娘遭避雷后续:身份真容被扒,涉事人员发声,更多黑史曝光

离离言几许
2026-02-04 12:25:15
中国体坛最伟大10名运动员,林丹上榜,第一名堪称亚洲荣耀

中国体坛最伟大10名运动员,林丹上榜,第一名堪称亚洲荣耀

不写散文诗
2025-12-27 14:59:44
乌克兰大停电!英军驱逐俄罗斯货船,法国与欧盟19国有严重分歧

乌克兰大停电!英军驱逐俄罗斯货船,法国与欧盟19国有严重分歧

鹰眼Defence
2026-02-01 17:08:59
2连败广东再传4坏消息!新添2员伤兵,一夜3人离队,CBA杯更难了

2连败广东再传4坏消息!新添2员伤兵,一夜3人离队,CBA杯更难了

后仰大风车
2026-02-04 07:05:06
上海将提前发放春节离退休(职)人员养老金

上海将提前发放春节离退休(职)人员养老金

金台资讯
2026-02-04 10:30:04
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
0比3惨败遭张本智和全面压制!向鹏硬仗表现起伏大惹球迷担忧

0比3惨败遭张本智和全面压制!向鹏硬仗表现起伏大惹球迷担忧

卿子书
2026-02-04 14:32:48
一双拖鞋的环球之旅(看中国好物七十二变)

一双拖鞋的环球之旅(看中国好物七十二变)

人民网
2026-02-04 06:26:36
她才是缅北四大家族最“毒”的女人,比魏榕还无情,人称缅北双煞

她才是缅北四大家族最“毒”的女人,比魏榕还无情,人称缅北双煞

现代小青青慕慕
2026-02-03 13:43:02
德约科维奇:经费削减六成,塞尔维亚网协快关门破产了

德约科维奇:经费削减六成,塞尔维亚网协快关门破产了

网球之家
2026-02-04 13:18:34
笑不活了胡先煦!飞机上睡成“晕倒状”,空姐暖心上前关切

笑不活了胡先煦!飞机上睡成“晕倒状”,空姐暖心上前关切

陶寻爱说
2026-02-04 06:53:07
14年儿子坐马航失联,多年后父亲收到回信,坚信儿子去了平行世界

14年儿子坐马航失联,多年后父亲收到回信,坚信儿子去了平行世界

瓜哥的动物日记
2026-01-28 17:05:58
当不成总统了?全美50州爆发抗议,特朗普呼吁“立即逮捕奥巴马”

当不成总统了?全美50州爆发抗议,特朗普呼吁“立即逮捕奥巴马”

时尚的弄潮
2026-02-04 15:20:33
“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

“废掉”一个孩子,就让ta待在家里,一天到晚待在家里

行者马生的笔记
2026-01-27 21:15:41
缅甸选举委员会称亲军方政党在大选中压倒性胜出,外交部:尊重缅甸人民的选择

缅甸选举委员会称亲军方政党在大选中压倒性胜出,外交部:尊重缅甸人民的选择

澎湃新闻
2026-02-04 16:06:05
2026-02-04 16:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14477文章数 66566关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

高市早苗扬言将自卫队写入宪法 外交部回应

头条要闻

高市早苗扬言将自卫队写入宪法 外交部回应

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

艺术
数码
时尚
旅游
公开课

艺术要闻

一篇文章看懂“传统吉祥图案”的寓意

数码要闻

Intel计划复活内存业务:ZAM单芯片最高512GB 功耗比HBM降低50%

状态比10年前更好,她到底做对了什么?

旅游要闻

大理江风寺的山泉水有点小贵,旁边将军洞却真能免费,只是要起早

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版