网易首页 > 网易号 > 正文 申请入驻

多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷

0
分享至

多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。

比如,「一个玩具被遮住后还在吗?」、「液体倒入不同形状容器后,体积变了吗?」、「两个物体靠近会发生碰撞吗?

这是否意味着 MLLM 的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制?也就是说,它们是否缺乏「core knowledge」(核心认知能力)?

ICML 2025 高分论文(initial score 4443),揭示了 MLLM 的「核心认知盲区」。

来自 UC San Diego 的新研究《Core Knowledge Deficits in Multi-Modal Language Models》(发表于 ICML 2025)对这一问题进行了系统、深入的分析。

  • 论文标题:Core Knowledge Deficits in Multi-Modal Language Models
  • 论文链接:https://arxiv.org/pdf/2410.10855

研究发现:目前主流 MLLM 广泛缺乏核心认知能力,且该能力不能通过模型规模扩展自然习得。

为此,作者构建了一个创新性的多模态测评体系CoreCognition,并提出一种独特的 「干预测试」 方法Concept Hacking,旨在揭示模型是否真的「理解」任务背后的核心知识,还是只是「蒙对了答案」。

构建 CoreCognition:

一种跨模态认知评估基准

「核心知识」概念来自发展心理学,尤其是皮亚杰(Piaget)关于人类认知发展的经典理论。研究指出,人类在婴儿期就已经具备一些对世界最基本、最普遍的认知能力,构成我们理解物体、空间、因果、意图等的基础。研究团队受皮亚杰认知发展理论启发,提出 CoreCognition:一个规模庞大、聚焦「核心知识」的多模态测评体系。其亮点在于:

  • 覆盖全面:12 项核心认知概念覆盖了从感知运动期(如边界感、连续性、物体恒存、空间知觉、知觉恒常性、直觉物理)到混合期(如视角理解、层级关系、守恒理解)再到形式运算期(如意图识别、机械推理、工具使用)三个阶段。这种分层设计帮助深入剖析模型在不同认知层级上的表现差异。

  • 数据丰富,测试广泛:数据集共包含1503 个图像 - 问题对,并通过230 款主流多模态模型× 11 种prompt 设计,生成2530 个评估数据点,有效覆盖不同模型规模与指令理解能力。

  • 设计严谨:

1.判别性强(Discriminativeness):每一道题目都经过精心设计,使得缺乏目标核心知识的模型必然倾向于选择错误答案,从而有效区分模型能力。

2.混淆最小(Minimal Confounding):问题尽量避免对目标概念以外能力产生依赖,减少与其他核心知识的概念交叉。

3.无文本捷径(Minimal Text Shortcut):所有问题均设计为必须结合图像和语言信息进行多模态推理,防止模型仅通过语言模式识别猜出正确答案。

  • 质量把控严格:所有数据由 12 位具备认知科学、计算机科学或统计学背景的高年级本科或研究生协作完成标注与审核,确保标注质量的一致性与学术严谨性。

数据集设计既参考发展心理学与认知科学,又贴近 AI 实验范式,兼顾理论可靠性与工程可行性,是首次正式将「核心知识」搬进大模型测试框架。

四大关键发现

1.模型在基础认知任务中存在明显不足:大模型缺乏基础认知,尤其是最简单的认知能力,在诸如边界感、持续性、空间性等简单、直观的任务中,模型性能远低于对更复杂事物(如层级推理、意图理解等)的理解能力。这些本应是「常识」的内容,模型却无法掌握,说明其缺乏对世界基本结构的理解。

2.模型无法有效利用基础认知支撑高级能力:模型在高层认知上的表现,不一定与低层认知水平直接挂钩。说明模型并未形成稳固的认知体系,模型的高级推理感知并不是建立在基础的认知能力上的。这也能解释为什么模型出现鲁棒性缺陷(即不能持续稳定的正确回答问题)。

3.增加模型规模并不能显著提升基础认知能力:研究显示模型的基础认知能力无法通过简单扩展规模获得显著提升。尽管模型参数量提升带来了高级推理能力的提升,但对低级认知帮助较小,甚至某些基础能力会出现规模越大越差的反常现象。

4.Reasoning model 并没有表现出明显优势:System-2 reasoning 也不能有效帮忙模型学习或者推理基础认知能力,这说明模型可能在 pretrain 阶段就缺乏基础认知能力。

Concept Hacking:

干预测试揭示「假理解」陷阱

为了进一步验证模型是否真的掌握核心概念,作者提出了Concept Hacking(概念干预)方法:通过构造「对照组」(control)与「干预组」(manipulated),故意在测试图文中反转关键特征,但保持其余条件一致。从而区分「真正理解」与「投机取巧」:

  • 若在正常与反转任务中均表现良好,说明模型具备真实的认知能力。
  • 若仅在正常任务表现好,但反转任务失败,说明模型在依赖虚假的认知捷径。
  • 若在正常任务表现差,则表明模型既没有掌握核心知识,也没有建立认知捷径。

实验证明,很多模型在正常图文任务中表现良好,但一旦关键特征被微调,预测结果大幅崩溃,说明其并非真正理解「核心概念」,而是更加依赖浅显易得的捷径学习。

意义与启示

文章揭示多模态大模型(MLLMs)缺乏核心知识,而且这种知识并不能仅靠规模扩展获得 — 模型规模越大,越会在复杂任务上「表面优雅」,但更难在基础认知上实现真正理解。这印证了经典的「Moravec 悖论」:对人类来说最简单的认知任务,对 AI 却最困难。这对当前以规模为主的发展路径构成了根本性挑战,表明其难以通向类似人类的通用智能。

  • 认知科学启示:人类以核心认知为基础构建更高级认知,MLLM 却缺乏这种认知搭建的 scaffold 结构。
  • 技术发展挑战:简单地增加参数规模、训练数据,并不能自动带来核心认知能力。
  • 未来方向指引:或许需要在模型预训练阶段显式注入物理、空间等常识,主动「灌输」这些核心认知能力;探索认知引导训练机制,以引入「显式概念学习」;开发更多高度控制的认知能力评测。

本文作者介绍:

黎羿江,在约翰斯・霍普金斯大学获得数据硕士学位,现在是加州大学圣地亚哥分校一年级博士生,主要研究方向聚焦于人工智能的学习方向,旨在实现高效和鲁棒的学习,并应用于多模态、交互式以及三维具身环境中。

高清滢,于约翰斯・霍普金斯大学获得硕士学位,目前正在该校攻读计算机科学博士学位。她隶属于约翰斯・霍普金斯医学院旗下的 Wilmer 眼科研究所,Lions 视觉研究与康复中心,以及工程与医学人工智能实验室。她的研究兴趣包括视觉 - 语言模型的可解释性和面向低视力人群的自主导航技术。

赵天维,是约翰斯・霍普金斯大学计算机科学硕士研究生。他的研究兴趣包括从认知科学视角评估、理解与增强多模态模型(特别是其推理能力),以及优化多智能体系统中的规划与协同机制。

汪冰洋,在埃默里大学获得了理学硕士、理学学士和工商管理学士学位。她的研究兴趣包括多模态融合以及从混合模态中高效提取信号。

孙浩然,于 2024 年获得约翰斯・霍普金斯大学应用数学硕士学位。其主要研究方向包括医学数据科学以及机器学习在心脏病学中的应用。

罗得之,是密歇根大学温博格认知科学研究院的大四学生。他曾在伦敦大学学院心理与语言科学系访学,并曾任伦敦大学哲学研究所的人工智能学者。他的研究兴趣为认知科学与人工智能的理论基础,尤其关注意识、自我加工与核心认知。

Hokin Deng,是卡内基梅隆大学的访问研究科学家。他曾在哈佛大学担任计算机视觉工程师,设计了首套用于单细胞认知实验的实验基础设施。在此之前,他是约翰霍普金斯医院的神经工程师,并在 Meta Reality Labs 担任附属研究科学家。他共同领导了开源项目 「像孩子一样培养人工智能(GrowAI)」,并联合组织了多场聚焦计算机科学、神经科学与哲学交叉领域的研讨会。此前,他曾在约翰霍普金斯大学学习神经科学与哲学。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沉迷养猪的丁磊,去年赚了338亿

沉迷养猪的丁磊,去年赚了338亿

大佬灼见
2026-03-13 12:21:50
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
新消息!伊朗突然宣布了!

新消息!伊朗突然宣布了!

达文西看世界
2026-03-23 20:29:16
国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

界面新闻
2026-03-25 22:29:47
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
多名医生建议:血糖不超过这个值,该吃吃该喝喝,吃点甜的更健康

多名医生建议:血糖不超过这个值,该吃吃该喝喝,吃点甜的更健康

健康之光
2026-03-24 22:20:04
上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

老叶评球
2026-03-26 17:04:22
你见过哪些员工因为作死被开除的事情?网友:去副总院里偷石榴

你见过哪些员工因为作死被开除的事情?网友:去副总院里偷石榴

另子维爱读史
2026-03-24 21:35:06
暗杀逼退卡塔尔,以色列打错算盘!巴铁核武镇场,给伊朗免死金牌

暗杀逼退卡塔尔,以色列打错算盘!巴铁核武镇场,给伊朗免死金牌

起喜电影
2026-03-26 15:40:09
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

阿凫爱吐槽
2026-03-24 00:54:18
2-0!3-1!意大利背水一战 法国志在复仇巴西 熊皇姆巴佩皇马内战

2-0!3-1!意大利背水一战 法国志在复仇巴西 熊皇姆巴佩皇马内战

万花筒体育球球
2026-03-26 17:12:13
美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

潇湘晨报
2026-03-26 16:25:20
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
世人最尊敬的清华校长携巨款去了美国,真相令所有人沉默…

世人最尊敬的清华校长携巨款去了美国,真相令所有人沉默…

背包旅行
2026-03-25 15:05:36
火箭108-110森林狼!杜兰特看清现实,申京也迷茫,一人该被重用

火箭108-110森林狼!杜兰特看清现实,申京也迷茫,一人该被重用

鱼崖大话篮球
2026-03-26 15:37:49
2026-03-26 18:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
艺术
教育
公开课
军事航空

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

艺术要闻

哪一座桥不是风景?

教育要闻

中小学家长必看数据,看与不看都会后悔

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版