网易首页 > 网易号 > 正文 申请入驻

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

0
分享至



01|“看懂世界” 这关,大模型还没上幼儿园

过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是:当问题不再能 “用语言说清楚” 时,模型还能不能 “看懂”?UniPat AI 携手红杉中国 xbench 团队,并联合多家大模型公司与高校的研究员,发布新的多模态理解评测集 BabyVision

UniPat AI 致力于构建真实场景下 AI 训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

如果一个视觉问题可以完全用文字描述且不丢信息,它本质上就会 “退化成文本题”。模型可以靠强大的语言推理能力一路通关,看起来很会看,其实是在走语言捷径。而真正的视觉能力,需要在没有语言扶梯的情况下完成:比较、追踪、空间想象、模式归纳。而 BabyVision 证明了多模态大模型的这些纯视觉能力还停留在 “三岁幼儿” 的阶段 !

Google DeepMind 创始人 Demis Hassabis,在 25 年终播客中也提到类似观点:“大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中。”





blog

https://unipat.ai/blog/BabyVision

github

https://github.com/UniPat-AI/BabyVision

huggingface

https://huggingface.co/collections/UnipatAI/babyvision

02|把顶尖模型和孩子放到同一张 “纯视觉试卷”

BabyVision 先做了一项非常直接的对比实验:把 20 道视觉中心任务(vision-centric)作为 BabyVision-Mini 交给不同年龄段孩子(3/6/10/12 岁)和当下顶尖多模态模型来做。

这份 “小试卷” 要求严格控制语言依赖:题目要求很简单,答案必须靠视觉信息本身得出。

结果非常 “扎心”(如图 1 所示):

  • 大多数模型的分数,聚集在明显低于平均 3 岁儿童的区间;
  • Gemini3‑Pro‑Preview 是唯一稳定超过 3 岁基线的模型,但距离 6 岁儿童仍差约 20 个百分点。

下面是其中一道题,直观且反直觉,连线垃圾分类,小孩可以轻松做对,但顶尖模型追踪一条线都能追丢。

任务:三件物品沿着线分别连到哪个颜色垃圾桶?





  • 正确答案:A - 蓝,B - 黄,C - 绿
  • 模型答案(Gemini3-Pro-Preview):A - 绿,B - 黄,C - 蓝

人类的解法几乎是本能,从点出发沿线走到终点(下面照片是三岁幼儿真实做题痕迹)。但模型会写出一大段 “逐段追踪” 的推理,最后仍把两条路径接反:看起来 “很会分析”,其实在最基础的视觉追踪上掉线。

03|BabyVision‑Full 用 388 题,把视觉能力拆成 4 大类能力 22 个子任务

研究团队将视觉能力提炼为四大核心类别,每类下细分若干子任务:

  • 精细辨别(Fine-grained Discrimination):分辨细微的视觉差异(8 个子任务)
  • 视觉追踪(Visual Tracking):跟随路径、线条与运动轨迹(5 个子任务)
  • 空间感知(Spatial Perception):理解三维结构及其关系(5 个子任务)
  • 视觉模式识别(Visual Pattern Recognition):识别逻辑与几何规律(4 个子任务)

这套设计的核心理念很明确:

不是为了 “刁难” 模型,而是量化那些 “人类直觉就会、但构成智能地基” 的视觉原子能力。这同样是具身智能(embodied AI)走向现实世界的必修课。

为了最大程度确保 “纯视觉” 考核的有效性,BabyVision 在数据构建上也下足了工夫。

项目团队首先参考了儿童认知教材和视觉发育测验,梳理出了上述 4 大类共 22 种基础视觉子任务。

接着,每个子技能挑选出 2-3 个种子示例(种子图片),作为该类型任务的典型代表。基于这些种子示例,研究者利用逆向图像搜索和关键词搜索,从互联网上爬取了约 4000 张相似的候选图片。

在数据收集过程中,团队严格遵守版权规范,只挑选可用于非商业或学术用途的素材,并过滤掉可能包含大量文字说明或需要文化常识才能理解的图片。由此获得的海量图片进入人工标注环节:多名专业人员逐一检查图片,筛除不适合出题的样本,对保留下来的图片精心设计问题和标准答案。为了确保答案的客观正确,每个问题还附有详细的 “解题过程” 说明,以证明答案确实可由视觉推理得出。

最终,所有标注完成的问题都经过 “双盲质检”—— 两位独立专家交叉审核,每道题只有在双方都认可其答案无误、推理严谨的情况下才被收录 ;若出现异议则退回修改,反复仍无法达成一致的题目则果断弃用。经过这一系列严苛的筛选,BabyVision 最终产出了 388 道高质量视觉题目,涵盖 22 种子任务。



最终评测结果:人类 94.1%,最强闭源 49.7%,最强开源 22.2%

在 BabyVision‑Full 上,研究团队引入了人类基线,16 位至少本科背景的测试者完成全量 388 题,人类准确率达94.1%

再看模型:

  • 闭源最强:Gemini3‑Pro‑Preview 49.7%
  • 其后:GPT‑5.2 34.8%、Doubao‑1.8 30.2%

开源侧:

  • 最强模型(Qwen3VL‑235B‑Thinking)整体22.2%,多数模型在 12–19% 区间。

更关键的是:差距不是集中在某一个类别。四大类能力都在下滑,说明这是 “系统性缺基础视觉能力”,而非某个单点缺陷。 一些子任务甚至几乎 “全员翻车”,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型结构化场景能力不足。



04|为什么会这样?因为这些视觉推理题目是没法用语言描述的(Unspeakable)

最反直觉的地方在于:

BabyVision 里的很多题,对人类来说不难,甚至孩子会用指一指、圈一圈、沿着线走一遍就搞定。

但模型一旦用文字去 “复述” 视觉,再用语言推理去算,信息就丢了。

研究团队把这种现象概括为:

这些视觉题是 “unspeakable” 的,无法在不损失信息的情况下被完整语言化;模型试图把视觉压缩成 token,细节在压缩中消失。

并进一步总结了 4 类典型挑战:

挑战 1:看不见 “非语言细节”(Observing Non-Verbal Details)



比如拼图 / 补全题里,选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位。

  • 人类凭几何直觉 “对齐边界” 就能秒选;
  • 模型一旦把形状用语言概括成 “像钩子、两个腿、差不多七八个六边形”,细节就被抹平,选项在 token 空间里变得 “几乎一样”。

挑战 2:追线追丢了(Manifold Understanding)



连线 / 绕线 / 轨迹题,答案编码在 “连通性” 里:

  • 人类是锁定一条线→穿过交叉→一路追到终点;
  • 模型往往把线翻译成 “左 / 右 / 上 / 下” 的离散步骤,一遇到交叉点就出现分叉爆炸,容易 “换轨” 追错线

挑战 3:缺少真正的空间想象(Spatial Imagination)



三维方块计数、视角投影、遮挡下的结构判断,人类通常不是 “用语言一步步描述”,而是把结构在脑中 “立起来”,换个角度看,再数。

模型则容易犯两类错误:漏掉隐藏块、投影关系搞错。这不是逻辑差,而是缺少稳定的 3D 内部表征与变换能力。

挑战 4:图形规律归纳难(Visual Pattern Induction)



这类题要求从少量视觉示例里抽象出规则,再迁移到新图。

人类做的是关系映射,真正决定正确性的是 “发生了什么变化” 而不是 “那里有什么”,具体的形状、颜色、绝对位置都可以变,只有它们在变换中的 “身份” 不变。

模型常常盯着表面属性(颜色、形状),把 “结构规则” 误读成 “外观统计”,导致迁移时幻觉规则。

05|如果不让它用文字回答,让它 “画” 呢?BabyVision‑Gen 给出一个新方向

当文本推理不够用,一个自然的问题出现了:

能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?

于是有了 BabyVision‑Gen:

  • 从原基准中重新标注出280 道适合 “生成式作答” 的题
  • 要求模型输出图像 / 视频来表达解题过程或答案
  • 并开发了自动评测工具,与人工评测一致性达95%

研究团队在 BabyVision‑Gen 上评测了多种生成模型(包括 Nano‑Banana‑Pro、Qwen‑Image、Veo‑3、Sora‑2)。现阶段得到的结论很克制但重要:

  • 生成式推理在视觉追踪、精细辨别等 VLM 易翻车任务上出现 “更像人类” 的行为(会真的去画轨迹、做标注);
  • 但整体仍然缺乏稳定到达完全正确解的能力。

这至少说明:把视觉推理 “落地到视觉操作” 上,可能是补齐短板的一条路。

下面看一个具体的例子:

任务:用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径。

Sora2

NanoBanana-pro



06|为什么 BabyVision 重要?因为现实世界不靠语言提示

正如研究团队在 Blog(https://unipat.ai/blog/BabyVision)中所写:

很难想象一个视觉能力低于 3 岁孩子的机器人,能够可靠地在真实物理世界里帮助人类。

今天,多模态模型 “会说会写” 已经很强。

但要走向真正的通用智能与具身智能,视觉地基必须补上:

  • 看得准(细粒度辨别)
  • 追得住(轨迹 / 连通性)
  • 想得出(3D 结构想象)
  • 归纳得了(图形规则迁移)

BabyVision 的价值正在于:把 “看懂世界” 拆成可测量、可诊断、可迭代的 22 个原子能力,告诉我们差距到底在哪里、下一步该补什么,从而引导多模态大模型发展。

UniPat

UniPat AI 致力于构建真实场景下 AI 训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

官网链接:https://unipat.ai

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

原来富二代家里都是做这些行业的!网友:几乎都在灰色产业游走

另子维爱读史
2026-01-26 18:34:27
侄女上学我给5万,升学宴没请我毕业找上门,我:现在知道找我?

侄女上学我给5万,升学宴没请我毕业找上门,我:现在知道找我?

温情邮局
2025-11-24 10:25:22
研究发现:宇宙中98%的星系,已经永远跟地球失去联系了

研究发现:宇宙中98%的星系,已经永远跟地球失去联系了

观察宇宙
2026-01-24 21:22:12
每人10张!马年币钞将2次预约,各地号段和入口公布!

每人10张!马年币钞将2次预约,各地号段和入口公布!

天天纪念币
2026-01-27 10:00:23
无疫苗、无特效药!致命病毒扩散,多地重启“新冠级”防疫与隔离

无疫苗、无特效药!致命病毒扩散,多地重启“新冠级”防疫与隔离

华人生活网
2026-01-27 04:59:48
最后两艘“全蒸七子”开始改造!中国051C型驱逐舰和“中华俄式神盾”的传奇要落幕了?

最后两艘“全蒸七子”开始改造!中国051C型驱逐舰和“中华俄式神盾”的传奇要落幕了?

军武速递
2026-01-26 20:12:48
四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

四川绵阳一佳人太漂亮,身高177cm体重54kg五官精致到无懈可击!

TVB的四小花
2026-01-27 11:03:50
“这种家,网恋都会自卑”,女大学生晒卧室照片:不好意思打视频

“这种家,网恋都会自卑”,女大学生晒卧室照片:不好意思打视频

妍妍教育日记
2026-01-26 19:18:13
王菲没想到,由前夫李亚鹏抚养的19岁女儿李嫣,如今成了她的骄傲

王菲没想到,由前夫李亚鹏抚养的19岁女儿李嫣,如今成了她的骄傲

华人星光
2026-01-27 11:50:52
休媒热议申京17中15:创4纪录比肩大梦 联盟前5中锋 火箭非卖品

休媒热议申京17中15:创4纪录比肩大梦 联盟前5中锋 火箭非卖品

颜小白的篮球梦
2026-01-27 12:15:01
外交部:坚决反对美政客对中美洲国家同中国正常交往指手画脚

外交部:坚决反对美政客对中美洲国家同中国正常交往指手画脚

每日经济新闻
2026-01-27 09:24:00
28岁女子相亲非要打包剩菜,男子甩脸就走,网友:你不娶我娶!

28岁女子相亲非要打包剩菜,男子甩脸就走,网友:你不娶我娶!

农村情感故事
2026-01-27 12:22:59
米切尔砍骑士生涯第5次45+得分追平詹姆斯,下场两人将正面对决

米切尔砍骑士生涯第5次45+得分追平詹姆斯,下场两人将正面对决

懂球帝
2026-01-27 13:19:30
19分大逆转,26分惨败!西部第一伪强队诞生,你们没有冠军相

19分大逆转,26分惨败!西部第一伪强队诞生,你们没有冠军相

世界体育圈
2026-01-26 16:09:44
天呐,张小斐已经瘦得薄薄一片了,喜剧演员也需要保持身材吗

天呐,张小斐已经瘦得薄薄一片了,喜剧演员也需要保持身材吗

民间平哥
2026-01-04 15:39:24
历史上最不成功的托孤:皇帝尸骨未寒,托孤大臣就变脸废了幼主

历史上最不成功的托孤:皇帝尸骨未寒,托孤大臣就变脸废了幼主

铭记历史呀
2026-01-16 15:14:15
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
莫斯科立场180度反转,俄罗斯表态想让步,就看乌克兰的表现了

莫斯科立场180度反转,俄罗斯表态想让步,就看乌克兰的表现了

史智文道
2026-01-27 11:33:27
午休调整,武汉多所学校已试点!“建议先全市推广”

午休调整,武汉多所学校已试点!“建议先全市推广”

环球网资讯
2026-01-27 10:41:12
如何判断一个人的家境如何?网友:准确率最高的指标,就是看他妈

如何判断一个人的家境如何?网友:准确率最高的指标,就是看他妈

夜深爱杂谈
2026-01-23 18:10:53
2026-01-27 13:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12194文章数 142551关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

宝马5系车主揪出汽修店一个"意外疏忽":我气得吐血

头条要闻

宝马5系车主揪出汽修店一个"意外疏忽":我气得吐血

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

剑指小米YU7与特斯拉Model Y 问界M6要来了?

态度原创

手机
家居
时尚
艺术
本地

手机要闻

消息称大疆Osmo Pocket 4云台相机标准版机型1月29日发布

家居要闻

现代古典 中性又显韵味

降温了!羽绒服这样穿显瘦又时髦

艺术要闻

日本东京国立博物馆中的100幅宋画

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

无障碍浏览 进入关怀版