网易首页 > 网易号 > 正文 申请入驻

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

0
分享至


新智元报道

编辑:定慧

【新智元导读】大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。

但一个更关键的问题是:当问题不再能「用语言说清楚」时,模型还能不能「看懂」?

为了测评模型能不能「看懂」,以及能「看懂」多少,UniPat AI携手红杉中国xbench团队,并联合多家大模型公司与高校的研究员,发布新的多模态理解评测集BabyVision。

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

如果一个视觉问题可以完全用文字描述且不丢信息,它本质上就会退化成文本题。

模型可以靠强大的语言推理能力一路通关,看起来很会「看」,其实是在走语言捷径。

而真正的视觉能力,需要在没有语言扶梯的情况下完成:比较、追踪、空间想象、模式归纳。

Google DeepMind创始人Demis Hassabis曾提到类似观点:

「大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中。」

展望2026年,我们判断世界模型与视觉多模态将迎来新一轮突破性进展。

值此开年之际,UniPat AI联合xbench率先抛出关键问题和全新「考卷」,以此迎接并参与新一轮技术突破的到来。

让顶尖模型和孩子做同一张试卷

BabyVision先做了一项非常直接的对比实验:把20道视觉中心任务(vision-centric)作为BabyVision-Mini交给不同年龄段孩子(3/6/10/12岁)和当下顶尖多模态模型来做。

这份「小试卷」要求严格控制语言依赖:题目要求很简单,答案必须靠视觉信息本身得出。

而最终评测结果显示:在「看懂世界」这方面,大模型还没上幼儿园:

  • 大多数模型的分数,聚集在明显低于平均3岁儿童的区间;

  • Gemini-3-Pro-Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点。


下面是其中一道题,直观且反直觉,连线垃圾分类,小孩可以轻松做对,但顶尖模型追踪一条线都能追丢。

三件物品沿着线分别连到哪个颜色垃圾桶?A, B, C分别表示上方从左到右的三个物体。



<< 左右滑动查看下一张图片 >>

  • 正确答案:A-蓝,B-黄,C-绿

  • 模型答案(Gemini3-Pro-Preview):A-绿,B-黄,C-蓝

人类的解法几乎是本能,从点出发沿线走到终点(右侧照片是三岁幼儿真实做题痕迹)。

但模型会写出一大段「逐段追踪」的推理,最后仍把两条路径接反:看起来「很会分析」,其实在最基础的视觉追踪上掉线。

BabyVision-Full把视觉能力拆成4大类

研究团队将视觉能力提炼为四大核心类别,每类下细分若干子任务:

  • 精细辨别(Fine-grained Discrimination):分辨细微的视觉差异(8 个子任务)

  • 视觉追踪(Visual Tracking):跟随路径、线条与运动轨迹(5 个子任务)

  • 空间感知(Spatial Perception):理解三维结构及其关系(5 个子任务)

  • 视觉模式识别(VisualPattern Recognition:识别逻辑与几何规律(4 个子任务)

这套设计的核心理念很明确:不是为了「刁难」模型,而是量化那些「人类直觉就会、但构成智能地基」的视觉原子能力

这同样是具身智能(embodied AI)走向现实世界的必修课。

为了最大程度确保「纯视觉」考核的有效性,BabyVision在数据构建上也下足了工夫。

项目团队首先参考了儿童认知教材和视觉发育测验,梳理出了上述4大类共22种基础视觉子任务。

接着,每个子技能挑选出 4-5 个种子示例(种子图片),作为该类型任务的典型代表。

基于这些种子示例,研究者利用逆向图像搜索和关键词搜索,从互联网上爬取了约4000张相似的候选图片。

在数据收集过程中,团队严格遵守版权规范,只挑选可用于非商业或学术用途的素材,并过滤掉可能包含大量文字说明或需要文化常识才能理解的图片。

由此获得的海量图片进入人工标注环节:多名专业人员逐一检查图片,筛除不适合出题的样本,对保留下来的图片精心设计问题和标准答案。

为了确保答案的客观正确,每个问题还附有详细的「解题过程」说明,以证明答案确实可由视觉推理得出。

最终,所有标注完成的问题都经过「双盲质检」——两位独立专家交叉审核,每道题只有在双方都认可其答案无误、推理严谨的情况下才被收录 ;若出现异议则退回修改,反复仍无法达成一致的题目则果断弃用。

经过这一系列严苛的筛选,BabyVision最终产出了388道高质量视觉题目,涵盖22种子任务。


最终评测结果

在BabyVision-Full上,研究团队引入了人类基线,16位至少本科背景的测试者完成全量388题,人类准确率达94.1%

再看模型:

闭源最强:Gemini-3-Pro Preview49.7%

开源侧:

• 最强模型(Qwen-3-VL-235B-Thinking)整体为22.2%,多数模型在12–19%区间。

更关键的是:差距不是集中在某一个类别。

四大类能力都在下滑,说明这是「系统性缺基础视觉能力」,而非某个单点缺陷。

一些子任务甚至几乎「全员翻车」,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型结构化场景能力不足。


为什么会这样?

这些题目unspeakable

最反直觉的地方在于:BabyVision里的很多题,对人类来说不难,甚至孩子会用指一指、圈一圈、沿着线走一遍就搞定。

但模型一旦用文字去「复述」视觉,再用语言推理去算,信息就丢了。

研究团队把这种现象概括为:「这些视觉题是「unspeakable」的,无法在不损失信息的情况下被完整语言化;模型试图把视觉压缩成token,细节在压缩中消失。」

并进一步总结了4类典型挑战:


挑战 1:「非语言细节」(Observing Non-Verbal Details)


比如拼图/补全题里,选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位。

人类凭几何直觉「对齐边界」就能秒选,但模型一旦把形状用语言概括成「像钩子、两个腿、差不多七八个六边形」,细节就被抹平,选项在token空间里变得「几乎一样」。


挑战 2:追线追丢了(Manifold Understanding)


连线/绕线/轨迹题,答案编码在「连通性」里:

人类是锁定一条线→穿过交叉→一路追到终点;

模型往往把线翻译成「左/右/上/下」的离散步骤,一遇到交叉点就出现分叉爆炸,容易「换轨」追错线。


挑战 3:缺少真正的空间想象(Spatial Imagination)


三维方块计数、视角投影、遮挡下的结构判断,人类通常不是「用语言一步步描述」,而是把结构在脑中「立起来」,换个角度看,再数。

模型则容易犯两类错误:漏掉隐藏块、投影关系搞错。这不是逻辑差,而是缺少稳定的3D内部表征与变换能力。


挑战 4:图形规律归纳难(Visual Pattern Induction)


这类题要求从少量视觉示例里抽象出规则,再迁移到新图。

人类做的是关系映射,真正决定正确性的是「发生了什么变化」而不是「那里有什么」,具体的形状、颜色、绝对位置都可以变,只有它们在变换中的「身份」不变。

模型常常盯着表面属性(颜色、形状),把「结构规则」误读成「外观统计」,导致迁移时幻觉规则。

BabyVision-Gen给出一个新方向

当文本推理不够用,一个自然的问题出现了:

能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?

于是,有了BabyVision-Gen:

• 从原基准中重新标注出280道适合「生成式作答」的题

要求模型输出图像/视频来表达解题过程或答案

并开发了自动评测工具,与人工评测一致性达96%

研究团队在BabyVision-Gen上评测了多种生成模型(包括Nano Banana Pro、Qwen-Image、Veo 3、Sora 2)。

现阶段得到的结论很克制但重要:

• 生成式推理在视觉追踪、精细辨别等VLM易翻车任务上出现「更像人类」的行为(会真的去画轨迹、做标注);

• 但整体仍然缺乏稳定到达完全正确解的能力。

这至少说明:把视觉推理「落地到视觉操作」上,可能是补齐短板的一条路。

下面看一个具体的例子:用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径。

Sora 2:

Nano Banana Pro:


为什么BabyVision重要?

正如研究团队在Blog中所写:

「很难想象一个视觉能力低于3岁孩子的机器人,能够可靠地在真实物理世界里帮助人类。」

今天,多模态模型「会说会写」已经很强,但要走向真正的通用智能与具身智能,视觉地基必须补上:看得准(细粒度辨别),追得住(轨迹/连通性),想得出(3D结构想象),归纳得了(图形规则迁移)。

因此,BabyVision的价值正在于:

把「看懂世界」拆成可测量、可诊断、可迭代的22个原子能力,告诉我们差距到底在哪里、下一步该补什么,从而引导多模态大模型发展

开源地址

blog

https://unipat.ai/blog/BabyVision

github

https://github.com/UniPat-AI/BabyVision

huggingface

https://huggingface.co/collections/UnipatAI/babyvision

UniPat

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

官网链接:https://unipat.ai

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿森纳球迷意难平!不止因为1-2不敌曼城,更多在于以下五点!

阿森纳球迷意难平!不止因为1-2不敌曼城,更多在于以下五点!

田先生篮球
2026-04-20 05:32:35
突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

突发!340亿开源巨头彻底撤离中国,419名顶级工程师被疯抢,18年深耕终落幕…

新浪财经
2026-04-20 04:31:06
比赛提前结束,WSBK荷兰站第二轮正赛张雪机车斩获第七名

比赛提前结束,WSBK荷兰站第二轮正赛张雪机车斩获第七名

澎湃新闻
2026-04-19 20:28:26
1150万买个骨折?上海最贵外援季后赛前离奇自爆!

1150万买个骨折?上海最贵外援季后赛前离奇自爆!

林子说事
2026-04-20 07:45:21
重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

重庆撒泼“毒母女”一夜全国出名,谁看了不喊一句离谱!

脆皮先生
2026-04-19 19:37:38
人民日报对许家印称呼变了

人民日报对许家印称呼变了

来科点谱
2026-04-20 07:20:26
连关2店,中国内地已不到10家!网友:曾花过40万,现在真觉得浪费钱

连关2店,中国内地已不到10家!网友:曾花过40万,现在真觉得浪费钱

南方都市报
2026-04-20 07:37:25
山东省青岛市委常委、副市长王波被查

山东省青岛市委常委、副市长王波被查

新京报
2026-04-20 11:12:09
个子也不矮!文班亚马父亲在场边和吉诺比利畅聊

个子也不矮!文班亚马父亲在场边和吉诺比利畅聊

懂球帝
2026-04-20 10:40:10
社评:警惕日本“军事暴走”风险

社评:警惕日本“军事暴走”风险

环球网资讯
2026-04-20 00:22:16
广州暹岗大山遭人私挖水晶破坏 林业部门回应→

广州暹岗大山遭人私挖水晶破坏 林业部门回应→

新快报新闻
2026-04-20 00:12:42
随着巴黎圣日耳曼爆大冷门1-2,法甲最新积分榜出炉:争冠白热化

随着巴黎圣日耳曼爆大冷门1-2,法甲最新积分榜出炉:争冠白热化

侧身凌空斩
2026-04-20 07:55:12
5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

宝哥精彩赛事
2026-04-19 06:35:05
离大谱!大妈冲进餐厅强行放生龙虾,结果人家是宠物,直接被她救死了...

离大谱!大妈冲进餐厅强行放生龙虾,结果人家是宠物,直接被她救死了...

英国那些事儿
2026-04-17 23:25:19
中国航司大面积取消日本航班,武汉已无直飞日本航班

中国航司大面积取消日本航班,武汉已无直飞日本航班

极目新闻
2026-04-19 19:55:25
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
曼城看到夺冠希望!剩5轮少3分,手握一大优势,阿森纳失去主动

曼城看到夺冠希望!剩5轮少3分,手握一大优势,阿森纳失去主动

奥拜尔
2026-04-20 01:34:45
五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

奥拜尔
2026-04-20 01:27:03
世锦赛战报:16强中国锁定3席!世界冠军连输5局了,恐爆冷一轮游

世锦赛战报:16强中国锁定3席!世界冠军连输5局了,恐爆冷一轮游

小火箭爱体育
2026-04-20 06:06:04
李雨桐被拘!官方下场,曾自曝背后靠山大,拘留10天,逾期还罚款

李雨桐被拘!官方下场,曾自曝背后靠山大,拘留10天,逾期还罚款

离离言几许
2026-04-19 17:49:44
2026-04-20 11:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15012文章数 66787关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

失踪女老板被找到 嫌犯曾改名整容还催警察"还我清白"

头条要闻

失踪女老板被找到 嫌犯曾改名整容还催警察"还我清白"

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

章子怡!增重20斤素颜拍新片

财经要闻

月之暗面IPO迷局

汽车要闻

外观非常惊艳 全新一代宝马6系有望回归

态度原创

手机
家居
房产
数码
军事航空

手机要闻

上市还没半年!三星三折叠屏手机面临退市 友商跟华为差距太远

家居要闻

法式线条 时光静淌

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

数码要闻

内存短缺或致苹果推迟上新 新款Mac Studio据称延迟数月发布

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版