网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

大模型拿金牌却输给三岁宝宝！一套「纯视觉考卷」把顶尖VLM打回幼儿园

2026-01-12 09:12:28　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：定慧

【新智元导读】大模型能写代码、解奥数，却连幼儿园小班都考不过？简单的连线找垃圾桶、数积木，人类一眼即知，AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」，这个评测基准给出答案。

过去一年，大模型在语言与文本推理上突飞猛进：论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。

但一个更关键的问题是：当问题不再能「用语言说清楚」时，模型还能不能「看懂」？

为了测评模型能不能「看懂」，以及能「看懂」多少，UniPat AI携手红杉中国xbench团队，并联合多家大模型公司与高校的研究员，发布新的多模态理解评测集BabyVision。

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式，推动其实现可泛化、可信赖的真实世界部署，并创造切实的经济与社会价值。

如果一个视觉问题可以完全用文字描述且不丢信息，它本质上就会退化成文本题。

模型可以靠强大的语言推理能力一路通关，看起来很会「看」，其实是在走语言捷径。

而真正的视觉能力，需要在没有语言扶梯的情况下完成：比较、追踪、空间想象、模式归纳。

Google DeepMind创始人Demis Hassabis曾提到类似观点：

「大模型可以在国际数学奥林匹克拿金牌，却会在小学几何题上出错；它能生成惊艳图像，却不理解杯子为什么不会飘在空中。」

展望2026年，我们判断世界模型与视觉多模态将迎来新一轮突破性进展。

值此开年之际，UniPat AI联合xbench率先抛出关键问题和全新「考卷」，以此迎接并参与新一轮技术突破的到来。

让顶尖模型和孩子做同一张试卷

BabyVision先做了一项非常直接的对比实验：把20道视觉中心任务（vision-centric）作为BabyVision-Mini交给不同年龄段孩子（3/6/10/12岁）和当下顶尖多模态模型来做。

这份「小试卷」要求严格控制语言依赖：题目要求很简单，答案必须靠视觉信息本身得出。

而最终评测结果显示：在「看懂世界」这方面，大模型还没上幼儿园：

大多数模型的分数，聚集在明显低于平均3岁儿童的区间；
Gemini-3-Pro-Preview是唯一稳定超过3岁基线的模型，但距离6岁儿童仍差约20个百分点。

下面是其中一道题，直观且反直觉，连线垃圾分类，小孩可以轻松做对，但顶尖模型追踪一条线都能追丢。

三件物品沿着线分别连到哪个颜色垃圾桶？A, B, C分别表示上方从左到右的三个物体。

<< 左右滑动查看下一张图片 >>

正确答案：A-蓝，B-黄，C-绿
模型答案（Gemini3-Pro-Preview）：A-绿，B-黄，C-蓝

人类的解法几乎是本能，从点出发沿线走到终点（右侧照片是三岁幼儿真实做题痕迹）。

但模型会写出一大段「逐段追踪」的推理，最后仍把两条路径接反：看起来「很会分析」，其实在最基础的视觉追踪上掉线。

BabyVision-Full把视觉能力拆成4大类

研究团队将视觉能力提炼为四大核心类别，每类下细分若干子任务：

精细辨别（Fine-grained Discrimination）：分辨细微的视觉差异（8 个子任务）
视觉追踪（Visual Tracking）：跟随路径、线条与运动轨迹（5 个子任务）
空间感知（Spatial Perception）：理解三维结构及其关系（5 个子任务）
视觉模式识别（VisualPattern Recognition）：识别逻辑与几何规律（4 个子任务）

这套设计的核心理念很明确：不是为了「刁难」模型，而是量化那些「人类直觉就会、但构成智能地基」的视觉原子能力。

这同样是具身智能（embodied AI）走向现实世界的必修课。

为了最大程度确保「纯视觉」考核的有效性，BabyVision在数据构建上也下足了工夫。

项目团队首先参考了儿童认知教材和视觉发育测验，梳理出了上述4大类共22种基础视觉子任务。

接着，每个子技能挑选出 4-5 个种子示例（种子图片），作为该类型任务的典型代表。

基于这些种子示例，研究者利用逆向图像搜索和关键词搜索，从互联网上爬取了约4000张相似的候选图片。

在数据收集过程中，团队严格遵守版权规范，只挑选可用于非商业或学术用途的素材，并过滤掉可能包含大量文字说明或需要文化常识才能理解的图片。

由此获得的海量图片进入人工标注环节：多名专业人员逐一检查图片，筛除不适合出题的样本，对保留下来的图片精心设计问题和标准答案。

为了确保答案的客观正确，每个问题还附有详细的「解题过程」说明，以证明答案确实可由视觉推理得出。

最终，所有标注完成的问题都经过「双盲质检」——两位独立专家交叉审核，每道题只有在双方都认可其答案无误、推理严谨的情况下才被收录；若出现异议则退回修改，反复仍无法达成一致的题目则果断弃用。

经过这一系列严苛的筛选，BabyVision最终产出了388道高质量视觉题目，涵盖22种子任务。

最终评测结果

在BabyVision-Full上，研究团队引入了人类基线，16位至少本科背景的测试者完成全量388题，人类准确率达94.1%。

再看模型：

•闭源最强：Gemini-3-Pro Preview为49.7%

开源侧：

• 最强模型（Qwen-3-VL-235B-Thinking）整体为22.2%，多数模型在12–19%区间。

更关键的是：差距不是集中在某一个类别。

四大类能力都在下滑，说明这是「系统性缺基础视觉能力」，而非某个单点缺陷。

一些子任务甚至几乎「全员翻车」，例如Count 3D Blocks在多模型中普遍偏低，暴露的是模型结构化场景能力不足。

为什么会这样？

这些题目unspeakable

最反直觉的地方在于：BabyVision里的很多题，对人类来说不难，甚至孩子会用指一指、圈一圈、沿着线走一遍就搞定。

但模型一旦用文字去「复述」视觉，再用语言推理去算，信息就丢了。

研究团队把这种现象概括为：「这些视觉题是「unspeakable」的，无法在不损失信息的情况下被完整语言化；模型试图把视觉压缩成token，细节在压缩中消失。」

并进一步总结了4类典型挑战：

挑战 1：「非语言细节」（Observing Non-Verbal Details）

比如拼图/补全题里，选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位。

人类凭几何直觉「对齐边界」就能秒选，但模型一旦把形状用语言概括成「像钩子、两个腿、差不多七八个六边形」，细节就被抹平，选项在token空间里变得「几乎一样」。

挑战 2：追线追丢了（Manifold Understanding）

连线/绕线/轨迹题，答案编码在「连通性」里：

人类是锁定一条线→穿过交叉→一路追到终点；

模型往往把线翻译成「左/右/上/下」的离散步骤，一遇到交叉点就出现分叉爆炸，容易「换轨」追错线。

挑战 3：缺少真正的空间想象（Spatial Imagination）

三维方块计数、视角投影、遮挡下的结构判断，人类通常不是「用语言一步步描述」，而是把结构在脑中「立起来」，换个角度看，再数。

模型则容易犯两类错误：漏掉隐藏块、投影关系搞错。这不是逻辑差，而是缺少稳定的3D内部表征与变换能力。

挑战 4：图形规律归纳难（Visual Pattern Induction）

这类题要求从少量视觉示例里抽象出规则，再迁移到新图。

人类做的是关系映射，真正决定正确性的是「发生了什么变化」而不是「那里有什么」，具体的形状、颜色、绝对位置都可以变，只有它们在变换中的「身份」不变。

模型常常盯着表面属性（颜色、形状），把「结构规则」误读成「外观统计」，导致迁移时幻觉规则。

BabyVision-Gen给出一个新方向

当文本推理不够用，一个自然的问题出现了：

能不能让模型像孩子一样，用画、圈、连线、描轨迹来作答？

于是，有了BabyVision-Gen：

• 从原基准中重新标注出280道适合「生成式作答」的题

•要求模型输出图像/视频来表达解题过程或答案

•并开发了自动评测工具，与人工评测一致性达96%

研究团队在BabyVision-Gen上评测了多种生成模型（包括Nano Banana Pro、Qwen-Image、Veo 3、Sora 2）。

现阶段得到的结论很克制但重要：

• 生成式推理在视觉追踪、精细辨别等VLM易翻车任务上出现「更像人类」的行为（会真的去画轨迹、做标注）；

• 但整体仍然缺乏稳定到达完全正确解的能力。

这至少说明：把视觉推理「落地到视觉操作」上，可能是补齐短板的一条路。

下面看一个具体的例子：用红线沿着从左上角图形延伸出的那条线，完整地描出其全程路径。

Sora 2：

Nano Banana Pro：

为什么BabyVision重要？

正如研究团队在Blog中所写：

「很难想象一个视觉能力低于3岁孩子的机器人，能够可靠地在真实物理世界里帮助人类。」

今天，多模态模型「会说会写」已经很强，但要走向真正的通用智能与具身智能，视觉地基必须补上：看得准（细粒度辨别），追得住（轨迹/连通性），想得出（3D结构想象），归纳得了（图形规则迁移）。

因此，BabyVision的价值正在于：

把「看懂世界」拆成可测量、可诊断、可迭代的22个原子能力，告诉我们差距到底在哪里、下一步该补什么，从而引导多模态大模型发展。

开源地址

blog

https://unipat.ai/blog/BabyVision

github

https://github.com/UniPat-AI/BabyVision

huggingface

https://huggingface.co/collections/UnipatAI/babyvision

UniPat

UniPat AI致力于构建真实场景下AI训练、评测与应用的新范式，推动其实现可泛化、可信赖的真实世界部署，并创造切实的经济与社会价值。

官网链接：https://unipat.ai

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

法国4比6不敌英格兰德尚中场怒斥球员：简直是场灾难

红星新闻 2026-07-19 07:33:22
4525 跟贴 4525
悬赏公告

扬州广播电视台 2026-07-19 18:58:00
5 跟贴 5

马龙许昕全锦赛夺冠

新华社 2026-07-19 19:51:24
553 跟贴 553

西阿大战在即 18条关键信息速览

新华网 2026-07-19 08:09:39
752 跟贴 752
解密“大力神杯”的传奇与归属：曾因磕碰受伤，未来仅能再刻5支冠军名

极目新闻 2026-07-19 18:16:21
9 跟贴 9

“坏了坏了，这下好了”和“好了好了，这下坏了”，哪个更坏？

环球网资讯 2026-07-19 08:35:20
254 跟贴 254

少出门！少出门！红色预警！刚刚确认：10级

极目新闻 2026-07-19 15:42:12
210 跟贴 210
带娃能否优先安排下铺 12306回应

极目新闻 2026-07-19 20:44:39
57 跟贴 57

决赛倒计时：谁将登顶世界之巅，改写历史纪录？

学申论的谈妹 2026-07-19 17:51:38
43 跟贴 43
方盒子新物种，长城H10预售，限时权益价21.48万元起

潇湘晨报 2026-07-19 19:21:19
60 跟贴 60
中国代表队4名选手获第58届国际化学奥赛金牌

新华社 2026-07-19 16:38:02
1038 跟贴 1038
民生调查局丨APP借钱套路调查：收个红包、付笔账单、点个优惠，贷款就背上了

中国网 2026-07-19 01:28:05
250 跟贴 250
鸟组团天天到女子家薅树叶，认准一棵树不停“霍霍”：几月后秃了

星视频 2026-07-19 12:09:11
148 跟贴 148
任泽平“付费群”风波后，已更换上课方式，VIP会员吐槽：跟着任泽平买什么亏什么

红星资本局 2026-07-19 19:55:09
18 跟贴 18
我国去年医保支出首超3万亿元

每日经济新闻 2026-07-19 21:02:03
2 跟贴 2
东契奇：我们是一支很好的球队我对新赛季充满期待

北青网-北京青年报 2026-07-19 15:42:10
44 跟贴 44
落日熔金，送别周末时光

京呈 2026-07-19 20:28:59
1 跟贴 1
排面拉满！奥运冠军当导师，沪乒嘉年华混合团体赛四强集结

上观新闻 2026-07-19 21:05:43
1 跟贴 1
印度计划试点发行小面额塑料钞票

新华社 2026-07-19 19:58:01
20 跟贴 20
曼德拉主题展“开课” 重温抗争历史

北青网-北京青年报 2026-07-19 08:06:10
185 跟贴 185
萍乡安源区一居民区旁工厂生产时有异味

新浪财经 2026-07-19 22:08:17
0 跟贴 0
不接受道歉！矢板明夫仍要告，郭正亮今天再宣布下架节目

金牛传声 2026-07-19 22:06:24
0 跟贴 0
街头温柔秩序：烤鸭店与五只流浪狗的深夜契约

濮阳日常事 2026-07-19 22:18:20
0 跟贴 0
全网都在祝贺她患癌

行者殷涛 2026-07-19 22:20:10
0 跟贴 0

日本人评价抗美援朝：中国若是不出兵，美国根本打不到鸭绿江边，可中国偏偏去了，这仗西方复盘了70多年都没搞懂

日本人评价抗美援朝：中国若是不出兵，美国根本打不到鸭绿江边，可中国偏偏去了，这仗西方复盘了70多年都没搞懂

磊子讲史

2026-07-15 15:33:52

韩国人生孩子，国家月月发工资，每月5000块人民币白送

韩国人生孩子，国家月月发工资，每月5000块人民币白送

流苏晚晴

2026-07-19 21:35:37

2018年，陈毅之子陈小鲁葬礼现场，夫人粟惠宁一身素服，泣不成声

2018年，陈毅之子陈小鲁葬礼现场，夫人粟惠宁一身素服，泣不成声

芊芊子吟

2026-07-19 12:05:13

散步再次被关注！医生发现：走得越多，糖尿病人寿命或越长？真假

散步再次被关注！医生发现：走得越多，糖尿病人寿命或越长？真假

路医生健康科普

2026-07-19 21:10:03

北控已经敲定2名外援！单场46+5超外完成续约，2米32高塔有望加盟

北控已经敲定2名外援！单场46+5超外完成续约，2米32高塔有望加盟

老叶评球

2026-07-19 16:23:13

特朗普下令，美军开始对伊朗发动新一轮空袭！伊朗最高领袖声明：美国一再违反伊美谅解备忘录中的承诺，美国总统的签名“毫无价值、无效”

特朗普下令，美军开始对伊朗发动新一轮空袭！伊朗最高领袖声明：美国一再违反伊美谅解备忘录中的承诺，美国总统的签名“毫无价值、无效”

中国基金报

2026-07-19 07:26:09

男子刷20万后，不满女主播只陪他3天，怒而将他们开房照片曝光

男子刷20万后，不满女主播只陪他3天，怒而将他们开房照片曝光

汉史趣闻

2025-06-23 10:26:20

88年我娶了村里的霸王花，进屋3天我都不敢动，第4天她抓起我的手

88年我娶了村里的霸王花，进屋3天我都不敢动，第4天她抓起我的手

卡西莫多的故事

2026-04-24 11:33:00

英媒曾爆料：法航母在南海追中国潜艇，结果碰上中国40艘军舰懵了

英媒曾爆料：法航母在南海追中国潜艇，结果碰上中国40艘军舰懵了

流史岁月

2026-07-15 14:30:10

乌方军官：乌克兰一旦夺回克里米亚，就是普京的终结

乌方军官：乌克兰一旦夺回克里米亚，就是普京的终结

桂系007

2026-07-19 04:49:48

主场全军溃败！2026 日本公开赛收官，辛杜、小波波夫双杀日本选手夺冠，东道主五项赛事颗粒无收

主场全军溃败！2026 日本公开赛收官，辛杜、小波波夫双杀日本选手夺冠，东道主五项赛事颗粒无收

小兰看体育

2026-07-19 14:28:29

江青墓地简陋寒酸：看了碑文，就能明白李讷的苦心和无奈

江青墓地简陋寒酸：看了碑文，就能明白李讷的苦心和无奈

诗意世界

2025-05-21 09:00:02

陈瑶首登《我家那闺女》独居北京300平豪宅开豪车

陈瑶首登《我家那闺女》独居北京300平豪宅开豪车

悦君兮君不知

2026-07-19 16:24:50

每体：姆巴佩晒女友穿法国球衣，27秒后删除

每体：姆巴佩晒女友穿法国球衣，27秒后删除

懂球帝

2026-07-19 19:10:33

生吃杀菌，熟吃润燥，三伏天使劲吃，2元1斤，健脾通便，增强体质

生吃杀菌，熟吃润燥，三伏天使劲吃，2元1斤，健脾通便，增强体质

江江食研社

2026-07-18 16:30:12

哈登：我们的目标就是引入詹姆斯希望未来几天能够实现

哈登：我们的目标就是引入詹姆斯希望未来几天能够实现

北青网-北京青年报

2026-07-19 20:26:10

微信公布停车缴费页面广告举报途径：如存在强制授权、广告阻断、误导点击或其他可疑内容，可点击小程序右上角“···”发起投诉

微信公布停车缴费页面广告举报途径：如存在强制授权、广告阻断、误导点击或其他可疑内容，可点击小程序右上角“···”发起投诉

大象新闻

2026-07-17 18:00:03

志愿军战俘程立人：成阿根廷巨富、有60万亩土地，还娶了总统妹妹

志愿军战俘程立人：成阿根廷巨富、有60万亩土地，还娶了总统妹妹

海佑讲史

2026-06-30 08:10:29

洪晃揭露章含之双面人生，幼时遭继母刁难，长大却苛待前任子女

洪晃揭露章含之双面人生，幼时遭继母刁难，长大却苛待前任子女

唠叨说历史

2026-07-06 16:07:28

心理学：一定记住！不要回答别人的问题，要回答别人的目的！听完受益了

心理学：一定记住！不要回答别人的问题，要回答别人的目的！听完受益了

心理观察局

2026-07-18 06:35:10

AI产业主平台领航智能+时代

15733文章数 66962关注度

往期回顾全部

科技要闻

Kimi K3单项登顶整体落后前沿模型2-3个月

头条要闻

外媒：匈牙利总统被总理"逼迫"离职系欧尔班政治盟友

头条要闻

外媒：匈牙利总统被总理"逼迫"离职系欧尔班政治盟友

体育要闻

世界杯决赛，从“澡盆德比”500年前讲起

娱乐要闻

王侃因病逝世两年前与父亲牛犇同台

财经要闻

任泽平VIP会员自称爆仓巨亏千万

汽车要闻

把中国超跑卖到英国，比亚迪正在被世界看见

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

亲子

本地

游戏

公开课

艺术要闻

赵孟頫水平最高的书法，颠覆大众认知！

亲子要闻

生命与生育并非单选题，育龄期癌症女性有三条路径守护生育力

本地新闻

十年了，为什么鬼怪CP还能让人美美嗑上？

细数《天下贰》老友服满满福利，回归零负担，痛快畅玩一赛季！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版