网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

红杉xbench评测：大模型的视觉能力，普遍低于3岁儿童

2026-01-12 11:15:48　来源: 赛博禅心

北京举报

0

分享至

红杉中国 xbench 和 UniPat AI 发了一个新的多模态评测集，叫 BabyVision，在这里：

核心发现：当前最强的多模态模型，在纯视觉任务上的得分，普遍低于3岁儿童

人类准确率 94.1%
而在模型当中，Gemini 3 Pro Preview 最高，49.7%
大多数模型，则在 12-22% 区间

这个评测的设计思路有点意思，和大家分享一下

先看一道题

三件物品，沿着线分别连到哪个颜色垃圾桶？

正确答案：A-蓝，B-黄，C-绿
Gemini 3 Pro Preview 的错误答案：A-绿，B-黄，C-蓝

人类怎么做这道题？从点出发，沿着线走到终点
三岁小孩用手指头比划一下就能做对

模型怎么做？输出一大段的推理过程，看起来很牛逼，但最后还是搞错了
最顶尖的模型，在最基础的视觉追踪上，一败涂地

这个评测在测什么

BabyVision 把视觉能力拆成了4大类，共22个子任务

精细辨别
分辨细微的视觉差异，比如找不同、补全拼图、数相同图案，共 8 个子任务

视觉追踪
跟随路径、线条与运动轨迹，比如走迷宫、连线、地铁图找站，共 5 个子任务

空间感知
理解三维结构，比如数方块、视角投影、折纸展开图，共 5 个子任务

视觉模式识别
识别逻辑与几何规律，比如旋转规律、镜像规律、逻辑推理，共 4 个子任务

这套测试有一个核心设计原则：严格控制语言依赖

题目要求很简单，答案必须靠视觉信息本身得出
如果一道视觉题可以完全用文字描述且不丢信息，它本质上就会退化成文本题，模型可以靠语言推理能力一路通关

BabyVision 要测的是：当语言帮不上忙的时候，模型还能不能「看懂」

然后结果就是：在BabyVision‑Full上，16 位至少本科背景的测试者完成全量 388 题，人类准确率达 94.1%，大多数模型只在 12～19%之间，具体如下

为什么模型会翻车

研究团队用了一个词：unspeakable

这些视觉题无法在不损失信息的情况下被完整语言化
模型试图把视觉压缩成 token，细节在压缩中消失

4类典型挑战：

挑战 1：「非语言细节」（Observing Non-Verbal Details）

拼图/补全题里，选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位

人类凭几何直觉，就能秒选

模型一旦把形状用语言概括成「像钩子、两个腿、差不多七八个六边形」，细节就被抹平，选项在 token 空间里变得几乎一样

挑战 2：追线追丢了（Manifold Understanding）

对于连线/绕线/轨迹之类的题，人类会始终锁定一条线，穿过交叉，一路追到终点

模型往往把线翻译成左/右/上/下的离散步骤，一遇到交叉点就出现分叉爆炸，容易换轨追错线

挑战 3：缺少真正的空间想象（Spatial Imagination）

三维方块计数、视角投影、遮挡下的结构判断
人类通常是把结构在脑中立起来，换个角度看，再数

模型容易犯两类错误：漏掉隐藏块、投影关系搞错
所以嘛，大模型目前还是缺少稳定的 3D 内部表征与变换能力

挑战 4：图形规律归纳难（Visual Pattern Induction）

这类题，要求从少量视觉示例里抽象出规则，再迁移到新图

人类做的是关系映射，真正决定正确性的是「发生了什么变化」，具体的形状、颜色、绝对位置都可以变，只有它们的「身份」不变

模型常常盯着表面属性（颜色、形状），把「结构规则」误读成「外观统计」，导致迁移时幻觉规则

BabyVision-Gen

既然文本推理不够用，一个自然的想法：能不能让模型像孩子一样，用画、圈、连线、描轨迹来作答？

BabyVision-Gen 就是这个方向的尝试

从原基准中重新标注出 280 道适合「生成式作答」的题，要求模型输出图像或视频来表达解题过程

研究团队测了 Sora 2、Veo 3、Qwen-Image 等生成模型，比如用红线沿着从左上角图形延伸出的那条线，完整地描出其全程路径，下面这个是 Sora 的实现

这个，则是 NanoBanana 的

初步结论：生成式推理在视觉追踪、精细辨别等 VLM 易翻车的任务上，出现了「更像人类」的行为

模型会真的去画轨迹、做标注，但整体仍然缺乏稳定，无法做到完全正确

把视觉推理「落地到视觉操作」上，可能是补齐短板的一条路

xbench 是什么

这个我得仔细说说，和 xbench 的朋友们可太熟了，一堆有趣的逗比，新模型出来后，我总是先去找他们去问，这东西靠谱么

xbench 是红杉中国 2025 年 5 月发布的 AI 评测基准
这是全球首个由投资机构主导，核心设计是双轨评估体系：

AGI Tracking
验证模型在特定能力维度的智能边界，题目追求「足够难、巧妙、有区分度」

Profession-Aligned
把 AI 系统当作数字员工，放在具体业务流程中考察效用价值

已经发布的评测集包括 ScienceQA（研究生水平学科知识）、DeepSearch（中文互联网深度搜索）、招聘和营销两个垂类场景

BabyVision 是 AGI Tracking 系列的新成员，专门测多模态的纯视觉能力

Demis Hassabis 说过一句话：大模型可以在国际数学奥林匹克拿金牌，却会在小学几何题上出错；它能生成惊艳图像，却不理解杯子为什么不会飘在空中

BabyVision 就是把这个 gap 量化出来

xbench 的设计思路是 Evergreen Evaluation
持续维护、动态更新，每月汇报最新模型表现，每季度更新评估集

作为 AGI 赛道的投资者，红杉是有驱动力去要判断 AI 技术何时能达到市场可落地的阈值

传统评测集容易被刷爆，题目泄露导致过拟合，跟真实业务价值脱节，对于要投钱的事情，红杉更会以足够客观的方式去评估

开源地址

website：
https://xbench.org/

blog：
https://unipat.ai/blog/BabyVision

github：
https://github.com/UniPat-AI/BabyVision

huggingface：
https://huggingface.co/collections/UnipatAI/babyvision

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

林俊旸宣布离开阿里千问

每日经济新闻 2026-03-04 06:28:05
1511 跟贴 1511
开发者如何通过AI，合法抓取数据？

虎嗅APP 2026-03-05 02:40:16
0 跟贴 0

李飞飞World Labs最新判断：AI写完代码，下一步是「写世界」？

机器之心Pro 2026-03-04 17:26:53
0 跟贴 0

情感识别不再是分类题：EmotionThinker让SpeechLLM 学会解释情绪

机器之心Pro 2026-02-25 13:45:15
0 跟贴 0
2025年是国产人形机器人技术突破关键一年

新华社 2026-03-04 12:55:14
236 跟贴 236

“买显存送核心”，AI芯片竞赛进入“内存为王”！智能体大时代，中国AI芯片有何机会？

每日经济新闻 2026-03-05 00:45:08
0 跟贴 0

两个图形看着不一样，实际却是一样的，网友：这是视觉错觉吗

星沙时报 2026-03-03 14:13:35
0 跟贴 0
心越定，命越好：这不是玄学，磁场一变，吸引的人事物全变了

金沛的国学笔记 2026-03-04 14:19:23
11 跟贴 11

李曼玲、李飞飞、吴佳俊等联手：评估具身大模型的新范式！

新智元 2026-03-04 12:49:32
0 跟贴 0
不止修bug：Agentic Coding评测走向复杂feature交付新阶段

机器之心Pro 2026-03-04 14:50:16
0 跟贴 0
华为896线激光雷达首发，问界M9/尊界S800率先使用

车动态 2026-03-04 18:16:04
2 跟贴 2
蚂蚁能意识到人类的存在吗？蚂蚁被我们踩到是不是飞来的横祸？

宇宙时空 2026-03-01 09:22:11
0 跟贴 0
大脑如何欺骗你？旋转窗户背后的空间错觉

强哥到了 2026-03-02 22:11:46
3 跟贴 3
别被眼睛骗了！小伙倒挂天花板挑战，结局反转看傻所有人！

大超搞笑 2026-03-04 15:05:55
1 跟贴 1
数字光影重构历史记忆，沉浸交互点亮“江海共荣”

北青网-北京青年报 2026-03-04 14:09:15
0 跟贴 0
复旦提出简单指标，找出推理蒸馏中真正有教学价值的数据

机器之心Pro 2026-01-28 14:00:43
0 跟贴 0
《宝可梦Pokopia》M站评分出炉 89分超越所有正作！

3DM游戏 2026-03-03 09:15:04
1 跟贴 1
天津康汇医院照片揭示的舒适化环境营造思路

周口融媒 2026-03-04 17:52:02
0 跟贴 0
全民自媒体时代，摄影美学才是真正的流量密码

厦九九Joy 2026-03-04 20:14:51
0 跟贴 0
全景视觉的Depth Anything来了！

机器之心Pro 2025-12-29 16:54:58
0 跟贴 0
仿真落地三难点：物理、视觉、交互

量子位 2025-12-12 04:34:09
0 跟贴 0
NMN怎么选？2026五大热门NMN评测

刘谋生活 2026-03-03 18:26:45
1 跟贴 1
师傅贴瓷砖怎么转都不对网友：镜像一下就好了

笑场速递 2026-03-03 08:11:05
1 跟贴 1
2026年03月英雄联盟租号平台Top5：安全评测与推荐，哪个好？

Koo账号APP 2026-03-05 04:03:26
0 跟贴 0
大会发言人：决不允许任何外部势力干涉中国内政

新华社 2026-03-04 13:09:41
7226 跟贴 7226
江苏省政府通知，苏南重点城市开展改革试点，包括南京、无锡、常州、苏州、镇江

江苏新闻 2026-03-04 09:04:06
6486 跟贴 6486
刚下飞机行李就没了！杭州姑娘花10多万去南极旅游却崩溃：衣物全靠借

环球网资讯 2026-03-03 08:53:57
6007 跟贴 6007
林俊旸卸任，对阿里可能不是坏事

虎嗅APP 2026-03-05 02:02:38
0 跟贴 0
女孩花8684元买到1978年苹果16手机直呼"太离谱"

大风新闻 2026-03-04 16:29:09
2038 跟贴 2038
不是GPT-5.4，OpenAI深夜发新模型！幻觉率暴降27%

智东西 2026-03-04 10:41:49
1 跟贴 1
发动机模型

制造科技 2026-03-04 18:55:15
0 跟贴 0
十个很准的规律

东北丫头 2026-03-04 12:12:23
0 跟贴 0
难住初中生的找规律

大力小学数学 2026-03-04 14:53:00
0 跟贴 0
用李乃文视觉打开朱媛媛离世，辛柏青一句话，预示了他一生的潮湿

迪迪娱厅 2026-03-02 18:38:34
1 跟贴 1
假如你乘坐飞船光速离开地球一分钟后返回，还能见到你的家人吗？

宇宙时空 2026-02-28 22:40:03
0 跟贴 0
中国铁路西安局集团：网传“西安至广州东K731次列车硬座下躺人”信息不实

澎湃新闻 2026-03-04 13:22:30
1071 跟贴 1071
数字太大，孩子无能为力？找规律试试

大力小学数学 2026-03-02 18:09:00
0 跟贴 0
王励勤回应樊振东回归国家队

看看新闻Knews 2026-03-04 15:56:33
1280 跟贴 1280
山东修高铁站挖出约5亿年前远古奇观，藏身于一处大型施工坑内，当地：正实地考察，需进一步论证

极目新闻 2026-03-04 09:49:14
764 跟贴 764
欧洲天然气价格下跌7%

每日经济新闻 2026-03-04 18:26:06
684 跟贴 684

深夜！美股拉升，科技股反弹！黄金、白银，回落！

深夜！美股拉升，科技股反弹！黄金、白银，回落！

证券时报

2026-03-04 23:51:06

3月4日晚间上市公司重大事项公告

3月4日晚间上市公司重大事项公告

风风顺

2026-03-05 03:40:03

2:2！金球先生破荒哈兰德哑火曼城错过绝杀+爆冷枪手笑纳大礼

2:2！金球先生破荒哈兰德哑火曼城错过绝杀+爆冷枪手笑纳大礼

阿超他的体育圈

2026-03-05 05:44:49

苹果发布 MacBook Neo！配置真的离谱

苹果发布 MacBook Neo！配置真的离谱

花果科技

2026-03-04 23:08:01

伊朗将为哈梅内伊举行告别仪式，以色列防长：伊朗任何新的最高领袖都将成“清除目标”，“无论他叫什么名字身在何处”

伊朗将为哈梅内伊举行告别仪式，以色列防长：伊朗任何新的最高领袖都将成“清除目标”，“无论他叫什么名字身在何处”

每日经济新闻

2026-03-04 18:08:07

赛后大乱斗！亨德森火爆对喷对方教练，被队友死死拉住

赛后大乱斗！亨德森火爆对喷对方教练，被队友死死拉住

夜白侃球

2026-03-04 19:15:24

俄媒警告中国：美国打伊朗只是幌子，目的是逼解放军到太平洋决战

俄媒警告中国：美国打伊朗只是幌子，目的是逼解放军到太平洋决战

夜里看海

2026-03-03 04:41:29

偷鸡不成蚀把米！以为能“扳倒”薛之谦，自己却先被扒了个底朝天

偷鸡不成蚀把米！以为能“扳倒”薛之谦，自己却先被扒了个底朝天

八卦南风

2026-03-04 12:18:44

年薪60万！一企业招聘985应届生，入职满12个月发放，每月发5000

年薪60万！一企业招聘985应届生，入职满12个月发放，每月发5000

火山詩话

2026-03-04 11:48:25

回顾“91女神”琪琪：五官出众，却因天真让自己“受伤”

回顾“91女神”琪琪：五官出众，却因天真让自己“受伤”

就一点

2025-11-22 10:36:39

林俊旸宣布离开阿里千问

每日经济新闻

2026-03-04 06:28:05

特朗普大怒欲断西贸易，话音刚落，西班牙反手一击：立即退出北约

特朗普大怒欲断西贸易，话音刚落，西班牙反手一击：立即退出北约

明天见灌装冰块

2026-03-04 17:30:51

约旦宣布重新开放领空

新华社

2026-03-03 23:48:02

谢娜喊话薛之谦道歉，张杰发声

扬子晚报

2026-03-03 23:07:24

不敢喝了！4大头部椰子水全造假，100%纯椰水全是水+糖 +科技狠活

不敢喝了！4大头部椰子水全造假，100%纯椰水全是水+糖 +科技狠活

川渝视觉

2026-03-04 20:09:52

一场战争把中国打醒！美军最毒的不是装备，中国用30年才真正看清

一场战争把中国打醒！美军最毒的不是装备，中国用30年才真正看清

达文西看世界

2026-03-02 14:25:12

西安高科集团有限公司原党委委员、董事、副总经理李军利接受纪律审查和监察调查

西安高科集团有限公司原党委委员、董事、副总经理李军利接受纪律审查和监察调查

环球网资讯

2026-03-04 18:19:14

全国政协委员洪明基建议提高个税起征点至8000或1万，工薪阶层、年轻职场人、三口之家等群体将受益

全国政协委员洪明基建议提高个税起征点至8000或1万，工薪阶层、年轻职场人、三口之家等群体将受益

每日经济新闻

2026-03-04 19:52:48

48小时内美国两党罕见联手，特朗普被催下台：对伊开火危险且愚蠢

48小时内美国两党罕见联手，特朗普被催下台：对伊开火危险且愚蠢

谛听骨语本尊

2026-03-04 13:52:39

“四川人的卤味巨头”斥资5亿元对成都子公司增资！将通过其加码海外工厂

“四川人的卤味巨头”斥资5亿元对成都子公司增资！将通过其加码海外工厂

红星新闻

2026-03-04 18:27:08

拜AI古佛，修赛博禅心

312文章数 45关注度

往期回顾全部

科技要闻

多位核心离职，阿里亲手废掉最强AI天团？

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行中方回应

体育要闻

2026年中超，为什么值得你多看一眼？

娱乐要闻

谢谢谢娜贡献出26年内娱的第一个笑话

财经要闻

人大代表建议：将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车尚界Z7/Z7T首发

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

艺术

亲子

数码

军事航空

本地新闻

食味印象｜一口入魂！康乐烤肉串起千年丝路香

艺术要闻

香港书协会员——刘德华

亲子要闻

孩子补了钙还不长？问题出在脾胃上

数码要闻

库克秀刀法苹果MacBook Neo搭载残血版A18 Pro：砍掉一个GPU核心

军事要闻

伊朗为遭到美以空袭小学遇难者举行葬礼

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版