网易首页 > 网易号 > 正文 申请入驻

红杉xbench评测:大模型的视觉能力,普遍低于3岁儿童

0
分享至

红杉中国 xbench 和 UniPat AI 发了一个新的多模态评测集,叫 BabyVision,在这里:

核心发现:当前最强的多模态模型,在纯视觉任务上的得分,普遍低于3岁儿童

人类准确率 94.1%
而在模型当中,Gemini 3 Pro Preview 最高,49.7%
大多数模型,则在 12-22% 区间


这个评测的设计思路有点意思,和大家分享一下

先看一道题

三件物品,沿着线分别连到哪个颜色垃圾桶?


正确答案:A-蓝B-黄C-绿
Gemini 3 Pro Preview 的错误答案:A-绿B-黄C-蓝

人类怎么做这道题?从点出发,沿着线走到终点
三岁小孩用手指头比划一下就能做对


模型怎么做?输出一大段的推理过程,看起来很牛逼,但最后还是搞错了
最顶尖的模型,在最基础的视觉追踪上,一败涂地

这个评测在测什么

BabyVision 把视觉能力拆成了4大类,共22个子任务


精细辨别
分辨细微的视觉差异,比如找不同、补全拼图、数相同图案,共 8 个子任务

视觉追踪
跟随路径、线条与运动轨迹,比如走迷宫、连线、地铁图找站,共 5 个子任务

空间感知
理解三维结构,比如数方块、视角投影、折纸展开图,共 5 个子任务

视觉模式识别
识别逻辑与几何规律,比如旋转规律、镜像规律、逻辑推理,共 4 个子任务

这套测试有一个核心设计原则:严格控制语言依赖

题目要求很简单,答案必须靠视觉信息本身得出
如果一道视觉题可以完全用文字描述且不丢信息,它本质上就会退化成文本题,模型可以靠语言推理能力一路通关

BabyVision 要测的是:当语言帮不上忙的时候,模型还能不能「看懂」

然后结果就是:在BabyVision‑Full上,16 位至少本科背景的测试者完成全量 388 题,人类准确率达 94.1%,大多数模型只在 12~19%之间,具体如下


为什么模型会翻车

研究团队用了一个词:unspeakable

这些视觉题无法在不损失信息的情况下被完整语言化
模型试图把视觉压缩成 token,细节在压缩中消失

4类典型挑战:

挑战 1:「非语言细节」(Observing Non-Verbal Details)


拼图/补全题里,选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位

人类凭几何直觉,就能秒选

模型一旦把形状用语言概括成「像钩子两个腿差不多七八个六边形」,细节就被抹平,选项在 token 空间里变得几乎一样

挑战 2:追线追丢了(Manifold Understanding)


对于连线/绕线/轨迹之类的题,人类会始终锁定一条线,穿过交叉,一路追到终点

模型往往把线翻译成左/右/上/下的离散步骤,一遇到交叉点就出现分叉爆炸,容易换轨追错线

挑战 3:缺少真正的空间想象(Spatial Imagination)


三维方块计数、视角投影、遮挡下的结构判断
人类通常是把结构在脑中立起来,换个角度看,再数

模型容易犯两类错误:漏掉隐藏块投影关系搞错
所以嘛,大模型目前还是缺少稳定的 3D 内部表征与变换能力

挑战 4:图形规律归纳难(Visual Pattern Induction)


这类题,要求从少量视觉示例里抽象出规则,再迁移到新图

人类做的是关系映射,真正决定正确性的是「发生了什么变化」,具体的形状、颜色、绝对位置都可以变,只有它们的「身份」不变

模型常常盯着表面属性(颜色、形状),把「结构规则」误读成「外观统计」,导致迁移时幻觉规则

BabyVision-Gen

既然文本推理不够用,一个自然的想法:能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?

BabyVision-Gen 就是这个方向的尝试

从原基准中重新标注出 280 道适合「生成式作答」的题,要求模型输出图像或视频来表达解题过程

研究团队测了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径,下面这个是 Sora 的实现

这个,则是 NanoBanana 的


初步结论:生成式推理在视觉追踪、精细辨别等 VLM 易翻车的任务上,出现了「更像人类」的行为

模型会真的去画轨迹、做标注,但整体仍然缺乏稳定,无法做到完全正确

把视觉推理「落地到视觉操作」上,可能是补齐短板的一条路

xbench 是什么

这个我得仔细说说,和 xbench 的朋友们可太熟了,一堆有趣的逗比,新模型出来后,我总是先去找他们去问,这东西靠谱么

xbench 是红杉中国 2025 年 5 月发布的 AI 评测基准
这是全球首个由投资机构主导,核心设计是双轨评估体系

AGI Tracking
验证模型在特定能力维度的智能边界,题目追求「足够难、巧妙、有区分度」

Profession-Aligned
把 AI 系统当作数字员工,放在具体业务流程中考察效用价值

已经发布的评测集包括 ScienceQA(研究生水平学科知识)、DeepSearch(中文互联网深度搜索)、招聘和营销两个垂类场景

BabyVision 是 AGI Tracking 系列的新成员,专门测多模态的纯视觉能力

Demis Hassabis 说过一句话:大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中

BabyVision 就是把这个 gap 量化出来

xbench 的设计思路是 Evergreen Evaluation
持续维护、动态更新,每月汇报最新模型表现,每季度更新评估集

作为 AGI 赛道的投资者,红杉是有驱动力去要判断 AI 技术何时能达到市场可落地的阈值

传统评测集容易被刷爆,题目泄露导致过拟合,跟真实业务价值脱节,对于要投钱的事情,红杉更会以足够客观的方式去评估

开源地址

website:
https://xbench.org/

blog:
https://unipat.ai/blog/BabyVision

github:
https://github.com/UniPat-AI/BabyVision

huggingface:
https://huggingface.co/collections/UnipatAI/babyvision

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电池巨头再暴大雷!

电池巨头再暴大雷!

电动知家
2026-01-12 10:25:26
演员孙涛力挺闫学晶后续:抖音评论区彻底沦陷了,各种调侃他

演员孙涛力挺闫学晶后续:抖音评论区彻底沦陷了,各种调侃他

小徐讲八卦
2026-01-10 14:14:29
人财两空!广东宝妈梁海燕去世,因羊水栓塞导致,十天花费超50万

人财两空!广东宝妈梁海燕去世,因羊水栓塞导致,十天花费超50万

鋭娱之乐
2026-01-12 08:32:40
江苏省委批准,石旭涌、卢渊、胥亚伟、万利、陈羔履新

江苏省委批准,石旭涌、卢渊、胥亚伟、万利、陈羔履新

趣味八卦
2026-01-13 05:30:01
中戏新疆班毕业生出面证实,中戏2011级新疆班没有林傲霏

中戏新疆班毕业生出面证实,中戏2011级新疆班没有林傲霏

我就是个码字的
2026-01-12 17:30:25
原东航集团董事长刘绍勇多么爱作秀?非要每年开飞机过瘾!但如今却被指涉嫌受贿!应该没法出来了

原东航集团董事长刘绍勇多么爱作秀?非要每年开飞机过瘾!但如今却被指涉嫌受贿!应该没法出来了

新浪财经
2026-01-12 13:51:37
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
华为麒麟芯片产能爬坡,除了中芯国际,这4家配套商业绩弹性最大

华为麒麟芯片产能爬坡,除了中芯国际,这4家配套商业绩弹性最大

小白鸽财经
2026-01-12 20:30:03
商业航天首发星链,火箭、卫星、地面站全产业链6家核心供应商!

商业航天首发星链,火箭、卫星、地面站全产业链6家核心供应商!

小白鸽财经
2026-01-12 20:30:03
大涨日,加仓!

大涨日,加仓!

中国基金报
2026-01-12 15:15:48
别再吹海南免税了!7天12亿却遭网友吐槽,价格不香还宰客套路多

别再吹海南免税了!7天12亿却遭网友吐槽,价格不香还宰客套路多

你食不食油饼
2026-01-12 14:49:23
C罗现场目睹皇马负于巴萨,表情全程引关注

C罗现场目睹皇马负于巴萨,表情全程引关注

星耀国际足坛
2026-01-12 19:52:51
国家开始退钱了!从3月1日起,有人能领3万5,这笔钱别白白错过!

国家开始退钱了!从3月1日起,有人能领3万5,这笔钱别白白错过!

今朝牛马
2026-01-12 22:25:48
度日如年:三名皇家马德里球员是阿隆索下课的导火索

度日如年:三名皇家马德里球员是阿隆索下课的导火索

油泼辣不辣
2026-01-13 06:07:44
杜兰特23分火箭爆冷输7连败国王 阿门31+13申京复出遭隔扣

杜兰特23分火箭爆冷输7连败国王 阿门31+13申京复出遭隔扣

醉卧浮生
2026-01-12 12:30:05
全场轰5杆50+!赵心童四连鞭6-2轻松晋级,跻身大师赛八强

全场轰5杆50+!赵心童四连鞭6-2轻松晋级,跻身大师赛八强

全景体育V
2026-01-13 06:18:30
震惊!山东男篮大换血,邱彪让位,高诗岩能否逆袭?

震惊!山东男篮大换血,邱彪让位,高诗岩能否逆袭?

鲁源侃球
2026-01-13 06:00:03
成本骤降90%!商业航天电磁发射重大突破  10家隐形冠军深度卡位

成本骤降90%!商业航天电磁发射重大突破 10家隐形冠军深度卡位

元芳说投资
2026-01-11 06:00:11
每天一个水煮蛋是“死亡催化剂”?提醒:想健康吃蛋,5个错别犯

每天一个水煮蛋是“死亡催化剂”?提醒:想健康吃蛋,5个错别犯

健康科普365
2026-01-11 20:30:03
6800元买的古钱币,多年后同一家机构鉴定变“假货”?男子起诉卖家和鉴定机构,法院判决公布→

6800元买的古钱币,多年后同一家机构鉴定变“假货”?男子起诉卖家和鉴定机构,法院判决公布→

封面新闻
2026-01-13 00:37:07
2026-01-13 08:00:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
253文章数 12关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

医院施工不合格 监理白天要求拆除当晚被打折4根肋骨

头条要闻

医院施工不合格 监理白天要求拆除当晚被打折4根肋骨

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

亲子
艺术
手机
数码
旅游

亲子要闻

原来生气可以这么可爱的?傲娇宝宝:那可不咋滴!

艺术要闻

Andrew Festing:当代英国肖像画家

手机要闻

小米Air手机遗憾遭砍:完全对标iPhone Air!5.5mm支持实体卡+eSIM

数码要闻

微星推出PRO DP10 A14MG迷你主机,适配多场景且配置灵活

旅游要闻

刘金祥:冰雪节搭建中外互动新平台

无障碍浏览 进入关怀版