红杉中国 xbench 和 UniPat AI 发了一个新的多模态评测集,叫 BabyVision,在这里:
核心发现:当前最强的多模态模型,在纯视觉任务上的得分,普遍低于3岁儿童
人类准确率 94.1%
而在模型当中,Gemini 3 Pro Preview 最高,49.7%
大多数模型,则在 12-22% 区间
![]()
这个评测的设计思路有点意思,和大家分享一下
先看一道题
三件物品,沿着线分别连到哪个颜色垃圾桶?
![]()
正确答案:A-蓝,B-黄,C-绿
Gemini 3 Pro Preview 的错误答案:A-绿,B-黄,C-蓝
人类怎么做这道题?从点出发,沿着线走到终点
三岁小孩用手指头比划一下就能做对
![]()
模型怎么做?输出一大段的推理过程,看起来很牛逼,但最后还是搞错了
最顶尖的模型,在最基础的视觉追踪上,一败涂地
这个评测在测什么
BabyVision 把视觉能力拆成了4大类,共22个子任务
![]()
精细辨别
分辨细微的视觉差异,比如找不同、补全拼图、数相同图案,共 8 个子任务
视觉追踪
跟随路径、线条与运动轨迹,比如走迷宫、连线、地铁图找站,共 5 个子任务
空间感知
理解三维结构,比如数方块、视角投影、折纸展开图,共 5 个子任务
视觉模式识别
识别逻辑与几何规律,比如旋转规律、镜像规律、逻辑推理,共 4 个子任务
这套测试有一个核心设计原则:严格控制语言依赖
题目要求很简单,答案必须靠视觉信息本身得出
如果一道视觉题可以完全用文字描述且不丢信息,它本质上就会退化成文本题,模型可以靠语言推理能力一路通关
BabyVision 要测的是:当语言帮不上忙的时候,模型还能不能「看懂」
然后结果就是:在BabyVision‑Full上,16 位至少本科背景的测试者完成全量 388 题,人类准确率达 94.1%,大多数模型只在 12~19%之间,具体如下
![]()
为什么模型会翻车
研究团队用了一个词:unspeakable
这些视觉题无法在不损失信息的情况下被完整语言化
模型试图把视觉压缩成 token,细节在压缩中消失
4类典型挑战:
挑战 1:「非语言细节」(Observing Non-Verbal Details)
![]()
拼图/补全题里,选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位
人类凭几何直觉,就能秒选
模型一旦把形状用语言概括成「像钩子、两个腿、差不多七八个六边形」,细节就被抹平,选项在 token 空间里变得几乎一样
挑战 2:追线追丢了(Manifold Understanding)
![]()
对于连线/绕线/轨迹之类的题,人类会始终锁定一条线,穿过交叉,一路追到终点
模型往往把线翻译成左/右/上/下的离散步骤,一遇到交叉点就出现分叉爆炸,容易换轨追错线
挑战 3:缺少真正的空间想象(Spatial Imagination)
![]()
三维方块计数、视角投影、遮挡下的结构判断
人类通常是把结构在脑中立起来,换个角度看,再数
模型容易犯两类错误:漏掉隐藏块、投影关系搞错
所以嘛,大模型目前还是缺少稳定的 3D 内部表征与变换能力
挑战 4:图形规律归纳难(Visual Pattern Induction)
![]()
这类题,要求从少量视觉示例里抽象出规则,再迁移到新图
人类做的是关系映射,真正决定正确性的是「发生了什么变化」,具体的形状、颜色、绝对位置都可以变,只有它们的「身份」不变
模型常常盯着表面属性(颜色、形状),把「结构规则」误读成「外观统计」,导致迁移时幻觉规则
BabyVision-Gen
既然文本推理不够用,一个自然的想法:能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?
BabyVision-Gen 就是这个方向的尝试
从原基准中重新标注出 280 道适合「生成式作答」的题,要求模型输出图像或视频来表达解题过程
研究团队测了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径,下面这个是 Sora 的实现
这个,则是 NanoBanana 的
![]()
初步结论:生成式推理在视觉追踪、精细辨别等 VLM 易翻车的任务上,出现了「更像人类」的行为
模型会真的去画轨迹、做标注,但整体仍然缺乏稳定,无法做到完全正确
把视觉推理「落地到视觉操作」上,可能是补齐短板的一条路
xbench 是什么
这个我得仔细说说,和 xbench 的朋友们可太熟了,一堆有趣的逗比,新模型出来后,我总是先去找他们去问,这东西靠谱么
xbench 是红杉中国 2025 年 5 月发布的 AI 评测基准
这是全球首个由投资机构主导,核心设计是双轨评估体系:
AGI Tracking
验证模型在特定能力维度的智能边界,题目追求「足够难、巧妙、有区分度」
Profession-Aligned
把 AI 系统当作数字员工,放在具体业务流程中考察效用价值
已经发布的评测集包括 ScienceQA(研究生水平学科知识)、DeepSearch(中文互联网深度搜索)、招聘和营销两个垂类场景
BabyVision 是 AGI Tracking 系列的新成员,专门测多模态的纯视觉能力
Demis Hassabis 说过一句话:大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中
BabyVision 就是把这个 gap 量化出来
xbench 的设计思路是 Evergreen Evaluation
持续维护、动态更新,每月汇报最新模型表现,每季度更新评估集
作为 AGI 赛道的投资者,红杉是有驱动力去要判断 AI 技术何时能达到市场可落地的阈值
传统评测集容易被刷爆,题目泄露导致过拟合,跟真实业务价值脱节,对于要投钱的事情,红杉更会以足够客观的方式去评估
开源地址
website:https://xbench.org/
blog:https://unipat.ai/blog/BabyVision
github:https://github.com/UniPat-AI/BabyVision
huggingface:https://huggingface.co/collections/UnipatAI/babyvision
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.