网易首页 > 网易号 > 正文 申请入驻

“几乎所有大模型,视觉能力都不如3岁小孩”

0
分享至

(文/万肇生 编辑/张广凯)

大模型的视觉处理能力虽不如语言推理那样惊艳,但一项最新的测试结果,仍显得十分残酷。

1月12日,红杉中国xbench携手UniPatAI团队对外发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力。

UniPatAI发布的技术论文显示,该评测集首轮测试的结果中,当前绝大多数顶尖多模态大模型的视觉任务表现,都要显著低于 3 岁儿童水平,仅仅有一款模型勉强超过3岁基线。


而出现体感上的如此巨大的反差,倒也好理解,主要是由于日常中模型强大的语言推理能力,掩盖了其视觉信息处理能力的不足。

通常情况下,大模型在面对图像问题时,会使用文字对问题进行描述。虽然视觉信息转为文字描述有局限性,但模型会通过强大的语言推理能力,来理解并解决视觉问题。然而需要注意的是,这并不是真正的视觉能力,而是一种基于文字信息的推理能力,因此当大模型一旦失去语言能力的加持,其在视觉信息处理中,短板就暴露无遗。

几乎在测模型都不如3岁小孩

基于此,UniPatAI团队成员们为用于首轮测试的BabyVision-Mini,设计了包含20道视觉中心任务,并严格控制语言依赖,所有题目答案均需完全依靠视觉信息得出。同时,团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童,作为对照组,进行测试。

其结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距。


比如在BabyVision-Mini中一道垃圾分类连线题,要求将"塑料杯""废报纸""苹果核"分别通过路径连线到对应颜色的垃圾桶,正确答案为A-蓝、B-黄、C绿。

三岁儿童仅凭本能就能从起点沿线追踪至终点,轻松完成作答,而最强的Gemini3-Pro-Preview虽写下大段"逐段追踪"的推理过程,最终仍给出A-绿、B-黄、C-蓝的错误答案。


随后团队又将测试扩展到包含388道题目的全量BabyVision-Full评测,此时人类对照组的16位本科以上背景参与者,准确率已经高达94.1%。

而大模型方面,在Mini测试中,表现最佳的闭源模型Gemini3-Pro-Preview,此时准确率也仅为49.7%。开源模型中最强的Qwen3VL-235B-Thinking,则整体不足22.2%,而其他开源模型得分集中在12%-19%区间。

视觉能力的全方位不足

需要注意的是,UniPat AI的技术论文还特别指出,这不仅仅是大模型的单一方面不足,而是视觉能力的四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上的全方位不足,说明这是大模型基础视觉能力存在系统性缺失。


对此,团队统计出了模型主要面临四大典型挑战:

第一类挑战来自“非语言细节”的缺失。人类在处理拼图补全等任务时,能凭几何直觉直接感知边界对齐、微小凸起等像素级差异;而模型一旦将下图四个选项的形状描述为“像钩子、有两个腿”等语言概括,细微的视觉差异就被抹平,选项在token空间里变得“几乎一样”。



Gemini3-Pro-Preview这道题里选择了D,而非B。

第二类挑战就体现在轨迹追踪任务中,如上文的“垃圾分类”问题。人类是锁定一条线,并一路追到终点。而模型则会将翻译成“左/右/上/下”的离散步骤,难以保持统连续性。因此,一旦遇到交叉点,就容易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”。

第三类系空间想象能力缺失。在三维方块计数、视角投影、遮挡结构判断等任务中,人类会在脑海中保持三维结构的形状,并变换视角进行判断,这是空间想象能力的体现。而模型依靠语言推理,但文字描述并非真实,最终导致漏掉隐藏块,搞错投影关系。



Gemini3在这里将图形高度按照数字进行标记,但错误将右侧竖列后排为4的积木忽略,最终计为前排平台的2,因此得到了错误答案C。

最后一大挑战则是图形规律归纳难题。此类题目要求从少量视觉示例中找规则。人类做的是关系映射,确定变化,而模型则会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则。



阿里千问在将图形拆解成8等分后,成功判断出棕色部分应该在顶部,然而却将C选项“看花眼”

对此,研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中有许多题目具有"unspeakable"(不可言说)的特性———即无法在不损失信息的情况下被完整语言化。

如此一来,人类只需要简单通过指一指、圈一圈、沿线路径追踪等直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,这一过程中,大量关键细节会丢失,最终导致推理失误。

然而这也不是没有办法。研究团队通过让视觉推理“落地到视觉操作”上,Sora2一笔一划,最终成功绘制了左上角鳄鱼的连线图像。


美中不足的是,Sora2也仅画对了鳄鱼这一条线,而其他模型则是一条线也没有成功。但或许未来通过让模型进行绘画、临摹等方式进行推理,可以恢复大模型的文字推理所缺失的能力。

因此该团队写道,“很难想象一个视觉能力低于3岁儿童的机器人,能够可靠地在真实物理世界里帮助人类”。团队认为,为了推动多模态智能的发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

每一次点击
2026-02-22 12:02:41
一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

一男子失业拿了50万赔偿回村里,逢人说欠了30万外债,谁料第二天叔伯兄弟,都上门来“送温暖”了

不二大叔
2026-03-19 21:29:20
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

美军司令:一旦台海战争打响,6个航母战斗群2个陆战师将全都出动

混沌录
2026-03-24 22:31:03
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
特写|“反霸权、反帝国主义”——委内瑞拉民众要求美国释放马杜罗

特写|“反霸权、反帝国主义”——委内瑞拉民众要求美国释放马杜罗

新华社
2026-03-26 17:09:03
新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

新冠后遗症对人体的最大影响,很多人深受其害,有些人还不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
公积金新调整!4月1日起,职工可自愿提高缴存比例

公积金新调整!4月1日起,职工可自愿提高缴存比例

另子维爱读史
2026-03-25 22:28:47
S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

S家发威了!大S律师已报警,官方出手,张兰律师怒斥,牵连马筱梅

小舟谈历史
2026-03-26 15:44:38
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
800亿!泉州首富家族,太可怕了

800亿!泉州首富家族,太可怕了

深蓝财经
2026-03-26 18:58:45
中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

南权先生
2026-03-24 15:30:39
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
国家规定可以配枪的十大执法部门

国家规定可以配枪的十大执法部门

微法官
2026-03-26 08:04:55
奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

奇瑞回应48%热效率争议,顺带下战书:定会做成,油耗低至1L

明镜pro
2026-03-26 09:22:44
1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

1958年,江青前夫去世,临终前嘴里不断喊着:江青是什么人?

明月清风阁
2026-03-25 16:30:09
突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
2026-03-27 01:12:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
137362文章数 1850283关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
家居
教育
亲子
军事航空

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

家居要闻

傍海而居 静观蝴蝶海

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

亲子要闻

看看把孩子吓得哈哈哈

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版