网易首页 > 网易号 > 正文 申请入驻

“几乎所有大模型,视觉能力都不如3岁小孩”

0
分享至

(文/万肇生 编辑/张广凯)

大模型的视觉处理能力虽不如语言推理那样惊艳,但一项最新的测试结果,仍显得十分残酷。

1月12日,红杉中国xbench携手UniPatAI团队对外发布全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力。

UniPatAI发布的技术论文显示,该评测集首轮测试的结果中,当前绝大多数顶尖多模态大模型的视觉任务表现,都要显著低于 3 岁儿童水平,仅仅有一款模型勉强超过3岁基线。


而出现体感上的如此巨大的反差,倒也好理解,主要是由于日常中模型强大的语言推理能力,掩盖了其视觉信息处理能力的不足。

通常情况下,大模型在面对图像问题时,会使用文字对问题进行描述。虽然视觉信息转为文字描述有局限性,但模型会通过强大的语言推理能力,来理解并解决视觉问题。然而需要注意的是,这并不是真正的视觉能力,而是一种基于文字信息的推理能力,因此当大模型一旦失去语言能力的加持,其在视觉信息处理中,短板就暴露无遗。

几乎在测模型都不如3岁小孩

基于此,UniPatAI团队成员们为用于首轮测试的BabyVision-Mini,设计了包含20道视觉中心任务,并严格控制语言依赖,所有题目答案均需完全依靠视觉信息得出。同时,团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童,作为对照组,进行测试。

其结果显示,大多数顶尖模型的得分集中在明显低于3岁儿童平均水平的区间。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距。


比如在BabyVision-Mini中一道垃圾分类连线题,要求将"塑料杯""废报纸""苹果核"分别通过路径连线到对应颜色的垃圾桶,正确答案为A-蓝、B-黄、C绿。

三岁儿童仅凭本能就能从起点沿线追踪至终点,轻松完成作答,而最强的Gemini3-Pro-Preview虽写下大段"逐段追踪"的推理过程,最终仍给出A-绿、B-黄、C-蓝的错误答案。


随后团队又将测试扩展到包含388道题目的全量BabyVision-Full评测,此时人类对照组的16位本科以上背景参与者,准确率已经高达94.1%。

而大模型方面,在Mini测试中,表现最佳的闭源模型Gemini3-Pro-Preview,此时准确率也仅为49.7%。开源模型中最强的Qwen3VL-235B-Thinking,则整体不足22.2%,而其他开源模型得分集中在12%-19%区间。

视觉能力的全方位不足

需要注意的是,UniPat AI的技术论文还特别指出,这不仅仅是大模型的单一方面不足,而是视觉能力的四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上的全方位不足,说明这是大模型基础视觉能力存在系统性缺失。


对此,团队统计出了模型主要面临四大典型挑战:

第一类挑战来自“非语言细节”的缺失。人类在处理拼图补全等任务时,能凭几何直觉直接感知边界对齐、微小凸起等像素级差异;而模型一旦将下图四个选项的形状描述为“像钩子、有两个腿”等语言概括,细微的视觉差异就被抹平,选项在token空间里变得“几乎一样”。



Gemini3-Pro-Preview这道题里选择了D,而非B。

第二类挑战就体现在轨迹追踪任务中,如上文的“垃圾分类”问题。人类是锁定一条线,并一路追到终点。而模型则会将翻译成“左/右/上/下”的离散步骤,难以保持统连续性。因此,一旦遇到交叉点,就容易产生路径分叉,导致从“跟随一条线”退化为“猜测终点”。

第三类系空间想象能力缺失。在三维方块计数、视角投影、遮挡结构判断等任务中,人类会在脑海中保持三维结构的形状,并变换视角进行判断,这是空间想象能力的体现。而模型依靠语言推理,但文字描述并非真实,最终导致漏掉隐藏块,搞错投影关系。



Gemini3在这里将图形高度按照数字进行标记,但错误将右侧竖列后排为4的积木忽略,最终计为前排平台的2,因此得到了错误答案C。

最后一大挑战则是图形规律归纳难题。此类题目要求从少量视觉示例中找规则。人类做的是关系映射,确定变化,而模型则会关注图像的颜色、形状等属性,将“结构规则”误读成“外观统计”,导致迁移时幻觉规则。



阿里千问在将图形拆解成8等分后,成功判断出棕色部分应该在顶部,然而却将C选项“看花眼”

对此,研究团队认为,造成大模型普遍超低评分的核心原因在于,测试集中有许多题目具有"unspeakable"(不可言说)的特性———即无法在不损失信息的情况下被完整语言化。

如此一来,人类只需要简单通过指一指、圈一圈、沿线路径追踪等直觉式方式解题,但模型必须将视觉信息压缩为token进行语言化处理,这一过程中,大量关键细节会丢失,最终导致推理失误。

然而这也不是没有办法。研究团队通过让视觉推理“落地到视觉操作”上,Sora2一笔一划,最终成功绘制了左上角鳄鱼的连线图像。


美中不足的是,Sora2也仅画对了鳄鱼这一条线,而其他模型则是一条线也没有成功。但或许未来通过让模型进行绘画、临摹等方式进行推理,可以恢复大模型的文字推理所缺失的能力。

因此该团队写道,“很难想象一个视觉能力低于3岁儿童的机器人,能够可靠地在真实物理世界里帮助人类”。团队认为,为了推动多模态智能的发展,未来的模型必须从根本上重建视觉能力,而非依赖语言推理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
阿隆索下课真相:伯纳乌的权力游戏,姆巴佩敢硬刚的底气是什么?

阿隆索下课真相:伯纳乌的权力游戏,姆巴佩敢硬刚的底气是什么?

澜归序
2026-01-14 00:40:31
昏君二十六岁,被斩于闹市

昏君二十六岁,被斩于闹市

《中国国家历史》
2026-01-13 20:11:09
复仇老鹰!湖人一战创2大神迹,詹姆斯轰31+9+10,东契奇队史第一

复仇老鹰!湖人一战创2大神迹,詹姆斯轰31+9+10,东契奇队史第一

老侃侃球
2026-01-14 13:56:13
格陵兰发达到什么水平?我去了才发现,差距真的太大

格陵兰发达到什么水平?我去了才发现,差距真的太大

娱乐八卦木木子
2026-01-07 15:14:07
44岁阿娇与43岁阿sa同框,一个脸肿一个纯天然,骨相皮相差距明显

44岁阿娇与43岁阿sa同框,一个脸肿一个纯天然,骨相皮相差距明显

艳儿说电影
2026-01-14 13:04:50
马云重金投入的机构立功了

马云重金投入的机构立功了

华尔街见闻官方
2026-01-13 18:20:56
赖清德开始转移家人,洪秀柱一锤定音,中方:台湾和委瑞内拉不同

赖清德开始转移家人,洪秀柱一锤定音,中方:台湾和委瑞内拉不同

傲傲讲历史
2026-01-14 13:26:46
湖人141-114力克老鹰 球员评价:4人满分,4人及格,克内克特低迷

湖人141-114力克老鹰 球员评价:4人满分,4人及格,克内克特低迷

篮球资讯达人
2026-01-14 13:56:34
儿童患癌越来越多!多名专家呼吁:这些东西少给孩子吃!危害大!

儿童患癌越来越多!多名专家呼吁:这些东西少给孩子吃!危害大!

一口娱乐
2026-01-11 09:38:18
苹果iPhone 18系列、Air2屏幕配置曝光,部分Face ID屏下化

苹果iPhone 18系列、Air2屏幕配置曝光,部分Face ID屏下化

IT之家
2026-01-14 13:54:15
被戴笠派往延安潜伏的沈之岳,在与毛主席接触时递上一支烟,这一细节让毛主席迅速警觉,直言 “此人有问题”

被戴笠派往延安潜伏的沈之岳,在与毛主席接触时递上一支烟,这一细节让毛主席迅速警觉,直言 “此人有问题”

史海孤雁
2026-01-01 23:25:09
金球奖这一夜,国际女星个个风情万种,但都被一位中国女星艳压了

金球奖这一夜,国际女星个个风情万种,但都被一位中国女星艳压了

八卦南风
2026-01-12 16:25:50
传统催收被AI干翻了? AI 讨债人上线,一天可拨打1000通电话!暴力催收也“AI”化

传统催收被AI干翻了? AI 讨债人上线,一天可拨打1000通电话!暴力催收也“AI”化

时代财经
2026-01-13 16:30:16
CCTV5直播!广东VS上海胜负难料,超级外援互不相让,杜锋冲4连胜

CCTV5直播!广东VS上海胜负难料,超级外援互不相让,杜锋冲4连胜

老叶评球
2026-01-13 21:44:01
曼联官宣44岁卡里克任临时主帅:带队至赛季结束 前2场踢曼城枪手

曼联官宣44岁卡里克任临时主帅:带队至赛季结束 前2场踢曼城枪手

风过乡
2026-01-14 05:21:46
林昀儒教练喊上瘾,张本智和退场,还喊一嗓子,气的张本扭头看他

林昀儒教练喊上瘾,张本智和退场,还喊一嗓子,气的张本扭头看他

时间巡查
2026-01-14 00:08:57
宝妈给娃买1699元羽绒服,被攻击居住条件差,不得不晒出自家豪宅

宝妈给娃买1699元羽绒服,被攻击居住条件差,不得不晒出自家豪宅

一口娱乐
2026-01-14 09:40:23
与黄晓明演对手戏,奥运冠军陈梦回应

与黄晓明演对手戏,奥运冠军陈梦回应

南方都市报
2026-01-14 10:31:15
1月起江苏部分独生子女家庭、退休人员,待遇将增长,有多少钱?

1月起江苏部分独生子女家庭、退休人员,待遇将增长,有多少钱?

阿纂看事
2026-01-14 09:21:41
2026-01-14 14:32:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
132294文章数 1849672关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

沪深北交易所提高融资保证金比例

汽车要闻

曝Model Y或降到20万以内!

态度原创

房产
家居
亲子
时尚
军事航空

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

家居要闻

心之所向 现代建构之美

亲子要闻

“为什么妈妈明明很爱我 却一到辅导作业的时候就很凶”妈妈也在学着怎么去当妈妈

【年度爱用】她们2025年买得最值的,是这些

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版