网易首页 > 网易号 > 正文 申请入驻

最新研究:当AI脱离语言,最强大模型视觉测试全输给学前儿童!

0
分享至

如果你觉得多模态大模型已经“什么都会了”,Gemini 、ChatGPT 智商已经超越人类了,那这篇论文可能会给你泼一盆冷水。

日前,一篇来自arXiv 题为《BabyVision:超越语言的视觉推理》的论文给出了一个惊人的结论:如果完全不依赖语言,只考最基础的视觉能力,今天最强多模态大模型的表现,还不如三岁小孩。


该篇论文作者为 梁晨等来自 UniPat AI、北京大学、清华大学、阿里巴巴、普林斯顿等的 29 名研究员。

他们给这个研究方向设计了一个新基准,名字叫 BabyVision。

顾名可思义,考的不是博士级的复杂推理,而是人类在学会说话之前就已经具备的视觉能力。

过去一年,多模态模型在各种榜单上进步飞快,做数学题、看图写代码、理解专业图表,甚至在一些大学、博士水平的测试中超过普通人。

但作者指出,这些测试几乎都有一个共同点,高度依赖语言、知识和文本推理。

于是他们反过来做了一件事,把语言和知识全部剥离,只剩下视觉本身。

BabyVision 一共只有 388 道题,规模不大,但设计得非常克制。

问题文本被压缩到极短,平均只有二十多字,不需要任何背景知识。

题目分布在四类最基础的视觉能力上:细微差异的辨别、视觉路径追踪、空间关系判断,以及图形和模式识别。


换句话说,就是“哪个更大”、“线走到哪里”、“这个形状转一下会变成什么”、“规律下一格是什么”等,这一类问题。

为了避免“文字投机”,作者在数据构建阶段专门过滤了所有可能通过语言猜答案的样本,甚至还请人反复验证:如果遮住题目文字,只看图,人类是否仍然可以完成判断。

作为对照,他们不仅测了模型,还测了人。

测试对象包括 3 岁、6 岁、10 岁、12 岁的儿童,以及成年人。

结果是,人类的表现,几乎是压倒性的。

数据显示:成年人在 BabyVision 上的平均正确率是 94.1%;6 岁儿童已经可以稳定超过 70%。

而当前表现最好的多模态模型,得分只有 49.7%。


而且,这还不是“平均模型”,而是作者测试中最强的那一个Gemini3-Pro-Preview。

换句话说,在这些不需要语言、只需要“看懂”的任务上,最先进的多模态大模型,整体水平还低于学龄前儿童。

更残酷的是,模型的弱点并不是集中在某一类题型上,而是系统性的。

论文展示了大量错误案例。

比如分不清细微形状差别、无法连续追踪一条曲线,比如在二维图像中构建错误的三维关系,或者完全误判一个简单的视觉规律。


分析原因,作者认为,问题并不只是模型“没训练够”,而是当前多模态架构本身存在结构性瓶颈。

他们认为,大多数多模态模型的工作方式,本质上是“先看图,再把视觉信息压缩成语言 token,然后在语言空间里思考”。

这个过程在面对知识型问题时很高效,但对基础视觉任务是致命的。

因为图片细节在压缩过程中会丢失,连续结构会被打断,空间关系会被离散化,最终导致模型“会说,但看不清”。



为了验证是不是“语言这一步”限制了能力,论文还提出了一个扩展实验,叫 BabyVision-Gen。

在这个设置中,模型不需要用文字回答,而是直接在图像上生成答案,比如画出正确路径、圈出不同区域。

结果显示,在少数任务上,生成式视觉输出确实能略微改善表现,但整体差距依然巨大。

这也让论文的结论显得更加清晰,即当前多模态模型在“像人一样看”这件事上,远没有达到人类水平,哪怕人类还没学会说话。

要知道,人类与世界的沟通,先有视觉后有语言,比如婴儿几个月大就能辨别形状、追踪物体。

但大模型在最基础的视觉感知上近乎的“失明”表现说明,它们并非真正“看见”了图像, 而是在用语言知识“猜测”答案。

抱着治病救人的态度,研究团队还尝试基于可验证奖励的强化学习(RLVR) , 对Qwen3-VL-8B-Thinking 进行训练,来为大模型进行补救。

结果表明,准确率从 13.1% 提升 4.8 个百分点,到了 17.9%,但距离人类水平仍然遥不可及。


这表明,视觉能力的根本缺陷很难通过后训练弥补,而可能需要架构层面的创新。

但这篇论文的价值,不在于否定多模态模型的进步,而是对多模态的发展路径提出了条新的思考路径。

论文明确指出,想要缩小人与模型之间的差距,靠堆数据、堆语言推理很可能不够,必须重新思考视觉表征、连续空间建模,以及视觉与推理之间的连接方式。

论文地址为:

https://arxiv.org/pdf/2601.06521v1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

发现新西兰
2026-01-20 11:20:02
回顾:2013年成都一场上门女婿霸占岳母引发的荒唐伦理惨剧

回顾:2013年成都一场上门女婿霸占岳母引发的荒唐伦理惨剧

谈史论天地
2026-01-21 14:45:03
流落中国的外国公主,如今拒绝回国:我是中国人,中国就是我的家

流落中国的外国公主,如今拒绝回国:我是中国人,中国就是我的家

鹤羽说个事
2026-01-05 11:05:27
向华炎葬礼:俩儿子送别,77岁向华强绑麻布,孙女在灵堂笑惹争议

向华炎葬礼:俩儿子送别,77岁向华强绑麻布,孙女在灵堂笑惹争议

古希腊掌管月桂的神
2026-01-20 14:17:59
确认了!常州一家西贝闭店!已有人收到短信

确认了!常州一家西贝闭店!已有人收到短信

中吴网
2026-01-21 23:12:22
新一轮雨雪即将抵达武汉

新一轮雨雪即将抵达武汉

鲁中晨报
2026-01-21 15:11:45
美国迈阿密“酒吧黑寡妇”落网,连环下药洗劫多名男子,面临十项指控

美国迈阿密“酒吧黑寡妇”落网,连环下药洗劫多名男子,面临十项指控

扬子晚报
2026-01-21 23:26:42
具备组织能力的顶级投手!公牛后场大将简直是轻松打爆了快船?

具备组织能力的顶级投手!公牛后场大将简直是轻松打爆了快船?

稻谷与小麦
2026-01-21 23:46:07
打球真干净!作为快船首发大中锋,祖巴茨已连续两场比赛0犯规

打球真干净!作为快船首发大中锋,祖巴茨已连续两场比赛0犯规

大眼瞄世界
2026-01-21 22:36:27
河北孟村杀妻案二审后续,刘家人拿到满意的结果

河北孟村杀妻案二审后续,刘家人拿到满意的结果

九方鱼论
2026-01-21 05:51:44
GE 旋转爆轰引擎试车成功,美军导弹要告别 “笨重助推器”?

GE 旋转爆轰引擎试车成功,美军导弹要告别 “笨重助推器”?

航空之家Aviation
2026-01-20 18:55:15
汉武帝为什么要阉了司马迁?真相揭开后,感叹:换你也要阉

汉武帝为什么要阉了司马迁?真相揭开后,感叹:换你也要阉

谈史论天地
2026-01-21 17:20:03
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
李湘前夫,锒铛入狱!

李湘前夫,锒铛入狱!

LULU生活家
2026-01-21 14:36:09
女友嫌我家穷提出分手,15年后,我就任市委书记,在聚会上遇见她

女友嫌我家穷提出分手,15年后,我就任市委书记,在聚会上遇见她

红豆讲堂
2025-12-13 10:20:07
A股:今天冲到4135后反复跳水,种种迹象表明,明天或迎更大级别行情

A股:今天冲到4135后反复跳水,种种迹象表明,明天或迎更大级别行情

股市皆大事
2026-01-21 15:28:03
特朗普执意要得到 格陵兰岛欧洲多国愈发不满

特朗普执意要得到 格陵兰岛欧洲多国愈发不满

每日经济新闻
2026-01-21 23:40:22
澳网第5比赛日看点:王欣瑜战前法网冠军,德约辛纳冲击32强

澳网第5比赛日看点:王欣瑜战前法网冠军,德约辛纳冲击32强

全景体育V
2026-01-21 18:47:38
梁小龙被封杀原因曝光!血战平安大厦:1人打十多名刀手,重伤4人

梁小龙被封杀原因曝光!血战平安大厦:1人打十多名刀手,重伤4人

小娱乐悠悠
2026-01-20 10:15:42
日本学生利用Grok脱衣同班女生 现担心面临刑事责任

日本学生利用Grok脱衣同班女生 现担心面临刑事责任

3DM游戏
2026-01-20 15:06:47
2026-01-22 00:08:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
419文章数 38关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

西安高校创始人两女儿争继承权 判完才发现公证书造假

头条要闻

西安高校创始人两女儿争继承权 判完才发现公证书造假

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

家居
房产
时尚
数码
军事航空

家居要闻

褪去浮华 触达松弛与欣喜

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

缔造仙女梦的人,去了天堂继续缝制星光✨

数码要闻

三折叠电视来了!保时捷亲手操刀,开启高端市场「形态战」

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版