网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

最新研究:当AI脱离语言，最强大模型视觉测试全输给学前儿童！

2026-01-21 07:44:55　来源: AI先锋官

北京举报

0

分享至

如果你觉得多模态大模型已经“什么都会了”，Gemini 、ChatGPT 智商已经超越人类了，那这篇论文可能会给你泼一盆冷水。

日前，一篇来自arXiv 题为《BabyVision：超越语言的视觉推理》的论文给出了一个惊人的结论：如果完全不依赖语言，只考最基础的视觉能力，今天最强多模态大模型的表现，还不如三岁小孩。

该篇论文作者为梁晨等来自 UniPat AI、北京大学、清华大学、阿里巴巴、普林斯顿等的 29 名研究员。

他们给这个研究方向设计了一个新基准，名字叫 BabyVision。

顾名可思义，考的不是博士级的复杂推理，而是人类在学会说话之前就已经具备的视觉能力。

过去一年，多模态模型在各种榜单上进步飞快，做数学题、看图写代码、理解专业图表，甚至在一些大学、博士水平的测试中超过普通人。

但作者指出，这些测试几乎都有一个共同点，高度依赖语言、知识和文本推理。

于是他们反过来做了一件事，把语言和知识全部剥离，只剩下视觉本身。

BabyVision 一共只有 388 道题，规模不大，但设计得非常克制。

问题文本被压缩到极短，平均只有二十多字，不需要任何背景知识。

题目分布在四类最基础的视觉能力上：细微差异的辨别、视觉路径追踪、空间关系判断，以及图形和模式识别。

换句话说，就是“哪个更大”、“线走到哪里”、“这个形状转一下会变成什么”、“规律下一格是什么”等，这一类问题。

为了避免“文字投机”，作者在数据构建阶段专门过滤了所有可能通过语言猜答案的样本，甚至还请人反复验证：如果遮住题目文字，只看图，人类是否仍然可以完成判断。

作为对照，他们不仅测了模型，还测了人。

测试对象包括 3 岁、6 岁、10 岁、12 岁的儿童，以及成年人。

结果是，人类的表现，几乎是压倒性的。

数据显示：成年人在 BabyVision 上的平均正确率是 94.1%；6 岁儿童已经可以稳定超过 70%。

而当前表现最好的多模态模型，得分只有 49.7%。

而且，这还不是“平均模型”，而是作者测试中最强的那一个Gemini3-Pro-Preview。

换句话说，在这些不需要语言、只需要“看懂”的任务上，最先进的多模态大模型，整体水平还低于学龄前儿童。

更残酷的是，模型的弱点并不是集中在某一类题型上，而是系统性的。

论文展示了大量错误案例。

比如分不清细微形状差别、无法连续追踪一条曲线，比如在二维图像中构建错误的三维关系，或者完全误判一个简单的视觉规律。

分析原因，作者认为，问题并不只是模型“没训练够”，而是当前多模态架构本身存在结构性瓶颈。

他们认为，大多数多模态模型的工作方式，本质上是“先看图，再把视觉信息压缩成语言 token，然后在语言空间里思考”。

这个过程在面对知识型问题时很高效，但对基础视觉任务是致命的。

因为图片细节在压缩过程中会丢失，连续结构会被打断，空间关系会被离散化，最终导致模型“会说，但看不清”。

为了验证是不是“语言这一步”限制了能力，论文还提出了一个扩展实验，叫 BabyVision-Gen。

在这个设置中，模型不需要用文字回答，而是直接在图像上生成答案，比如画出正确路径、圈出不同区域。

结果显示，在少数任务上，生成式视觉输出确实能略微改善表现，但整体差距依然巨大。

这也让论文的结论显得更加清晰，即当前多模态模型在“像人一样看”这件事上，远没有达到人类水平，哪怕人类还没学会说话。

要知道，人类与世界的沟通，先有视觉后有语言，比如婴儿几个月大就能辨别形状、追踪物体。

但大模型在最基础的视觉感知上近乎的“失明”表现说明，它们并非真正“看见”了图像, 而是在用语言知识“猜测”答案。

抱着治病救人的态度，研究团队还尝试基于可验证奖励的强化学习（RLVR），对Qwen3-VL-8B-Thinking 进行训练，来为大模型进行补救。

结果表明，准确率从 13.1% 提升 4.8 个百分点，到了 17.9%，但距离人类水平仍然遥不可及。

这表明，视觉能力的根本缺陷很难通过后训练弥补，而可能需要架构层面的创新。

但这篇论文的价值，不在于否定多模态模型的进步，而是对多模态的发展路径提出了条新的思考路径。

论文明确指出，想要缩小人与模型之间的差距，靠堆数据、堆语言推理很可能不够，必须重新思考视觉表征、连续空间建模，以及视觉与推理之间的连接方式。

论文地址为：

https://arxiv.org/pdf/2601.06521v1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

从平面几何出发：形式化验证如何驱动MLLM的推理能力跃迁

机器之心Pro 2026-01-20 19:17:51
0 跟贴 0
当豆包“看懂”毕加索：一次美术馆的AI解说实验，如何成为多模态竞争的试金石？

每日经济新闻 2026-01-21 22:03:07
0 跟贴 0

非Transformer架构新突破，液态神经网络推理小模型只用900M内存

机器之心Pro 2026-01-21 18:08:27
3 跟贴 3

DeepSeek-R2要来了？

新智元 2026-01-21 09:57:59
66 跟贴 66
0元自制曲线锯！效果秒杀专业

热爱工作的王总 2026-01-18 05:14:28
7 跟贴 7

这些生活冷知识，99%的人不知道，看完瞬间涨知识！

汤细目生活 2026-01-20 09:02:32
0 跟贴 0

信访难题如何破局？实战案例揭秘舆情黄金4小时

周兆成律师 2026-01-21 21:55:21
0 跟贴 0
为什么家里不能安监控，看完涨知识了！

小雨和雄大 2026-01-21 07:41:32
0 跟贴 0

三维地图讲解——唐昭宗从削藩到软禁，及唐朝末代皇帝的悲歌

地图里的历史 2026-01-19 14:45:49
7 跟贴 7
学术海报不用愁，一句话精准自动编辑，华东师大开源APEX

新智元 2026-01-21 15:06:27
0 跟贴 0
论文图片遭受质疑，作者尝试重复研究来补救，耗时两年后终被撤稿

医咖会 2026-01-21 19:36:49
0 跟贴 0
全球大学排名。浙江大学排第一，哈佛第三

少女百褶脸 2026-01-20 00:30:38
1 跟贴 1
想要保研，绩点重要还是竞赛论文重要？

陈晟老师课堂 2026-01-20 08:20:46
1 跟贴 1
正大杯|常用理论模型介绍

石头的碎碎念 2026-01-19 02:35:09
0 跟贴 0
一千多个模型都指向一个通用子空间

机器之心Pro 2025-12-16 18:23:47
0 跟贴 0
索尼宣布将剥离电视机业务，与中国TCL成立合资公司，TCL持股51%

鲁中晨报 2026-01-20 21:47:04
4069 跟贴 4069
你的论文正在攻击你的老师写论文，哪有不疯的呢

娱乐大神ou 2026-01-21 18:07:14
0 跟贴 0
函数建模求长度最值，这个思路太妙啦！

大鹏老师讲数学 2026-01-20 05:07:00
0 跟贴 0
函数建模解几何难题，不容易想到！

大鹏老师讲数学 2026-01-18 05:17:00
0 跟贴 0
SCI论文背后，是一个亚专科的“长期主义”

湘潭市中心医院 2026-01-21 17:54:27
0 跟贴 0
五官立体就是好看吗？听完蒙主分析后，涨知识了

我很乖 2026-01-19 03:19:24
6 跟贴 6
初中数学动点最值经典题型

天天数理学习分享 2026-01-19 10:28:39
4 跟贴 4
中科大实现多尺度结构逆向设计128倍加速，登上Nature子刊

机器之心Pro 2026-01-21 18:14:48
0 跟贴 0
江敦涛，被罢免

新京报政事儿 2026-01-21 09:13:31
208 跟贴 208
激光雷达VS纯视觉，暴雨暴雪雾天实测，特斯拉FSD直接上答案

日常逗趣集 2026-01-20 11:34:43
1 跟贴 1
马克龙喊话中国对欧增加投资外交部回应

澎湃新闻 2026-01-21 15:40:55
21 跟贴 21
微信15年：从聊天到生态，微信如何一步步成为「超级平台」？

雷科技 2026-01-21 21:37:20
0 跟贴 0
广东三地市新任命副市长

南方都市报 2026-01-21 13:24:05
55 跟贴 55
孟加拉虎 3D 模型 DIY

制造科技 2026-01-21 19:51:40
0 跟贴 0
网友呼吁为贺娇龙立塑像，新疆日报发文回应

新京报 2026-01-21 15:24:22
872 跟贴 872
流量生态巨变，保险营销的下半场

虎嗅APP 2026-01-21 20:55:08
0 跟贴 0
那些看不见的习惯，决定了看得见的分数

教育思享 2026-01-21 18:50:28
0 跟贴 0
魔兽设计师都被吓到了！亲手转发史上最牛的创意，看完你也说牛B

魔兽世界研究所 2026-01-21 19:41:29
1 跟贴 1
女生拍照时动作滑稽，但最终成片效果绝美，网友：关键还得看建模

星沙时报 2026-01-21 14:19:03
0 跟贴 0
三维搅拌器有多神奇？

海星放映厅 2026-01-17 14:12:55
8 跟贴 8
城市公园惊现鳄鱼，游客误认是模型，结果吓得众人腿软

嘻哈搞笑局 2026-01-19 00:00:00
0 跟贴 0
河南拟调整分时电价

大象新闻 2026-01-21 11:33:03
137 跟贴 137
深圳官方明确：中小学期末不统考！

南方都市报 2026-01-21 19:21:23
0 跟贴 0
算得快、算得准 | 鲁班智能算量大师（土建）2026重磅发布！

鲁班软件_lubansoft 2026-01-21 17:59:32
0 跟贴 0
德方数据显示：中国机床出口超过德国跃居全球首位

财联社 2026-01-21 10:19:06
87 跟贴 87

密密麻麻全是佛像！新西兰华人买下海景大房后，爆改后院，邻居看傻

密密麻麻全是佛像！新西兰华人买下海景大房后，爆改后院，邻居看傻

发现新西兰

2026-01-20 11:20:02

回顾：2013年成都一场上门女婿霸占岳母引发的荒唐伦理惨剧

回顾：2013年成都一场上门女婿霸占岳母引发的荒唐伦理惨剧

谈史论天地

2026-01-21 14:45:03

流落中国的外国公主，如今拒绝回国：我是中国人，中国就是我的家

流落中国的外国公主，如今拒绝回国：我是中国人，中国就是我的家

鹤羽说个事

2026-01-05 11:05:27

向华炎葬礼：俩儿子送别，77岁向华强绑麻布，孙女在灵堂笑惹争议

向华炎葬礼：俩儿子送别，77岁向华强绑麻布，孙女在灵堂笑惹争议

古希腊掌管月桂的神

2026-01-20 14:17:59

确认了！常州一家西贝闭店！已有人收到短信

确认了！常州一家西贝闭店！已有人收到短信

中吴网

2026-01-21 23:12:22

新一轮雨雪即将抵达武汉

鲁中晨报

2026-01-21 15:11:45

美国迈阿密“酒吧黑寡妇”落网，连环下药洗劫多名男子，面临十项指控

美国迈阿密“酒吧黑寡妇”落网，连环下药洗劫多名男子，面临十项指控

扬子晚报

2026-01-21 23:26:42

具备组织能力的顶级投手！公牛后场大将简直是轻松打爆了快船？

具备组织能力的顶级投手！公牛后场大将简直是轻松打爆了快船？

稻谷与小麦

2026-01-21 23:46:07

打球真干净！作为快船首发大中锋，祖巴茨已连续两场比赛0犯规

打球真干净！作为快船首发大中锋，祖巴茨已连续两场比赛0犯规

大眼瞄世界

2026-01-21 22:36:27

河北孟村杀妻案二审后续，刘家人拿到满意的结果

河北孟村杀妻案二审后续，刘家人拿到满意的结果

九方鱼论

2026-01-21 05:51:44

GE 旋转爆轰引擎试车成功，美军导弹要告别 “笨重助推器”？

GE 旋转爆轰引擎试车成功，美军导弹要告别 “笨重助推器”？

航空之家Aviation

2026-01-20 18:55:15

汉武帝为什么要阉了司马迁？真相揭开后，感叹：换你也要阉

汉武帝为什么要阉了司马迁？真相揭开后，感叹：换你也要阉

谈史论天地

2026-01-21 17:20:03

高峰也没想到，他当年抛弃的儿子，如今开始给那英争光了

高峰也没想到，他当年抛弃的儿子，如今开始给那英争光了

趣文说娱

2026-01-04 16:34:24

李湘前夫，锒铛入狱！

LULU生活家

2026-01-21 14:36:09

女友嫌我家穷提出分手，15年后，我就任市委书记，在聚会上遇见她

女友嫌我家穷提出分手，15年后，我就任市委书记，在聚会上遇见她

红豆讲堂

2025-12-13 10:20:07

A股:今天冲到4135后反复跳水,种种迹象表明,明天或迎更大级别行情

A股:今天冲到4135后反复跳水,种种迹象表明,明天或迎更大级别行情

股市皆大事

2026-01-21 15:28:03

特朗普执意要得到格陵兰岛欧洲多国愈发不满

特朗普执意要得到格陵兰岛欧洲多国愈发不满

每日经济新闻

2026-01-21 23:40:22

澳网第5比赛日看点：王欣瑜战前法网冠军，德约辛纳冲击32强

澳网第5比赛日看点：王欣瑜战前法网冠军，德约辛纳冲击32强

全景体育V

2026-01-21 18:47:38

梁小龙被封杀原因曝光！血战平安大厦：1人打十多名刀手，重伤4人

梁小龙被封杀原因曝光！血战平安大厦：1人打十多名刀手，重伤4人

小娱乐悠悠

2026-01-20 10:15:42

日本学生利用Grok脱衣同班女生现担心面临刑事责任

日本学生利用Grok脱衣同班女生现担心面临刑事责任

3DM游戏

2026-01-20 15:06:47

AIGC大模型及应用精选与评测

419文章数 38关注度

往期回顾全部

科技要闻

给机器人做仿真训练这家创企年营收破亿

头条要闻

西安高校创始人两女儿争继承权判完才发现公证书造假

头条要闻

西安高校创始人两女儿争继承权判完才发现公证书造假

体育要闻

只会防守反击？不好意思，我们要踢决赛了

娱乐要闻

首位捐款的明星苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市售价12.09万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房产

时尚

数码

军事航空

家居要闻

褪去浮华触达松弛与欣喜

房产要闻

那个砸下400亿的绿地，又要杀回海南了！

缔造仙女梦的人，去了天堂继续缝制星光✨

数码要闻

三折叠电视来了！保时捷亲手操刀，开启高端市场「形态战」

军事要闻

特朗普：对美国的真正威胁是联合国和北约

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版