如果你觉得多模态大模型已经“什么都会了”,Gemini 、ChatGPT 智商已经超越人类了,那这篇论文可能会给你泼一盆冷水。
日前,一篇来自arXiv 题为《BabyVision:超越语言的视觉推理》的论文给出了一个惊人的结论:如果完全不依赖语言,只考最基础的视觉能力,今天最强多模态大模型的表现,还不如三岁小孩。
![]()
该篇论文作者为 梁晨等来自 UniPat AI、北京大学、清华大学、阿里巴巴、普林斯顿等的 29 名研究员。
他们给这个研究方向设计了一个新基准,名字叫 BabyVision。
顾名可思义,考的不是博士级的复杂推理,而是人类在学会说话之前就已经具备的视觉能力。
过去一年,多模态模型在各种榜单上进步飞快,做数学题、看图写代码、理解专业图表,甚至在一些大学、博士水平的测试中超过普通人。
但作者指出,这些测试几乎都有一个共同点,高度依赖语言、知识和文本推理。
于是他们反过来做了一件事,把语言和知识全部剥离,只剩下视觉本身。
BabyVision 一共只有 388 道题,规模不大,但设计得非常克制。
问题文本被压缩到极短,平均只有二十多字,不需要任何背景知识。
题目分布在四类最基础的视觉能力上:细微差异的辨别、视觉路径追踪、空间关系判断,以及图形和模式识别。
![]()
换句话说,就是“哪个更大”、“线走到哪里”、“这个形状转一下会变成什么”、“规律下一格是什么”等,这一类问题。
为了避免“文字投机”,作者在数据构建阶段专门过滤了所有可能通过语言猜答案的样本,甚至还请人反复验证:如果遮住题目文字,只看图,人类是否仍然可以完成判断。
作为对照,他们不仅测了模型,还测了人。
测试对象包括 3 岁、6 岁、10 岁、12 岁的儿童,以及成年人。
结果是,人类的表现,几乎是压倒性的。
数据显示:成年人在 BabyVision 上的平均正确率是 94.1%;6 岁儿童已经可以稳定超过 70%。
而当前表现最好的多模态模型,得分只有 49.7%。
![]()
而且,这还不是“平均模型”,而是作者测试中最强的那一个Gemini3-Pro-Preview。
换句话说,在这些不需要语言、只需要“看懂”的任务上,最先进的多模态大模型,整体水平还低于学龄前儿童。
更残酷的是,模型的弱点并不是集中在某一类题型上,而是系统性的。
论文展示了大量错误案例。
比如分不清细微形状差别、无法连续追踪一条曲线,比如在二维图像中构建错误的三维关系,或者完全误判一个简单的视觉规律。
![]()
分析原因,作者认为,问题并不只是模型“没训练够”,而是当前多模态架构本身存在结构性瓶颈。
他们认为,大多数多模态模型的工作方式,本质上是“先看图,再把视觉信息压缩成语言 token,然后在语言空间里思考”。
这个过程在面对知识型问题时很高效,但对基础视觉任务是致命的。
因为图片细节在压缩过程中会丢失,连续结构会被打断,空间关系会被离散化,最终导致模型“会说,但看不清”。
![]()
![]()
为了验证是不是“语言这一步”限制了能力,论文还提出了一个扩展实验,叫 BabyVision-Gen。
在这个设置中,模型不需要用文字回答,而是直接在图像上生成答案,比如画出正确路径、圈出不同区域。
结果显示,在少数任务上,生成式视觉输出确实能略微改善表现,但整体差距依然巨大。
这也让论文的结论显得更加清晰,即当前多模态模型在“像人一样看”这件事上,远没有达到人类水平,哪怕人类还没学会说话。
要知道,人类与世界的沟通,先有视觉后有语言,比如婴儿几个月大就能辨别形状、追踪物体。
但大模型在最基础的视觉感知上近乎的“失明”表现说明,它们并非真正“看见”了图像, 而是在用语言知识“猜测”答案。
抱着治病救人的态度,研究团队还尝试基于可验证奖励的强化学习(RLVR) , 对Qwen3-VL-8B-Thinking 进行训练,来为大模型进行补救。
结果表明,准确率从 13.1% 提升 4.8 个百分点,到了 17.9%,但距离人类水平仍然遥不可及。
![]()
这表明,视觉能力的根本缺陷很难通过后训练弥补,而可能需要架构层面的创新。
但这篇论文的价值,不在于否定多模态模型的进步,而是对多模态的发展路径提出了条新的思考路径。
论文明确指出,想要缩小人与模型之间的差距,靠堆数据、堆语言推理很可能不够,必须重新思考视觉表征、连续空间建模,以及视觉与推理之间的连接方式。
论文地址为:
https://arxiv.org/pdf/2601.06521v1
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.