网易首页 > 网易号 > 正文 申请入驻

中山大学等机构揭示多模态推理模型的视觉理解盲区

0
分享至


这项由中山大学、苏黎世联邦理工学院与华为技术有限公司联合完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.09266,已被接受为ICML 2026第三届AI for Math研讨会的参赛挑战赛题目。

你有没有遇到过这样的情形:把一道题目大声读给朋友听,他能答对;但换成把题目写在纸上让他自己看,同一道题他却答错了?内容完全一样,只是表达方式变了,答题表现却大相径庭。这件事放在人身上已经够奇怪了,放在被誉为"下一代智能体"的AI大模型身上,同样的问题更加严重,甚至成了这类系统能否真正"理解"物理世界的核心考验。

研究团队注意到,当前的主流AI视觉推理模型(也就是那些既能看图又能读文字并回答问题的模型,学术上叫多模态大语言模型,英文缩写为MLLM)在各类榜单上的成绩越来越亮眼,但有一个根本问题始终没有被严肃检验过:当题目的核心信息从文字转移到图像时,这些模型是否还能保持同样的推理能力?简单说,它们是"真看懂了"还是"靠文字猜对了答案"?

为了回答这个问题,研究团队设计了一套名为SEEPHYS PRO的评测基准,专门检验AI模型在信息逐步从文字迁移到图像过程中的推理稳定性。与此同时,他们还构建了用于强化学习训练的物理题目数据集,并发现了一个令人意外的现象:即便把训练时所有的图片全部遮黑,模型依然能在有图的测试集上"提升"成绩——这意味着,很多时候所谓的"视觉推理进步",其实可能只是模型学会了利用文字模板和统计规律蒙题,而不是真正学会了看图。

一、同一道物理题,换个"皮肤"就难倒AI

物理题是这项研究选择的主战场,原因相当充分。在物理题中,图像往往不只是装饰,而是题目本身的核心组成部分。一张电路图描述的是元件之间的连接关系,一张受力分析图标注的是力的方向和大小,一张光路图画出的是光线的传播路径。这些信息如果全用文字来描述,虽然也能做到,但一旦迁移进图像,模型就必须真的"看懂"才能解题,而不是靠猜词或者背模板。

研究团队把这套评测体系的核心理念概括为"同一道物理题,不同的表达方式"。每一道种子题目都会被改造成四个版本,它们描述的是完全相同的物理系统,使用完全相同的物理量,答案和解题路径也完全相同,唯一不同的是信息如何分配在文字和图像之间。

第一个版本(称为L1)是纯文字版:所有的结构关系、变量和数值都用语言描述,没有任何图像。第二个版本(L2)叫做"结构入图":物理系统的结构(比如电路的连接方式、滑轮的布置方式)被画进图里,但具体的数值标注仍然保留在文字中。第三个版本(L3)叫做"变量入图":不仅结构画进图里,变量和数值标注也直接写在图上,文字部分只保留问题本身。第四个版本(L4)则是"完全视觉化":连题目文字都被转成手写体嵌入图像,整道题就是一张包含手写文字、公式和图表的综合图片。

这四个版本像是同一套乐谱的四种不同演奏形式:钢琴独奏、弦乐四重奏、管弦乐编配、现场手写总谱。核心旋律没有变,但演奏的"介质"越来越依赖视觉解读能力。如果一个音乐家真的懂这首曲子,理论上无论哪种版本都能演奏。但如果他只是背下了钢琴键的顺序,换一种介质就会立刻手足无措。

研究团队从教材、题库、奥林匹克物理竞赛、大学入学考试和博士资格考试中收集了超过5000页的原始题目,经过10位工程背景的标注人员(7位本科生和3位博士生)的筛选、改写和手工绘图,最终形成了包含1000道种子题目、4000个对齐版本的评测集。覆盖力学、电磁学、光学、热力学、波动声学和近代物理六大领域,细分到38个二级领域和104个三级领域,答题形式包括数值计算、选择题、方程和表达式四种类型。

二、模型的真实表现:越"视觉化"越不稳

评测结果让人警醒。研究团队测试了10个闭源的前沿模型(包括GPT-5.4、GPT-5、Gemini-3.1-Pro、Claude-4.7-Opus等知名系统)和5个开源模型,并邀请了100名中国高中生作为人类参照。

从整体均值来看,所有模型在纯文字的L1版本上平均正确率约为49.2%,而在完全视觉化的L4版本上,这个数字跌至35.8%,平均损失了约13.4个百分点。这不是小数字——相当于每当题目从"读给你听"变成"让你自己看图",大约有八分之一的题目会从答对变成答错。

更值得关注的是,这种退步在顶尖模型身上同样存在。GPT-5.4在L1上正确率高达67.4%,到了L4却跌至53.0%,损失14.4个百分点。Claude-4.7-Opus在L1表现最好,达到74.0%,但L4仅剩46.5%,下滑了27.5个百分点,是所有被测模型中跌幅最大的。表现最稳定的是Gemini-3.1-Pro,L1到L4的总损失仅4.5个百分点,但它的L4成绩(66.5%)依然低于其L1成绩(71.0%)。

与之形成对比的是那100名高中生:他们在四个版本上的成绩分别是54.0%、58.5%、59.5%和56.0%,不仅没有随着视觉化程度提高而下降,反而在L2和L3时略有提升。换句话说,真正懂物理的人,看图反而更有帮助;而AI模型,看图却成了负担。

研究团队把四个阶段的成绩差异分别命名为三类"转移代价"。从L1到L2的代价叫做"结构转移代价",平均值约为3.0个百分点,反映的是把物理系统的拓扑结构画进图里之后模型的损失。从L2到L3的代价叫做"变量接地代价",平均值约为7.4个百分点,反映的是把数值标注也放进图里后额外增加的损失。从L3到L4的代价叫做"完全渲染代价",平均约2.9个百分点,反映的是把文字本身也手写进图里之后的进一步损失。三个代价加在一起就是总损失。

这个分解告诉我们一件很具体的事:AI模型最大的弱点不是认不出图,而是看不懂图里写的数字对应的是哪个物理量。就像你面前摆着一张电路图,图里已经标出了各个电阻的阻值,但你不知道哪个数字对应哪个元件——这种"看见了但没连上"的失误,才是最核心的瓶颈。

研究团队还计算了另一个指标,叫做"四向一致性",也就是同一道题在四个版本上全部答对的概率。这个指标更能说明问题:Claude-4.7-Opus在L1上正确率高达74%,但四个版本全对的比例只有33.5%;GPT-5.4的L1正确率是67.4%,四向一致性只有32.6%。这说明,大量的"答对"其实是"靠版本特性答对",换一个版本就不行了,而不是真正稳定地掌握了这道题背后的物理知识。

为了进一步确认这不是因为题目本来就难,研究团队还做了一个条件测试:只统计那些在L1上已经答对的题目,看它们在后续版本中还能保持多高的正确率。结果同样令人叹气——GPT-5.4在L1答对的题目中,到L4只剩64.8%还是对的;Claude-4.7-Opus只剩57.4%。也就是说,即使是那些模型"已经懂了"的题目,一旦信息转移进图像,仍有三到四成的概率出错。

三、强化学习真的能让AI"学会看图"吗

发现了这种推理脆弱性之后,研究团队进一步追问:如果专门用含有图像的物理题来训练模型,能不能修复这个问题?

为了回答这个问题,他们构建了两套训练数据集,分别叫做PhysRL-38K(约38000道物理题)和PhysRL-8K(其中约8000道经过筛选的"视觉必要"题目,即必须看图才能解题)。这两套数据集来源与SEEPHYS PRO相同,但题目本身与评测集完全不重叠,确保没有数据泄漏的问题。他们还从一个叫ViRL39K的数学视觉推理数据集中筛出约22000道视觉必要题,用于数学领域的对比实验。

训练方式采用的是当下主流的强化学习方法——用最终答案是否正确作为奖励信号,让模型通过大量练题自我调整。直觉上,这听起来很合理:就像让一个学生反复练习看图解题,正确就给分,错误就扣分,应该能让他越来越擅长看图吧?

然而实验结果出现了一个大大的问号。研究团队在训练过程中持续用SEEPHYS PRO的四个版本来监测模型的表现变化。他们发现,经过正常强化学习训练之后,模型在四个版本上的成绩确实都提高了——L1从9.9%升到18.3%,L4从6.4%升到10.8%。但问题是,L1和L4之间的差距不仅没有缩小,反而从训练前的3.5个百分点扩大到了训练后的7.5个百分点。换句话说,文字版和视觉版之间的鸿沟变得更宽了,而不是更窄。

这意味着模型的进步是"四个版本都涨潮"——因为物理推理能力整体提升了,所以每个版本都更容易答对,但视觉推理这个专项短板并没有被针对性地修复。就像一个学生通过大量刷题提升了整体数学能力,加减乘除都更熟练了,但他读图的问题从来没有被专门练过,所以文字题和图形题之间的差距依然存在。

四、最令人意外的发现:遮住所有图片,模型也能"进步"

如果说上面的发现让人困惑,那接下来这个实验结果简直堪称匪夷所思。

研究团队设计了一个叫做"盲训练"的对照实验:在训练时,把所有训练数据的图片全部替换成纯黑色图像,也就是说,模型在训练过程中看不到任何有效图像,每一道"视觉必要"的题目都因为图被遮黑而变成了一道无法正确解答的题目。然后他们用这种"瞎眼"状态训练完模型,再拿没有遮黑的正常测试集来评估。

按照直觉,这应该是一个完全无效的训练:既然训练时没有任何有用的视觉信息,模型的视觉推理能力理应没有提升,在正常测试集上的表现应该基本没有变化,甚至可能变差。

然而结果出人意料。经过盲训练之后,模型在L1上的成绩从9.9%提升到了20.9%,甚至比正常训练(18.3%)还高。L4从6.4%升到了13.0%,同样高于正常训练的10.8%。更令人迷惑的是,这种盲训练带来的进步不只发生在SEEPHYS PRO上,在其他的物理和数学评测集上同样观察到了类似现象——在数学评测集MathVerse和MMK12上,盲训练的效果甚至与正常训练相当,在某些设置下还略微超过正常训练。

这个发现的含义非常深刻:如果把所有图片都遮黑的训练都能带来"视觉推理评测成绩"的提升,那这种提升到底是真正的"学会了看图",还是别的什么原因?

五、盲训练为什么有效?答案藏在文字和题目模板里

为了搞清楚盲训练增益的来源,研究团队设计了一系列控制实验,像剥洋葱一样逐层剥开这个现象。

第一个实验是逐步删除训练数据中的文字。他们发现,随着删掉的文字比例增加,盲训练的效果也同步下降。当文字被删掉25%时,盲训练在数学评测集上的峰值增益约为26.6个百分点;当文字被删掉100%时,增益跌至接近零。物理评测集上的规律相同。这说明盲训练的增益,根本上依赖的是文字信息而不是图像信息。

第二个实验是删除特定类别的文字,比如只删背景描述、只删已知条件、只删公式、只删数值、只删选项、只删问题语句。在数学题中,选项文字是一个明显的"捷径来源",删掉选项之后盲训练效果明显下降。但在物理题中,没有哪一类文字单独被删后能让盲训练效果消失,说明这里的"捷径"是分散在整道题的语言模式和题目风格中的,不是某一个特定成分单独贡献的。

第三个实验是改变遮黑的比例,从10%到90%不等。如果盲训练的增益来自"全黑图像"这种特殊的人工信号,那增益应该随着遮黑比例的增加而单调增加。但实际上,不同遮黑比例下的峰值增益并没有呈现出这种单调趋势,说明问题不是出在"全黑图像"这个特殊形式上。

第四个实验是在模型已经充分学会了答题格式之后(格式正确率超过90%),继续观察是否还有实质性的准确率提升。结果显示,即使在格式训练饱和之后,盲训练仍能带来显著的准确率增益,排除了"只是学会了格式"这种解释。

把这些线索整合起来,答案浮现了:盲训练之所以有效,是因为训练数据中的文字本身就包含了大量可以利用的信息——题目的语言风格、常见的物理公式模板、答案的数值范围、选项的分布特点,这些"非视觉线索"在大量的强化学习训练中被模型捕捉到,帮助它在测试集上答对了更多题目。但这些进步与"真正理解了图像"毫无关系。就像一个考生反复刷了大量真题,熟悉了出题人的风格和套路,即使蒙眼也能猜对一些答案,但这不等于他学会了这门科目。

六、错误到底出在哪里?来自真实案例的细节解剖

研究团队还对多个前沿模型在四个版本上的错误类型进行了人工标注和分类分析,提炼出了几种典型的失误模式。

在纯文字的L1版本中,模型的错误主要集中在物理建模失误和推理错误两类——比如把一个双绳约束问题错误地简化成单绳问题,把两个方程的联立求解简化成一个单方程,或者在判断平衡条件时做出了错误的对称性假设。这类错误的本质是物理理解不到位,与图像无关。

随着版本从L2推进到L3,图像相关的错误开始显著增加:模型开始出现"结构图误读"(把图中某个元件的连接关系看错)、"数值误读"(把标注在图上的数字读成了不同的值,比如把"3.0×10?? C"读成"3.0×10?? C")以及"几何关系误识别"(把一个60度角误判为30度角,导致后续所有计算全部出错)。

在L4版本中,还增加了"手写文字误读"这一类:模型对手写公式和手写数字的识别经常出错,比如把手写的"150 rad/s"误读成某个其他数值,进而导致解题路径整体错误。

有一个案例特别能说明问题。一道关于变压器电路的题目,图中标注了电压的表达式。在L3版本中,两个不同的模型都把图中标注的电压值读错了数量级——一个读成了"200√2 V",另一个读成了"20√2 V"。基于这个错误的读数,它们各自推导出了"频率为50 Hz"这个结论,巧合的是这个结论本身是正确的(因为频率由角频率决定,与幅值无关),所以它们选择了正确的选项B,但支撑这个选项的推理过程中数值是错的。这种"正确答案,错误推理"的情况在视觉版本中更为常见,也更加隐蔽。

七、这些发现对AI研究意味着什么

从整体上看,这项研究传递了几个相互关联的信号。

当前的多模态AI模型在"信息表达方式改变但物理内容不变"的条件下表现并不稳定,而且这种不稳定性在最顶尖的模型身上同样存在,只是程度不同。最核心的瓶颈不是"看不到图",也不是"不认识图里的结构",而是"看见了数值但不知道它对应的是哪个物理实体"——也就是视觉变量与物理概念之间的绑定能力。

单纯用最终答案的正确率来评价多模态AI,会高估它们真正的视觉推理能力。一个在视觉题上成绩不错的模型,很可能只是擅长利用文字线索和题目风格猜测答案,而不是真正"看懂了图"。

用强化学习提升多模态AI时,即便训练数据是"视觉必要"的题目,最终奖励信号(答对还是答错)也没办法区分"用视觉信息答对"和"靠文字线索猜对"之间的差异。这是当前主流强化学习范式的一个根本性盲点:它鼓励任何能提升正确率的策略,无论那个策略是否真的依赖了视觉信息。

研究团队提出,未来的多模态推理研究应该同时关注两个维度:一是在测试时检验模型对信息表达方式变化的鲁棒性(就像SEEPHYS PRO做的那样),二是在训练时加入诊断手段来检验进步是否真的来自有效的视觉证据。他们提到了几个可能的改进方向,比如设计"如果把图片替换成错误内容,模型应该答错"的反事实测试,或者引入过程级别的奖励信号(不只看最终答案对不对,还看每一步推理是否确实用到了图中的信息)。

说到底,这项研究做的事情有点像是给AI模型做了一场"换装测试":同一道题,换了件衣服,看它还认不认识。结果发现,很多我们以为已经"学会看图"的AI,其实只是学会了"看见图的存在然后继续靠文字答题"。这个发现本身并不是终点,而更像是一张地图,标出了当前AI视觉推理能力的真实边界在哪里。对于任何关心AI技术是否真正可靠的人来说,这张地图值得认真看看。

有兴趣深入了解的读者可以通过论文编号arXiv:2605.09266查阅完整论文,也可以访问研究团队在GitHub(AI4Phys/SeePhy-Pro)和CodaBench平台上开放的评测基准和代码。

Q&A

Q1:SEEPHYS PRO评测基准是什么,和普通物理评测有什么不同?

A:SEEPHYS PRO是一套专门用来检验AI模型"信息表达方式改变时推理是否稳定"的评测工具。普通物理评测只给模型一种形式的题目(比如只有文字或只有图),而SEEPHYS PRO把每道题做成四个版本,信息逐步从文字转移到图像,通过观察模型在四个版本间的成绩变化,来判断它是真的懂物理,还是只擅长处理某种特定的信息形式。

Q2:盲训练为什么能让模型在有图的测试集上成绩提升?

A:这是因为训练数据中的文字本身就包含了大量可以利用的规律,比如题目的语言风格、常见公式模板、答案的数值范围等。模型在盲训练中学到的是这些文字层面的统计规律,而不是真正的视觉理解能力。把图片遮黑之后,模型依然能靠文字猜出更多答案,导致测试集成绩看起来提升了,但这和"学会看图"没有关系。

Q3:当前多模态AI在视觉变量理解上的主要瓶颈是什么?

A:最核心的问题是"变量接地"能力不足,也就是模型即便看见了图中标注的数值,也经常无法正确判断这个数值对应的是哪个物理实体或物理量。比如图里有三个不同位置的电阻值标注,模型可能读错了数字,或者把某个数字匹配到了错误的元件上,导致后续所有计算都建立在错误的基础上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

成人网红邦妮自曝恶心计划:6月办尿淋派对,粉丝可尿她发生关系

赴一场山海啊
2026-06-01 00:27:25
美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

美军宣布:对伊朗实施打击,摧毁其防空系统、控制站等,报复其击落美军无人机等“侵略行为”!国际油价大涨!科威特:正拦截导弹和无人机

每日经济新闻
2026-06-01 12:29:55
索菲亚教堂棚顶被掀飞?附近居民称“一切正常,有很多游客”,当地回应:暂未接到报告

索菲亚教堂棚顶被掀飞?附近居民称“一切正常,有很多游客”,当地回应:暂未接到报告

潇湘晨报
2026-06-01 12:57:26
河北将开展农机安全风险隐患大排查

河北将开展农机安全风险隐患大排查

北青网-北京青年报
2026-06-01 13:18:03
奚梦瑶婚礼晚宴,4700万珠宝上身,谷爱凌拎24万爱马仕赴宴成陪衬

奚梦瑶婚礼晚宴,4700万珠宝上身,谷爱凌拎24万爱马仕赴宴成陪衬

好贤观史记
2026-06-01 11:38:36
司机激活智驾后追尾停着的货车 致3人死亡 长安启源回应

司机激活智驾后追尾停着的货车 致3人死亡 长安启源回应

闪电新闻
2026-06-01 10:05:48
6-2!巴西大轮换仍横扫世界杯参赛队,皇马1.5亿巨星传射+世界波

6-2!巴西大轮换仍横扫世界杯参赛队,皇马1.5亿巨星传射+世界波

我爱英超
2026-06-01 07:34:53
大爷也难招!7月起保安岗没人敢用了?大龄从业者该何去何从

大爷也难招!7月起保安岗没人敢用了?大龄从业者该何去何从

复转这些年
2026-05-31 20:33:07
释永信的567万,到底送给了谁?

释永信的567万,到底送给了谁?

仕道
2026-06-01 10:55:25
闲鱼读取用户手机内文物照片上架售卖?陕历博“镇馆之宝”被标价6000元,平台回应

闲鱼读取用户手机内文物照片上架售卖?陕历博“镇馆之宝”被标价6000元,平台回应

上游新闻
2026-06-01 09:45:05
前央视主持林海,因摔耳机丢了铁饭碗,54岁现身街头当吃播

前央视主持林海,因摔耳机丢了铁饭碗,54岁现身街头当吃播

林轻吟
2026-06-01 07:14:42
军事 | 普京将此残骸交于美方,到底什么意思?

军事 | 普京将此残骸交于美方,到底什么意思?

新民周刊
2026-06-01 09:08:31
神级躺赢!索汉提前锁定NBA总冠军戒指 本季先后效力马刺尼克斯

神级躺赢!索汉提前锁定NBA总冠军戒指 本季先后效力马刺尼克斯

醉卧浮生
2026-06-01 05:45:13
男团成员裤腰低到离谱?网友怒批:这是公共猥亵

男团成员裤腰低到离谱?网友怒批:这是公共猥亵

时光慢旅人
2026-05-30 01:29:08
女子蹭卡进山姆待一天,有吃有喝空调还能吹到饱

女子蹭卡进山姆待一天,有吃有喝空调还能吹到饱

映射生活的身影
2026-05-31 21:37:09
官网5大专家预测总决赛:3人看好马刺夺冠 文班布伦森争FMVP

官网5大专家预测总决赛:3人看好马刺夺冠 文班布伦森争FMVP

罗说NBA
2026-06-01 06:23:45
男子隐瞒病情和女友发生亲密关系,致女友感染高危型HPV,被告上法庭;法院判了:存在明显过错,赔偿1.5万元

男子隐瞒病情和女友发生亲密关系,致女友感染高危型HPV,被告上法庭;法院判了:存在明显过错,赔偿1.5万元

扬子晚报
2026-06-01 07:49:01
燃气灶致癌,再添实锤!斯坦福大学:即使关着炉子,也能释放一级致癌物,患癌风险飙升;仅烹饪1小时,NO₂就超标,每年致1.9万人死亡

燃气灶致癌,再添实锤!斯坦福大学:即使关着炉子,也能释放一级致癌物,患癌风险飙升;仅烹饪1小时,NO₂就超标,每年致1.9万人死亡

梅斯医学
2026-05-31 07:55:29
难以置信!00后大专求职要5500双休8小时,被网友吐槽“太狂了”

难以置信!00后大专求职要5500双休8小时,被网友吐槽“太狂了”

火山詩话
2026-06-01 11:29:01
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
2026-06-01 14:24:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8575文章数 564关注度
往期回顾 全部

科技要闻

关停三年后,天涯社区今起开放访问

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

头条要闻

普京将乌无人机残骸交于美方 被指发表"极其危险言论"

体育要闻

哭过之后,文班亚马想给波波维奇打电话

娱乐要闻

张凌赫活动商场玻璃被挤爆5人受伤

财经要闻

网红驱蚊产品,标注化妆品竟含农药成分

汽车要闻

上市三周交付3603台!华境S跻身旗舰大六座第一梯队

态度原创

房产
旅游
健康
教育
数码

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

尝试干细胞疗法如何避免踩坑?

教育要闻

广东财经大学:值得填报吗?热门专业就业现状及报考分析#搜索千校视频计划

数码要闻

山灵Majestic马年限定版耳机发售,首发8597元

无障碍浏览 进入关怀版