中山大学等机构揭示多模态推理模型的视觉理解盲区|数学|新论文

分享至

这项由中山大学、苏黎世联邦理工学院与华为技术有限公司联合完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.09266，已被接受为ICML 2026第三届AI for Math研讨会的参赛挑战赛题目。

你有没有遇到过这样的情形：把一道题目大声读给朋友听，他能答对；但换成把题目写在纸上让他自己看，同一道题他却答错了？内容完全一样，只是表达方式变了，答题表现却大相径庭。这件事放在人身上已经够奇怪了，放在被誉为"下一代智能体"的AI大模型身上，同样的问题更加严重，甚至成了这类系统能否真正"理解"物理世界的核心考验。

研究团队注意到，当前的主流AI视觉推理模型（也就是那些既能看图又能读文字并回答问题的模型，学术上叫多模态大语言模型，英文缩写为MLLM）在各类榜单上的成绩越来越亮眼，但有一个根本问题始终没有被严肃检验过：当题目的核心信息从文字转移到图像时，这些模型是否还能保持同样的推理能力？简单说，它们是"真看懂了"还是"靠文字猜对了答案"？

为了回答这个问题，研究团队设计了一套名为SEEPHYS PRO的评测基准，专门检验AI模型在信息逐步从文字迁移到图像过程中的推理稳定性。与此同时，他们还构建了用于强化学习训练的物理题目数据集，并发现了一个令人意外的现象：即便把训练时所有的图片全部遮黑，模型依然能在有图的测试集上"提升"成绩——这意味着，很多时候所谓的"视觉推理进步"，其实可能只是模型学会了利用文字模板和统计规律蒙题，而不是真正学会了看图。

一、同一道物理题，换个"皮肤"就难倒AI

物理题是这项研究选择的主战场，原因相当充分。在物理题中，图像往往不只是装饰，而是题目本身的核心组成部分。一张电路图描述的是元件之间的连接关系，一张受力分析图标注的是力的方向和大小，一张光路图画出的是光线的传播路径。这些信息如果全用文字来描述，虽然也能做到，但一旦迁移进图像，模型就必须真的"看懂"才能解题，而不是靠猜词或者背模板。

研究团队把这套评测体系的核心理念概括为"同一道物理题，不同的表达方式"。每一道种子题目都会被改造成四个版本，它们描述的是完全相同的物理系统，使用完全相同的物理量，答案和解题路径也完全相同，唯一不同的是信息如何分配在文字和图像之间。

第一个版本（称为L1）是纯文字版：所有的结构关系、变量和数值都用语言描述，没有任何图像。第二个版本（L2）叫做"结构入图"：物理系统的结构（比如电路的连接方式、滑轮的布置方式）被画进图里，但具体的数值标注仍然保留在文字中。第三个版本（L3）叫做"变量入图"：不仅结构画进图里，变量和数值标注也直接写在图上，文字部分只保留问题本身。第四个版本（L4）则是"完全视觉化"：连题目文字都被转成手写体嵌入图像，整道题就是一张包含手写文字、公式和图表的综合图片。

这四个版本像是同一套乐谱的四种不同演奏形式：钢琴独奏、弦乐四重奏、管弦乐编配、现场手写总谱。核心旋律没有变，但演奏的"介质"越来越依赖视觉解读能力。如果一个音乐家真的懂这首曲子，理论上无论哪种版本都能演奏。但如果他只是背下了钢琴键的顺序，换一种介质就会立刻手足无措。

研究团队从教材、题库、奥林匹克物理竞赛、大学入学考试和博士资格考试中收集了超过5000页的原始题目，经过10位工程背景的标注人员（7位本科生和3位博士生）的筛选、改写和手工绘图，最终形成了包含1000道种子题目、4000个对齐版本的评测集。覆盖力学、电磁学、光学、热力学、波动声学和近代物理六大领域，细分到38个二级领域和104个三级领域，答题形式包括数值计算、选择题、方程和表达式四种类型。

二、模型的真实表现：越"视觉化"越不稳

评测结果让人警醒。研究团队测试了10个闭源的前沿模型（包括GPT-5.4、GPT-5、Gemini-3.1-Pro、Claude-4.7-Opus等知名系统）和5个开源模型，并邀请了100名中国高中生作为人类参照。

从整体均值来看，所有模型在纯文字的L1版本上平均正确率约为49.2%，而在完全视觉化的L4版本上，这个数字跌至35.8%，平均损失了约13.4个百分点。这不是小数字——相当于每当题目从"读给你听"变成"让你自己看图"，大约有八分之一的题目会从答对变成答错。

更值得关注的是，这种退步在顶尖模型身上同样存在。GPT-5.4在L1上正确率高达67.4%，到了L4却跌至53.0%，损失14.4个百分点。Claude-4.7-Opus在L1表现最好，达到74.0%，但L4仅剩46.5%，下滑了27.5个百分点，是所有被测模型中跌幅最大的。表现最稳定的是Gemini-3.1-Pro，L1到L4的总损失仅4.5个百分点，但它的L4成绩（66.5%）依然低于其L1成绩（71.0%）。

与之形成对比的是那100名高中生：他们在四个版本上的成绩分别是54.0%、58.5%、59.5%和56.0%，不仅没有随着视觉化程度提高而下降，反而在L2和L3时略有提升。换句话说，真正懂物理的人，看图反而更有帮助；而AI模型，看图却成了负担。

研究团队把四个阶段的成绩差异分别命名为三类"转移代价"。从L1到L2的代价叫做"结构转移代价"，平均值约为3.0个百分点，反映的是把物理系统的拓扑结构画进图里之后模型的损失。从L2到L3的代价叫做"变量接地代价"，平均值约为7.4个百分点，反映的是把数值标注也放进图里后额外增加的损失。从L3到L4的代价叫做"完全渲染代价"，平均约2.9个百分点，反映的是把文字本身也手写进图里之后的进一步损失。三个代价加在一起就是总损失。

这个分解告诉我们一件很具体的事：AI模型最大的弱点不是认不出图，而是看不懂图里写的数字对应的是哪个物理量。就像你面前摆着一张电路图，图里已经标出了各个电阻的阻值，但你不知道哪个数字对应哪个元件——这种"看见了但没连上"的失误，才是最核心的瓶颈。

研究团队还计算了另一个指标，叫做"四向一致性"，也就是同一道题在四个版本上全部答对的概率。这个指标更能说明问题：Claude-4.7-Opus在L1上正确率高达74%，但四个版本全对的比例只有33.5%；GPT-5.4的L1正确率是67.4%，四向一致性只有32.6%。这说明，大量的"答对"其实是"靠版本特性答对"，换一个版本就不行了，而不是真正稳定地掌握了这道题背后的物理知识。

为了进一步确认这不是因为题目本来就难，研究团队还做了一个条件测试：只统计那些在L1上已经答对的题目，看它们在后续版本中还能保持多高的正确率。结果同样令人叹气——GPT-5.4在L1答对的题目中，到L4只剩64.8%还是对的；Claude-4.7-Opus只剩57.4%。也就是说，即使是那些模型"已经懂了"的题目，一旦信息转移进图像，仍有三到四成的概率出错。

三、强化学习真的能让AI"学会看图"吗

发现了这种推理脆弱性之后，研究团队进一步追问：如果专门用含有图像的物理题来训练模型，能不能修复这个问题？

为了回答这个问题，他们构建了两套训练数据集，分别叫做PhysRL-38K（约38000道物理题）和PhysRL-8K（其中约8000道经过筛选的"视觉必要"题目，即必须看图才能解题）。这两套数据集来源与SEEPHYS PRO相同，但题目本身与评测集完全不重叠，确保没有数据泄漏的问题。他们还从一个叫ViRL39K的数学视觉推理数据集中筛出约22000道视觉必要题，用于数学领域的对比实验。

训练方式采用的是当下主流的强化学习方法——用最终答案是否正确作为奖励信号，让模型通过大量练题自我调整。直觉上，这听起来很合理：就像让一个学生反复练习看图解题，正确就给分，错误就扣分，应该能让他越来越擅长看图吧？

然而实验结果出现了一个大大的问号。研究团队在训练过程中持续用SEEPHYS PRO的四个版本来监测模型的表现变化。他们发现，经过正常强化学习训练之后，模型在四个版本上的成绩确实都提高了——L1从9.9%升到18.3%，L4从6.4%升到10.8%。但问题是，L1和L4之间的差距不仅没有缩小，反而从训练前的3.5个百分点扩大到了训练后的7.5个百分点。换句话说，文字版和视觉版之间的鸿沟变得更宽了，而不是更窄。

这意味着模型的进步是"四个版本都涨潮"——因为物理推理能力整体提升了，所以每个版本都更容易答对，但视觉推理这个专项短板并没有被针对性地修复。就像一个学生通过大量刷题提升了整体数学能力，加减乘除都更熟练了，但他读图的问题从来没有被专门练过，所以文字题和图形题之间的差距依然存在。

四、最令人意外的发现：遮住所有图片，模型也能"进步"

如果说上面的发现让人困惑，那接下来这个实验结果简直堪称匪夷所思。

研究团队设计了一个叫做"盲训练"的对照实验：在训练时，把所有训练数据的图片全部替换成纯黑色图像，也就是说，模型在训练过程中看不到任何有效图像，每一道"视觉必要"的题目都因为图被遮黑而变成了一道无法正确解答的题目。然后他们用这种"瞎眼"状态训练完模型，再拿没有遮黑的正常测试集来评估。

按照直觉，这应该是一个完全无效的训练：既然训练时没有任何有用的视觉信息，模型的视觉推理能力理应没有提升，在正常测试集上的表现应该基本没有变化，甚至可能变差。

然而结果出人意料。经过盲训练之后，模型在L1上的成绩从9.9%提升到了20.9%，甚至比正常训练（18.3%）还高。L4从6.4%升到了13.0%，同样高于正常训练的10.8%。更令人迷惑的是，这种盲训练带来的进步不只发生在SEEPHYS PRO上，在其他的物理和数学评测集上同样观察到了类似现象——在数学评测集MathVerse和MMK12上，盲训练的效果甚至与正常训练相当，在某些设置下还略微超过正常训练。

这个发现的含义非常深刻：如果把所有图片都遮黑的训练都能带来"视觉推理评测成绩"的提升，那这种提升到底是真正的"学会了看图"，还是别的什么原因？

五、盲训练为什么有效？答案藏在文字和题目模板里

为了搞清楚盲训练增益的来源，研究团队设计了一系列控制实验，像剥洋葱一样逐层剥开这个现象。

第一个实验是逐步删除训练数据中的文字。他们发现，随着删掉的文字比例增加，盲训练的效果也同步下降。当文字被删掉25%时，盲训练在数学评测集上的峰值增益约为26.6个百分点；当文字被删掉100%时，增益跌至接近零。物理评测集上的规律相同。这说明盲训练的增益，根本上依赖的是文字信息而不是图像信息。

第二个实验是删除特定类别的文字，比如只删背景描述、只删已知条件、只删公式、只删数值、只删选项、只删问题语句。在数学题中，选项文字是一个明显的"捷径来源"，删掉选项之后盲训练效果明显下降。但在物理题中，没有哪一类文字单独被删后能让盲训练效果消失，说明这里的"捷径"是分散在整道题的语言模式和题目风格中的，不是某一个特定成分单独贡献的。

第三个实验是改变遮黑的比例，从10%到90%不等。如果盲训练的增益来自"全黑图像"这种特殊的人工信号，那增益应该随着遮黑比例的增加而单调增加。但实际上，不同遮黑比例下的峰值增益并没有呈现出这种单调趋势，说明问题不是出在"全黑图像"这个特殊形式上。

第四个实验是在模型已经充分学会了答题格式之后（格式正确率超过90%），继续观察是否还有实质性的准确率提升。结果显示，即使在格式训练饱和之后，盲训练仍能带来显著的准确率增益，排除了"只是学会了格式"这种解释。

把这些线索整合起来，答案浮现了：盲训练之所以有效，是因为训练数据中的文字本身就包含了大量可以利用的信息——题目的语言风格、常见的物理公式模板、答案的数值范围、选项的分布特点，这些"非视觉线索"在大量的强化学习训练中被模型捕捉到，帮助它在测试集上答对了更多题目。但这些进步与"真正理解了图像"毫无关系。就像一个考生反复刷了大量真题，熟悉了出题人的风格和套路，即使蒙眼也能猜对一些答案，但这不等于他学会了这门科目。

六、错误到底出在哪里？来自真实案例的细节解剖

研究团队还对多个前沿模型在四个版本上的错误类型进行了人工标注和分类分析，提炼出了几种典型的失误模式。

在纯文字的L1版本中，模型的错误主要集中在物理建模失误和推理错误两类——比如把一个双绳约束问题错误地简化成单绳问题，把两个方程的联立求解简化成一个单方程，或者在判断平衡条件时做出了错误的对称性假设。这类错误的本质是物理理解不到位，与图像无关。

随着版本从L2推进到L3，图像相关的错误开始显著增加：模型开始出现"结构图误读"（把图中某个元件的连接关系看错）、"数值误读"（把标注在图上的数字读成了不同的值，比如把"3.0×10?? C"读成"3.0×10?? C"）以及"几何关系误识别"（把一个60度角误判为30度角，导致后续所有计算全部出错）。

在L4版本中，还增加了"手写文字误读"这一类：模型对手写公式和手写数字的识别经常出错，比如把手写的"150 rad/s"误读成某个其他数值，进而导致解题路径整体错误。

有一个案例特别能说明问题。一道关于变压器电路的题目，图中标注了电压的表达式。在L3版本中，两个不同的模型都把图中标注的电压值读错了数量级——一个读成了"200√2 V"，另一个读成了"20√2 V"。基于这个错误的读数，它们各自推导出了"频率为50 Hz"这个结论，巧合的是这个结论本身是正确的（因为频率由角频率决定，与幅值无关），所以它们选择了正确的选项B，但支撑这个选项的推理过程中数值是错的。这种"正确答案，错误推理"的情况在视觉版本中更为常见，也更加隐蔽。

七、这些发现对AI研究意味着什么

从整体上看，这项研究传递了几个相互关联的信号。

当前的多模态AI模型在"信息表达方式改变但物理内容不变"的条件下表现并不稳定，而且这种不稳定性在最顶尖的模型身上同样存在，只是程度不同。最核心的瓶颈不是"看不到图"，也不是"不认识图里的结构"，而是"看见了数值但不知道它对应的是哪个物理实体"——也就是视觉变量与物理概念之间的绑定能力。

单纯用最终答案的正确率来评价多模态AI，会高估它们真正的视觉推理能力。一个在视觉题上成绩不错的模型，很可能只是擅长利用文字线索和题目风格猜测答案，而不是真正"看懂了图"。

用强化学习提升多模态AI时，即便训练数据是"视觉必要"的题目，最终奖励信号（答对还是答错）也没办法区分"用视觉信息答对"和"靠文字线索猜对"之间的差异。这是当前主流强化学习范式的一个根本性盲点：它鼓励任何能提升正确率的策略，无论那个策略是否真的依赖了视觉信息。

研究团队提出，未来的多模态推理研究应该同时关注两个维度：一是在测试时检验模型对信息表达方式变化的鲁棒性（就像SEEPHYS PRO做的那样），二是在训练时加入诊断手段来检验进步是否真的来自有效的视觉证据。他们提到了几个可能的改进方向，比如设计"如果把图片替换成错误内容，模型应该答错"的反事实测试，或者引入过程级别的奖励信号（不只看最终答案对不对，还看每一步推理是否确实用到了图中的信息）。

说到底，这项研究做的事情有点像是给AI模型做了一场"换装测试"：同一道题，换了件衣服，看它还认不认识。结果发现，很多我们以为已经"学会看图"的AI，其实只是学会了"看见图的存在然后继续靠文字答题"。这个发现本身并不是终点，而更像是一张地图，标出了当前AI视觉推理能力的真实边界在哪里。对于任何关心AI技术是否真正可靠的人来说，这张地图值得认真看看。

有兴趣深入了解的读者可以通过论文编号arXiv:2605.09266查阅完整论文，也可以访问研究团队在GitHub（AI4Phys/SeePhy-Pro）和CodaBench平台上开放的评测基准和代码。

Q&A

Q1：SEEPHYS PRO评测基准是什么，和普通物理评测有什么不同？

A：SEEPHYS PRO是一套专门用来检验AI模型"信息表达方式改变时推理是否稳定"的评测工具。普通物理评测只给模型一种形式的题目（比如只有文字或只有图），而SEEPHYS PRO把每道题做成四个版本，信息逐步从文字转移到图像，通过观察模型在四个版本间的成绩变化，来判断它是真的懂物理，还是只擅长处理某种特定的信息形式。

Q2：盲训练为什么能让模型在有图的测试集上成绩提升？

A：这是因为训练数据中的文字本身就包含了大量可以利用的规律，比如题目的语言风格、常见公式模板、答案的数值范围等。模型在盲训练中学到的是这些文字层面的统计规律，而不是真正的视觉理解能力。把图片遮黑之后，模型依然能靠文字猜出更多答案，导致测试集成绩看起来提升了，但这和"学会看图"没有关系。

Q3：当前多模态AI在视觉变量理解上的主要瓶颈是什么？

A：最核心的问题是"变量接地"能力不足，也就是模型即便看见了图中标注的数值，也经常无法正确判断这个数值对应的是哪个物理实体或物理量。比如图里有三个不同位置的电阻值标注，模型可能读错了数字，或者把某个数字匹配到了错误的元件上，导致后续所有计算都建立在错误的基础上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.