网易首页 > 网易号 > 正文 申请入驻

清华大学首次揭示:当前最强AI视觉模型竟然"瞎"得惊人

0
分享至


当我们谈论人工智能的视觉能力时,大多数人可能会想到那些能够识别图片中猫狗、描述复杂场景的先进AI系统。然而,清华大学脑启发计算研究中心的周文昊、郑浩以及通讯作者赵荣教授在2025年11月发表的最新研究却告诉我们一个令人震惊的事实:即便是目前世界上最强大的视觉语言AI模型,在理解图像的整体结构方面,表现得竟然和瞎猜差不多。这项名为"TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models"的研究发表于arXiv预印本服务器,编号为arXiv:2511.11831v1,为我们重新审视AI视觉能力提供了全新的视角。

这项研究就像是给AI做了一次视力检查,结果却发现这些平时看起来聪明绝顶的AI系统,在最基础的视觉感知测试中几乎全军覆没。研究团队设计了一个巧妙的测试方法,专门检验AI是否真正"看懂"了图像的整体结构,而不是仅仅依靠局部特征来蒙混过关。结果显示,包括OpenAI的GPT-4o、Claude和Gemini在内的顶尖AI模型,在这项测试中的表现几乎等同于随机猜测,这无疑给整个AI视觉领域敲响了警钟。

更令人意外的是,研究还发现了一个反直觉的现象:那些推理能力更强、规模更大的AI模型,在视觉感知测试中的表现反而更差。这就好比一个博士生在解复杂数学题时游刃有余,却在最简单的视力表测试中表现不如小学生。这个发现不仅揭示了当前AI技术的根本性缺陷,也暗示着仅仅通过增加模型规模和提升推理能力,并不能解决AI视觉理解的核心问题。

一、AI视觉的隐秘盲区:看得清细节却看不懂全局

现代AI视觉系统的工作原理可以用一个形象的比喻来理解:它们就像是戴着高倍放大镜的研究员,能够清楚地看到图像中的每一个细节,却很难把握整体的结构和布局。当前主流的大型视觉语言模型采用的基本架构是将视觉编码器与大型语言模型进行连接,这种设计虽然在语义理解方面表现出色,但却在视觉感知环节形成了严重的信息瓶颈。

这个瓶颈的形成有其技术根源。视觉编码器需要将连续的、高维的视觉信息压缩转换为离散的文本标记序列,这个过程本质上是一种有损压缩。就像把一幅精美的油画用文字来描述一样,无论描述多么详细,总会丢失一些重要信息。更关键的是,许多视觉编码器的训练目标是与自然语言描述对齐,这使得它们更倾向于保留那些容易用语言表达的语义特征,而忽略那些难以言喻但对整体理解至关重要的全局结构信息。

在技术实现层面,视觉编码器还面临着结构性限制。为了处理任意尺寸的输入图像,模型通常需要进行缩放、填充或分块处理,这些操作可能会破坏图像的全局布局,扭曲空间关系。此外,为了减少计算负担,很多系统会采用标记减少技术,进一步增加了丢失重要视觉细节的风险。

传统的AI评估方法往往聚焦于语义丰富的下游任务,比如视觉问答、图像描述等。这些评估虽然全面,但存在一个根本性问题:它们无法将视觉感知能力与推理、语言生成等其他能力区分开来。就像考试时允许学生查资料一样,AI模型可能会利用其内部存储的知识来回答问题,而不是真正依靠对图像的理解。更严重的是,这些任务中往往存在局部快捷方式,模型可能仅通过识别特定的物体或场景元素就能给出正确答案,而无需真正理解图像的整体结构。

二、拓扑感知:一面照妖镜般的测试

为了解决传统评估方法的局限性,研究团队引入了拓扑学这一数学分支的概念。拓扑学研究的是在连续变形下保持不变的空间性质,比如拉伸、扭转、压缩和弯曲。当我们把一个甜甜圈进行各种变形时,它始终保持一个洞的特性,这就是拓扑性质。应用到图像分析中,拓扑特征主要包括连通性、孔洞数量以及内外关系等属性。

这些拓扑特征有一个至关重要的特点:它们完全依赖于图像的全局结构,而与局部特征无关。无论图像中的线条是粗是细、是黑是白、是直是弯,只要整体的连接模式相同,拓扑性质就保持不变。这种特性使得拓扑特征成为评估全局视觉感知能力的理想工具,因为模型无法通过识别局部细节来"作弊"。

研究团队设计的TopoPerception基准测试就像是专门为AI设计的视力表。测试采用固定的文本问题和选项,只有输入图像会发生变化,这样确保了模型必须依靠视觉信息来回答问题,而不能仅凭文本内容猜测答案。问题的格式非常简单:"根据提供的图像,以下哪项最好地描述了白色区域的拓扑结构?"选项包括:A.无闭合环路;B.单个闭合环路;C.两个闭合环路,彼此不完全包含;D.两个闭合环路,其中一个完全包围另一个;E.三个或更多闭合环路。

为了确保评估的纯净性,研究团队使用合成数据集作为视觉输入的基础。这些图像通过在连通图上构建均匀生成树来生成,每个图像都具有明确的拓扑属性,且不含任何语义信息。这种设计就像是创造了一种纯粹的"视觉语言",消除了AI模型可能利用的任何先验知识或语义线索。

三、测试结果:AI视觉能力的真相大白

当研究团队对包括OpenAI GPT-4o、Claude-sonnet-4-0、Claude-opus-4-0、Gemini-2.5-flash、Gemini-2.5-pro、OpenAI o4-mini和OpenAI o3等七个顶尖AI模型进行测试时,结果令人震惊。即使在最简单的测试级别(29×29像素分辨率,相当于经典MNIST数据集的分辨率),所有模型的表现都接近随机猜测水平。

具体来看,Gemini-2.5-flash表现最好,准确率为33.33%,但这仍然只是勉强达到在三个正确选项中随机选择的期望值。Claude-sonnet-4-0和Gemini-2.5-pro的准确率分别为30.00%和30.67%,Claude-opus-4-0为24.33%,GPT-4o为22.00%,而o4-mini和o3的表现更差,分别只有19.67%和12.00%。要知道,如果完全随机选择五个选项中的一个,期望准确率是20%;如果在三个正确选项中随机选择,期望准确率是33.3%。

更令人困惑的是,研究发现了一个反直觉的现象:在同一模型家族中,推理能力更强、规模更大的模型往往表现更差。在OpenAI系列中,性能排序为GPT-4o > o4-mini > o3;在Anthropic系列中,Claude-sonnet-4-0优于Claude-opus-4-0;在Google系列中,Gemini-2.5-flash超过了Gemini-2.5-pro。这种现象暗示着,当前AI系统中推理能力的增强可能与视觉感知能力的保持存在某种冲突。

通过分析模型的混淆矩阵和预测分布,研究团队发现了另一个有趣现象:所有模型都表现出明显的选择偏好,且来自同一家族的模型往往具有相似的偏好模式。例如,Claude系列模型都倾向于选择选项C,Gemini系列也有类似偏好,而OpenAI系列的偏好则更加多样化。更重要的是,每个模型在不同图像类别上的预测分布几乎完全一致,这表明它们并没有真正"看"图像,而是在用固有偏好进行猜测。

四、技术诊断:视觉处理链条的断裂点

这些令人意外的实验结果促使研究团队深入分析当前AI视觉系统的技术架构,以找出问题的根源。现代大型视觉语言模型的标准架构包含三个关键组件:视觉编码器、语言模型和连接两者的投影模块。在这个处理链条中,每个环节都可能成为全局视觉信息丢失的潜在源头。

视觉编码器作为整个系统的"眼睛",承担着将原始视觉信息转换为特征向量或标记序列的重任。然而,许多预训练的视觉编码器都带有强烈的归纳偏置,比如专门针对固定尺寸的方形图像进行训练。当处理任意形状的输入时,系统必须采用调整大小、填充或分块等操作,这些预处理步骤可能会严重扭曲图像的全局布局,破坏不同部分之间的空间关系。这就好比把一张完整的地图撕成碎片后重新拼接,即使每个碎片都很清晰,整体的地理关系却可能面目全非。

语义压缩过程是另一个关键的信息损失点。许多视觉编码器,特别是那些基于对比学习训练的模型如CLIP,主要目标是创建与自然语言描述对齐的表征。这种训练目标使得编码器更倾向于提取那些容易用语言表达的语义特征,而那些缺乏直接语言对应物的全局视觉信息往往被当作"不重要的细节"而被忽略。这就解释了为什么这些模型在语义理解任务上表现出色,却在需要精确全局结构理解的任务中败下阵来。

投影模块和跨模态对齐也带来了额外的挑战。将视觉表征转换为语言模型能够理解的格式本身就是一个有损过程。长序列的视觉标记不仅增加了计算负担,还促使研究者开发各种标记减少技术,进一步增加了丢失重要视觉细节的风险。此外,如果学习到的视觉表征与语言模型的嵌入空间不能有效对应,跨模态对齐问题就会复杂化信息融合过程。

五、深层机制:推理与感知的微妙博弈

研究中最令人费解的发现之一是推理能力更强的模型在视觉感知测试中表现更差。这个现象揭示了当前AI系统中一个深层的架构性问题:推理与感知之间可能存在某种竞争关系。

当面对拓扑感知任务时,推理能力更强的模型可能会试图通过自然语言推理来"思考"问题,而不是直接依靠视觉信息。由于拓扑特征本质上是全局的、抽象的,缺乏直接的语言对应物,这种语言化的推理过程反而可能误导模型,使其偏离正确的视觉感知路径。这就好比一个习惯了通过阅读文字描述来了解世界的人,当需要直接观察和判断空间关系时,反而不如那些更依赖直觉感知的人表现得好。

另一个可能的解释是,更强的推理能力可能伴随着更强的确认偏误。当模型形成初始印象后,强大的推理系统可能会努力寻找支持这个印象的"证据",而不是客观地分析视觉输入。这种现象在人类认知中也很常见:有时候想得太多反而会干扰直觉判断的准确性。

训练目标的差异也可能是导致这种现象的原因。推理能力更强的模型通常经过更多的语言推理任务训练,这可能使它们形成了一种"语言优先"的信息处理模式。当遇到需要纯视觉判断的任务时,这种处理模式反而成为了障碍。

六、技术革新的必要性:超越规模化的新路径

TopoPerception的研究结果清楚地表明,仅仅通过增加模型规模或改进训练数据是无法解决当前AI视觉系统根本性缺陷的。相反,这个领域需要的是架构层面的创新和训练范式的重新思考。

首先,视觉编码器的设计需要根本性的改革。当前主流的"一次性编码"模式可能需要被更加动态、迭代的视觉处理机制所取代。这种新机制应该允许模型在推理过程中多次重新检视视觉输入,就像人类在分析复杂图像时会进行多次注视和扫描一样。同时,编码器的设计应该更好地平衡局部细节保持与全局结构理解之间的关系。

跨模态对齐机制也需要重新设计。目前的对齐方法主要关注语义层面的对应关系,但对于空间关系、拓扑结构等更抽象的视觉特征缺乏有效的表征方式。未来的系统可能需要开发专门的"视觉语言"来表示这些难以用自然语言描述的视觉特征。

训练范式方面,研究结果暗示可能需要在推理能力和感知保真度之间找到更好的平衡点。这可能涉及到多阶段训练策略,或者开发能够在不同任务类型之间动态切换处理模式的架构。对于需要精确视觉判断的任务,系统应该能够"关闭"过度的语言推理,直接基于视觉特征做出决策。

七、广阔影响:重新定义AI视觉智能的标准

TopoPerception研究的意义远远超出了技术层面的发现,它为整个AI视觉领域提供了一个全新的评估框架和思考角度。这项研究就像是为AI视觉能力提供了一面"照妖镜",让我们看清了那些在传统评估中被掩盖的根本性缺陷。

从评估方法学的角度来看,TopoPerception提出了一个重要的评估原则:真正的视觉智能评估应该能够将感知能力与推理能力分离开来。这个原则挑战了当前主流的评估思路,即通过复合任务来测试AI的综合能力。虽然综合能力测试有其价值,但它们往往无法准确诊断系统在特定能力维度上的缺陷,从而可能误导技术发展方向。

这项研究还揭示了合成数据在AI评估中的独特价值。通过使用专门设计的合成拓扑图像,研究团队成功消除了自然图像中可能存在的各种混淆因素,实现了对特定能力的纯净测试。这种方法论对于其他AI能力的评估也具有重要的启发意义。

从更广泛的社会影响来看,这项研究提醒我们在AI技术应用中需要更加谨慎。当前的AI视觉系统虽然在许多应用场景中表现出色,但它们的成功可能更多地依赖于强大的语义知识和推理能力,而非真正的视觉理解。在那些需要精确空间理解或全局结构分析的关键应用中,比如医学图像分析、工程制图解读或安全监控等,我们可能需要重新评估这些系统的可靠性。

八、未来展望:构建真正"看得懂"的AI系统

TopoPerception的研究成果为AI视觉领域的未来发展指明了几个重要方向。首先,我们需要开发能够有效保持和处理全局视觉信息的新型架构。这可能涉及到从根本上重新思考视觉信息在AI系统中的表征和流转方式。

一个有前景的方向是开发分层的视觉处理架构,其中不同的处理层负责不同抽象级别的视觉特征。底层负责局部细节的提取和保持,中层处理区域性的空间关系,顶层则专门负责全局结构和拓扑特征的理解。这种分层设计可以确保在信息向上传递的过程中,各个抽象级别的重要信息都得到适当保留。

另一个重要方向是开发新的训练目标和损失函数,专门针对全局视觉特征的学习和保持进行优化。当前的训练目标主要关注语义对齐和下游任务性能,但缺乏对视觉结构完整性的直接约束。未来的训练框架可能需要引入专门的拓扑保持损失、空间一致性约束等机制。

跨模态对齐技术也需要创新。除了传统的语义对齐,我们还需要开发能够处理视觉-空间-语言三元关系的对齐机制。这可能涉及到创造新的中间表征形式,能够有效桥接抽象的视觉特征与语言概念之间的鸿沟。

评估方法学方面,TopoPerception开创了一个新的评估范式,但这只是开始。未来可能需要开发更多类似的"能力纯净测试",分别针对色彩感知、运动理解、三维空间认知等不同的视觉能力维度。这些测试组合起来可以构成一个全面的AI视觉能力诊断套件。

说到底,TopoPerception研究揭示的问题虽然严重,但也为AI视觉领域的进步提供了宝贵的指引。它告诉我们,构建真正智能的AI视觉系统不仅需要强大的计算能力和海量的训练数据,更需要对视觉认知本质的深入理解和精巧的架构设计。这项研究就像是在AI发展的道路上点亮了一盏明灯,提醒我们在追求更高层次智能的同时,不要忽视最基础但也最重要的感知能力。只有当AI系统真正"看懂"了世界,它们才能在更复杂的任务中发挥真正的智能。

对于普通读者而言,这项研究提供了一个重要的视角来理解AI技术的当前局限性。虽然AI在许多领域都表现出了令人印象深刻的能力,但它们距离真正的类人智能还有很长的路要走。理解这些局限性不仅有助于我们更理性地看待AI技术,也有助于我们在使用AI工具时做出更明智的决策。

未来的AI视觉系统可能会更加注重感知能力与推理能力的平衡发展,而不是单纯追求某一方面的提升。这种平衡发展的理念也许能够为整个人工智能领域的发展提供新的思路和方向。感兴趣的读者可以通过论文编号arXiv:2511.11831v1在arXiv平台上查阅这项研究的完整内容,深入了解这一领域的最新进展。

Q&A

Q1:TopoPerception测试为什么能够准确评估AI的视觉能力?

A:TopoPerception测试专门使用拓扑特征来评估AI,因为拓扑特征完全依赖图像的整体结构而与局部细节无关。这意味着AI无法通过识别特定物体或局部特征来"作弊",必须真正理解图像的全局结构才能回答正确。研究使用合成图像和固定的文本问题,确保AI只能依靠视觉信息而非文本线索或先验知识来答题。

Q2:为什么推理能力更强的AI模型在视觉测试中表现更差?

A:研究发现推理能力强的模型可能过度依赖语言推理,当遇到需要直接视觉判断的任务时,这种"想太多"的处理方式反而成为障碍。由于拓扑特征是抽象的、难以用语言描述的,强推理能力的模型试图用语言化思维来处理这些视觉信息时,可能会偏离正确的感知路径,就像习惯读文字的人在需要直接观察时反而不如依赖直觉的人。

Q3:当前AI视觉系统的主要问题出在哪里?

A:问题主要出现在视觉信息处理的各个环节。首先,视觉编码器在将图像转换为文本标记时会丢失重要的全局结构信息;其次,为了与语言模型对齐,系统更偏向保留容易用语言描述的语义特征,忽略空间关系等抽象视觉特征;最后,图像预处理过程中的缩放、分块等操作可能破坏原始的空间布局。这就像把完整地图撕碎重拼,虽然细节清晰但整体关系已面目全非。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝森特:我对中国稀土交付相当满意,日本那是自己作…

贝森特:我对中国稀土交付相当满意,日本那是自己作…

观察者网
2026-01-21 12:11:05
今夜,暴涨!特朗普,改口了!

今夜,暴涨!特朗普,改口了!

中国基金报
2026-01-22 00:11:08
外媒评2026最丑新车:两款中国车上榜!

外媒评2026最丑新车:两款中国车上榜!

电动知家
2026-01-20 13:39:05
名记:詹姆斯无缘全明星首发堪比2003年乔丹,最终卡特给乔丹让了首发

名记:詹姆斯无缘全明星首发堪比2003年乔丹,最终卡特给乔丹让了首发

懂球帝
2026-01-21 11:43:35
嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

古希腊掌管月桂的神
2026-01-21 15:21:20
一位长期在嫣然天使医院上班的护士站出来发声

一位长期在嫣然天使医院上班的护士站出来发声

果妈聊军事
2026-01-21 12:11:32
央视四个字力挺,吴京《镖人》仍被抵制,网友给出的理由出奇一致

央视四个字力挺,吴京《镖人》仍被抵制,网友给出的理由出奇一致

阿纂看事
2026-01-21 19:10:57
2026车主注意!养路费不绑油价了,油电都得按公里缴

2026车主注意!养路费不绑油价了,油电都得按公里缴

音乐时光的娱乐
2026-01-21 12:15:06
吴京、李连杰新片遭受抵制,网友的吐槽方向一致,不约而同

吴京、李连杰新片遭受抵制,网友的吐槽方向一致,不约而同

林轻吟
2026-01-19 19:59:16
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
唇釉外观设计被指涉嫌“辱女”!Uhue:坚决反对恶意诋毁

唇釉外观设计被指涉嫌“辱女”!Uhue:坚决反对恶意诋毁

南方都市报
2026-01-20 14:48:06
曝科尔下赛季可能离开勇士!合同年仍未续约 助教已经开始找工作

曝科尔下赛季可能离开勇士!合同年仍未续约 助教已经开始找工作

罗说NBA
2026-01-22 05:59:16
曼联一人回归战阿森纳,卡里克首发或变!顶住定位球关键角色曝光

曼联一人回归战阿森纳,卡里克首发或变!顶住定位球关键角色曝光

罗米的曼联博客
2026-01-22 07:32:14
梁小龙被曝离世1天,私生活被扒底朝天,原来他和杨少华处境一样

梁小龙被曝离世1天,私生活被扒底朝天,原来他和杨少华处境一样

暖心萌阿菇凉
2026-01-21 07:26:49
铁路公司党委书记被查,大家关心的不是他违法犯罪而是名字怎么读

铁路公司党委书记被查,大家关心的不是他违法犯罪而是名字怎么读

杰丝聊古今
2026-01-20 09:00:29
70岁后存款达到这个数就够了,没必要太多,儿女孝与不孝无所谓!

70岁后存款达到这个数就够了,没必要太多,儿女孝与不孝无所谓!

花小猫的美食日常
2026-01-20 13:54:06
2026年央视春晚联排收官!小品演员“大洗牌”,37位大咖轮番亮相

2026年央视春晚联排收官!小品演员“大洗牌”,37位大咖轮番亮相

肖兹探秘说
2026-01-21 16:26:36
牌面拉满!《新闻联播》报道U23国足3-0胜越南,历史首进决赛

牌面拉满!《新闻联播》报道U23国足3-0胜越南,历史首进决赛

懂球帝
2026-01-21 20:25:08
离谱!越南博主:中国队全场奔跑+犹如怪兽 建议拉他们去测兴奋剂

离谱!越南博主:中国队全场奔跑+犹如怪兽 建议拉他们去测兴奋剂

风过乡
2026-01-21 22:11:05
事态已超出美国掌控:德联邦法院出调查结果,北溪爆炸案真相来了

事态已超出美国掌控:德联邦法院出调查结果,北溪爆炸案真相来了

贾文彬的史书
2026-01-21 10:08:22
2026-01-22 08:16:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1258文章数 156关注度
往期回顾 全部

科技要闻

日系彩电时代“彻底落幕”

头条要闻

新房灌装燃气次日爆炸:夫妻重度烧伤 房子被毁成危房

头条要闻

新房灌装燃气次日爆炸:夫妻重度烧伤 房子被毁成危房

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

亲子
数码
本地
公开课
军事航空

亲子要闻

没想到小伙子也能用英语跟我对话了。他的发音比我标准,最后还知道来一句“Good job” 杨雪呀

数码要闻

索尼发布首款耳挂式开放耳机LinkBuds Clip Open 支持“安静模式”

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版