大连理工大学研究：视觉语言模型竟然"认不出"图片中的文字|模态|鲁棒性|新论文

分享至

这项由大连理工大学人工智能学院和新加坡南洋理工大学S-Lab联合完成的研究发表于2026年2月5日，论文编号为arXiv:2602.04802v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

研究团队发现了一个令人意外的现象：那些在处理纯文本时表现优异的视觉语言模型，当面对同样内容但以图片形式呈现的文字时，表现却大幅下降。这就像一个阅读高手，看印刷品毫无压力，但面对手写字迹就开始犯糊涂。为了系统性地研究这个问题，研究团队构建了名为VISTA-Bench的专门测试平台，评估了20多个主流视觉语言模型，结果让人惊讶：几乎所有模型都存在这种"模态差距"现象。

这项研究的重要性不仅在于发现了问题，更在于为未来人工智能的发展指明了方向。随着越来越多的信息以图片形式存在于我们的数字生活中，AI系统能否准确理解这些视觉化文本将直接影响它们在现实世界中的应用效果。

一、从一个有趣的现象说起

现代人工智能有个奇特现象：当你给AI模型输入一段纯文本问题时，它能对答如流，但如果你把完全相同的文字做成图片再问它，答案质量就会明显下降。这种现象就像一个博学的教授，面对印刷教科书时思路清晰，但看到黑板上的板书就开始迟疑。

研究团队将这种现象称为"模态差距"。模态在这里指的是信息传递的方式——文字直接输入是一种模态，图片中的文字是另一种模态。虽然内容完全相同，但传递方式的改变就让AI模型出现了困惑。

这个发现并非偶然。近年来，随着DeepSeek-OCR和Glyph等新技术的出现，"文字转像素"的处理方式正在兴起。这种方式将文字转换成图像处理，不仅能节省计算资源，还能建立统一的多模态处理界面。然而，这种转换是否真的不影响AI的理解能力？研究团队决定深入探讨这个问题。

他们的初步实验证实了这种担忧。当同样的问题以纯文本和图片文字两种形式呈现给AI模型时，几乎所有模型在图片文字上的表现都有明显下降。更令人惊讶的是，这种差距随着图片文字的视觉复杂度增加而进一步扩大——字体越小、风格越特殊，AI的表现就越差。

二、VISTA-Bench：专门的"考试系统"

为了系统性地研究这个问题，研究团队开发了VISTA-Bench这个专门的评测平台。可以把它想象成一个专门设计的"考试系统"，能够公平地比较AI模型在处理纯文本和图片文字时的表现差异。

这个系统包含1500个精心筛选的问题，每个问题都有两个版本：纯文本版本和图片文字版本。内容完全相同，只是呈现方式不同。就像同一道数学题，一个直接打印在纸上，另一个制作成图片显示在屏幕上。

VISTA-Bench的问题涵盖四个主要领域。首先是多模态感知任务，包含300个问题，测试AI能否准确识别和理解图片中的各种元素。比如让AI判断图片中人物的职业，或者识别画作的风格特征。这类任务既要求AI理解图片内容，又要理解图片形式的问题描述。

其次是多模态推理任务，同样包含300个问题，重点考察AI的逻辑思维能力。这就像让学生看着一张地图回答地理问题，不仅要看懂地图，还要进行空间推理和逻辑分析。

第三类是多模态知识任务，包含400个问题，涵盖STEM、医学、人文、管理等多个学科领域。这类问题需要AI结合图片信息和专业知识给出答案，就像医学院的考试，既要看懂X光片，又要运用医学理论进行诊断。

最后是纯文本知识任务，包含500个问题，专门测试AI在没有额外图片信息支持时，能否准确理解图片形式的文字并运用相关知识。这就像把历史教科书的内容制作成图片，然后让AI回答历史问题。

三、令人意外的测试结果

当研究团队使用VISTA-Bench对20多个主流视觉语言模型进行测试时，结果令人震惊。几乎所有模型都存在明显的模态差距，只有极少数例外。

以一些知名模型为例，NEO-9B-SFT模型的整体表现从纯文本时的59.3%下降到图片文字时的28.5%，降幅超过30个百分点。这相当于一个考试成绩优秀的学生，仅仅因为题目从打印版本改为手写版本，成绩就从90分掉到60分。

更细致的分析显示，这种差距在不同类型任务中表现各异。在多模态感知任务中，模型相对表现较好，差距相对较小。这可能是因为图片本身提供了额外的视觉线索，帮助模型理解问题。就像解读一幅画时，即使文字描述不够清晰，画面内容本身也能提供很多信息。

然而，在推理和知识任务中，差距就变得非常明显。推理任务的特点是需要多步骤的逻辑思考，而知识任务需要精确的信息提取和应用。当文字以图片形式呈现时，即使是很小的理解偏差也会在推理过程中被放大，最终导致错误结论。

最令人担忧的是纯文本知识任务的结果。在这类任务中，模型完全依赖对图片文字的理解，没有额外的视觉信息可以参考。结果显示，大多数模型的表现都出现了严重下降，有些模型的降幅甚至超过40个百分点。

不过，也有一些令人鼓舞的例外。MiMo-VL-7B-RL模型展现出了remarkable的稳定性，在图片文字上的表现甚至略好于纯文本。这表明，通过适当的技术优化，确实可以让AI模型在不同模态间保持一致的表现水平。

四、深入挖掘：问题到底出在哪里？

为了找出造成模态差距的根本原因，研究团队进行了深入的分析。他们发现，问题主要集中在两个方面：感知鲁棒性不足和渲染敏感性过高。

感知鲁棒性不足是指AI模型对图片文字的识别能力存在局限。当研究团队分析那些在纯文本版本中答对、但在图片版本中答错的案例时，发现大多数错误都与文字识别有关。这就像一个学生其实知道答案，但因为看不清题目而答错了。

更具体地说，AI模型在面对视觉质量较低的文字时表现尤其糟糕。当字体过小、风格特殊或图片质量不佳时，模型的表现会急剧下降。研究团队测试了不同字体大小的影响，发现9磅的小字体会显著增加模态差距，而32-48磅的大字体则能明显改善表现。

字体风格也有类似影响。标准字体如Arial、Times New Roman等，模型处理起来相对容易，差距较小。但面对手写体风格的Brush Script MT字体时，所有模型的表现都大幅下降。这种现象就像人类阅读一样——印刷体容易识别，草书就比较困难。

研究团队还发现了一个有趣现象：多模态任务中的视觉信息能够在一定程度上弥补文字识别的不足。当问题配有相关图片时，即使问题文字识别不完美，模型也能通过图片内容推测出部分信息，从而减小表现差距。这就像考试时，即使题目文字有些模糊，但如果配有相关图表，学生仍然能够理解题意。

五、技术细节：如何制作"公平"的测试

VISTA-Bench的构建过程体现了研究的严谨性。研究团队采用了三步流程确保测试的公平性和准确性。

第一步是数据构建。研究团队从现有的权威测试基准中精心挑选问题，确保涵盖不同难度和领域。这个过程就像组卷考试，需要保证题目的代表性和难度分布的合理性。所有选中的问题都经过了人工审核，确保答案的准确性。

第二步是渲染流程。这是整个系统的技术核心，需要将纯文本问题转换成视觉上等价的图片。这个过程远比简单的截图复杂。研究团队开发了基于LaTeX的专业渲染系统，能够正确处理数学公式、代码片段和特殊符号。就像专业的排版软件一样，这个系统能够保证文字的视觉质量和语义完整性。

渲染过程中，研究团队特别注意保持视觉和谐性。他们统一将图片宽度设定为800像素，高度则根据内容自适应调整。字体大小从9磅到48磅不等，字体类型包括Arial、Times New Roman、Cambria和手写体Brush Script MT，确保了测试场景的多样性。

第三步是质量验证。研究团队使用AI模型作为"质检员"，对每个渲染结果进行三个维度的评估：文字保真度、代码完整性和公式精确性。只有在所有维度都达到"完美"评级的问题才会被纳入最终测试集。这种严格的质量控制确保了测试的可靠性。

六、意外发现：AI模型的"个性差异"

在测试过程中，研究团队发现不同AI模型表现出了明显的"个性差异"。这些差异不仅体现在整体表现上，更体现在对不同类型视觉挑战的敏感程度上。

一些模型对字体大小特别敏感。当字体从16磅缩小到9磅时，这些模型的表现会急剧下降，就像近视的人突然摘掉眼镜一样。而另一些模型则对字体风格更加敏感，面对手写体时表现明显变差，但对小字体的容忍度相对较高。

更有趣的是，研究团队发现模型的OCR（光学字符识别）能力与模态差距之间存在明显相关性。那些在专门的OCR测试中表现出色的模型，在VISTA-Bench中的模态差距也相对较小。这就像阅读能力强的人，无论面对什么样的文本都能保持相对稳定的理解水平。

例如，Qwen3-VL-8B-Instruct模型在DocVQA测试中得分96.1，在OCRBench中得分896，这两个都是OCR能力的专业测试。相应地，它在VISTA-Bench中的模态差距只有5.8个百分点。而InternVL-3.5-8B模型的OCR测试成绩分别是92.3和832，模态差距则达到8.9个百分点。

这种关联性表明，提升AI模型的基础文字识别能力可能是缩小模态差距的关键途径。就像提高一个学生的阅读基本功，能够帮助他在各种考试形式中都保持稳定发挥。

七、实用建议：如何"驯服"视觉文字

基于研究发现，团队提出了一些实用的优化建议。这些建议不仅对AI开发者有价值，对普通用户也具有指导意义。

首先是优化文字呈现质量。研究显示，清晰、标准的文字呈现能显著减少模态差距。具体来说，使用32-48磅的字体大小、选择标准字体如Arial或Times New Roman、保证足够的图片分辨率，都能帮助AI更准确地理解文字内容。这就像给近视的朋友准备阅读材料时，选择大号清晰的字体一样。

其次是合理设计提示语句。研究发现，适度详细的指导语句能帮助AI更好地处理图片文字，但过于复杂的提示反而可能产生干扰。最有效的方式是使用中等长度、语义清晰的指导语，明确告诉AI需要关注图片中的文字内容。

第三是充分利用多模态信息。当图片文字配有相关图像时，AI的表现会明显改善。这是因为图像提供了额外的上下文信息，帮助AI理解和验证文字内容。在实际应用中，尽量保留相关的视觉信息，而不是将所有内容都转换为纯文字形式。

最后是选择合适的AI模型。不同模型在处理图片文字方面的能力差异很大。对于需要大量处理图片文字的应用场景，选择那些在OCR能力和VISTA-Bench测试中表现优异的模型会获得更好的效果。

八、展望未来：统一的多模态理解

这项研究不仅发现了问题，更为未来的AI发展指明了方向。随着信息以越来越多样的形式存在于数字世界中，AI系统需要具备真正统一的多模态理解能力。

研究团队认为，理想的AI系统应该能够无缝处理各种形式的信息，无论是纯文本、图片文字、语音还是视频内容。这种能力的实现需要从根本上改进AI的信息处理机制，而不仅仅是简单地将不同模态的信息拼接在一起。

技术层面上，这要求AI模型具备更强的感知鲁棒性和跨模态对齐能力。感知鲁棒性意味着AI能够准确识别各种质量和风格的文字，就像人类能够阅读不同字体和书写风格的文本一样。跨模态对齐能力则要求AI能够理解不同形式的信息实际上传达着相同的语义内容。

从应用角度看，这项研究的影响将是深远的。在教育领域，AI tutoring系统需要能够理解教材图片中的文字内容。在医疗领域，AI诊断系统需要准确解读医学影像中的标注信息。在法律领域，AI需要处理各种形式的法律文件。所有这些应用都要求AI具备优秀的视觉文字理解能力。

研究团队特别指出，随着"文字转像素"技术的发展，这个问题变得愈发重要。当越来越多的文本信息被转换为图像格式以提高处理效率时，确保AI在这种转换过程中不丢失理解能力就成为了关键挑战。

有趣的是，研究还涉及了生成式AI模型的评估。团队测试了Qwen-Image-Edit这样的生成模型，发现它们在处理图片文字任务时面临着不同的挑战。这些模型不仅要理解输入的图片文字，还要生成包含准确信息的输出图像。这为未来的多模态生成技术提出了新的技术要求。

说到底，VISTA-Bench的意义不仅在于发现了当前AI系统的局限性，更在于为整个领域提供了一个systematic的评估框架。这个框架让研究者和开发者能够量化地评估不同技术方案的效果，从而推动整个领域向着更加robust和unified的方向发展。

归根结底，这项研究提醒我们，AI系统的智能不仅体现在能做什么，更体现在能否在各种条件下保持consistent的表现。当我们设计AI系统时，需要考虑信息可能以各种形式出现，而不能假设所有输入都是ideal的条件。只有这样，AI才能真正在复杂多变的现实世界中发挥作用。

这项研究为AI领域打开了一扇新的窗口，让我们重新审视多模态理解的本质。未来的AI系统需要像人类一样，无论信息以何种形式出现，都能保持稳定而准确的理解能力。这不仅是技术挑战，更是通向真正智能系统的必经之路。

Q&A

Q1：什么是VISTA-Bench评测平台？

A：VISTA-Bench是大连理工大学开发的专门测试平台，包含1500个精心设计的问题，每个问题都有纯文本和图片文字两个版本，用来评估AI模型处理这两种不同形式文字时的表现差异。就像一个专门的考试系统，能公平比较AI在不同条件下的能力。

Q2：为什么AI模型看图片文字比看纯文字表现更差？

A：主要原因是AI的感知鲁棒性不足。当文字以图片形式呈现时，字体大小、风格、图片质量等因素都会影响AI的识别准确度。就像人类看清晰印刷体比看模糊手写字更容易一样，AI面对视觉质量较低的图片文字时容易出错，而这些错误会在后续推理中被放大。

Q3：如何让AI更好地处理图片中的文字？

A：可以从几个方面优化：使用32-48磅的大字体、选择Arial等标准字体、保证图片清晰度、配上相关图像提供上下文信息，以及选择OCR能力强的AI模型。这些措施就像给近视朋友准备大号清晰字体的阅读材料一样，能帮助AI更准确理解内容。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.