首尔国大团队重磅发现：视觉幻觉背后的"不确定性"秘密被破解|局限性

分享至

这项由首尔国立大学电气与计算机工程系Hoigi Seo、Dong Un Kang等研究人员进行的突破性研究发表于2025年的NeurIPS（神经信息处理系统大会）。对这项研究感兴趣的读者可以通过论文编号arXiv:2510.09008v1查询完整论文。

在人工智能迅速发展的今天，大型视觉语言模型已经能够同时处理图片和文字，在图像描述、视觉问答等任务上表现出色。然而，这些看似聪明的AI系统却有一个令人困扰的毛病：它们时常会"看见"图片中根本不存在的东西，描述出一些虚无缥缈的物体。这种现象被称为"物体幻觉"，就像一个人在昏暗中把树影误认为是人影一样。

首尔国立大学的研究团队决定深入探究这个问题的根源。他们发现，问题的关键在于视觉编码器（也就是AI的"眼睛"部分）中存在着"不确定性"视觉标记。这些标记就像是模糊不清的图像片段，当AI试图理解它们时，往往会产生错误的判断，进而描述出不存在的物体。

更令人兴奋的是，研究团队不仅找到了问题的根源，还开发出了一种简单而有效的解决方案。他们通过对抗性攻击的方法来识别这些"不确定"的视觉标记，然后在AI处理过程中将它们"屏蔽"掉，从而显著减少了幻觉现象的发生。这种方法不需要重新训练模型，可以与现有的各种AI系统兼容使用。

一、视觉幻觉的真相：AI眼中的"海市蜃楼"

要理解这项研究，我们首先需要明白什么是大型视觉语言模型。这些AI系统就像是一个既能看图又能说话的智能助手，它们由两个主要部分组成：视觉编码器（负责"看"图片）和语言模型（负责"说话"描述）。

当我们给这样的AI系统展示一张照片时，视觉编码器会将图片分解成许多小块，每个小块对应一个"视觉标记"。这些标记就像是拼图的碎片，AI需要将它们组合起来理解整张图片的内容。然后，语言模型根据这些视觉信息生成相应的文字描述。

然而，问题就出现在这个过程中。有些视觉标记可能因为图像质量、光照条件或者其他因素而变得模糊不清，AI对它们的理解充满了"不确定性"。当遇到这些不确定的标记时，AI可能会"脑补"出一些原本不存在的内容。这就好比你在雾天开车时，模糊的路标可能让你误以为前方有障碍物，但实际上那可能只是一团雾气。

研究团队通过大量实验发现，这种视觉标记的不确定性与物体幻觉之间存在着显著的正相关关系。换句话说，视觉标记越不确定，AI产生幻觉的可能性就越大。这个发现为解决幻觉问题提供了全新的思路。

二、对抗性攻击：揭露不确定性的"探测器"

为了识别那些充满不确定性的视觉标记，研究团队采用了一种巧妙的方法——对抗性攻击。这听起来可能有些复杂，但实际原理很简单。

对抗性攻击就像是给图片添加一些几乎看不见的"噪点"，这些细微的改动对人眼来说毫无影响，但却能让AI产生截然不同的理解。研究团队利用这个特点，通过观察哪些视觉标记在面对这些微小干扰时表现得最"敏感"或"不稳定"，来识别出那些不确定性最高的标记。

这个过程就像是用小石子投向平静的池塘，观察哪些地方的水波纹最剧烈。那些波纹最大的地方，往往就是水底最不稳定的区域。同样，那些在对抗性攻击下表现最不稳定的视觉标记，通常就是不确定性最高的部分。

更重要的是，研究团队从理论上证明了这种方法的有效性。他们证明，视觉标记在对抗性攻击下的偏差程度与其不确定性的上界存在单调关系。简单来说，偏差越大的标记，其不确定性也越高。这为整个方法提供了坚实的理论基础。

与传统的蒙特卡洛丢弃法相比，这种基于对抗性攻击的不确定性估计方法速度快了约5倍，大大提高了实际应用的可行性。

三、智能屏蔽：让AI"看得更清楚"

找到了不确定性视觉标记之后，下一步就是如何处理它们。研究团队采用了一种"智能屏蔽"的策略，在AI的自注意力机制中将这些不确定的标记"屏蔽"掉。

这个过程可以比作戴上一副特殊的眼镜。这副眼镜不会完全遮住那些模糊的区域，而是降低它们的"影响力"，让AI在处理视觉信息时更多地关注那些清晰、确定的部分。

具体来说，研究团队在视觉编码器的中间层应用这种屏蔽策略。他们发现，在早期层次提取不确定性信息，然后在中间层次进行屏蔽，能够取得最佳的效果。这种设计既保持了视觉表示的整体结构，又有效地抑制了不确定标记的负面影响。

屏蔽过程使用的是二进制掩码，就像是一个开关，决定每个视觉标记在注意力计算中的参与程度。那些被标记为"不确定"的标记会被设置为0，而"确定"的标记则保持为1。这种简单而直接的方法在实践中证明非常有效。

四、实验验证：数据说话的时刻

为了验证方法的有效性，研究团队在多个知名的AI模型上进行了广泛的测试，包括LLaVA-1.5、Shikra和MiniGPT-4等。他们使用了三个主要的评估基准：CHAIR、POPE和AMBER。

在CHAIR基准测试中，研究方法在LLaVA-1.5-7B模型上将句子级别的幻觉率从47.4%降低到29.2%，实例级别的幻觉率从12.2%降低到9.3%。这意味着AI产生虚假描述的频率大幅下降，描述的准确性显著提高。

在POPE基准测试中，该方法在保持或略微提高准确率的同时，有效减少了错误的正面判断。这说明AI不仅减少了"看见"不存在物体的情况，还保持了对真实存在物体的正确识别能力。

更令人印象深刻的是，这种方法具有很好的通用性和兼容性。它不仅可以单独使用，还能与现有的其他幻觉缓解方法结合，产生协同效应。无论是与OPERA、VCD、PAI还是Devils等方法结合，都能进一步提升整体性能。

研究团队还进行了详细的消融实验，探讨了不同参数设置对结果的影响。他们发现，从早期层次（第1-10层）提取不确定性信息效果最好，而在中间层次（第13-17层）进行屏蔽能够达到最佳的幻觉缓解效果。

五、理论创新：不确定性与幻觉的数学联系

这项研究的理论贡献同样值得关注。研究团队首次从数学角度建立了视觉标记不确定性与物体幻觉之间的明确联系。

他们提出了两个重要的理论结果。首先是关于小扰动下近似局部高斯性的引理，该引理表明在小的对抗性扰动下，神经网络的隐藏状态可以用高斯分布来局部近似。这为后续的不确定性分析提供了数学基础。

其次是关于微分熵上界的定理，该定理证明了隐藏状态偏差的增加会导致微分熵上界的增加。简单来说，就是标记在对抗性攻击下的变化越大，其不确定性也越高。

这些理论结果不仅为研究方法提供了严格的数学支撑，也为未来相关研究奠定了基础。通过建立不确定性与幻觉之间的定量关系，研究团队为这个领域提供了新的研究框架和分析工具。

六、实际应用：从实验室到现实世界

这项研究的意义远不止于学术层面。在实际应用中，视觉语言模型的幻觉问题一直是限制其广泛部署的主要障碍之一。特别是在医疗影像分析、自动驾驶辅助系统、安防监控等对准确性要求极高的场景中，任何形式的"幻觉"都可能带来严重后果。

研究团队开发的方法具有几个重要的实用优势。首先，它是"训练无关"的，意味着可以直接应用到现有的预训练模型上，而无需重新训练或微调。这大大降低了部署成本和技术门槛。

其次，该方法的计算开销相对较小。虽然对抗性攻击会增加一些计算时间，但相比其他需要多次推理的方法，这种额外开销是可以接受的。研究显示，与蒙特卡洛方法相比，新方法的速度提升了约5倍。

再者，这种方法具有很好的模块化特性。由于它只修改视觉编码器部分，可以与各种现有的语言模型结合使用，也能与其他幻觉缓解技术协同工作。

研究团队还测试了方法在不同规模模型上的表现，从7B参数的模型到13B参数的模型，都显示出一致的改进效果。这表明该方法具有良好的可扩展性。

七、局限性与未来展望

尽管取得了显著成果，研究团队也坦诚地讨论了当前方法的局限性。首先，对抗性攻击的计算成本虽然相对较低，但仍然增加了推理时间。在实时性要求极高的应用场景中，这可能成为一个考虑因素。

其次，当前的屏蔽策略虽然有效，但可能会导致一些有用视觉信息的丢失。这在某些需要精细视觉理解的任务中可能会影响性能。

另外，该方法在使用Q-Former架构的模型（如MiniGPT-4）上的改进效果相对有限。这是因为Q-Former在视觉编码器和语言模型之间起到了"缓冲"作用，限制了视觉编码器层面修改的影响力。

展望未来，研究团队指出了几个有前景的研究方向。首先是开发更高效的不确定性估计方法，进一步降低计算开销。其次是探索更精细的屏蔽策略，在去除不确定性的同时最大化保留有用信息。

此外，将这种思路扩展到其他类型的多模态模型，以及探索不确定性在其他AI任务中的作用，都是值得研究的方向。随着视觉语言模型在各个领域的广泛应用，对其可靠性和准确性的要求只会越来越高。

说到底，这项研究揭示了AI视觉幻觉背后的深层机制，并提供了一个实用的解决方案。虽然还有改进空间，但它为构建更可靠、更准确的人工智能系统迈出了重要一步。随着技术的不断发展和完善，我们有理由期待未来的AI系统能够更好地区分现实与幻象，为人类提供更可靠的智能服务。对于想要深入了解技术细节的读者，可以通过论文编号arXiv:2510.09008v1查阅完整的研究报告。

Q&A

Q1：什么是大型视觉语言模型的物体幻觉问题？

A：物体幻觉是指AI在描述图片时会"看见"实际不存在的物体，比如在一张只有猫咪的照片中描述出狗狗或玩具等虚假内容。这就像人在昏暗中把树影误认为人影一样，AI会错误解读视觉信息并生成不准确的描述。

Q2：首尔国大团队的方法如何识别不确定的视觉标记？

A：研究团队使用对抗性攻击方法，给图片添加人眼几乎看不见的细微干扰，然后观察哪些视觉标记在面对干扰时表现最不稳定。这些反应剧烈的标记通常就是不确定性最高的部分，就像用小石子投向池塘观察哪里水波最大一样。

Q3：这种方法能与现有的AI系统兼容使用吗？

A：是的，这种方法具有很好的兼容性。它不需要重新训练AI模型，可以直接应用到现有系统中，还能与OPERA、VCD、PAI等其他幻觉缓解方法结合使用，产生协同效应。研究显示它在多种不同的AI模型上都能有效降低幻觉率。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.