一种认知范式方法：探究视觉语言模型中的感知-推理界面|模态

分享至

A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs

一种认知范式方法：探索视觉语言模型中的感知-推理界面

https://www.arxiv.org/pdf/2501.13620

摘要

在人工智能领域，一个根本性的挑战在于理解复杂模型（如视觉-语言模型 VLMs）背后所依赖的认知机制。这些模型是如何将视觉感知与抽象思维结合起来的？尤其是在需要跨多张图像进行推理或要求细粒度组合理解的情况下。受认知科学的启发，本文引入了一个结构化的评估框架，使用多种视觉推理任务——邦加德问题（Bongard Problems, BPs）和维诺地面（Winoground）——来剖析VLM中的感知-推理界面。

我们提出了三种不同的评估范式，模拟人类的问题解决策略：直接视觉规则学习（DVRL；整体处理）、演绎规则学习（DRL；规则提取与应用）以及成分分析（CA；通过任务无关的文本描述进行分析性分解）。这些范式系统地改变了认知负荷，并针对不同的信息处理阶段进行探测。

值得注意的是，成分分析（CA）使得即使是对单图架构也可以进行多图推理评估，并且通过操作文本描述，能够将推理过程从感知中独立出来。应用这一框架，我们证明了CA利用强大的语言模型，在丰富且独立生成的描述基础上进行推理，在诸如Bongard-OpenWorld、Bongard-HOI和Winoground等具有挑战性的基准测试中取得了新的最先进（SOTA）性能。

消融实验表明，当感知上的挑战被缓解时，推理能力显著提升，揭示了一个关键的感知瓶颈。我们的框架提供了一个有价值的诊断工具，并表明：通过丰富且任务无关的描述将感知与推理解耦，是实现稳健而通用视觉智能的一个有前景的方向。

1引言

人类认知能够熟练地将视觉感知与抽象推理结合起来，以应对和理解世界 [1, 2]。在人工智能领域，一个核心目标是赋予机器类似的视觉智能 [3]。尽管视觉-语言模型（Vision-Language Models, VLMs）已经展现出显著的进步 [4, 5]，但支持复杂视觉推理的底层机制——尤其是那些需要跨多张图像进行抽象或细粒度组合理解的任务——仍然不透明。VLMs 是如何在像素与概念之间建立联系的？它们的策略又如何与人类认知相比较？

为了探究这些问题，我们使用了两类具有挑战性的视觉推理任务。第一类是邦加德问题（Bongard Problems, BPs）[6]，这是一类经典测试，要求模型在少量样本中发现一个抽象的视觉规则，从而区分正例和负例图像集。BPs 需要具备感知、抽象和多图对比能力，这与人类的概念学习过程相似 [7]。我们使用的是自然图像变体：Bongard-OpenWorld [8] 和 Bongard-HOI [9]。第二类是 Winoground [10]，它通过要求对最小差异的图文配对进行精细辨别，来测试视觉-语言的组合推理能力。

本文提出了一种专门设计用于探测 VLM 在此类视觉推理任务中表现背后的认知过程的评估框架，并主要以自然图像版的 Bongard 问题 [8] 作为我们的测试平台。我们的核心贡献是一种基于认知科学原理的评估方法。我们提出了三种不同的范式，以不同方式构建 BP 任务，模拟人类已有的问题解决策略：

直接视觉规则学习（DVRL）：模拟整体处理或“整体印象”式加工 [11]，要求模型同时分析所有图像。
演绎规则学习（DRL）：模仿显式的、基于规则的推理 [12]，将规则提取与后续应用分离。
成分分析（CA）：类似于分析性分解 [13]，要求模型基于图像的结构化文本描述进行推理。

这一框架允许系统性地分析 VLM 在不同认知需求下的行为，并识别具体的瓶颈。

CA 范式具有独特优势。它使得即使是对单图架构也能进行多图推理评估。关键在于，通过先生成全面且与任务无关的图像描述，再仅在这些文本基础上进行推理，CA 使我们可以将感知与推理解耦。更重要的是，通过替换外部生成的高质量描述，我们可以将推理能力从模型自身的感知限制中分离出来，甚至可以评估纯文本的语言模型（见第 7.2 节）。

应用该框架后，我们在多个基准测试中取得了新的最先进（SOTA）结果，包括 Bongard-OpenWorld、Bongard-HOI（多个分割集）和 Winoground，主要得益于高保真描述与强大推理模型（如 GPT-4o、Gemini 2.0 及专业 LLM）的结合。这种在多种任务中的成功表明，将感知解耦为丰富的文本表示，并利用强大的语言推理模型，具有稳健性和通用性。

与此同时，我们的分析揭示了许多开源 VLM 中存在严重的感知瓶颈，当绕过其感知前端时，性能显著提升。

因此，我们的贡献包括：

一种新颖的、受认知启发的 VLM 视觉推理诊断评估框架。
三种评估范式，可用于分析不同的推理策略，并为多种架构实现多图任务评估。
一种方法（CA），有助于将感知与推理分离，并扩展到纯文本语言模型的评估。
实证结果揭示了先进 VLM 的潜力，同时也指出了当前许多开源模型中存在的关键感知瓶颈。
提供证据支持结构化、多阶段处理对 VLM 视觉推理的益处——在多个基准测试（Bongard-OW、HOI、Winoground）上实现了 SOTA 性能。

2相关工作

评估视觉-语言模型（Vision-Language Models, VLMs）不断增长的能力，需要多样化的基准测试。虽然像视觉问答（Visual Question Answering, VQA）[14, 15] 这样的基础任务仍然重要，但研究重点已逐渐转向复杂推理[16, 17] 和多模态、多图像理解，利用混合语料库 [18, 19] 和专用基准 [20–22]。然而，许多评估严重依赖语言上下文，或者未能特别地隔离出那些在纯视觉挑战（如邦加德问题 BPs）中核心的抽象视觉概念形成和关系推理能力。

纯视觉推理基准为感知和非语言推理能力提供了更清晰的观察窗口。邦加德问题（BPs）[6] 是一个典型例子，它测试了小样本下的抽象规则发现能力。像 Bongard-HOI [9] 和 Bongard-OpenWorld [8] 这类自然图像变体增强了生态效度（ecological validity），要求在复杂的图像之间进行比较，类似于人类的概念学习过程。与其他抽象推理测试（如瑞文推理测验 Raven’s Progressive Matrices, RPMs）[23, 24] 一样，BPs 为高级视觉智能提供了一个关键的测试平台。Winoground [10] 则专门针对视觉-语言组合理解能力。

我们的贡献在于提出了一种评估方法论，旨在分析模型是如何应对这些认知要求较高的任务的。

我们的评估框架明确基于认知科学关于人类问题解决的观点 [25]。所提出的范式反映了多种认知策略：直接视觉规则学习（DVRL）体现了在初步视觉分析中常见的快速整体性或基于相似性的处理方式 [11, 26]；演绎规则学习（DRL）反映了明确、有意识的基于规则的推理过程 [12, 27]；而成分分析（CA）则类似于将问题分解为其构成特征或组成部分进行系统推理的分析性解构过程 [13, 28]。通过这些不同的视角来评估视觉语言模型（VLMs），为我们提供了一种结构化的方法，用以探究其内部处理机制与已知认知模式之间的关系。

我们的方法也与“思维链”（Chain-of-Thought, CoT）提示方法相关 [29, 30]，这些方法通过结构化的方式来组织推理过程，包括最近的一些多模态扩展 [31, 32]，例如 DDCoT [33]、CoCoT [34] 和组合式 CoT（Compositional CoT）[35]。尽管我们都追求逐步推理的目标，但我们的成分分析（CA）范式有一个关键区别：许多多模态 CoT 方法生成的中间表示通常是依赖于特定任务背景的（例如，针对给定标题生成描述 [33, 34]），而我们的 CA 范式则有意在第一个独立阶段生成全面且与任务无关的文本图像描述，后续的推理仅基于这一输出进行。这种分离似乎是我们在实验中观察到的良好泛化能力和 SOTA（最先进）性能的关键所在。

我们的范式作为诊断性评估条件，对任务结构进行操控，而非仅仅是为了提升性能的提示技术。因此，我们的范式主要作为基于认知理论的不同评估条件，用于操控任务结构本身（例如，比较整体性与演绎性处理、通过 CA 分离感知与推理），从而为 VLM 的处理机制提供诊断性见解，而不是仅仅为了最大化任务表现而设计的提示技巧。

3 模型

我们选择了一系列多样化的当代视觉语言模型（VLMs）进行评估，涵盖了当前领先的闭源系统以及广泛使用的、规模各异的开源模型。这些模型包括：GPT-4o [36]、Gemini 2.0 [37]、Pixtral-12B [38]、Llama-Vision-3.2（11B、90B）[39]、LLaVA（基于 Llama-2；7B、13B、34B）[40]，以及 LLaVA-Llama3-8B [41]。

为了在文本推理方面进行消融实验（见第 7.2 节），我们还纳入了一些仅处理文本的大语言模型（LLMs），例如 Phi-4 [42]、Qwen2.5 [43]、Deepseek-r1 [44] 和 Gemma2 [45]。

模型的访问方式包括通过官方 API，或使用 Ollama 框架 [46] 在本地 NVIDIA GPU（2080Ti、3090、6000 Ada）上运行。所有评估均采用少样本提示（few-shot prompting），并设置温度参数为零以获得确定性输出；未对任何模型进行微调。

附录 A.4 提供了关于模型、配置等方面的详细信息。

4数据集和任务

我们的主要测试平台是Bongard-OpenWorld 数据集 [8]。我们选择这个基准测试，是因为它使用了自然、真实世界的图像，并且要求基于常识性视觉概念进行少样本的抽象推理，这与 Bongard 问题（BPs）所固有的认知挑战相一致。从完整数据集中，我们构建了一个包含 500 个测试用例的平衡子集（详见附录 A.3 中的采样细节）。每个测试用例包括 6 张体现某一规则的正类图像、6 张违反该规则的负类图像，以及 1 张用于分类的查询图像。

该数据集以真实世界图像和抽象规则为基础，为评估 VLM 的视觉智能提供了一个具有挑战性的测试环境。图 1 展示了一个示例任务。

为了评估模型的泛化能力，我们还使用了Bongard-HOI [9]和Bongard Logo [47]数据集（见第 6.2 节）。

此外，我们还采用了另外两个不同的视觉推理基准测试：

Bongard-HOI（BP-HOI）[9]：聚焦于基于自然图像中人与物体交互的规则。使用了 4 个标准划分的数据集（每个 N=100）。
Winoground [10]：通过图像-文本匹配任务评估细粒度的组合性视觉-语言推理能力（共使用 N=400 个样本）。

这些多样化的任务分别考察了抽象推理能力（BPs）和组合性理解能力（Winoground），构成了一个全面的测试平台

5 受认知科学启发的评估范式

我们采用三种评估范式来考察视觉语言模型（VLMs）在视觉推理不同方面的表现，这些范式的设计灵感来自于人类的认知策略。所有范式都要求模型输出一个结构化的响应，包括分析过程、推导出的规则、对查询图像的描述以及分类结果（正类/负类）。图 2 提供了这些范式的示意图概述。具体的提示语详见附录 A.5。

5.1 直接视觉规则学习（DVRL）

该范式通过将所有 13 张图像（6 张正类、6 张负类、1 张查询图像）同时呈现给视觉语言模型（VLM），来评估其整体性推理能力。它要求模型在单一步骤内整合整个图像集合中的信息，以识别出潜在规则并对查询图像进行分类。这一过程模拟了人类快速把握视觉场景或问题“整体含义（gist）”的能力。由于该范式需要模型具备同时处理多张图像的输入能力，因此只有 Gemini 2.0 和 GPT-4o 等支持此类输入的模型在此范式下进行了测试。

5.2 演绎规则学习（DRL）

该范式模仿了有意识的、基于规则的演绎推理过程，分为两个阶段：

规则提取：视觉语言模型分析 12 张上下文图像（正类/负类图像集合），识别并简明总结（最多 20 个词）区分这些图像的关键规则。
规则应用
：模型接收此前生成的规则摘要和查询图像，并仅基于提供的规则对查询图像进行分类。

这种分离方式可以分别考察规则形成与规则应用两个过程的准确性。

5.3 成分分析（CA）

该范式反映了分析性的问题分解策略，其流程基于文本表示，分为以下两个阶段：

图像描述：视觉语言模型为每张图像（共 13 张）单独生成详细且结构化的 JSON 描述。
基于文本的推理：模型接受这13张图像的JSON描述集合（标注为正类/负类/查询图像），并仅基于这些文本输入进行规则提取和查询分类。
并仅基于这些文本输入进行规则提取和查询分类。

该范式具有三个重要意义：

(a) 允许对不支持直接多图输入的模型进行评估；
(b) 通过使用外部生成的描述（见第 7.2 节），可以在很大程度上独立于感知错误来评估模型的推理能力；
(c) 支持将纯文本大语言模型（LLMs）应用于视觉推理任务的评估。

6 结果与分析

本节详细介绍了所评估的视觉语言模型（VLMs）的表现，首先从主要的 Bongard-OpenWorld 基准测试开始，随后考察其泛化能力。

6.1 在 Bongard-OpenWorld 上的表现

表 1 展示了在我们包含 500 个样本的 Bongard-OpenWorld 子集上的核心结果。

在直接视觉规则学习（DVRL）范式下，仅适用于 GPT-4o 和 Gemini 2.0，模型表现良好但未达到最优水平（Gemini 2.0：82.2%，GPT-4o：80.0%），这表明在这一复杂任务中，纯粹的整体性、多图同时推理仍存在局限性。

在演绎规则学习（DRL）范式下，两个模型的表现均有显著提升（GPT-4o：88.0%，Gemini 2.0：86.8%）。将规则提取与应用阶段明确分开的做法似乎带来了益处，这也印证了一个观点：将复杂的认知任务进行拆解有助于提升表现。

在成分分析（CA）范式下，即基于文本描述进行推理，顶级模型达到了最高的准确率（GPT-4o：92.8%，Gemini 2.0：93.6%），超过了该基准测试报告的人类平均水平 [8]。这突显了当视觉输入被有效编码为语言时，这些模型具备强大的基于文本的推理能力。Pixtral-12B 在 CA 范式下也表现出色（87.2%）。

然而，其他开源模型的表现出现了明显差距。例如 Llama-Vision 和各类 LLaVA 模型在 CA 范式下的准确率明显较低，且在正类和负类样本之间的表现存在严重不平衡（例如 LLaVA-Llama3-8B：总体准确率为 53.2%，明显偏向于负类样本）。

这一模式强烈表明，这些模型的瓶颈未必在于抽象推理本身，而更可能是其内部视觉感知的质量以及随后将其转化为可用表示（在此为文本描述）的能力。

对于 GPT-4o 和 Gemini 2.0 来说，从 DVRL 到 DRL 再到 CA，准确率呈现一致上升趋势，进一步强化了结构化推理的价值，尤其是当感知能力足够时，基于组件的文本推理方法在该任务中的有效性。

6.2 Performance on Bongard HOI

在Bongard-HOI数据集上，我们对GPT-4o和Gemini 2.0在四个标准测试划分（sosa、soua、uosa、uoua；每个划分 N=100）中进行了评估。结果显示在表 2 中，其趋势基本复制了在Bongard-OpenWorld上观察到的结果。

对于两个模型而言，随着评估范式结构化程度的提升，表现也呈现出系统性的提高（DVRL < DRL < CA）。在成分分析（CA）范式下取得了最高的准确率（范围为 65–83%），普遍超过了演绎规则学习（DRL）（64–77%）和直接视觉规则学习（DVRL）（61–75%）。这种一致性验证了该评估框架的适用性，以及结构化评估方法在不同复杂自然图像推理数据集上的有效性。

值得注意的是，相比 OpenWorld，模型在 HOI 上的整体表现更低，这表明 HOI 提出了不同的挑战，可能体现在识别基于细微交互的规则方面存在困难。

文献 [9] 中报告的人类平均得分较高（87–95%），表明即使是当前顶级模型，在该数据集上仍与人类表现存在显著差距。

6.3 Winoground上的性能

我们将成分分析（CA）范式应用于另一个不同的挑战——Winoground [10]数据集，该任务要求通过细粒度的组合性推理来匹配图像与文本描述。

在第 1 阶段，我们使用Gemini 2.0为每张图像生成与任务无关的描述；
在第 2 阶段，我们使用多种大语言模型（作为推理引擎），仅基于这些描述和给定的文本描述来进行图像-文本匹配（具体评估指标详见附录 A.4.4）。

如表 3 所示，我们的方法在 Winoground 的所有三项指标（Text、Image、Group 得分）上均取得了新的最先进（SOTA）结果。当使用GPT-4o作为 CA 范式中的推理引擎时，得分分别为：Text: 75.5%、Image: 58.5%、Group: 52.0%，显著超过了此前报告的 SOTA 表现。

即使在 CA 框架中使用Gemini 2.0或强大的开源大语言模型（如 Llama3-70B 或 Qwen2.5-32B），也能够产生具有高度竞争力甚至达到 SOTA 的结果。

此次在 Winoground 上的成功应用表明，我们的 CA 评估策略不仅适用于 Bongard 类问题等规则发现任务，还可以有效用于探究组合性理解能力，进一步验证了我们这一受认知科学启发的框架在通用性和诊断潜力方面的优势。

此次成功意义重大，因为我们的 CA 方法在生成图像描述时是独立于文本描述或匹配任务本身的。与许多先前方法不同——它们通常会将视觉分析建立在文本上下文的基础上 [33, 34]，我们采用的是任务无关的描述生成，再结合强大的基于文本的推理，这被证明对于细粒度的组合性任务非常有效。

这表明，将丰富的感知能力（转化为文本）与强大的语言推理能力解耦，是一种适用于复杂视觉-语言任务的、具有泛化能力和高性能的策略。

7 消融研究：分离感知与推理

为了进一步探究视觉感知、规则表征与推理之间的相互作用，我们进行了有针对性的消融研究。以下所展示的两项研究都旨在强调从视觉输入中获得的初始表征的关键作用——无论是在对感知到的查询图像应用规则的过程中（第 7.1 节），还是在基于感知到的上下文图像进行推理的过程中（第 7.2 节）。

7.1规则应用保真度

一旦抽象规则被形成，模型在应用该规则方面的表现如何？
为了将规则应用与规则提取过程分离开来，我们向模型提供了高质量的规则摘要（由 GPT-4o 生成）以及查询图像，仅要求它们根据给定的规则进行分类。这用于测试模型能否将符号化的规则“落地”到查询图像的视觉输入中。

表 4 展示了在这种条件下几种开源模型的表现。像 Pixtral-12B 这样的模型在规则应用任务中表现出相对较强且平衡的能力（总体准确率为 88.0%），而其他模型则表现出确认偏误（confirmation bias），即在正类查询上表现良好，但在负类查询上表现较差。例如，Llama-Vision-11B 在正类样本上的准确率为 98.4%，而在负类样本上仅为 38.0%。

这表明，即使规则被明确提供，这些模型仍然难以可靠地识别图像是否不符合规则的标准。

与表 1 中的结果相比，本条件下的得分普遍高于 CA 范式中的得分（在 CA 中模型需要自行生成图像描述），这进一步支持了一个观点：对于这些模型来说，规则的应用本身并不是主要挑战，真正的瓶颈在于最初的感知/描述阶段。

7.2描述质量对推理的影响

作为对前一消融实验的补充，我们进一步研究了当使用高保真来源对初始感知阶段（即描述生成）进行标准化时，推理表现会发生怎样的变化。我们使用GPT-4o为所有上下文图像和查询图像生成描述，然后将这些描述作为输入提供给成分分析（Componential Analysis）范式中推理阶段（第二阶段），用于多个目标模型的推理，包括较弱的视觉语言模型（VLMs），甚至仅处理文本的大语言模型（LLMs）。

结果如表 5 所示，具有启发性。

当为模型提供高质量描述时，那些在使用自身生成的描述时表现不佳的视觉语言模型（VLMs）其推理准确率得到了显著提升。例如，Llama-Vision-11B 的准确率从 53.4%（见表 1）提升到了 84.17%，而 Llama-Vision-90B 则从 55.1% 提升到了 90.98%。这为以下观点提供了有力证据：端到端的评估严重低估了这些模型的推理能力；它们的主要局限在于无法生成准确的感知表示。

附录中的表 A.5 进一步说明了模型对描述来源质量的敏感性，该表详细比较了使用 Pixtral-12B 生成的描述进行推理的结果。

更引人注目的是，这种方法还使仅处理文本的大语言模型（LLMs）能够有效地执行视觉推理任务。例如 Phi-4（14B）达到了 91.98% 的准确率，超过了人类平均基线水平，多个 Qwen 模型的准确率也超过了 90%。

这一发现表明：

高质量的文本描述可以作为视觉输入的有效替代品，使推理任务实现模态转换；
成分分析（CA）范式，
尤其是结合受控描述输入时，是一种强大的工具，可用于独立于其集成感知系统，来分离并评估视觉语言模型（VLMs）和大语言模型（LLMs）的核心符号推理能力。

这些发现强有力地支持了一个结论：对于当前许多模型来说，提升视觉感知能力是增强端到端视觉推理表现的关键所在。

7.3 语义相似性分析

在演绎规则学习（DRL）过程中进行的语义相似性分析（见表 A.3）证实，模型所推导出的规则通常与查询描述高度一致，尤其是在正类样本上表现良好。负类样本的相似性也相对较高，这突显了该数据集中“近似反例（near-miss counterexamples）”所带来的挑战。

7.4 定性误差分析

在成分分析（CA）范式下，我们对 GPT-4o 和 Gemini 2.0 这两个顶级模型都错误分类的样例进行了分析，发现了反复出现的错误模式（详见附录 A.6.7 和表 A.8）。常见的问题包括：

过度泛化规则
遗漏正类示例中的关键对象或属性
关注虚假相关性（spurious correlations）
或未能一致地应用已推导出的规则。

这些定性案例表明，即使是非常强大的模型，在处理细微视觉细节和进行稳健的符号规则操作方面仍表现出一定的脆弱性。

8 讨论

本研究借助一个受认知科学启发的框架，对视觉语言模型（VLMs）的视觉推理机制进行了剖析。通过在模仿人类策略的多种范式下（整体性、演绎性、分析性）评估其表现，我们超越了单纯的准确率指标，深入探讨了模型如何处理视觉-概念信息。

一个核心发现是：视觉感知的关键作用及其常见局限性。虽然先进的 VLM 拥有强大的推理能力——当使用高保真文本描述时，成分分析（CA）范式能够有效释放这种能力——但许多模型受限于其无法可靠地提取和表征相关的视觉信息。

我们的研究结果突出了感知与推理之间的高度相互依赖性。尽管人类的认知通常包括快速的感知归类（“整体感知”[11, 49]），随后是更专注的注意力与深思熟虑的过程 [50, 51]，但我们的结果表明，当前许多 VLM 在最初的感知阶段存在显著困难。

像 GPT-4o 和 Gemini 2.0 这样的高级模型在 CA 范式中表现出色——在这种范式下，视觉复杂性被简化为文本描述——这表明它们具备强大的下游推理能力。然而，许多开源模型在相同范式下的剧烈性能下降（当使用自身生成的描述时）则明确指向了一个感知瓶颈。

CA 范式在多个基准测试中取得 SOTA 表现，包括 Bongard-OpenWorld、Bongard-HOI，以及尤其值得注意的 Winoground，这一成功具有重要的启示意义。其优势似乎在于通过任务无关的描述生成，将感知与推理解耦。不同于端到端模型或依赖上下文的 CoT 方法，这些方法可能会混淆感知错误与推理失败，或将过度拟合语言线索，CA 首先致力于构建每张视觉输入的全面且独立的文本表示。这种丰富的文本世界模型使得强大的大语言模型（无论是多模态还是纯文本）能够有效地应用其复杂的推理能力，从而在不同类型的任务中实现稳健而通用的表现（如 BPs 中的抽象推理、Winoground 中的组合性理解）。这表明，采用模块化架构——即由专门的感知模块生成丰富的符号表示，供通用推理引擎使用——可能是一种极为有效的系统设计。

消融研究进一步强化了这一结论。提供外部规则（第 7.1 节）可以隔离规则应用的准确性，而提供高质量的外部描述（第 7.2 节）则可以将推理从感知中分离出来。结果显示，当感知输入可靠时，推理表现明显提升。这表明，对于许多系统来说，表面上归因于“推理”的失败，实际上可能源于嘈杂或不准确的初始视觉表示。从认知角度来看，这类似于由于误知觉而非逻辑错误所导致的推理失败。

在不同范式下观察到的逐步性能提升（DVRL < DRL < CA，针对顶级模型在自然图像上的表现）表明，结构化的推理过程，尤其是通过分离不同的认知阶段（如规则提取与应用、感知与推理），有助于当前 VLM 架构的表现。这与“思维链提示”（Chain-of-Thought prompting）的研究成果一致 [29]，但我们提出的阶段性范式提供了一种不同的方式来组织和诊断推理过程，尤其适用于涉及复杂视觉比较的多模态任务。

此外，CA 范式展示了一种可行的方法，即使面对仅支持单图输入的模型，也能评估多图推理任务。通过将图像转换为文本，它使那些本身不具备多图处理能力的模型也能参与如 Bongard 问题等任务。同时，它也成功弥合了模态间的差距，在提供丰富描述的情况下，使 LLM 能够执行复杂的视觉推理并取得高性能表现。这凸显了从视觉中提取出的符号表示作为通用推理引擎接口的巨大潜力。

总体而言，我们基于认知科学启发的评估框架提供了有价值的诊断工具。它有助于定位特定的弱点，例如我们在开源模型中识别出的感知瓶颈，并揭示了当感知挑战得到缓解时，模型潜在的推理能力得以释放的可能性。

9 局限性

尽管本研究提供了一些有价值的见解，但仍存在局限性。我们的主要分析集中在多图像视觉推理基准上；若能在其他单图像视觉推理基准上进一步验证，将有助于加强我们关于感知瓶颈和范式效用的研究结论的普适性。

成分分析（CA）的有效性依赖于文本描述的质量与性质；对于涉及非组合性规则或纯粹几何/拓扑规则的任务，这些规则难以用语言清晰表达，CA 可能不太适用。

我们对计算需求的分析较为表面；对于这些多阶段范式的效率权衡，还需要更深入的调查研究。

最后，虽然我们的范式受到人类认知的启发，但它们只是简化的模型，视觉语言模型（VLMs）的内部处理机制可能与其人类对应机制存在显著差异。

10 结论

本文提出了一种受认知科学启发的评估框架，通过多样化的视觉推理任务来剖析视觉语言模型（VLMs）中感知与推理之间的交互关系。借助三种范式（DVRL、DRL、CA），我们系统地分析了 VLM 的处理机制。

我们的核心贡献是提出了成分分析（CA）方法，该方法将感知解耦为任务无关的文本描述，使强大的语言模型能够进行稳健的推理。这种方法在需要不同推理风格的具有挑战性的基准测试中取得了新的最先进（SOTA）结果，包括：

Bongard-OpenWorld（抽象推理）
Bongard-HOI（交互识别）
Winoground（组合性理解）

这一成功突显了从视觉中提取出的丰富符号表示所具有的强大潜力。

同时，我们的框架诊断出一个关键问题：当前许多 VLM 所面临的感知瓶颈。当提供高保真描述时（通过消融实验和 LLM 评估得以验证），这些模型的推理能力得到了显著释放。

本研究提供了有价值的诊断工具，并表明：提升感知准确性、探索感知与推理分离的架构，是实现通用且稳健的人工智能视觉智能的关键步骤。

附录

A.1 更广泛的相关性本研究为开发更加稳健且具备类人能力的人工智能系统提供了具有广泛意义的见解。我们提出的受认知科学启发的评估范式，为评估和理解视觉-语言模型（VLMs）在复杂视觉推理任务中的优势与局限性提供了有价值的工具。所获得的洞见不仅适用于邦加德问题（Bongard problems），也有助于推动能够在现实应用中执行高级推理的视觉-语言模型的发展。我们关于许多模型在视觉处理环节存在瓶颈的关键发现，对未来旨在缩小性能差距、释放现有模型全部潜力的研究具有重要意义。高性能视觉-语言模型的表现展示了其在复杂视觉理解方面的潜力，进一步强调了融合强大感知与推理能力的架构的重要性。最后，我们的对比评估有助于推动关于人工智能可访问性与透明度的讨论，明确了具体的改进方向，并为构建更可靠的人工智能系统奠定了基础。

A.2 注意力与记忆在视觉推理中的作用

尽管本研究主要关注感知与推理之间的相互作用，注意力与记忆的作用也在我们的范式中隐含地体现出来。DVRL 范式可能依赖视觉-语言模型中的“视觉注意力”机制 [52] 来识别图像集中的显著特征，类似于人类的整体加工过程 [11, 49]。DRL 则依赖模型“记忆”提取出的规则的能力，这涉及与工作记忆 [53] 和内部表征存储 [54] 相关的过程。尽管这些机制未被直接测量，但它们的存在是内在的。未来的研究可以更明确地探索这些方面，例如通过注意力图分析 [55] 或探测记忆表征 [56]。

A.3 数据集详情

A.3.1 Bongard OpenWorld 数据集

我们使用了 Bongard OpenWorld 数据集 [8] 中的 500 个测试案例作为子集。完整数据集包含 1001 个样本，每个样本包含 7 张正类图像和 7 张负类图像，它们之间由一条“常识性”规则区分。我们的评估集是从前 250 个样本中生成的，每个样本生成两个测试案例（一个正向查询，一个负向查询），总共形成 500 个平衡测试案例。具体使用的样本 ID 将会公开发布。

A.3.1.1 常识值类别

表A.1总结了规则类别

A.3.1.2 我们子集中的常识值分布

表 A.2 显示了我们子集中的分布情况。类别‘0’占据主导地位。

为了评估模型在具有不同推理重点（人-物交互）的真实图像上的泛化能力，我们使用了 Bongard-HOI 数据集 [9]。我们在其四个标准测试划分（根据物体/动作的新颖性定义）上进行了评估：

sosa：见过的物体，见过的动作
soua：见过的物体，未见过的动作
uosa：未见过的物体，见过的动作
uoua：未见过的物体，未见过的动作

原始划分在规模和类别平衡方面存在显著差异（例如，sosa：200 个正例 / 200 个负例查询；soua：2236 个正例 / 1348 个负例；uosa：660 正 / 660 负；uoua：695 正 / 695 负）。为了在本研究中实现一致的跨划分评估，我们通过从每个划分中采样 100 个测试案例来构建平衡子集，确保每个划分包含 50 个正类和 50 个负类查询图像。最终我们构建了一个总计 400 个样本的评估集（每个划分 100 个），用于表 2 中报告的结果。

A.3.3 Winoground 数据集
为了测试模型在细粒度视觉-语言组合推理方面的性能，我们使用了 Winoground 数据集 [10]。该数据集包含 400 个专门设计用于挑战组合理解能力的样本。每个样本包含一对最小对比图像（I0, I1）以及一对最小对比的文本描述（C0, C1），要求模型正确地将图像 I0 与描述 C0 匹配，图像 I1 与描述 C1 匹配。我们在第 6.3 节及表 3 中报告的 Winoground 评估中使用了该标准发布版本中提供的全部 400 个样本。

A.3.4 数据集可用性
Bongard OpenWorld: https://rujiewu.github.io/Bongard-OpenWorld.github.io/ .
Bongard-HOI: https://github.com/NVlabs/Bongard-HOI/blob/master/assets/dataset.md .
Winoground: https://huggingface.co/datasets/facebook/winoground

有关我们在评估中所使用具体子集和样本的详细信息将在论文发表后公开。

A.4 模型与实验细节

A.4.1 模型细节
视觉-语言模型（VLMs）：GPT-4o、Gemini 2.0、Pixtral-12B、Llama-Vision-3.2（11B，90B）、LLaVA（基于 Llama-2；7B，13B，34B）、LLaVA-Llama3-8B。
纯文本语言模型（用于消融实验 7.2）：Phi-4（14B）[42]、Qwen2.5（7B，14B，32B）[43]、Deepseek-r1（32B，70B）[44]、Gemma2（27B）[45]。

A.4.2 实验配置

访问方式：闭源模型使用 API；开源模型使用 Ollama。
输入格式：Base64 编码的图像嵌入在提示词中（见附录 A.5）。
图像处理：使用 API 默认设置或最大 1024 像素（Ollama），在支持的情况下使用多图调用处理 DVRL 任务。
解码策略：温度（temperature）设为 0。
微调：未进行微调。
硬件设备：NVIDIA GPU（2080Ti、3090、6000 Ada 架构）。

A.4.3 评估指标

分类准确率：主要评估指标（正确率百分比）。
语义相似度：使用 OpenAI 的嵌入模型（‘text-embedding-3-large’）计算描述/规则之间的余弦相似度。灵感来源于 [57]。

A.5 模型提示（Prompts）

A.5.1 直接视觉规则学习
在“直接视觉规则学习”（Direct Visual Rule Learning, DVRL）范式中所使用的提示词旨在引导模型对提供的图像进行整体分析，鼓励其识别出区分正负样本的规则，并将该规则应用于查询图像。提示词强调了正类（cat_2）与负类（cat_1）示例之间的区别，并引导模型生成结构化的输出，包含其分析过程、识别出的规则、关于查询图像的细节以及最终的分类结果。

A.5.2 演绎规则学习
“演绎规则学习”（Deductive Rule Learning, DRL）范式采用了一个两阶段的提示策略。第一阶段专注于从正类和负类样本中提取规则，第二阶段则将提取出的规则应用于对查询图像的分类。每个阶段所使用的提示词如下所述。

A.5.2.1 第一阶段提示（规则提取）
该提示词用于引导模型基于提供的正类和负类示例识别并总结出一个区分规则。它强调所生成规则摘要的简洁性。

A.5.2.2 第二阶段提示（规则应用）
该提示词向模型呈现先前提取出的规则摘要以及一张查询图像，要求模型根据该规则对图像进行分类。它强化了邦加德问题（Bongard problem）的上下文背景，并要求模型生成结构化的输出。

A.5.3 成分分析（Componential Analysis）

“成分分析”（Componential Analysis, CA）范式同样采用了一个两阶段的提示策略。第一阶段生成详细的图像描述，第二阶段则从这些描述中推导出规则，并将其应用于一张查询图像。每个阶段所使用的具体提示如下所述。

A.5.3.1 第一阶段提示（图像描述生成）
该提示词用于指导模型以 JSON 格式生成给定图像的全面且层次分明的描述。它引导模型涵盖图像的多个方面，从场景和物体到活动及上下文元素，从而为后续阶段的详细对比分析提供支持。

A.5.3.2 第二阶段提示（规则推导指令）
该提示词用于引导模型分析第一阶段生成的 JSON 描述，从中推导出一个区分规则，并将其应用于对查询图像的分类。该提示强调使用所提供的 JSON 格式，并要求模型生成结构化的输出。

A.6 结果与扩展分析

A.6.1 在 Bongard OpenWorld 上的性能表现

为了将我们应用于 Gemini 2.0 的成分分析（Componential Analysis, CA）范式在 Winoground 上的表现（见第 6.2 节）进行背景化，我们也使用 Gemini Pro Vision 搭配多种提示策略进行了评估。表 A.4 展示了在所使用的 400 个样本的 Winoground 数据集上的对比结果。虽然像 DDCoT 和 CoCoT 这类先进的思维链（CoT）方法相较于基线在 Gemini Pro Vision 上有所提升，但应用于 Gemini 2.0 的 CA 范式也取得了具有竞争力的分数，尤其是在文本指标上，显示出其有效性。

A.6.4 描述来源的比较（Pixtral-12B 与 GPT-4o）
如表 A.5 所示的结果一致表明，在所有被测试的推理模型中，使用由 GPT-4o 生成的图像描述组件，相比使用 Pixtral-12B 生成的组件，能够带来更高的下游推理准确率。尽管两种描述来源都能实现较好的性能，但 GPT-4o 描述所带来的优势（根据不同推理模型，提升了约 2% 到超过 11%）进一步强调了推理结果对初始感知描述的保真度、丰富性以及这些描述与推理任务所需概念之间匹配程度的关键依赖性。这也强化了一个观点：视觉-语言模型（VLM）前端的视觉处理和描述能力是影响整体视觉推理表现的重要因素。

A.6.5 按常识类别的成分分析结果

对 GPT-4o 和 Gemini 2.0 在成分分析（CA）范式下跨常识类别的表现进行分析（附录表 A.6），结果显示其总体表现良好，表明模型在应对不同概念规则时具有较强的鲁棒性。表现上的细微差异可能反映出两者在处理特定类型上下文或属性时存在潜在差异，这或许与其训练数据的细微差别有关。

原文链接：https://www.arxiv.org/pdf/2501.13620

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.