太牛了！多模态大模型用来“抓小三”|推理|示例|视觉|上下文|深度思考模型

太牛了！多模态大模型用来“抓小三”

分享至

题目：CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning

论文地址：https://arxiv.org/pdf/2507.00045

代码地址: https://github.com/mingliiii/CaughtCheating

创新点

CaughtCheating 基准专注于评估多模态大型语言模型（MLLMs）在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。这种任务模拟了社交媒体上人们请求他人从照片中发现可能违背伴侣声称的可疑线索的场景，例如从餐厅照片中发现伴侣是否真的独自用餐等，这与以往的视觉任务有显著不同，更具挑战性和现实意义。
为了从理论上分析 CaughtCheating 与现有挑战性任务之间的难度差异以及 MLLMs 失败的原因，作者引入了认知科学中的引导搜索理论，并探讨了视觉搜索中引导注意力的因素。根据该理论，CaughtCheating 任务具有极低的自下而上显著性（关键线索不易从周围环境中突出）、缺乏自上而下的特征引导（模型不知道要寻找什么）、场景结构和意义模糊等特点。

方法

本文的主要研究方法是构建了一个名为CaughtCheating的基准，用于评估多模态大型语言模型在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。研究者从社交媒体上收集了100张图像，这些图像被分为有线索和无线索两类，主要场景包括酒店和餐饮场所。每个图像都被标注了关于潜在违反原始声称的主要问题、确定性和非确定性线索，以及一系列分解问题，用于分析MLLMs的视觉推理过程。为了评估模型的性能，研究者设计了多种评估指标，包括Clued Accuracy（检测确定性线索的准确率）、Intersection over Union（检测所有相关线索的IoU）、Unclued Accuracy（判断图像中没有可疑线索的准确率）以及分解问题的准确率等。此外，研究者还引入了认知科学中的引导搜索理论，分析了CaughtCheating任务的难度，并解释了为什么现有的MLLMs在该任务上表现不佳。通过在CaughtCheating基准上对多种MLLMs进行广泛的实验和分析，研究者揭示了当前MLLMs在视觉感知和推理方面的极限，并展示了其推理过程的详细分析。

CaughtCheating 基准中的示例

本图展示了 CaughtCheating 基准中的一个示例，用于说明该基准任务的典型场景和挑战性。在这个示例中，用户提出了一个问题：“我的男朋友说他在餐厅独自用餐，并给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗？”这张照片本身看起来像是一个普通的餐厅食物分享照片，但在勺子的反射中，可以看到有其他人，包括一个长发女孩，这与声称独自用餐的说法相矛盾。这个示例体现了 CaughtCheating 任务的核心特点：关键线索（勺子反射中的人）非常微妙且容易被忽视，模型需要具备侦探级别的视觉感知和推理能力才能发现这些线索。这种任务对 MLLMs 来说极具挑战性，因为它们需要在没有明确提示的情况下，主动搜索并识别出这些隐藏在图像中的线索，并理解这些线索与原始声称之间的关系。

GPT-o3 的多模态视觉推理能力展示

本图展示了 GPT-o3 在解决不同类型视觉任务时的推理过程，这些任务虽然极具挑战性，但 GPT-o3 都能够成功解决。图中选取了 4 个具有代表性的任务场景，通过这些场景可以深入理解 GPT-o3 的视觉感知和推理能力。通过这些示例，可以看出 GPT-o3 在解决各种视觉任务时展现出了强大的视觉感知和推理能力，这些任务对于大多数人来说是难以完成的。然而，尽管 GPT-o3 能够完成这些复杂任务，但其主要依赖于穷举网格搜索的方法，这表明它在侦探级别的视觉感知和推理能力方面仍有待提高。

CaughtCheating 数据集标注示例解析

本图展示了 CaughtCheating 数据集中一个标注示例的详细内容，这个示例清晰地体现了数据集的标注方式和任务的复杂性。图中展示了一张属于“Clued”（有线索）类别的图像，这张图像被标注了一系列的问题和对应的答案，这些问题和答案共同构成了对模型视觉推理能力的全面评估。在图的左侧，是一个关于潜在违反声称的主要问题：“我的男朋友说他独自一人在餐厅，给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗？”这个问题直接引出了图像中可能存在的关键线索，即那些能够表明男朋友可能没有独自用餐的细节。在图的右侧，是一系列分解问题，这些问题进一步细化了对模型视觉推理过程的分析。分解问题包括两个部分：分解感知问题和分解推理问题。分解感知问题评估模型是否能够识别出确定性线索，即使在明确提及线索和位置的情况下。

实验

本表展示了在 CaughtCheating 基准上，多种多模态大型语言模型（MLLMs）的性能对比结果。这些模型根据参数规模和类型（开源与专有）被分组评估，涵盖了从早期到最新的模型版本。表中列出了模型在 Clued 类别（有线索图像）上的准确率（Clued Acc）和交并比（IoU），以及在 Unclued 类别（无线索图像）上的准确率（Unclued Acc）。此外，还提供了模型在分解问题上的准确率，包括分解感知准确率（Dec. P Acc）、分解推理准确率（Dec. R Acc）以及分解整体准确率（Dec. Acc）。最后，表中还给出了模型的精确率（Precision）、召回率（Recall）和 F1 分数，用于综合评估模型性能。本表为我们提供了一个全面的视角，以了解不同 MLLMs 在面对复杂视觉推理任务时的能力边界，同时也揭示了现有模型在侦探级视觉感知和推理方面的不足。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.