网易首页 > 网易号 > 正文 申请入驻

太牛了!多模态大模型用来“抓小三”

0
分享至

题目:CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning

论文地址:https://arxiv.org/pdf/2507.00045

代码地址: https://github.com/mingliiii/CaughtCheating

CaughtCheating 基准专注于评估多模态大型语言模型(MLLMs)在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。这种任务模拟了社交媒体上人们请求他人从照片中发现可能违背伴侣声称的可疑线索的场景,例如从餐厅照片中发现伴侣是否真的独自用餐等,这与以往的视觉任务有显著不同,更具挑战性和现实意义。

  • 为了从理论上分析 CaughtCheating 与现有挑战性任务之间的难度差异以及 MLLMs 失败的原因,作者引入了认知科学中的引导搜索理论,并探讨了视觉搜索中引导注意力的因素。根据该理论,CaughtCheating 任务具有极低的自下而上显著性(关键线索不易从周围环境中突出)、缺乏自上而下的特征引导(模型不知道要寻找什么)、场景结构和意义模糊等特点。

  • 方法

    本文的主要研究方法是构建了一个名为CaughtCheating的基准,用于评估多模态大型语言模型在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。研究者从社交媒体上收集了100张图像,这些图像被分为有线索和无线索两类,主要场景包括酒店和餐饮场所。每个图像都被标注了关于潜在违反原始声称的主要问题、确定性和非确定性线索,以及一系列分解问题,用于分析MLLMs的视觉推理过程。为了评估模型的性能,研究者设计了多种评估指标,包括Clued Accuracy(检测确定性线索的准确率)、Intersection over Union(检测所有相关线索的IoU)、Unclued Accuracy(判断图像中没有可疑线索的准确率)以及分解问题的准确率等。此外,研究者还引入了认知科学中的引导搜索理论,分析了CaughtCheating任务的难度,并解释了为什么现有的MLLMs在该任务上表现不佳。通过在CaughtCheating基准上对多种MLLMs进行广泛的实验和分析,研究者揭示了当前MLLMs在视觉感知和推理方面的极限,并展示了其推理过程的详细分析。

    本图展示了 CaughtCheating 基准中的一个示例,用于说明该基准任务的典型场景和挑战性。在这个示例中,用户提出了一个问题:“我的男朋友说他在餐厅独自用餐,并给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗?”这张照片本身看起来像是一个普通的餐厅食物分享照片,但在勺子的反射中,可以看到有其他人,包括一个长发女孩,这与声称独自用餐的说法相矛盾。这个示例体现了 CaughtCheating 任务的核心特点:关键线索(勺子反射中的人)非常微妙且容易被忽视,模型需要具备侦探级别的视觉感知和推理能力才能发现这些线索。这种任务对 MLLMs 来说极具挑战性,因为它们需要在没有明确提示的情况下,主动搜索并识别出这些隐藏在图像中的线索,并理解这些线索与原始声称之间的关系。

    本图展示了 GPT-o3 在解决不同类型视觉任务时的推理过程,这些任务虽然极具挑战性,但 GPT-o3 都能够成功解决。图中选取了 4 个具有代表性的任务场景,通过这些场景可以深入理解 GPT-o3 的视觉感知和推理能力。通过这些示例,可以看出 GPT-o3 在解决各种视觉任务时展现出了强大的视觉感知和推理能力,这些任务对于大多数人来说是难以完成的。然而,尽管 GPT-o3 能够完成这些复杂任务,但其主要依赖于穷举网格搜索的方法,这表明它在侦探级别的视觉感知和推理能力方面仍有待提高。

    本图展示了 CaughtCheating 数据集中一个标注示例的详细内容,这个示例清晰地体现了数据集的标注方式和任务的复杂性。图中展示了一张属于“Clued”(有线索)类别的图像,这张图像被标注了一系列的问题和对应的答案,这些问题和答案共同构成了对模型视觉推理能力的全面评估。在图的左侧,是一个关于潜在违反声称的主要问题:“我的男朋友说他独自一人在餐厅,给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗?”这个问题直接引出了图像中可能存在的关键线索,即那些能够表明男朋友可能没有独自用餐的细节。在图的右侧,是一系列分解问题,这些问题进一步细化了对模型视觉推理过程的分析。分解问题包括两个部分:分解感知问题和分解推理问题。分解感知问题评估模型是否能够识别出确定性线索,即使在明确提及线索和位置的情况下。

    本表展示了在 CaughtCheating 基准上,多种多模态大型语言模型(MLLMs)的性能对比结果。这些模型根据参数规模和类型(开源与专有)被分组评估,涵盖了从早期到最新的模型版本。表中列出了模型在 Clued 类别(有线索图像)上的准确率(Clued Acc)和交并比(IoU),以及在 Unclued 类别(无线索图像)上的准确率(Unclued Acc)。此外,还提供了模型在分解问题上的准确率,包括分解感知准确率(Dec. P Acc)、分解推理准确率(Dec. R Acc)以及分解整体准确率(Dec. Acc)。最后,表中还给出了模型的精确率(Precision)、召回率(Recall)和 F1 分数,用于综合评估模型性能。本表为我们提供了一个全面的视角,以了解不同 MLLMs 在面对复杂视觉推理任务时的能力边界,同时也揭示了现有模型在侦探级视觉感知和推理方面的不足。

    特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

    Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

    相关推荐
    热点推荐
    阿尔及利亚苏-57E开始亮相,中国歼-35AE型战斗机还有机会吗?

    阿尔及利亚苏-57E开始亮相,中国歼-35AE型战斗机还有机会吗?

    军武次位面
    2026-04-15 10:44:27
    日本全面叫停种植牙?种牙潜藏的风险与后遗症,一次为你讲明白

    日本全面叫停种植牙?种牙潜藏的风险与后遗症,一次为你讲明白

    垚垚分享健康
    2026-04-11 08:51:57
    “中年返贫三件套”,正在吞掉一代人的存款

    “中年返贫三件套”,正在吞掉一代人的存款

    阅读第一
    2026-04-15 08:34:45
    国有召,召必回!许昕、马龙助力备战伦敦世乒赛,这下国乒有救了

    国有召,召必回!许昕、马龙助力备战伦敦世乒赛,这下国乒有救了

    以茶带书
    2026-04-16 14:50:39
    英军上将警告:若台海开战,英军将同时打击中俄,重点对付中!

    英军上将警告:若台海开战,英军将同时打击中俄,重点对付中!

    别吵吵
    2026-04-15 09:49:16
    广东3消息!杜锋病愈回归带队,焦泊乔正式复出,深圳新小外到位

    广东3消息!杜锋病愈回归带队,焦泊乔正式复出,深圳新小外到位

    多特体育说
    2026-04-16 23:06:15
    特朗普不演了,警告中国有大麻烦,话音刚落,美国人推动罢免总统

    特朗普不演了,警告中国有大麻烦,话音刚落,美国人推动罢免总统

    晓岇就是我
    2026-04-16 19:31:19
    王传福彻夜难眠:比亚迪卖车460万辆却沦为电池厂打工仔

    王传福彻夜难眠:比亚迪卖车460万辆却沦为电池厂打工仔

    老特有话说
    2026-04-16 15:07:19
    交管12123重磅升级!2026年5大实用新功能,车主务必及时更新

    交管12123重磅升级!2026年5大实用新功能,车主务必及时更新

    趣味萌宠的日常
    2026-04-16 19:36:39
    百亿巨资打造的重庆东站变“空城”? 5对绿皮车连夜迁入,这步棋能盘活新枢纽吗?

    百亿巨资打造的重庆东站变“空城”? 5对绿皮车连夜迁入,这步棋能盘活新枢纽吗?

    王晓爱体彩
    2026-04-16 14:02:18
    女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

    女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

    长安一孤客
    2026-03-25 16:22:18
    集团党委书记、董事长龚小波带队赴重庆考察调研

    集团党委书记、董事长龚小波带队赴重庆考察调研

    新浪财经
    2026-04-16 18:52:02
    别再尬演情妇了!一脸疲态、五大三粗,这是迷倒男人该有的皮囊?

    别再尬演情妇了!一脸疲态、五大三粗,这是迷倒男人该有的皮囊?

    白面书誏
    2026-04-14 14:09:53
    特朗普怕是没料到,先等来的不是中国交出稀土,央行公布黄金储备

    特朗普怕是没料到,先等来的不是中国交出稀土,央行公布黄金储备

    触摸史迹
    2026-04-16 14:49:27
    “父亲的心已经死了!”10后女孩职高报到,父亲用沉默诠释了心死

    “父亲的心已经死了!”10后女孩职高报到,父亲用沉默诠释了心死

    妍妍教育日记
    2026-04-14 10:30:08
    “带宠物入园可免门票”,辽宁一国家4A级景区推出免门票活动,游客脑洞大开,带着鸡、鸭、鹅、羊、孔雀来了→

    “带宠物入园可免门票”,辽宁一国家4A级景区推出免门票活动,游客脑洞大开,带着鸡、鸭、鹅、羊、孔雀来了→

    极目新闻
    2026-04-15 20:24:44
    女神也老了,颜值再也不如从前了,不过还是好漂亮啊!

    女神也老了,颜值再也不如从前了,不过还是好漂亮啊!

    小椰的奶奶
    2026-04-16 10:31:12
    三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

    三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

    瓦伦西亚月亮
    2026-04-16 18:51:44
    把F1轮毂做成意面,谁在买单?

    把F1轮毂做成意面,谁在买单?

    篮坛第一线
    2026-04-16 09:15:08
    恭喜俄罗斯和乌克兰!打了1500多天,终于打成全世界都喜欢的样子

    恭喜俄罗斯和乌克兰!打了1500多天,终于打成全世界都喜欢的样子

    嫹笔牂牂
    2026-04-15 10:03:39
    2026-04-16 23:31:00
    算法与数学之美 incentive-icons
    算法与数学之美
    分享知识,交流思想
    5478文章数 64623关注度
    往期回顾 全部

    科技要闻

    赵明:智驾之战,看谁在大模型上更高效

    头条要闻

    美国启动"经济狂怒"行动 对伊朗施加最大化的经济压力

    头条要闻

    美国启动"经济狂怒"行动 对伊朗施加最大化的经济压力

    体育要闻

    皇马拜仁踢出名局,但最抢镜的还是他

    娱乐要闻

    丝芭传媒创始人王子杰去世,享年63岁

    财经要闻

    海尔与医美女王互撕 换血抗衰生意迷雾

    汽车要闻

    空间大五个乘客都满意?体验岚图泰山X8

    态度原创

    本地
    游戏
    亲子
    房产
    公开课

    本地新闻

    12吨巧克力有难,全网化身超级侦探添乱

    AL横扫WE!WE已经五连败了,什么时候可以恭喜WE?

    亲子要闻

    有两娃的家庭每天都有断不完的官司

    房产要闻

    人人人人!封关后首届消博会,挤爆了!

    公开课

    李玫瑾:为什么性格比能力更重要?

    无障碍浏览 进入关怀版