网易首页 > 网易号 > 正文 申请入驻

太牛了!多模态大模型用来“抓小三”

0
分享至

题目:CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning

论文地址:https://arxiv.org/pdf/2507.00045

代码地址: https://github.com/mingliiii/CaughtCheating


创新点


  • CaughtCheating 基准专注于评估多模态大型语言模型(MLLMs)在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。这种任务模拟了社交媒体上人们请求他人从照片中发现可能违背伴侣声称的可疑线索的场景,例如从餐厅照片中发现伴侣是否真的独自用餐等,这与以往的视觉任务有显著不同,更具挑战性和现实意义。

  • 为了从理论上分析 CaughtCheating 与现有挑战性任务之间的难度差异以及 MLLMs 失败的原因,作者引入了认知科学中的引导搜索理论,并探讨了视觉搜索中引导注意力的因素。根据该理论,CaughtCheating 任务具有极低的自下而上显著性(关键线索不易从周围环境中突出)、缺乏自上而下的特征引导(模型不知道要寻找什么)、场景结构和意义模糊等特点。

方法

本文的主要研究方法是构建了一个名为CaughtCheating的基准,用于评估多模态大型语言模型在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。研究者从社交媒体上收集了100张图像,这些图像被分为有线索和无线索两类,主要场景包括酒店和餐饮场所。每个图像都被标注了关于潜在违反原始声称的主要问题、确定性和非确定性线索,以及一系列分解问题,用于分析MLLMs的视觉推理过程。为了评估模型的性能,研究者设计了多种评估指标,包括Clued Accuracy(检测确定性线索的准确率)、Intersection over Union(检测所有相关线索的IoU)、Unclued Accuracy(判断图像中没有可疑线索的准确率)以及分解问题的准确率等。此外,研究者还引入了认知科学中的引导搜索理论,分析了CaughtCheating任务的难度,并解释了为什么现有的MLLMs在该任务上表现不佳。通过在CaughtCheating基准上对多种MLLMs进行广泛的实验和分析,研究者揭示了当前MLLMs在视觉感知和推理方面的极限,并展示了其推理过程的详细分析。

CaughtCheating 基准中的示例

本图展示了 CaughtCheating 基准中的一个示例,用于说明该基准任务的典型场景和挑战性。在这个示例中,用户提出了一个问题:“我的男朋友说他在餐厅独自用餐,并给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗?”这张照片本身看起来像是一个普通的餐厅食物分享照片,但在勺子的反射中,可以看到有其他人,包括一个长发女孩,这与声称独自用餐的说法相矛盾。这个示例体现了 CaughtCheating 任务的核心特点:关键线索(勺子反射中的人)非常微妙且容易被忽视,模型需要具备侦探级别的视觉感知和推理能力才能发现这些线索。这种任务对 MLLMs 来说极具挑战性,因为它们需要在没有明确提示的情况下,主动搜索并识别出这些隐藏在图像中的线索,并理解这些线索与原始声称之间的关系。

GPT-o3 的多模态视觉推理能力展示

本图展示了 GPT-o3 在解决不同类型视觉任务时的推理过程,这些任务虽然极具挑战性,但 GPT-o3 都能够成功解决。图中选取了 4 个具有代表性的任务场景,通过这些场景可以深入理解 GPT-o3 的视觉感知和推理能力。通过这些示例,可以看出 GPT-o3 在解决各种视觉任务时展现出了强大的视觉感知和推理能力,这些任务对于大多数人来说是难以完成的。然而,尽管 GPT-o3 能够完成这些复杂任务,但其主要依赖于穷举网格搜索的方法,这表明它在侦探级别的视觉感知和推理能力方面仍有待提高。

CaughtCheating 数据集标注示例解析

本图展示了 CaughtCheating 数据集中一个标注示例的详细内容,这个示例清晰地体现了数据集的标注方式和任务的复杂性。图中展示了一张属于“Clued”(有线索)类别的图像,这张图像被标注了一系列的问题和对应的答案,这些问题和答案共同构成了对模型视觉推理能力的全面评估。在图的左侧,是一个关于潜在违反声称的主要问题:“我的男朋友说他独自一人在餐厅,给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗?”这个问题直接引出了图像中可能存在的关键线索,即那些能够表明男朋友可能没有独自用餐的细节。在图的右侧,是一系列分解问题,这些问题进一步细化了对模型视觉推理过程的分析。分解问题包括两个部分:分解感知问题和分解推理问题。分解感知问题评估模型是否能够识别出确定性线索,即使在明确提及线索和位置的情况下。

实验

本表展示了在 CaughtCheating 基准上,多种多模态大型语言模型(MLLMs)的性能对比结果。这些模型根据参数规模和类型(开源与专有)被分组评估,涵盖了从早期到最新的模型版本。表中列出了模型在 Clued 类别(有线索图像)上的准确率(Clued Acc)和交并比(IoU),以及在 Unclued 类别(无线索图像)上的准确率(Unclued Acc)。此外,还提供了模型在分解问题上的准确率,包括分解感知准确率(Dec. P Acc)、分解推理准确率(Dec. R Acc)以及分解整体准确率(Dec. Acc)。最后,表中还给出了模型的精确率(Precision)、召回率(Recall)和 F1 分数,用于综合评估模型性能。本表为我们提供了一个全面的视角,以了解不同 MLLMs 在面对复杂视觉推理任务时的能力边界,同时也揭示了现有模型在侦探级视觉感知和推理方面的不足。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

刚从印度回来,说点不中听的:印度的真实面目,可能让你很意外

世界圈
2026-02-26 19:15:06
过去30年,中国三次忍辱负重“装孙子”躲过美国阻击,终迎大发展

过去30年,中国三次忍辱负重“装孙子”躲过美国阻击,终迎大发展

阿胡
2024-06-13 14:25:16
地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

磊子讲史
2026-01-06 10:38:15
特朗普寻求伊朗政权更迭?伊朗外长:不可能完成的任务

特朗普寻求伊朗政权更迭?伊朗外长:不可能完成的任务

齐鲁壹点
2026-03-01 06:45:16
热搜爆了!王一博綦美合聊天截图被疯传!网扒细节范丞丞也回应了

热搜爆了!王一博綦美合聊天截图被疯传!网扒细节范丞丞也回应了

落雪听梅a
2026-02-28 22:51:41
慈禧太后最有名的一首诗,也是流传千古的经典

慈禧太后最有名的一首诗,也是流传千古的经典

格命草
2026-02-05 15:53:38
4-0!中国队杀疯了,狂胜澳大利亚球队!4场轰20球,冲亚洲杯冠军

4-0!中国队杀疯了,狂胜澳大利亚球队!4场轰20球,冲亚洲杯冠军

篮球看比赛
2026-02-28 17:00:11
男子爬到何仙姑雕像头顶拍照,山东蓬莱阁景区回应:“八仙过海”石雕属于公共区域无人值守,后续会加强巡逻

男子爬到何仙姑雕像头顶拍照,山东蓬莱阁景区回应:“八仙过海”石雕属于公共区域无人值守,后续会加强巡逻

三湘都市报
2026-02-28 13:37:39
涨价了!000636,包揽AI算力+CPO+商业航天+机器人+储能概念

涨价了!000636,包揽AI算力+CPO+商业航天+机器人+储能概念

数据宝
2026-03-01 07:57:43
河村勇辉本场首发出战34分钟 得到11分19助4篮板1抢断

河村勇辉本场首发出战34分钟 得到11分19助4篮板1抢断

环球体坛啄木鸟
2026-02-28 17:16:45
悲催!网传黑龙江一29岁男子去世,大学毕业后不上班,酗酒致死…

悲催!网传黑龙江一29岁男子去世,大学毕业后不上班,酗酒致死…

火山詩话
2026-03-01 09:32:21
53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

53岁李冰冰在巴黎杀疯了!白到发光隐现腹肌,这状态真不是人类?

草莓解说体育
2026-02-06 05:59:56
伊朗外交部最新声明:伊朗武装部队将对侵略者作出果断回应

伊朗外交部最新声明:伊朗武装部队将对侵略者作出果断回应

环球网资讯
2026-02-28 19:04:06
渐行渐远!一个疯狂的时代,彻底结束了。

渐行渐远!一个疯狂的时代,彻底结束了。

沙舟狼客
2026-01-29 21:27:13
马筱梅被质疑代孕,资深博主爆料怀孕诸多疑点,本人曾多次去美国

马筱梅被质疑代孕,资深博主爆料怀孕诸多疑点,本人曾多次去美国

古希腊掌管月桂的神
2026-02-28 15:00:19
凯恩双响队史第一人,基米希绝杀,拜仁3-2逆转多特11分领跑德甲

凯恩双响队史第一人,基米希绝杀,拜仁3-2逆转多特11分领跑德甲

钉钉陌上花开
2026-03-01 03:30:10
坚守底线!迟迟不开放瓦罕走廊,就是早就看透了本质,果然应验了

坚守底线!迟迟不开放瓦罕走廊,就是早就看透了本质,果然应验了

瑛派儿老黄
2026-02-28 12:48:46
WTT新加坡大满贯:1日赛程有变动,孙颖莎,王曼昱,王曼昱责任

WTT新加坡大满贯:1日赛程有变动,孙颖莎,王曼昱,王曼昱责任

郝小小看体育
2026-03-01 04:49:24
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

大熊欢乐坊
2026-02-28 01:40:08
2026-03-01 11:28:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5382文章数 64616关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

哈梅内伊遇袭身亡 特朗普:被击毙的领导人都无计可施

头条要闻

哈梅内伊遇袭身亡 特朗普:被击毙的领导人都无计可施

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

极石汽车2月交付1298台 销量涨至上年200%

态度原创

房产
健康
旅游
本地
亲子

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

转头就晕的耳石症,能开车上班吗?

旅游要闻

跟着“滇超”去旅行 | 大理⇌保山:风花雪月遇上边地烟火

本地新闻

津南好·四时总相宜

亲子要闻

深圳光明以“生态育人”赋能高质量发展 这所幼儿园提供样本

无障碍浏览 进入关怀版