网易首页 > 网易号 > 正文 申请入驻

太牛了!多模态大模型用来“抓小三”

0
分享至

题目:CaughtCheating: Is Your MLLM a Good Cheating Detective? Exploring the Boundary of Visual Perception and Reasoning

论文地址:https://arxiv.org/pdf/2507.00045

代码地址: https://github.com/mingliiii/CaughtCheating


创新点


  • CaughtCheating 基准专注于评估多模态大型语言模型(MLLMs)在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。这种任务模拟了社交媒体上人们请求他人从照片中发现可能违背伴侣声称的可疑线索的场景,例如从餐厅照片中发现伴侣是否真的独自用餐等,这与以往的视觉任务有显著不同,更具挑战性和现实意义。

  • 为了从理论上分析 CaughtCheating 与现有挑战性任务之间的难度差异以及 MLLMs 失败的原因,作者引入了认知科学中的引导搜索理论,并探讨了视觉搜索中引导注意力的因素。根据该理论,CaughtCheating 任务具有极低的自下而上显著性(关键线索不易从周围环境中突出)、缺乏自上而下的特征引导(模型不知道要寻找什么)、场景结构和意义模糊等特点。

方法

本文的主要研究方法是构建了一个名为CaughtCheating的基准,用于评估多模态大型语言模型在真实世界图像中检测微妙、依赖上下文的可疑线索的能力。研究者从社交媒体上收集了100张图像,这些图像被分为有线索和无线索两类,主要场景包括酒店和餐饮场所。每个图像都被标注了关于潜在违反原始声称的主要问题、确定性和非确定性线索,以及一系列分解问题,用于分析MLLMs的视觉推理过程。为了评估模型的性能,研究者设计了多种评估指标,包括Clued Accuracy(检测确定性线索的准确率)、Intersection over Union(检测所有相关线索的IoU)、Unclued Accuracy(判断图像中没有可疑线索的准确率)以及分解问题的准确率等。此外,研究者还引入了认知科学中的引导搜索理论,分析了CaughtCheating任务的难度,并解释了为什么现有的MLLMs在该任务上表现不佳。通过在CaughtCheating基准上对多种MLLMs进行广泛的实验和分析,研究者揭示了当前MLLMs在视觉感知和推理方面的极限,并展示了其推理过程的详细分析。

CaughtCheating 基准中的示例

本图展示了 CaughtCheating 基准中的一个示例,用于说明该基准任务的典型场景和挑战性。在这个示例中,用户提出了一个问题:“我的男朋友说他在餐厅独自用餐,并给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗?”这张照片本身看起来像是一个普通的餐厅食物分享照片,但在勺子的反射中,可以看到有其他人,包括一个长发女孩,这与声称独自用餐的说法相矛盾。这个示例体现了 CaughtCheating 任务的核心特点:关键线索(勺子反射中的人)非常微妙且容易被忽视,模型需要具备侦探级别的视觉感知和推理能力才能发现这些线索。这种任务对 MLLMs 来说极具挑战性,因为它们需要在没有明确提示的情况下,主动搜索并识别出这些隐藏在图像中的线索,并理解这些线索与原始声称之间的关系。

GPT-o3 的多模态视觉推理能力展示

本图展示了 GPT-o3 在解决不同类型视觉任务时的推理过程,这些任务虽然极具挑战性,但 GPT-o3 都能够成功解决。图中选取了 4 个具有代表性的任务场景,通过这些场景可以深入理解 GPT-o3 的视觉感知和推理能力。通过这些示例,可以看出 GPT-o3 在解决各种视觉任务时展现出了强大的视觉感知和推理能力,这些任务对于大多数人来说是难以完成的。然而,尽管 GPT-o3 能够完成这些复杂任务,但其主要依赖于穷举网格搜索的方法,这表明它在侦探级别的视觉感知和推理能力方面仍有待提高。

CaughtCheating 数据集标注示例解析

本图展示了 CaughtCheating 数据集中一个标注示例的详细内容,这个示例清晰地体现了数据集的标注方式和任务的复杂性。图中展示了一张属于“Clued”(有线索)类别的图像,这张图像被标注了一系列的问题和对应的答案,这些问题和答案共同构成了对模型视觉推理能力的全面评估。在图的左侧,是一个关于潜在违反声称的主要问题:“我的男朋友说他独自一人在餐厅,给我发了这张照片。你注意到照片中有什么可疑之处与他的说法相矛盾吗?”这个问题直接引出了图像中可能存在的关键线索,即那些能够表明男朋友可能没有独自用餐的细节。在图的右侧,是一系列分解问题,这些问题进一步细化了对模型视觉推理过程的分析。分解问题包括两个部分:分解感知问题和分解推理问题。分解感知问题评估模型是否能够识别出确定性线索,即使在明确提及线索和位置的情况下。

实验

本表展示了在 CaughtCheating 基准上,多种多模态大型语言模型(MLLMs)的性能对比结果。这些模型根据参数规模和类型(开源与专有)被分组评估,涵盖了从早期到最新的模型版本。表中列出了模型在 Clued 类别(有线索图像)上的准确率(Clued Acc)和交并比(IoU),以及在 Unclued 类别(无线索图像)上的准确率(Unclued Acc)。此外,还提供了模型在分解问题上的准确率,包括分解感知准确率(Dec. P Acc)、分解推理准确率(Dec. R Acc)以及分解整体准确率(Dec. Acc)。最后,表中还给出了模型的精确率(Precision)、召回率(Recall)和 F1 分数,用于综合评估模型性能。本表为我们提供了一个全面的视角,以了解不同 MLLMs 在面对复杂视觉推理任务时的能力边界,同时也揭示了现有模型在侦探级视觉感知和推理方面的不足。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“斩杀线”创始人连夜跑路!事迹已登《纽约时报》头条

“斩杀线”创始人连夜跑路!事迹已登《纽约时报》头条

3DM游戏
2026-01-14 10:28:03
古巴能源供应被切断,垃圾堆积如山

古巴能源供应被切断,垃圾堆积如山

昊轩看世界
2026-01-14 10:15:12
伊朗得到中国声援,特朗普当即调转枪口:对华加关税,马上执行!

伊朗得到中国声援,特朗普当即调转枪口:对华加关税,马上执行!

头条爆料007
2026-01-14 08:27:40
先声再明冲刺港股IPO,聚焦肿瘤创新药,对外授权超28亿美元|港E声

先声再明冲刺港股IPO,聚焦肿瘤创新药,对外授权超28亿美元|港E声

时代投研
2026-01-13 19:54:32
美国将在96小时内攻击伊朗?特朗普首次与巴列维接触

美国将在96小时内攻击伊朗?特朗普首次与巴列维接触

项鹏飞
2026-01-14 19:14:14
藏在亚非拉农场里的IPO:海大国际不仅卖饲料,还教农场主们养鱼虾|港E声

藏在亚非拉农场里的IPO:海大国际不仅卖饲料,还教农场主们养鱼虾|港E声

时代投研
2026-01-13 20:05:07
携程跌超9%!市场监管总局依法对携程集团有限公司立案调查

携程跌超9%!市场监管总局依法对携程集团有限公司立案调查

21世纪经济报道
2026-01-14 16:14:49
外交部:对泰国事故造成人员伤亡表示慰问

外交部:对泰国事故造成人员伤亡表示慰问

界面新闻
2026-01-14 15:29:41
浅议章泽天做播客:当一个富太太开始抛头露面

浅议章泽天做播客:当一个富太太开始抛头露面

穿透
2026-01-14 13:51:28
2025年汽车产销量再创历史新高 连续17年稳居全球第一

2025年汽车产销量再创历史新高 连续17年稳居全球第一

环球网资讯
2026-01-14 14:16:13
全世界都在静静等待,战争可能很快到来

全世界都在静静等待,战争可能很快到来

牛弹琴
2026-01-14 07:46:19
伦敦一群人只穿内裤坐地铁??他们挺乐呵,然而网友:英国真完了...

伦敦一群人只穿内裤坐地铁??他们挺乐呵,然而网友:英国真完了...

英国那些事儿
2026-01-13 23:25:27
再见,程序员!硅谷全员AI Coding,卡帕西宣告9级地震来了

再见,程序员!硅谷全员AI Coding,卡帕西宣告9级地震来了

新智元
2026-01-14 20:21:03
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
海参,到底忽悠了多少人?

海参,到底忽悠了多少人?

美第奇效应
2026-01-13 07:08:56
美媒:美国将暂停对75个国家的所有签证

美媒:美国将暂停对75个国家的所有签证

新华社
2026-01-14 22:40:07
出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

清茶浅谈
2026-01-13 21:21:11
赃款超83%来自境外,不法商人充当李勇“白手套”

赃款超83%来自境外,不法商人充当李勇“白手套”

极目新闻
2026-01-14 20:22:36
A股:散户听我一句劝,证监会突袭将杠杆,明天将出现核弹级别行情?

A股:散户听我一句劝,证监会突袭将杠杆,明天将出现核弹级别行情?

股市皆大事
2026-01-14 18:16:11
人要坏成什么样子,才能做出这等丧尽天良的事!

人要坏成什么样子,才能做出这等丧尽天良的事!

胖胖说他不胖
2026-01-14 13:31:12
2026-01-15 01:23:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5298文章数 64599关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

媒体:公开鼓动抗议者 特朗普新表态让全球嗅到火药味

头条要闻

媒体:公开鼓动抗议者 特朗普新表态让全球嗅到火药味

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

健康
亲子
本地
手机
艺术

血常规3项异常,是身体警报!

亲子要闻

有好东西要大家一起分享哦

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

手机要闻

REDMI Turbo 5 MAX现身跑分,天玑9500s芯片加持

艺术要闻

与光同行的温柔诗意:沉浸于威廉·A·施耐德的人像油画世界

无障碍浏览 进入关怀版