网易首页 > 网易号 > 正文 申请入驻

密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板

0
分享至

清华大学团队 投稿
量子位 | 公众号 QbitAI

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。

但你是否想过:它们真的“看懂”并“想通”了吗?

模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?

为评估多模态大模型在视觉环境中,完成复杂任务推理的能力。清华大学团队受密室逃脱游戏启发,提出EscapeCraft:一个3D密室逃脱环境,让大模型在3D密室中通过自由探索寻找道具,解锁出口。

该论文目前已入选ICCV 2025。

EscapeCraft 环境

沉浸式互动环境,灵感源自密室逃脱

研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱子、解密码、逃出房间……其中每一步都需整合视觉、空间、逻辑等多模态信息。

任务可扩展,应用无限可能

EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个高度灵活、可持续迭代的通用评测平台,也可以为未来的智能体、多模态推理、强化学习等方向研究提供基础环境、数据和奖励设置方面的支持。

EscapeCraft支持自由定制和扩展想要的难度等级。不同难度等级下所需的逃脱步骤有所不同。

为了提高任务的难度,我们将线索放置在了墙上而不是箱子中,考验模型对于环境信息的接收和处理能力,除此之外线索在房间的摆放位置也可自由选择。

在第一个场景中,线索位于靠近出口的墙上,此时GPT-4o的表现更加出色,可以对线索进行正确利用。

不过,当我们把线索移动到距离出口较远的墙上,GPT-4o开始不断重复历史路径,无法对正确理解和利用线索,导致逃脱失败。

模型推理和过程评测

Gemini-1.5-Pro 密室逃脱第一视角

这张图展示了 Gemini-1.5-pro 模型成功逃脱一个房间的全过程。

开始的0到4步,模型原地不动,通过旋转视角来观察房间的环境。

它先从右侧开始旋转,一步步查看房间的不同区域,试图找到可交互的物体或线索,比如电视、桌子和椅子。

到了第五步,模型将视角对准电视方向,继续寻找可操作的元素,这时我们可以看到桌上有一把钥匙。

第六步时,模型前进并拾取了这把钥匙。拿到钥匙后,模型表示自己准备转身面对门,尝试使用钥匙。

接下来的步骤中,模型开始朝门的方向移动,意图解锁房门。在移动过程中,他多次调整视角,尤其是向上看,试图确认门的位置。

由于视角偏低,模型一开始没能看到门,于是不断微调视角方向来定位门的位置。

从“答对”到“会想”

与传统只看最终任务结果的评测不同,EscapeCraft 关注整个任务完成过程:模型是否自主探索?有没有重复犯错?道具用得对不对?从而真正测试模型的“类人推理过程”。

论文重点弥补以结果为导向的评估缺陷,强调中间推理过程。为此设计了多个衡量视觉感知、多模态推理、环境探索和工具获取和利用的过程的创新指标:

Intent-Outcome Consistency(意图与结果一致性):衡量模型与环境的交互结果是否和的模型的交互意图一致,即模型是否“在正确的位置做正确的事”。

Prop Gain / Grab Ratio / GSR:刻画模型在探索和推理过程中的行为模式,反映模型的交互质量、推理效率、和智能程度。

评测结果显示:GPT-4o 在 Difficulty-3 中仅有 26.5% 的子目标达成是“真正理解后完成的”,其余大多为偶然成功(比如想拿电视却误抓到关键道具)。

研究还发现大量有趣失败案例。例如:

模型面对不可交互的沙发,仍试图抓取,并在“理由”中解释“沙发下可能藏着钥匙”;

模型原本已经看见了关键道具,却在移动过程中将其“逐步移出视野”,随后继续提及该道具却操作失败……

团队据此将错误拆分为两类:

视觉感知错误:误判目标是否可交互,视角控制失败;

推理逻辑错误:目标设定错误,或动作与意图不符。

其中 Claude 3.5 的错误中,61.1% 属于推理问题,38.9% 属于视觉问题。这说明即便模型“看到了”,不代表它“想清楚了”。

谁能逃离“密室”?模型表现结果对比

单房间逃脱结果统计,包括3个不同难度级别(数值越大越难)。

研究评测了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等热门模型,发现:

在任务评价指标方面:

GPT-4o 逃脱成功率(ER)最佳,但在任务复杂度提升后仍频频出错;

国产大模型Doubao 1.5 Pro在最简单的关卡中,逃脱成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet;并且其交互成功率(Grab SR)超越GPT-4o和Claude 3.5 Sonnet;

即使模型逃脱成功率相同,EscapeCraft依然能利用道具获取率(Prop)、使用步数(Step),交互成功率(Grab SR)和交互率(Grab Ratio)对模型进行比较。

比如,在“Difficult-2”中,Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脱成功率和道具获取率,但是Gemini 1.5 Pro凭借较高的交互率,即使它的交互成功率较低,也能通过相对较少的步数成功逃脱;而Claude 3.5 Sonnet虽然交互率低,但每一步交互的成功率较高,体现出该模型完成任务时的“深思熟虑”。

在推理和探索行为方面:

Gemini 和 Claude 常在房间角落“卡住”,空间方向等判断失误,空转失败;

多数模型容易“反复抓错”或“认错道具”,他们的失败方式也各有特色:有的不会动、有的乱动、有的只移动不采取交互行动、有的动作对了但“目的不清”……;

子目标达成率虽高,但意图-结果一致性普遍低下,即“想要和沙发交互,但是意外地拿到钥匙”;

在多房间设定下,模型能从第一个房间学习到的逃脱经验有限,仅在两个房间关卡设定相似的条件下有辅助作用。

项目主页:
https://thunlp-mt.github.io/EscapeCraft

GitHub 地址:
https://github.com/THUNLP-MT/EscapeCraft

论文原文:
https://arxiv.org/abs/2503.10042v4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被出轨、当后妈,50岁炸翻浪姐:她原谅背叛,却没辜负自己!

被出轨、当后妈,50岁炸翻浪姐:她原谅背叛,却没辜负自己!

妈咪OK
2026-04-09 16:41:14
残忍!以军在加沙教室内公然开枪打死一名正在上课的9岁女学生

残忍!以军在加沙教室内公然开枪打死一名正在上课的9岁女学生

大象新闻
2026-04-10 14:48:32
【微特稿】美媒曝光多起疑似涉伊朗战事“内幕交易”

【微特稿】美媒曝光多起疑似涉伊朗战事“内幕交易”

新华社
2026-04-10 15:25:30
一车牌号带8888的奔驰S450L疑似作为陪葬品下葬,官方通报

一车牌号带8888的奔驰S450L疑似作为陪葬品下葬,官方通报

界面新闻
2026-04-10 16:53:21
郑丽文在北京新造型!穿蓝紫色西服彰显贵气,还双手背后很有气势

郑丽文在北京新造型!穿蓝紫色西服彰显贵气,还双手背后很有气势

八八尚语
2026-04-10 12:58:23
“以军疑从楼顶扔下巴勒斯坦儿童”,李在明:若为真,可有措施?

“以军疑从楼顶扔下巴勒斯坦儿童”,李在明:若为真,可有措施?

观察者网
2026-04-10 12:08:12
亨利·卡维尔晒了张海滩照,评论区集体想当那块石头

亨利·卡维尔晒了张海滩照,评论区集体想当那块石头

影视情报室
2026-04-10 08:49:32
郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

郑丽文想要的,大陆给得很爽快,随行人员有惊喜,蓝营一姐发话了

谛听骨语本尊
2026-04-10 16:28:28
开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

开路虎加油逃单后续:正脸曝光已死,身份被扒还是惯犯,警方介入

潮鹿逐梦
2026-04-10 12:03:49
李亚鹏回应陈光标捐款 :标哥真金白银捐了1000万,已经到账,没有限定用途!陈光标:钱怎么有效怎么用,无条件信任他

李亚鹏回应陈光标捐款 :标哥真金白银捐了1000万,已经到账,没有限定用途!陈光标:钱怎么有效怎么用,无条件信任他

每日经济新闻
2026-04-10 17:28:39
小米多款新机官宣:4月10日,正式预售!

小米多款新机官宣:4月10日,正式预售!

科技堡垒
2026-04-10 09:19:18
重磅!美国拟全面封杀中国实验室!

重磅!美国拟全面封杀中国实验室!

中国半导体论坛
2026-04-10 12:40:19
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

另子维爱读史
2026-04-10 16:24:13
公安局副局长开会时猝死,年仅45岁

公安局副局长开会时猝死,年仅45岁

南方都市报
2026-04-10 12:36:30
突发大利好!A股爆拉、创业板指年内新高,中际旭创市值破8000亿

突发大利好!A股爆拉、创业板指年内新高,中际旭创市值破8000亿

看财经show
2026-04-10 16:53:24
东航一航班遇强烈气流备降厦门,后在南昌上空盘旋数圈降落,乘客:剧烈颠簸,吓得给对象留言,感谢机长带我平安回家

东航一航班遇强烈气流备降厦门,后在南昌上空盘旋数圈降落,乘客:剧烈颠簸,吓得给对象留言,感谢机长带我平安回家

极目新闻
2026-04-10 15:54:54
“只是为了取乐”,以色列又大开杀戒

“只是为了取乐”,以色列又大开杀戒

南风窗
2026-04-10 17:21:14
"我不要活了!"上海一阿婆崩溃,买了近30年的保险全被退!警方:若继续持有价值百万

"我不要活了!"上海一阿婆崩溃,买了近30年的保险全被退!警方:若继续持有价值百万

台州交通广播
2026-04-09 22:32:54
大杀器终于到手!马克龙大谈中国,他断定:法国翻盘的机会来了

大杀器终于到手!马克龙大谈中国,他断定:法国翻盘的机会来了

触摸史迹
2026-04-10 15:20:30
普京和泽连斯基宣布:俄乌停火32小时!泽连斯基:愿意与普京会面,但不是在莫斯科

普京和泽连斯基宣布:俄乌停火32小时!泽连斯基:愿意与普京会面,但不是在莫斯科

每日经济新闻
2026-04-10 17:29:03
2026-04-10 19:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12454文章数 176449关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

王毅访问朝鲜会否同金正恩会面 外交部回应

头条要闻

王毅访问朝鲜会否同金正恩会面 外交部回应

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

创业板改革制度落地 增设第4套上市标准

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

房产
旅游
健康
教育
军事航空

房产要闻

突发!29亿疯狂拿地后,三亚绿发100%股权转让!

旅游要闻

永丰街道丨明后两天,花朝有约!仓城汉服游园会,等你赴约

干细胞抗衰4大误区,90%的人都中招

教育要闻

30名!2025海淀高级、中级校长评定名单来了

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版