网易首页 > 网易号 > 正文 申请入驻

密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板

0
分享至

清华大学团队 投稿
量子位 | 公众号 QbitAI

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。

但你是否想过:它们真的“看懂”并“想通”了吗?

模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?

为评估多模态大模型在视觉环境中,完成复杂任务推理的能力。清华大学团队受密室逃脱游戏启发,提出EscapeCraft:一个3D密室逃脱环境,让大模型在3D密室中通过自由探索寻找道具,解锁出口。

该论文目前已入选ICCV 2025。

EscapeCraft 环境

沉浸式互动环境,灵感源自密室逃脱

研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱子、解密码、逃出房间……其中每一步都需整合视觉、空间、逻辑等多模态信息。

任务可扩展,应用无限可能

EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个高度灵活、可持续迭代的通用评测平台,也可以为未来的智能体、多模态推理、强化学习等方向研究提供基础环境、数据和奖励设置方面的支持。

EscapeCraft支持自由定制和扩展想要的难度等级。不同难度等级下所需的逃脱步骤有所不同。

为了提高任务的难度,我们将线索放置在了墙上而不是箱子中,考验模型对于环境信息的接收和处理能力,除此之外线索在房间的摆放位置也可自由选择。

在第一个场景中,线索位于靠近出口的墙上,此时GPT-4o的表现更加出色,可以对线索进行正确利用。

不过,当我们把线索移动到距离出口较远的墙上,GPT-4o开始不断重复历史路径,无法对正确理解和利用线索,导致逃脱失败。

模型推理和过程评测

Gemini-1.5-Pro 密室逃脱第一视角

这张图展示了 Gemini-1.5-pro 模型成功逃脱一个房间的全过程。

开始的0到4步,模型原地不动,通过旋转视角来观察房间的环境。

它先从右侧开始旋转,一步步查看房间的不同区域,试图找到可交互的物体或线索,比如电视、桌子和椅子。

到了第五步,模型将视角对准电视方向,继续寻找可操作的元素,这时我们可以看到桌上有一把钥匙。

第六步时,模型前进并拾取了这把钥匙。拿到钥匙后,模型表示自己准备转身面对门,尝试使用钥匙。

接下来的步骤中,模型开始朝门的方向移动,意图解锁房门。在移动过程中,他多次调整视角,尤其是向上看,试图确认门的位置。

由于视角偏低,模型一开始没能看到门,于是不断微调视角方向来定位门的位置。

从“答对”到“会想”

与传统只看最终任务结果的评测不同,EscapeCraft 关注整个任务完成过程:模型是否自主探索?有没有重复犯错?道具用得对不对?从而真正测试模型的“类人推理过程”。

论文重点弥补以结果为导向的评估缺陷,强调中间推理过程。为此设计了多个衡量视觉感知、多模态推理、环境探索和工具获取和利用的过程的创新指标:

Intent-Outcome Consistency(意图与结果一致性):衡量模型与环境的交互结果是否和的模型的交互意图一致,即模型是否“在正确的位置做正确的事”。

Prop Gain / Grab Ratio / GSR:刻画模型在探索和推理过程中的行为模式,反映模型的交互质量、推理效率、和智能程度。

评测结果显示:GPT-4o 在 Difficulty-3 中仅有 26.5% 的子目标达成是“真正理解后完成的”,其余大多为偶然成功(比如想拿电视却误抓到关键道具)。

研究还发现大量有趣失败案例。例如:

模型面对不可交互的沙发,仍试图抓取,并在“理由”中解释“沙发下可能藏着钥匙”;

模型原本已经看见了关键道具,却在移动过程中将其“逐步移出视野”,随后继续提及该道具却操作失败……

团队据此将错误拆分为两类:

视觉感知错误:误判目标是否可交互,视角控制失败;

推理逻辑错误:目标设定错误,或动作与意图不符。

其中 Claude 3.5 的错误中,61.1% 属于推理问题,38.9% 属于视觉问题。这说明即便模型“看到了”,不代表它“想清楚了”。

谁能逃离“密室”?模型表现结果对比

单房间逃脱结果统计,包括3个不同难度级别(数值越大越难)。

研究评测了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等热门模型,发现:

在任务评价指标方面:

GPT-4o 逃脱成功率(ER)最佳,但在任务复杂度提升后仍频频出错;

国产大模型Doubao 1.5 Pro在最简单的关卡中,逃脱成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet;并且其交互成功率(Grab SR)超越GPT-4o和Claude 3.5 Sonnet;

即使模型逃脱成功率相同,EscapeCraft依然能利用道具获取率(Prop)、使用步数(Step),交互成功率(Grab SR)和交互率(Grab Ratio)对模型进行比较。

比如,在“Difficult-2”中,Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脱成功率和道具获取率,但是Gemini 1.5 Pro凭借较高的交互率,即使它的交互成功率较低,也能通过相对较少的步数成功逃脱;而Claude 3.5 Sonnet虽然交互率低,但每一步交互的成功率较高,体现出该模型完成任务时的“深思熟虑”。

在推理和探索行为方面:

Gemini 和 Claude 常在房间角落“卡住”,空间方向等判断失误,空转失败;

多数模型容易“反复抓错”或“认错道具”,他们的失败方式也各有特色:有的不会动、有的乱动、有的只移动不采取交互行动、有的动作对了但“目的不清”……;

子目标达成率虽高,但意图-结果一致性普遍低下,即“想要和沙发交互,但是意外地拿到钥匙”;

在多房间设定下,模型能从第一个房间学习到的逃脱经验有限,仅在两个房间关卡设定相似的条件下有辅助作用。

项目主页:
https://thunlp-mt.github.io/EscapeCraft

GitHub 地址:
https://github.com/THUNLP-MT/EscapeCraft

论文原文:
https://arxiv.org/abs/2503.10042v4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男女干部戴头套开房后续:女主高清照片流出,男主六月新婚

男女干部戴头套开房后续:女主高清照片流出,男主六月新婚

没有偏旁的常庆
2025-12-25 06:58:51
李煜至死没想通:最该联手的钱弘俶,为何捅他一刀?

李煜至死没想通:最该联手的钱弘俶,为何捅他一刀?

爱历史
2026-01-25 11:25:36
航天电子击鼓传花撞上SpaceX百万卫星,谁在被现实打脸

航天电子击鼓传花撞上SpaceX百万卫星,谁在被现实打脸

粤语音乐喷泉
2026-02-01 10:04:27
1988年政治部主任深夜接军区命令:控制你们师长,他身上有3把枪

1988年政治部主任深夜接军区命令:控制你们师长,他身上有3把枪

兴趣知识
2026-01-31 10:48:03
庆祝时刻,莱巴金娜一袭红裙拍摄澳网女单冠军写真

庆祝时刻,莱巴金娜一袭红裙拍摄澳网女单冠军写真

懂球帝
2026-02-01 12:16:16
曹操为什么喜欢寡妇?许多人不明白,看完不得不佩服曹操的智慧

曹操为什么喜欢寡妇?许多人不明白,看完不得不佩服曹操的智慧

铭记历史呀
2026-01-29 18:27:55
大S一周年纪念日前墓地太闹腾了吧?具俊晔哭完韩国主持人接着哭

大S一周年纪念日前墓地太闹腾了吧?具俊晔哭完韩国主持人接着哭

安宁007
2026-02-01 06:50:07
CBA最新消息!杨鸣或重返辽宁,南京同曦两人被禁赛

CBA最新消息!杨鸣或重返辽宁,南京同曦两人被禁赛

体坛瞎白话
2026-02-01 11:18:25
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
著名歌手不幸离世,留3200万遗产,生前自购墓地

著名歌手不幸离世,留3200万遗产,生前自购墓地

最美的开始
2026-02-01 18:56:39
官宣!增值税5%征收率保留,不会降至3%

官宣!增值税5%征收率保留,不会降至3%

第一财经资讯
2026-02-01 11:09:10
歌手于文文演唱会上突然晕倒,被救护车紧急送医

歌手于文文演唱会上突然晕倒,被救护车紧急送医

扬子晚报
2026-02-01 23:23:03
脊柱断裂、前夫已死,63岁韦唯近况曝光,已然走上一条上坡路

脊柱断裂、前夫已死,63岁韦唯近况曝光,已然走上一条上坡路

深度解析热点
2026-01-25 01:28:29
女子举办“北京第一届黑色羽绒服选美大赛”引数百人围观:冠军是只小狗,季军称很好玩

女子举办“北京第一届黑色羽绒服选美大赛”引数百人围观:冠军是只小狗,季军称很好玩

极目新闻
2026-02-01 17:23:47
失业的人越来越多了

失业的人越来越多了

曹多鱼的财经世界
2025-12-24 14:56:20
30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

30年营养谎言被戳穿:为什么医生们突然改口让你吃肉?

富贵说
2026-01-18 20:36:47
娶了朋友前妻是一种什么样的体验?

娶了朋友前妻是一种什么样的体验?

另子维爱读史
2026-01-13 20:04:40
湖人被耍惨了!2月1日,骑士一记闷棍敲醒洛杉矶春秋大梦

湖人被耍惨了!2月1日,骑士一记闷棍敲醒洛杉矶春秋大梦

时事佳人
2026-02-01 16:58:14
反转炸锅!布鲁克林从贝家少爷变赘婿靠老婆 100 万刀月例躺平?

反转炸锅!布鲁克林从贝家少爷变赘婿靠老婆 100 万刀月例躺平?

阿雹娱乐
2026-01-30 11:39:17
洗碗机砸家反转!丈夫降薪扛,妻子卖金买苹果17月吃4次海底捞

洗碗机砸家反转!丈夫降薪扛,妻子卖金买苹果17月吃4次海底捞

深析古今
2026-01-10 13:58:59
2026-02-02 08:03:03
量子位 incentive-icons
量子位
追踪人工智能动态
12092文章数 176369关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

艺术
健康
数码
手机
教育

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

耳石症分类型,症状大不同

数码要闻

显存稀缺暴涨:三款RTX 50 GPU将占一季度总供应量75%!

手机要闻

首发2nm芯片 三星S26系列还会是安卓机皇吗?

教育要闻

民办大学出来真的很难找工作吗?

无障碍浏览 进入关怀版