具身感知基准测试|智能体|复杂性|大模型

分享至

Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering

超越终点：探索感知具身问答基准测试

https://arxiv.org/pdf/2503.11117v3

摘要

具身问答（Embodied Question Answering, EQA）是具身智能领域中一项极具挑战性的任务，要求智能体在三维环境中动态探索、主动收集视觉信息，并通过多步推理来回答问题。然而，当前的EQA方法在探索效率、数据集设计和评估指标方面存在关键性局限。此外，现有数据集往往引入偏见或先验知识，导致脱离具身环境的推理；而基于前沿（frontier-based）的探索策略在杂乱环境中表现不佳，且无法确保对任务相关区域进行细粒度探索。为应对这些挑战，我们构建了“探索感知型具身问答基准”（EXPloration-awaRe Embodied queStion anSwering Benchmark，简称EXPRESSBench），这是目前规模最大的专门用于评估探索与推理能力的数据集。EXPRESSBench包含777条探索轨迹和2,044个问题-轨迹配对。为提高探索效率，我们提出了Fine-EQA模型——一种混合探索模型，融合了基于前沿的导航与目标导向导航，以更有效地引导智能体前往任务相关区域。此外，我们还提出了一种新颖的评估指标——“探索-答案一致性”（Exploration-Answer Consistency, EAC），通过衡量答案依据与探索可靠性的对齐程度，确保评估结果的忠实性。大量实验表明，与当前最先进的EQA模型相比，我们的EXPRESS-Bench在推动具身探索与问题推理方面具有显著效果。

1 引言

具身问答（Embodied Question Answering, EQA）是计算机视觉、自然语言处理与具身智能交叉领域的一项核心挑战。在该任务中，智能体需在三维环境中导航，通过主动探索收集视觉信息，并据此回答关于场景的问题 [7, 29]。与依赖静态图像 [3, 16] 或预设知识库 [2, 20] 的传统问答系统不同，EQA 要求智能体进行序列决策——必须动态探索环境、获取必要信息后才能作答。因此，传统问答方法因缺乏处理动态多步推理与具身导航的能力，难以泛化至 EQA 任务 [34, 46]。这种感知、推理与行动的紧密结合，使 EQA 成为极具吸引力但也极具挑战性的问题，对机器人、虚拟助手和自主导航等现实应用具有重要意义 [24]。

然而，当前 EQA 方法面临根本性局限：模型常在未真正基于探索结果的情况下生成答案 [29]。这一问题源于对人工构建 [7] 或规则生成数据集 [37] 的依赖——这些数据集成本高昂、灵活性差且易引入偏见，导致智能体倾向于利用虚假相关性而非进行有意义的推理，引发其在现实应用中可信度的担忧 [23, 27]。此外，问题设计模糊与场景复杂性常导致答案不唯一，使性能评估不可靠 [28]。更严重的是，部分数据集内嵌先验知识，使模型无需实际探索即可作答——即“非忠实问答”问题 [44]。例如，若问题明确提及“客厅”，模型可直接猜测答案而无需与环境交互。评估指标进一步加剧了这些问题：现有指标无法衡量答案可靠性，亦无法有效检测“幻觉”——即看似合理实则错误的回答 [5, 17]，导致评估结果偏颇，忽视智能体真实的探索与推理能力。此外，主流指标多仅衡量答案相似度，缺乏评估探索效率与质量的细粒度能力，限制了其在现实场景中的适用性 [21]。这些缺陷凸显了构建能同时评估探索过程与答案质量的综合性 EQA 基准的迫切需求。

除基准数据集与评估指标的局限外，现有 EQA 方法还存在关键缺陷：探索效率低下。多数当前模型依赖基于前沿的探索策略 [10, 14, 41, 42]，即通过识别并导航至地图上未探索边界进行扩展。该策略在开阔空间中有效，但在狭窄走廊或杂乱场景等受限环境中表现不佳，限制了智能体全面探索的能力 [13, 30]。此外，基于前沿的策略常导致低效行为，如反复访问语义重要区域却未获取新信息。尤为关键的是，现有方法缺乏对任务相关区域进行细粒度探索的机制，阻碍智能体获取支撑准确推理所需的详细环境上下文 [36]。因此，必须将探索效率与答案可靠性相结合，以确保推理过程有意义。

为应对上述挑战，我们提出“探索感知型具身问答（EQA）”任务，强调智能体在作答前需主动且理性地探索环境中相关的线索。为全面评估具身智能体的探索能力，我们构建了大规模基准数据集 EXPRESS-Bench，包含 777 条探索轨迹和 2,044 个问题-轨迹配对，在覆盖范围上优于 OpenEQA（如表1所示）。为提升探索效率，我们提出 Fine-EQA 方法——一种融合基于前沿探索与目标导向探索的混合方法。通过利用全局语义地图和功能区域语义地图，Fine-EQA 使智能体既能高效遍历整个场景，又能对任务相关区域进行细粒度探查。为确保答案评估的忠实性，我们引入“探索-答案一致性”（Exploration-Answer Consistency, EAC）指标，该指标明确衡量智能体探索过程与其生成答案之间的对齐程度。EAC 能有效识别那些看似正确、却缺乏探索证据支撑的“无根基”回答，从而提供对模型性能更严格的评估。我们的贡献总结如下：

• 我们提出了 EXPRESS-Bench——一个高质量、大规模的 EQA 数据集，旨在支持主动探索，同时解决现有数据集的关键局限，如问题模糊性和对先验知识的过度依赖。
• 我们提出了 Fine-EQA——一种两阶段探索框架，通过灵活的策略切换提升导航效率，并实现对任务相关区域的细粒度探索，为 EQA 任务设立了新的基线标准。
• 为确保对 EQA 的忠实评估，我们引入了 EAC 指标，该指标同时评估答案的依据性（grounding）与探索效率，从而提供对模型性能更为严格的衡量标准。

相关工作
2.1. EQA 数据集
与视觉问答（VQA）数据集相比，EQA 数据集构建于三维空间中，既包含静态场景描述，也包含动态交互，使其开发成为一项更具挑战性的任务。早期工作 [4, 7, 11, 35, 37, 43] 采用基于模板的方法以加速数据生成；然而，该方法常导致问题形式过于简单、答案过于直接。随着大模型的兴起，[8, 31, 39] 利用其能力促进更高效的数据构建过程，使其更贴合研究需求，从而显著提升了数据的多样性与丰富性。[29] 通过人工设计提出了一个开放式数据集，展现了创新性，但主要聚焦于基于场景的记忆类问题，忽视了主动探索在 EQA 任务中的关键作用。[45] 将任务扩展至城市空间，纳入了城市环境的复杂性。然而，3D 环境的复杂性常导致答案不唯一，使模型评估变得困难。此外，现有数据集极少支持主动探索。因此，我们提出一个探索感知型 EQA 基准，支持主动探索并确保答案唯一性，从而提供高质量评估与丰富的 EQA 任务。

2.2. 用于具身智能体的大模型
大模型强大的推理与泛化能力推动了其在具身任务中的广泛应用，例如视觉-语言导航 [25, 26, 46] 和具身操作 [18, 38, 40]。然而，EQA 要求更全面的推理能力，不仅包括导航与交互，还需基于环境信息进行问答。这种对语义理解的更高要求使得其他任务的方法难以直接迁移至 EQA。在 EQA 领域，一些研究利用这些模型进行目标物体检测 [32] 和子任务规划 [45]，也用于为探索方向分配置信度分数 [6, 31] 或生成语义标签 [33] 以更新语义地图，从而结合基于前沿的探索策略。然而，场景的复杂性常限制智能体的探索，导致效率低下或因缺失关键信息而产生幻觉式回答。为此，我们提出一种两阶段 EQA 模型，可在基于前沿探索与目标导向探索之间灵活切换策略，从而提升效率与鲁棒性。

EXPRESS-Bench
本节描述我们如何利用多模态大模型 GPT-4o-mini 构建 EXPRESS-Bench。与现有 EQA 数据集不同，我们不仅记录生成的问题与理想答案，还记录真实动作（ground truth actions），以及智能体在每个操作步骤后所处的状态和获取的信息。

3.1. 仿真器
HM3D 是一个综合性数据集，包含来自广泛现实地点的 1,000 个大规模建筑的三维重建。我们在 Habitat 仿真器上选用 HM3D 数据集中语义信息丰富的部分，以模拟真实世界环境，并广泛利用 Habitat 接口构建数据。

3.2. 数据集生成流程
本节概述用于构建 EXPRESS-Bench 的问答对生成流程。数据集构建过程如图2所示。

阶段一：轨迹生成
我们在场景内随机采样可导航的起始位置和目标位置。随后，我们计算从起始位置到达目标位置所需的最短原子动作序列（“前进”、“左转”、“右转”）及其对应步数，作为真实轨迹（ground truth）。同时，我们记录这两个位置之间的最短测地距离。鉴于仿真环境规模庞大，我们约束起始位置与目标位置必须位于同一楼层，并确保步数介于10至100步之间。在每个原子动作执行后，记录智能体的状态，包括坐标、朝向和第一人称视觉观测。基于所收集的视觉数据，我们进一步生成一段轨迹视频，从第一人称视角可视化智能体完整的探索过程。

阶段二：问答对生成
在 EQA 任务中，智能体在目标位置的最终视觉观测包含回答问题所需的关键信息。因此，我们将目标位置处的视觉观测输入多模态大模型（GPT-4o-mini），并提供若干示例问答对。这些问题从人类视角设计，旨在模拟日常家居场景中的自然对话。在提示词引导下，GPT-4o-mini 生成相应的问题与答案。答案为开放式（而非简单的“是/否”或多项选择），有助于减少数据偏见，防止模型仅依赖其内在常识作答，从而对模型性能提出更高要求。

阶段三：数据筛选
尽管大模型表现良好，但其输出并非始终可靠或合理。此外，由于环境规模庞大，场景中可能存在多个同类型房间（如多个卧室）或重复物体，导致问题答案不唯一。因此，有必要对生成的数据进行人工筛选。首先，我们确保所有问题的答案均与场景相关。其次，我们利用生成的轨迹视频以及 Habitat 仿真器提供的各楼层俯视图，追踪智能体在场景中的位置与移动轨迹。这使我们能够解决在探索过程中目标区域无法清晰识别或准确抵达的问题。具体而言，我们仅保留满足以下条件的问题：目标区域在场景中无其他同类型区域，或在同类区域中目标区域距离起始位置最近，从而确保答案的唯一性。必要时，我们还会明确问题中的关键区域，并补充上下文细节，如目标物体的位置、属性及其与其他物体的关系。我们邀请多名人员对数据进行审核，为确保数据集高质量，最终由一名策展人进行全面一致性核查。

3.3. 数据集统计信息
最终，EXPRESS-Bench 包含 777 条轨迹，共计 2,044 个问题-轨迹配对。该数据集的问题主要涵盖以下七类：状态（state）、知识（knowledge）、位置（location）、属性（attribute）、计数（counting）、存在性（existence）和物体（object）。各类问题的分布如图3所示。平均每道问题对应的智能体导航步数为39.8步，覆盖测地距离6.6米。关于 EXPRESS-Bench 的更多分析详见补充材料。

3.4. 探索-答案一致性指标
由于答案属于开放词汇，直接评估其正确性并不可行。OpenEQA 采用 GPT-4 对模型输出进行评分，评分范围为1至5分。然而，OpenEQA 忽略了答案的“依据性”（grounding）——即模型的回答可能是虚构的，与智能体实际观测到的环境信息无关。为解决这一局限，我们改进了正确性评估分数 σᵢ，该分数基于问题、正确答案及视觉观测来评估模型响应。此外，我们引入依据性评估分数 δᵢ，借助视觉语言模型（VLM）评估答案与环境信息的相关性：

Fine-EQA
我们提出 Fine-EQA——一种灵活的两阶段 EQA 框架，战略性地融合了基于前沿的探索与目标导向的探索。Fine-EQA 构建双重语义表征（全局语义地图与功能区域语义地图），以引导智能体更高效地穿越复杂环境，同时确保对任务相关区域的充分探查。

4.1 概述

基于前沿的探索（FBE）：识别已知区域与未知区域之间的边界，以扩展对环境的理解。
目标导向的探索（GOE）：基于语义分析，定位任务相关性高的区域作为探索目标。

4.2 基于前沿的探索（FBE）

4.3 目标导向的探索

纯基于边界的探索的主要限制是它无法全面探索与任务相关的区域，特别是在具有遮挡和空间限制的复杂环境中。我们的目标导向探索策略通过明确建模功能区域及其与给定问题的相关性来解决这一限制。

与任务相关的区域优先级排序。我们使用一个大语言模型（LLM）来分析问题，并根据各区域的任务重要性对相关区域进行优先级排序。这种优先级排序至关重要，因为：1）次要区域通常为主要区域提供重要的上下文信息或通路；2）战略性地探索多个区域可以提升空间感知能力和导航效率。此外，它还支持显式建模包含多个与任务相关区域的场景。当智能体识别出一个更高优先级的区域时，它将转向在该区域内进行目标导向的探索。

掩码语义映射。为了聚焦于高优先级区域，我们基于功能区域语义图，对全局语义图应用掩码操作 ϕ：

实验
我们在 EXPRESS-Bench 上评估了多种模型，报告了它们响应的准确率。同时，我们也展示了配备探索能力的智能体在效率和导航性能方面的表现。

5.1 基线

我们在零样本设置中比较各种模型，包括1）盲LLMs，2）具身模型，3）多帧VLMs，4）探索代理，和5）人类表现。

5.2 与最新方法的比较

5.3 在其他数据集上的实验

为了进一步评估Fine-EQA的性能，我们在两个额外的数据集上进行了实验。对于OpenEQA[29]，我们特别关注A-EQA子集，该子集评估代理探索环境和回答问题的能力。我们使用相应的评估指标进行性能测量，其公式在补充材料中提供。

结果在表3中展示。Fine-EQA在探索效率方面超越了[29]中表现最佳的GPT-4V模型，特别是在探索效率方面。这是因为[29]中的主动探索策略完全依赖于基于边界的方法，并且在收集到完成任务所需的信息后未能及时终止探索。

我们还在多选数据集HM-EQA[31]上评估了Explore-EQA[31]和Fine-EQA的性能，使用答案准确性和代理导航路径长度作为指标。如表4所示，Fine-EQA在这两个指标上都比Explore-EQA有显著提升。

此外，我们分析了问题中的模糊率，发现HM-EQA中为35.6%，Open-EQA中为62.3%，而EXPRESS-Bench中仅为9.7%。HM-EQA和Open-EQA中缺乏完整的探索轨迹或明确的目标位置进一步阻碍了准确的性能评估。相比之下，我们的EXPRESS-Bench增强了评估的可靠性和可解释性。

5.4 消融研究
如表5所示，同时移除FBE和GOE模块会导致性能下降，影响响应准确率和探索效率。具体而言，FBE模块的影响更为显著，突显了其在增强信息获取能力方面的关键作用。

为单独评估GPT-4o-mini对Fine-EQA性能的影响，我们将其替换为其他视觉语言模型（VLMs），并在EXPRESS-Bench上进行评估。如表6所示，基于不同VLM构建的Fine-EQA在各项指标上表现各异，但始终优于其他模型。我们观察到，C分数较高的Fine-EQA模型倾向于在环境中进行更广泛的探索，这反映在其较低的E分数上。

5.5 探索与回答的有效性
我们通过定性和定量研究，评估了所提出探索策略的有效性以及问题推理模块的回答忠实度。

探索有效性。如图6所示，我们随机选取一个场景，可视化了在不同探索策略下智能体的探索轨迹。RE策略忽略场景信息和指令内容，任意选择下一个位置，导致严重的冗余和低效。FBE和GOE相比RE有所改进，但仍难以有效探索场景，无法覆盖相关区域或获取足够的上下文信息。Fine-EQA通过融合场景上下文以及指令中嵌入的区域线索，进一步提升了探索效率。它在快速扩展未知区域的同时，战略性地引导智能体前往与任务相关的区域，实现更全面、高效的探索。如图6所示，我们的Fine-EQA智能体从走廊出发，识别到前方的卫生间是相关区域，随后战略性地导航至该区域，最终获得正确答案。

回答忠实度。此外，我们利用视觉语言模型（VLMs）评估问题推理模块的回答忠实度。具体而言，我们使用Prismatic VLM来判断智能体在探索过程中收集的环境观测是否足以支持对问题的准确回答。如图7所示，智能体终止点所捕获的观测图像具有最高的置信度。我们选取置信度最高的四张图像（以橙色边框标出），作为LLaVA和GPT-4o-mini的输入。两个模型均一致认为最后一张图像为回答问题提供了最具信息量的依据。

我们还计算了在不同探索策略下，智能体在终止位置所观测数据的平均置信度（ACE）、归一化路径长度（NPL）以及归一化路径长度加权置信度（WCE）。这些指标的具体公式见补充材料。根据表7中的定量结果，Fine-EQA表现最佳，验证了其在提升智能体探索效率的同时，保持探索与回答一致性（即回答忠实度）的有效性。

结论
本文提出了EXPRESS-Bench，这是目前用于评估环境问答（EQA）中探索与推理能力的最大数据集。同时，我们提出了Fine-EQA，一种结合前沿探索与目标导向导航的混合探索模型，显著提升了探索效率。此外，我们引入了探索-回答一致性（EAC）指标，以更有效地评估探索与推理之间的对齐程度。大量实验表明，EXPRESS-Bench在推动探索感知型EQA的发展方面具有重要作用。

补充材料

问题推理模块
探索状态判断 。在具身问答（EQA）中，智能体需通过与环境的动态交互不断积累信息，以实现准确回答。关键在于，这一探索过程需在合理约束内终止，而非无限持续。在每一步，智能体会对其已获取的信息进行充分性评估，以判断是否应在达到预设最大交互次数前终止探索并进入答案生成阶段。为此，我们使用视觉语言模型（VLM），该模型系统性地融合实时视觉观测与文本查询语义，全面分析场景的相关性与信息充分性。一旦VLM判定所有必要信息均已收集完毕，且无需进一步探索即可回答问题，便会发出信号结束探索阶段。此时，探索状态被标记为“已完成”，智能体随即转入问答阶段。

答案生成。该过程依赖于探索阶段获取的最新视觉信息以及对问题的理解。在推理过程中，VLM将语言信息与先前探索中提取的图像特征进行融合，生成符合问题语义和场景实际情况的答案。

额外实验
8.1 实验设置
• 最大探索限制 ：智能体在单个场景中的总探索次数与场景大小成比例，而在任务相关区域内连续探索次数限制为三次。仅在指定区域内，智能体会从四个方向（前、后、左、右）进行观测，以确保获得全面视角。
• 最大步长限制 ：智能体的下一个探索点必须位于当前所在位置3米范围内，以确保其在场景内的移动可控。

8.2 实验指标
8.2.1 指标计算公式

8.2.2 指标对比

通过引入答案接地（answer grounding），我们的指标能够更准确地评估模型的性能。图8通过多个示例对比了我们的指标与OpenEQA指标之间的差异。

8.3 不同问题类型的性能表现

我们根据问题类型对数据集进行分类，并在各类别中评估各模型的性能。图9展示了所有模型在不同问题类型下的 C∗分数。显然，人类的表现显著优于所有其他模型。总体而言，模型与人类之间的性能差距在“知识”类别中最小，而在“状态”、“存在性”和“计数”类别中则更为明显。在所有模型中，Fine-EQA 表现优异，在大多数类别中排名最高或第二，仅在“知识”和“存在性”问题类别中表现稍逊。

此外，图10展示了具备探索能力的智能体在不同问题类型下基于 C 指标的性能表现。在考虑回答的接地性（grounding）后，所有智能体的性能均出现显著下降。尽管 Fine-EQA 在大多数类别中表现良好，但其在存在性问题上的表现相对较弱。

8.4 探索与回答的有效性

我们在图11中展示了不同智能体在额外示例中的探索路径可视化结果。Fine-EQA 在所有案例中均表现出最高的性能。图12还展示了视觉语言模型（VLMs）对智能体在两个轨迹示例中视觉观测所赋予的置信度分数。

EXPRESS-Bench 的更多示例
图13展示了来自三个赛道的七种不同类型问题的数据。单条轨迹可以生成多种类型的数据，所有数据均来源于轨迹视频的最后一帧。我们还分析了数据集中轨迹长度的分布情况，如图14所示。

10. 使用的提示词（Prompt）

我们提供了用于数据生成的提示词（prompt₁ 15）、评分评估提示词（prompt₂ 16）、用于判断智能体是否应终止探索的提示词（prompt₃ 17），以及用于回答问题的提示词（prompt₄ 18）。其中，prompt₄ 的设计受到 [29] 的启发。

原文链接：https://arxiv.org/pdf/2503.11117v3

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.