作者:Zibo Zhou , Yue Hu , Lingkai Zhang , Zonglin Li , Siheng Chen
单位: 上海交通大学, 密歇根大学
论文标题:BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation
论文链接:https://arxiv.org/pdf/2506.06487v1
代码链接:https://github.com/ZiboKNOW/BeliefMapNav
提出零样本目标导航系统 BeliefMapNav ,通过构建3D体素信念图,将语言模型的语义推理与视觉嵌入相结合,实现了对目标位置的精确估计和高效的全局导航决策。
提出 3D体素信念图 ,整合了层次化的空间语义信息和LLM生成的与目标相关的语义线索,能够在复杂的三维空间中进行细粒度的目标位置估计,为机器人在未知环境中寻找目标提供了更准确的指导。
在HM3D、MP3D和HSSD 基准测试 中,BeliefMapNav在成功率(SR)和路径长度加权成功率(SPL)两个关键指标上均取得了最先进的性能,与之前的最佳方法相比,在HM3D上SPL指标有46.4%的显著提升。
零样本目标导航 :在现实世界中,机器人常常需要在没有预先构建地图或特定任务训练的情况下,根据自然语言指令找到目标物体,如在家庭环境中帮助人们找到特定物品、在工业场景中定位故障部件等。这种能力对于实现机器人的灵活部署和广泛应用具有重要意义。
现有方法的局限性 :以往的研究主要分为两大类,一类是基于鸟瞰图(BEV)的方法,虽然能够提供目标位置的密集估计,但在位置区分度和语义信息方面存在不足;另一类是利用大型语言模型(LLMs)或视觉语言模型(VLMs)进行目标位置推理的方法,但这些模型在空间理解和推理方面存在局限性,导致目标位置预测的准确性不高。此外,现有方法大多采用贪婪的导航策略,导致搜索效率低下。
零样本目标导航(Zero-shot Object Navigation, ZSON)任务要求机器人在未知环境中根据自然语言指令找到指定目标物体,而无需任务特定的训练、预构建地图或固定词汇表。目标类别 以自由文本形式给出。
在每个时间步 ,机器人接收 RGB-D 观测 ,其中 和 ,以及自身的位姿 ,其中 和 。
动作空间 包括:向前移动(0.25米)、左右转(30°)、上下看(30°)和停止。任务成功条件是机器人在 500 步内,在距离目标物体 0.1 米内停止。

BeliefMapNav 是一个基于 3D 体素的零样本开放词汇目标导航系统,包含三个关键模块:
3D 体素信念图 :通过结合层次化空间语义和 LLM 的常识知识,构建目标存在先验信念的 3D 体素信念图。
前沿观测信念估计模块 :将先验信念图与实时观测反馈结合,估计每个前沿视野范围内检测到目标的后验信念。
基于观测信念的规划模块 :通过优化预期路径距离成本,选择下一个导航目标,实现高效的目标导向探索。

多尺度特征提取 :将 RGB 图像分割成多尺度的块,使用 CLIP 提取每个块的视觉特征,并使用 Segment Anything Model (SAM) 估计每个块中的语义实例数量。同时,将深度图像分割成对应的块,反向投影到 3D 空间形成点云,并计算每个点云的体积和密度。
层次化特征评分 :设计层次化特征评分器,分别为场景、区域和物体级别分配置信度分数,选择与特定语义级别最匹配的特征。
自适应层次化特征选择 :在每个像素位置,选择在对应语义级别评分器下得分最高的特征,并将其回投到 3D 语义图中。
利用 LLM(如 GPT-4)从目标物体描述中生成地标字符串和相关性分数。地标分为房间、区域和物体三个级别,每个级别生成三个地标及其相关性分数。
将地标和目标对象名称编码到 3D 层次化语义体素图中,计算地标和目标对象与存储的空间语义特征之间的最大余弦相似度分数,并根据相关性分数加权,生成最终的 3D 体素信念图。
可见性图用于捕捉实时检测反馈对目标信念分布的影响。对于每个像素,计算其水平角度、垂直角度和距离的置信度分数,然后将像素反向投影到 3D 空间,更新可见性图。
将可见性图与信念图融合,计算每个前沿视野范围内检测到目标的后验信念。对于每个候选前沿位置,评估四个方向的观测信念,并选择最大值作为最终的观测信念。
通过优化预期搜索距离,选择前沿访问顺序。目标是最小化预期搜索成本,即路径距离与观测信念的加权和。
使用 GPU 加速的模拟退火算法求解最优路径规划问题。在每一步,根据更新的信念图重新规划导航目标。
数据集 :在三个标准基准数据集上评估了 BeliefMapNav 的性能,包括 HM3D、MP3D 和 HSSD。
HM3D :包含 2000 个验证集 episode,分布在 20 个环境中,涵盖 6 个目标类别。
MP3D :一个大规模室内 3D 场景数据集,验证集包含 11 个环境、21 个目标类别和 2195 个目标导航 episode。
HSSD :基于真实房屋布局的合成数据集,包含 40 个验证场景、1248 个导航 episode 和 6 个目标类别。
评估指标 :使用成功率(SR)和路径长度加权成功率(SPL)两个标准指标。
SR :衡量智能体在预设距离内到达目标的比例。
SPL :通过考虑成功和轨迹优化来评估路径效率。如果成功,SPL = 最优路径长度 / 实际路径长度;否则,SPL = 0。
实现细节 :导航限制为 500 步,成功定义为在距离目标 0.1 米内停止。RGB-D 相机安装在 0.88 米高度,捕获 640×480 图像。3D 体素图有 45,000 个体素,分辨率为 0.25 米。系统运行在单个 RTX 4090(13GB VRAM)上。

性能对比 :BeliefMapNav 在 HM3D、MP3D 和 HSSD 基准测试中均优于现有的零样本目标导航方法。
HM3D :与 InstructNav 相比,SR 提高了 5.86%,SPL 提高了 46.4%。
MP3D :SR 提高了 0.27%,SPL 提高了 0.57%。
HSSD :SR 提高了 27.8%,SPL 提高了 28.9%。
性能分析 :
在 HM3D 数据集上,BeliefMapNav 通过更准确的目标位置估计和优化搜索路径,显著提高了搜索效率。
在 MP3D 数据集上,性能提升较小,主要由于 MP3D 数据质量较低,目标识别更具挑战性,且存在许多“洞”,导致智能体误将这些洞作为目标。
在 HSSD 数据集上,性能显著提升,因为合成场景避免了 MP3D 和 HM3D 中存在的问题。

可见性图和基于信念的规划 :
没有可见性图时,SR 下降了 8.48%,SPL 下降了 11.4%,因为智能体会重新访问已观察过的区域。
没有规划模块时,SR 下降了 10.4%,SPL 下降了 7.27%,因为智能体频繁切换导航目标,导致效率低下。

不同层次化 3D 语义 :
仅使用场景级别语义时,SR 为 59.0%,SPL 为 30.4%。
使用场景和区域级别语义时,SR 为 61.5%,SPL 为 32.0%。
使用完整层次化语义(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
结果表明,增加更多的语义级别可以提高 SR,但可能会略微降低 SPL,因为细粒度的搜索会增加路径长度。

不同视觉语言编码器 :
使用 CLIP 时,SR 为 62.5%,SPL 为 31.6%。
使用 BLIP-2 时,SR 为 62.0%,SPL 为 31.1%。
使用 BLIP 时,SR 为 59.3%,SPL 为 31.0%。
结果表明,CLIP 和 BLIP-2 的性能相当,均优于 BLIP。CLIP 在泛化到分布外数据方面表现更好,且支持高效的独立编码器和预计算特征。

不同层次化地标 :
不使用地标时,SR 为 60.0%,SPL 为 30.9%。
使用房间级别地标时,SR 为 61.0%,SPL 为 31.1%。
使用房间和区域级别地标时,SR 为 61.5%,SPL 为 31.2%。
使用完整层次化地标(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。
结果表明,逐步引入地标可以逐渐提高 SR 和 SPL,但提升幅度小于增加空间语义级别。

3D 体素信念图 :展示了目标物体(如沙发)的先验信念分布,引导智能体进行搜索。
可见性图 :显示了智能体在搜索过程中对目标物体的观测概率,低概率区域表示目标物体存在可能性低。
后验信念图 :结合先验信念和实时观测反馈,动态更新目标物体的存在概率,指导智能体高效探索。
搜索过程 :通过一系列步骤展示了智能体如何根据信念图和观测信念图逐步接近目标物体,并最终找到目标。
结论 :
BeliefMapNav通过结合层次化空间语义、LLM的常识推理以及实时反馈,有效地提高了零样本目标导航的准确性和效率。实验结果证明了该方法在多个基准测试中的优越性能。
未来工作 :
目前的3D体素信念图仅在目标导航任务上进行了验证,未来可以将其扩展到机器人交互和移动操作任务中。
此外,还可以进一步优化局部规划器的性能,以提高在狭窄区域的导航能力,并探索在真实世界环境中的应用和验证。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.