网易首页 > 网易号 > 正文 申请入驻

上海交大3D体素赋能具身导航!BeliefMapNav:基于3D体素信念图的零样本目标导航

0
分享至



  • 作者:Zibo Zhou , Yue Hu , Lingkai Zhang , Zonglin Li , Siheng Chen

  • 单位: 上海交通大学, 密歇根大学

  • 论文标题:BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation

  • 论文链接:https://arxiv.org/pdf/2506.06487v1

  • 代码链接:https://github.com/ZiboKNOW/BeliefMapNav

主要贡献
  • 提出零样本目标导航系统 BeliefMapNav ,通过构建3D体素信念图,将语言模型的语义推理与视觉嵌入相结合,实现了对目标位置的精确估计和高效的全局导航决策。

  • 提出 3D体素信念图 ,整合了层次化的空间语义信息和LLM生成的与目标相关的语义线索,能够在复杂的三维空间中进行细粒度的目标位置估计,为机器人在未知环境中寻找目标提供了更准确的指导。

  • 在HM3D、MP3D和HSSD 基准测试 中,BeliefMapNav在成功率(SR)和路径长度加权成功率(SPL)两个关键指标上均取得了最先进的性能,与之前的最佳方法相比,在HM3D上SPL指标有46.4%的显著提升。

研究背景
  • 零样本目标导航 :在现实世界中,机器人常常需要在没有预先构建地图或特定任务训练的情况下,根据自然语言指令找到目标物体,如在家庭环境中帮助人们找到特定物品、在工业场景中定位故障部件等。这种能力对于实现机器人的灵活部署和广泛应用具有重要意义。

  • 现有方法的局限性 :以往的研究主要分为两大类,一类是基于鸟瞰图(BEV)的方法,虽然能够提供目标位置的密集估计,但在位置区分度和语义信息方面存在不足;另一类是利用大型语言模型(LLMs)或视觉语言模型(VLMs)进行目标位置推理的方法,但这些模型在空间理解和推理方面存在局限性,导致目标位置预测的准确性不高。此外,现有方法大多采用贪婪的导航策略,导致搜索效率低下。

方法 任务定义
  • 零样本目标导航(Zero-shot Object Navigation, ZSON)任务要求机器人在未知环境中根据自然语言指令找到指定目标物体,而无需任务特定的训练、预构建地图或固定词汇表。目标类别 以自由文本形式给出。

  • 在每个时间步 ,机器人接收 RGB-D 观测 ,其中 和 ,以及自身的位姿 ,其中 和 。

  • 动作空间 包括:向前移动(0.25米)、左右转(30°)、上下看(30°)和停止。任务成功条件是机器人在 500 步内,在距离目标物体 0.1 米内停止。

系统概述

BeliefMapNav 是一个基于 3D 体素的零样本开放词汇目标导航系统,包含三个关键模块:

  • 3D 体素信念图 :通过结合层次化空间语义和 LLM 的常识知识,构建目标存在先验信念的 3D 体素信念图。

  • 前沿观测信念估计模块 :将先验信念图与实时观测反馈结合,估计每个前沿视野范围内检测到目标的后验信念。

  • 基于观测信念的规划模块 :通过优化预期路径距离成本,选择下一个导航目标,实现高效的目标导向探索。

3D 体素信念图 3D 层次化语义映射
  • 多尺度特征提取 :将 RGB 图像分割成多尺度的块,使用 CLIP 提取每个块的视觉特征,并使用 Segment Anything Model (SAM) 估计每个块中的语义实例数量。同时,将深度图像分割成对应的块,反向投影到 3D 空间形成点云,并计算每个点云的体积和密度。

  • 层次化特征评分 :设计层次化特征评分器,分别为场景、区域和物体级别分配置信度分数,选择与特定语义级别最匹配的特征。

  • 自适应层次化特征选择 :在每个像素位置,选择在对应语义级别评分器下得分最高的特征,并将其回投到 3D 语义图中。

层次化地标生成
  • 利用 LLM(如 GPT-4)从目标物体描述中生成地标字符串和相关性分数。地标分为房间、区域和物体三个级别,每个级别生成三个地标及其相关性分数。

信念图构建
  • 将地标和目标对象名称编码到 3D 层次化语义体素图中,计算地标和目标对象与存储的空间语义特征之间的最大余弦相似度分数,并根据相关性分数加权,生成最终的 3D 体素信念图。

前沿观测信念估计 可见性图:
  • 可见性图用于捕捉实时检测反馈对目标信念分布的影响。对于每个像素,计算其水平角度、垂直角度和距离的置信度分数,然后将像素反向投影到 3D 空间,更新可见性图。

基于视野的信念聚合:
  • 将可见性图与信念图融合,计算每个前沿视野范围内检测到目标的后验信念。对于每个候选前沿位置,评估四个方向的观测信念,并选择最大值作为最终的观测信念。

基于观测信念的规划模块
  • 通过优化预期搜索距离,选择前沿访问顺序。目标是最小化预期搜索成本,即路径距离与观测信念的加权和。

  • 使用 GPU 加速的模拟退火算法求解最优路径规划问题。在每一步,根据更新的信念图重新规划导航目标。

实验结果 基准测试与实现细节
  • 数据集 :在三个标准基准数据集上评估了 BeliefMapNav 的性能,包括 HM3D、MP3D 和 HSSD。

    • HM3D :包含 2000 个验证集 episode,分布在 20 个环境中,涵盖 6 个目标类别。

    • MP3D :一个大规模室内 3D 场景数据集,验证集包含 11 个环境、21 个目标类别和 2195 个目标导航 episode。

    • HSSD :基于真实房屋布局的合成数据集,包含 40 个验证场景、1248 个导航 episode 和 6 个目标类别。

  • 评估指标 :使用成功率(SR)和路径长度加权成功率(SPL)两个标准指标。

    • SR :衡量智能体在预设距离内到达目标的比例。

    • SPL :通过考虑成功和轨迹优化来评估路径效率。如果成功,SPL = 最优路径长度 / 实际路径长度;否则,SPL = 0。

  • 实现细节 :导航限制为 500 步,成功定义为在距离目标 0.1 米内停止。RGB-D 相机安装在 0.88 米高度,捕获 640×480 图像。3D 体素图有 45,000 个体素,分辨率为 0.25 米。系统运行在单个 RTX 4090(13GB VRAM)上。

与现有方法对比
  • 性能对比 :BeliefMapNav 在 HM3D、MP3D 和 HSSD 基准测试中均优于现有的零样本目标导航方法。

    • HM3D :与 InstructNav 相比,SR 提高了 5.86%,SPL 提高了 46.4%。

    • MP3D :SR 提高了 0.27%,SPL 提高了 0.57%。

    • HSSD :SR 提高了 27.8%,SPL 提高了 28.9%。

  • 性能分析

    • 在 HM3D 数据集上,BeliefMapNav 通过更准确的目标位置估计和优化搜索路径,显著提高了搜索效率。

    • 在 MP3D 数据集上,性能提升较小,主要由于 MP3D 数据质量较低,目标识别更具挑战性,且存在许多“洞”,导致智能体误将这些洞作为目标。

    • 在 HSSD 数据集上,性能显著提升,因为合成场景避免了 MP3D 和 HM3D 中存在的问题。

消融研究
  • 可见性图和基于信念的规划

    • 没有可见性图时,SR 下降了 8.48%,SPL 下降了 11.4%,因为智能体会重新访问已观察过的区域。

    • 没有规划模块时,SR 下降了 10.4%,SPL 下降了 7.27%,因为智能体频繁切换导航目标,导致效率低下。

  • 不同层次化 3D 语义

    • 仅使用场景级别语义时,SR 为 59.0%,SPL 为 30.4%。

    • 使用场景和区域级别语义时,SR 为 61.5%,SPL 为 32.0%。

    • 使用完整层次化语义(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。

    • 结果表明,增加更多的语义级别可以提高 SR,但可能会略微降低 SPL,因为细粒度的搜索会增加路径长度。

  • 不同视觉语言编码器

    • 使用 CLIP 时,SR 为 62.5%,SPL 为 31.6%。

    • 使用 BLIP-2 时,SR 为 62.0%,SPL 为 31.1%。

    • 使用 BLIP 时,SR 为 59.3%,SPL 为 31.0%。

    • 结果表明,CLIP 和 BLIP-2 的性能相当,均优于 BLIP。CLIP 在泛化到分布外数据方面表现更好,且支持高效的独立编码器和预计算特征。

  • 不同层次化地标

    • 不使用地标时,SR 为 60.0%,SPL 为 30.9%。

    • 使用房间级别地标时,SR 为 61.0%,SPL 为 31.1%。

    • 使用房间和区域级别地标时,SR 为 61.5%,SPL 为 31.2%。

    • 使用完整层次化地标(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。

    • 结果表明,逐步引入地标可以逐渐提高 SR 和 SPL,但提升幅度小于增加空间语义级别。

定性分析
  • 3D 体素信念图 :展示了目标物体(如沙发)的先验信念分布,引导智能体进行搜索。

  • 可见性图 :显示了智能体在搜索过程中对目标物体的观测概率,低概率区域表示目标物体存在可能性低。

  • 后验信念图 :结合先验信念和实时观测反馈,动态更新目标物体的存在概率,指导智能体高效探索。

  • 搜索过程 :通过一系列步骤展示了智能体如何根据信念图和观测信念图逐步接近目标物体,并最终找到目标。

结论与未来工作
  • 结论

    • BeliefMapNav通过结合层次化空间语义、LLM的常识推理以及实时反馈,有效地提高了零样本目标导航的准确性和效率。实验结果证明了该方法在多个基准测试中的优越性能。

  • 未来工作

    • 目前的3D体素信念图仅在目标导航任务上进行了验证,未来可以将其扩展到机器人交互和移动操作任务中。

    • 此外,还可以进一步优化局部规划器的性能,以提高在狭窄区域的导航能力,并探索在真实世界环境中的应用和验证。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
燃气表为啥不认南孚?原来不是电池差,这些门道让你少花冤枉钱

燃气表为啥不认南孚?原来不是电池差,这些门道让你少花冤枉钱

阿离家居
2026-01-31 14:18:56
60岁后存款达到这个数就够了,没必要太多,子女孝与不孝无所谓!

60岁后存款达到这个数就够了,没必要太多,子女孝与不孝无所谓!

千秋文化
2026-02-01 20:33:33
库里核磁结果出炉!确诊髌股关节综合症 再缺阵7场将无缘评奖

库里核磁结果出炉!确诊髌股关节综合症 再缺阵7场将无缘评奖

罗说NBA
2026-02-01 09:40:36
成了?刘维伟:我们看上的外援不愿意来,麦基还被首钢签了

成了?刘维伟:我们看上的外援不愿意来,麦基还被首钢签了

懂球帝
2026-02-01 14:34:14
1月20日起,60周岁以上老人可拨打12306购票:可选择线上或线下方式支付票款

1月20日起,60周岁以上老人可拨打12306购票:可选择线上或线下方式支付票款

环球网资讯
2026-01-21 09:48:23
普京会见伊朗最高领袖放了什么信号?

普京会见伊朗最高领袖放了什么信号?

陆弃
2026-02-01 08:35:03
丈夫半年收集妻子掉发,细心熨烫保存,“被子枕头上全是头发,他就收集起来,想看看我到底能掉多少根头发”

丈夫半年收集妻子掉发,细心熨烫保存,“被子枕头上全是头发,他就收集起来,想看看我到底能掉多少根头发”

观威海
2026-02-01 21:30:20
日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

涵豆说娱
2026-01-31 19:34:33
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

2000 万捡漏!曼联瞄准卡塞米罗接班人,性价比完爆 1 亿标王

奶盖熊本熊
2026-02-01 08:08:22
苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

苏联历史惨痛一页:事后当局立马清洗现场,匆匆掩埋遇难者遗体

云霄纪史观
2026-01-30 01:47:42
美军连夜后撤,伊朗传巨大爆炸声,58国救兵到齐,俄防长通电中国

美军连夜后撤,伊朗传巨大爆炸声,58国救兵到齐,俄防长通电中国

流史岁月
2026-01-31 11:34:46
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
今日!NBA开拓者VS骑士 中国男篮国手杨瀚森主场出场?央视无直播

今日!NBA开拓者VS骑士 中国男篮国手杨瀚森主场出场?央视无直播

晚池
2026-02-02 03:35:46
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
鞑靼人:作为俄罗斯第二大族群,和蒙古族有何联系?

鞑靼人:作为俄罗斯第二大族群,和蒙古族有何联系?

掠影后有感
2026-01-09 11:04:45
讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

讲一个“娱圈大姐大”凶狠报复“小三”的瓜!

涵豆说娱
2026-01-31 14:30:35
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
号称“第一把刀”!许多上海人冲他来南京路!每天能卖500斤!

号称“第一把刀”!许多上海人冲他来南京路!每天能卖500斤!

上海黄浦
2026-02-01 21:50:02
刚刚!白银基金,紧急辟谣!

刚刚!白银基金,紧急辟谣!

中国基金报
2026-02-01 17:41:40
2026-02-02 09:20:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5335文章数 64600关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

时尚
家居
教育
房产
本地

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

家居要闻

蓝调空舍 自由与个性

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版