网易首页 > 网易号 > 正文 申请入驻

上海交大3D体素赋能具身导航!BeliefMapNav:基于3D体素信念图的零样本目标导航

0
分享至



  • 作者:Zibo Zhou , Yue Hu , Lingkai Zhang , Zonglin Li , Siheng Chen

  • 单位: 上海交通大学, 密歇根大学

  • 论文标题:BeliefMapNav: 3D Voxel-Based Belief Map for Zero-Shot Object Navigation

  • 论文链接:https://arxiv.org/pdf/2506.06487v1

  • 代码链接:https://github.com/ZiboKNOW/BeliefMapNav

主要贡献
  • 提出零样本目标导航系统 BeliefMapNav ,通过构建3D体素信念图,将语言模型的语义推理与视觉嵌入相结合,实现了对目标位置的精确估计和高效的全局导航决策。

  • 提出 3D体素信念图 ,整合了层次化的空间语义信息和LLM生成的与目标相关的语义线索,能够在复杂的三维空间中进行细粒度的目标位置估计,为机器人在未知环境中寻找目标提供了更准确的指导。

  • 在HM3D、MP3D和HSSD 基准测试 中,BeliefMapNav在成功率(SR)和路径长度加权成功率(SPL)两个关键指标上均取得了最先进的性能,与之前的最佳方法相比,在HM3D上SPL指标有46.4%的显著提升。

研究背景
  • 零样本目标导航 :在现实世界中,机器人常常需要在没有预先构建地图或特定任务训练的情况下,根据自然语言指令找到目标物体,如在家庭环境中帮助人们找到特定物品、在工业场景中定位故障部件等。这种能力对于实现机器人的灵活部署和广泛应用具有重要意义。

  • 现有方法的局限性 :以往的研究主要分为两大类,一类是基于鸟瞰图(BEV)的方法,虽然能够提供目标位置的密集估计,但在位置区分度和语义信息方面存在不足;另一类是利用大型语言模型(LLMs)或视觉语言模型(VLMs)进行目标位置推理的方法,但这些模型在空间理解和推理方面存在局限性,导致目标位置预测的准确性不高。此外,现有方法大多采用贪婪的导航策略,导致搜索效率低下。

方法 任务定义
  • 零样本目标导航(Zero-shot Object Navigation, ZSON)任务要求机器人在未知环境中根据自然语言指令找到指定目标物体,而无需任务特定的训练、预构建地图或固定词汇表。目标类别 以自由文本形式给出。

  • 在每个时间步 ,机器人接收 RGB-D 观测 ,其中 和 ,以及自身的位姿 ,其中 和 。

  • 动作空间 包括:向前移动(0.25米)、左右转(30°)、上下看(30°)和停止。任务成功条件是机器人在 500 步内,在距离目标物体 0.1 米内停止。

系统概述

BeliefMapNav 是一个基于 3D 体素的零样本开放词汇目标导航系统,包含三个关键模块:

  • 3D 体素信念图 :通过结合层次化空间语义和 LLM 的常识知识,构建目标存在先验信念的 3D 体素信念图。

  • 前沿观测信念估计模块 :将先验信念图与实时观测反馈结合,估计每个前沿视野范围内检测到目标的后验信念。

  • 基于观测信念的规划模块 :通过优化预期路径距离成本,选择下一个导航目标,实现高效的目标导向探索。

3D 体素信念图 3D 层次化语义映射
  • 多尺度特征提取 :将 RGB 图像分割成多尺度的块,使用 CLIP 提取每个块的视觉特征,并使用 Segment Anything Model (SAM) 估计每个块中的语义实例数量。同时,将深度图像分割成对应的块,反向投影到 3D 空间形成点云,并计算每个点云的体积和密度。

  • 层次化特征评分 :设计层次化特征评分器,分别为场景、区域和物体级别分配置信度分数,选择与特定语义级别最匹配的特征。

  • 自适应层次化特征选择 :在每个像素位置,选择在对应语义级别评分器下得分最高的特征,并将其回投到 3D 语义图中。

层次化地标生成
  • 利用 LLM(如 GPT-4)从目标物体描述中生成地标字符串和相关性分数。地标分为房间、区域和物体三个级别,每个级别生成三个地标及其相关性分数。

信念图构建
  • 将地标和目标对象名称编码到 3D 层次化语义体素图中,计算地标和目标对象与存储的空间语义特征之间的最大余弦相似度分数,并根据相关性分数加权,生成最终的 3D 体素信念图。

前沿观测信念估计 可见性图:
  • 可见性图用于捕捉实时检测反馈对目标信念分布的影响。对于每个像素,计算其水平角度、垂直角度和距离的置信度分数,然后将像素反向投影到 3D 空间,更新可见性图。

基于视野的信念聚合:
  • 将可见性图与信念图融合,计算每个前沿视野范围内检测到目标的后验信念。对于每个候选前沿位置,评估四个方向的观测信念,并选择最大值作为最终的观测信念。

基于观测信念的规划模块
  • 通过优化预期搜索距离,选择前沿访问顺序。目标是最小化预期搜索成本,即路径距离与观测信念的加权和。

  • 使用 GPU 加速的模拟退火算法求解最优路径规划问题。在每一步,根据更新的信念图重新规划导航目标。

实验结果 基准测试与实现细节
  • 数据集 :在三个标准基准数据集上评估了 BeliefMapNav 的性能,包括 HM3D、MP3D 和 HSSD。

    • HM3D :包含 2000 个验证集 episode,分布在 20 个环境中,涵盖 6 个目标类别。

    • MP3D :一个大规模室内 3D 场景数据集,验证集包含 11 个环境、21 个目标类别和 2195 个目标导航 episode。

    • HSSD :基于真实房屋布局的合成数据集,包含 40 个验证场景、1248 个导航 episode 和 6 个目标类别。

  • 评估指标 :使用成功率(SR)和路径长度加权成功率(SPL)两个标准指标。

    • SR :衡量智能体在预设距离内到达目标的比例。

    • SPL :通过考虑成功和轨迹优化来评估路径效率。如果成功,SPL = 最优路径长度 / 实际路径长度;否则,SPL = 0。

  • 实现细节 :导航限制为 500 步,成功定义为在距离目标 0.1 米内停止。RGB-D 相机安装在 0.88 米高度,捕获 640×480 图像。3D 体素图有 45,000 个体素,分辨率为 0.25 米。系统运行在单个 RTX 4090(13GB VRAM)上。

与现有方法对比
  • 性能对比 :BeliefMapNav 在 HM3D、MP3D 和 HSSD 基准测试中均优于现有的零样本目标导航方法。

    • HM3D :与 InstructNav 相比,SR 提高了 5.86%,SPL 提高了 46.4%。

    • MP3D :SR 提高了 0.27%,SPL 提高了 0.57%。

    • HSSD :SR 提高了 27.8%,SPL 提高了 28.9%。

  • 性能分析

    • 在 HM3D 数据集上,BeliefMapNav 通过更准确的目标位置估计和优化搜索路径,显著提高了搜索效率。

    • 在 MP3D 数据集上,性能提升较小,主要由于 MP3D 数据质量较低,目标识别更具挑战性,且存在许多“洞”,导致智能体误将这些洞作为目标。

    • 在 HSSD 数据集上,性能显著提升,因为合成场景避免了 MP3D 和 HM3D 中存在的问题。

消融研究
  • 可见性图和基于信念的规划

    • 没有可见性图时,SR 下降了 8.48%,SPL 下降了 11.4%,因为智能体会重新访问已观察过的区域。

    • 没有规划模块时,SR 下降了 10.4%,SPL 下降了 7.27%,因为智能体频繁切换导航目标,导致效率低下。

  • 不同层次化 3D 语义

    • 仅使用场景级别语义时,SR 为 59.0%,SPL 为 30.4%。

    • 使用场景和区域级别语义时,SR 为 61.5%,SPL 为 32.0%。

    • 使用完整层次化语义(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。

    • 结果表明,增加更多的语义级别可以提高 SR,但可能会略微降低 SPL,因为细粒度的搜索会增加路径长度。

  • 不同视觉语言编码器

    • 使用 CLIP 时,SR 为 62.5%,SPL 为 31.6%。

    • 使用 BLIP-2 时,SR 为 62.0%,SPL 为 31.1%。

    • 使用 BLIP 时,SR 为 59.3%,SPL 为 31.0%。

    • 结果表明,CLIP 和 BLIP-2 的性能相当,均优于 BLIP。CLIP 在泛化到分布外数据方面表现更好,且支持高效的独立编码器和预计算特征。

  • 不同层次化地标

    • 不使用地标时,SR 为 60.0%,SPL 为 30.9%。

    • 使用房间级别地标时,SR 为 61.0%,SPL 为 31.1%。

    • 使用房间和区域级别地标时,SR 为 61.5%,SPL 为 31.2%。

    • 使用完整层次化地标(包括物体级别)时,SR 为 62.5%,SPL 为 31.6%。

    • 结果表明,逐步引入地标可以逐渐提高 SR 和 SPL,但提升幅度小于增加空间语义级别。

定性分析
  • 3D 体素信念图 :展示了目标物体(如沙发)的先验信念分布,引导智能体进行搜索。

  • 可见性图 :显示了智能体在搜索过程中对目标物体的观测概率,低概率区域表示目标物体存在可能性低。

  • 后验信念图 :结合先验信念和实时观测反馈,动态更新目标物体的存在概率,指导智能体高效探索。

  • 搜索过程 :通过一系列步骤展示了智能体如何根据信念图和观测信念图逐步接近目标物体,并最终找到目标。

结论与未来工作
  • 结论

    • BeliefMapNav通过结合层次化空间语义、LLM的常识推理以及实时反馈,有效地提高了零样本目标导航的准确性和效率。实验结果证明了该方法在多个基准测试中的优越性能。

  • 未来工作

    • 目前的3D体素信念图仅在目标导航任务上进行了验证,未来可以将其扩展到机器人交互和移动操作任务中。

    • 此外,还可以进一步优化局部规划器的性能,以提高在狭窄区域的导航能力,并探索在真实世界环境中的应用和验证。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏超队员现身开学典礼,代表新生发言燃爆全场

苏超队员现身开学典礼,代表新生发言燃爆全场

现代快报
2025-09-14 21:34:02
人民日报评论:预制菜国标来了,最高罚10万,预制菜还有明天吗?

人民日报评论:预制菜国标来了,最高罚10万,预制菜还有明天吗?

科普100克克
2025-09-15 01:12:26
农业供应链平台“跑路”,重庆上百商户货款被拖欠,总额或达数千万元

农业供应链平台“跑路”,重庆上百商户货款被拖欠,总额或达数千万元

星视频
2025-09-14 19:42:52
“想通过杀人被判刑”,26岁患精神分裂男子持铁锤砸路人致1死6伤,遇害者家属发声

“想通过杀人被判刑”,26岁患精神分裂男子持铁锤砸路人致1死6伤,遇害者家属发声

极目新闻
2025-09-14 13:15:45
北约国家实现全员军费达到GDP的2%,却发现比利时等几国留了心眼

北约国家实现全员军费达到GDP的2%,却发现比利时等几国留了心眼

陶慕剑地球观察
2025-09-11 15:57:14
刺杀柯克凶嫌落网,美国杀手如迷人生

刺杀柯克凶嫌落网,美国杀手如迷人生

不正确
2025-09-13 08:35:59
日子过久了发现:破壁机才是“厨房神器”,看谁还在傻乎乎闲置!

日子过久了发现:破壁机才是“厨房神器”,看谁还在傻乎乎闲置!

装修秀
2025-09-14 11:00:04
某企业别装死了,赶紧出来说句话吧

某企业别装死了,赶紧出来说句话吧

地球公民金建国
2025-09-14 13:58:48
赢麻了!1.5万撬动300万,苏超最小赞助商老板娘泪洒最后比赛现场

赢麻了!1.5万撬动300万,苏超最小赞助商老板娘泪洒最后比赛现场

明月杂谈
2025-09-15 05:21:37
原来她就是于朦胧妈妈,苦了一辈子白发送黑发人,吴京的话说对了

原来她就是于朦胧妈妈,苦了一辈子白发送黑发人,吴京的话说对了

白面书誏
2025-09-12 12:03:13
倒闭1.2万家!80后集体记忆轰然崩塌,50台电脑年入千万神话破灭

倒闭1.2万家!80后集体记忆轰然崩塌,50台电脑年入千万神话破灭

财经八卦
2025-07-17 23:34:18
蛋白含量比鸡蛋高,膳食纤维比燕麦更优秀!这些食材被严重忽视了

蛋白含量比鸡蛋高,膳食纤维比燕麦更优秀!这些食材被严重忽视了

素衣读史
2025-09-13 13:37:43
震惊:查理·柯克刺杀案凶手的跨性别女朋友被 FBI 列为嫌疑人!

震惊:查理·柯克刺杀案凶手的跨性别女朋友被 FBI 列为嫌疑人!

胜研集
2025-09-14 13:26:23
倒计时10天!国乒15人出战WTT中国大满贯,赛事总奖金1460万

倒计时10天!国乒15人出战WTT中国大满贯,赛事总奖金1460万

乒谈
2025-09-15 06:10:15
刺激!iPhone17ProMax 刚开卖就降价,科技界炸了锅!

刺激!iPhone17ProMax 刚开卖就降价,科技界炸了锅!

科技堡垒
2025-09-13 10:41:11
西贝员工用漏勺疏通厨房下水道引质疑,锅里有个相似漏勺,客服:工具选用和操作不规范

西贝员工用漏勺疏通厨房下水道引质疑,锅里有个相似漏勺,客服:工具选用和操作不规范

极目新闻
2025-09-14 12:32:56
女宇航员上太空需求该咋满足?从如厕到隐私保护,牺牲确实很大

女宇航员上太空需求该咋满足?从如厕到隐私保护,牺牲确实很大

芳芳历史烩
2025-09-11 05:27:50
河南一景点石头被彩绘,如同巨型蛇头,当地管委会:没有危险可以放心游玩

河南一景点石头被彩绘,如同巨型蛇头,当地管委会:没有危险可以放心游玩

潇湘晨报
2025-09-12 11:19:12
林彪警卫李树煌揭秘:林彪很好伺候,陪他5年,只见他发过1次脾气

林彪警卫李树煌揭秘:林彪很好伺候,陪他5年,只见他发过1次脾气

书画艺术收藏
2025-09-06 19:40:04
一家五口自杀后续:4封遗书爆死因,一个月被骗上千万,熟人做局

一家五口自杀后续:4封遗书爆死因,一个月被骗上千万,熟人做局

一月爱八月
2025-09-10 16:07:58
2025-09-15 08:15:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5074文章数 64587关注度
往期回顾 全部

科技要闻

AI眼镜能否成为下一代人机互动的超级入口?

头条要闻

NASA叫嚣美国"一定会在中国之前登月" 前局长当众拆台

头条要闻

NASA叫嚣美国"一定会在中国之前登月" 前局长当众拆台

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

本地
健康
旅游
游戏
家居

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

内分泌科专家破解身高八大谣言

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

PS商店现大量AI劣质游戏 玩家笑称谷歌商店有对手了

家居要闻

原木风格 温馨舒适氛围

无障碍浏览 进入关怀版