网易首页 > 网易号 > 正文 申请入驻

一文速通「机器人3D场景表示」发展史

0
分享至



随着机器人领域的飞速发展,我们有一个问题不断需要思考,究竟如何让机器人像人类一样理解世界,学习周围环境的表示。对于机器人来说,究竟是需要精确的坐标,还是语义的物体概念,还是隐式的空间认识推理模型?

在本文中,上海交通大学、波恩大学等院校的研究团队全面总结了当前机器人技术中常用的场景表示方法。这些方法包括传统的点云、体素栅格、符号距离函数以及场景图等传统几何表示方式,同时也涵盖了最新的神经网络表示技术,如神经辐射场、3D 高斯散布模型以及新兴的 3D 基础模型。

虽然目前的 SLAM 与定位系统主要依赖点云、体素这类稀疏表示方式,但密集型场景表示方法在导航、避障等后续任务中无疑会发挥关键作用。此外,神经辐射场、3D 高斯散布模型以及基础模型这类神经网络表示技术,非常适合整合高层次的语义信息与基于语言的先验知识,从而实现更全面的 3D 场景理解与智能体行为控制。本文的目标是为新手和资深研究人员提供一份有价值的参考资料,帮助他们探索 3D 场景表示技术的未来发展方向及其在机器人技术中的应用。



  • 标题:What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models
  • 作者:Tianchen Deng, Yue Pan, Shenghai Yuan, Dong Li, Chen Wang, Mingrui Li, Long Chen, Lihua Xie, Danwei Wang, Jingchuan Wang, Javier Civera, Hesheng Wang, Weidong Chen
  • 机构:Shanghai Jiao Tong University、University of Bonn、Chinese Academy of Sciences、University of Zaragoza、Nanyang Technological University
  • 原文链接:https://arxiv.org/abs/2512.03422
  • 代码链接:https://github.com/dtc111111/awesomerepresentation-for-robotics

一、机器人 3D 场景发展史



机器人 3D 场景表示发展史和代表性工作

几何场景表示:

  • Point Cloud 点云场景表示:通过离散的三维点来表示场景,通过雷达或者相机传感器获得。
  • Voxel 体素场景表示:通过将三维空间离散化,转变成规则的立方体栅格,通过在栅格内存储不同的信息,比如密度,占用率等实现场景建模
  • Mesh 网格场景表示:通过三角化面片构建连续的场景几何场景表示,精细度更高。
  • SDF 符号距离场:通过表示空间点到物体表面的距离,实现连续的场景几何表示。

近年来,深度学习、计算机图形学与机器人技术的融合推动了显著进展。在众多推动这一进展的技术中,神经辐射场(NeRF)、三维高斯溅射和基础模型(Foundation Model,FM)作为极具前景的创新脱颖而出,从而实现真正的通用具身智能。



机器人 3D 三维表征研究热度变化

3D 神经场景表示

  • NeRF 神经辐射场:通过连续的场景表示让机器人理解世界,基于神经网络 MLP 构建,可以进行地图预测,但是速度较慢。
  • 3DGS 高斯泼溅:将场景表示为 3D 高斯椭球,从而实现高速的渲染,适合实时建图。
  • Foundation Model 基础模型: 通过现有的 transformer 等编码器,将三维世界压缩成类似于语言的 token,将三维世界的理解变成可推理的人类语言。从而实现空间感知推理,成为「3D 版本的 GPT」。



三维场景表征在机器人不同模块的应用:感知,建图,定位,操作,导航

在建图和定位模块(第 V 节)中,现有方法在 SLAM 和定位领域取得了令人瞩目的成果。神经场景表示能够实现对环境的更精确、更密集的建模,这对避障特别有益。这一能力对于机器人的导航和操作至关重要。

该模块分为三部分:(i)场景重建:场景表示的地图重建能力包括几何精度和渲染质量,以及在静态场景、大规模户外场景和动态场景中的重建能力。(iii)SLAM:SLAM 部分主要包括不同场景表示方法在 SLAM 过程中的地图精度、位姿精度和实时性能。(iv)全局定位:全局定位主要涉及使用现有地图进行定位时的精度和实时性能。

在操作模块(第 VI-A 节)中,本文主要比较了基于不同场景表示方法的抓取框架。传统方法在抓取方面具有更高的实时性能和计算效率,但在泛化能力和处理复杂目标操作任务方面存在局限。相比之下,基于神经网络的场景表示在生成新视角和跨多个场景泛化方面具有一定能力,使其更能适应复杂任务。基于基础模型的方法能够实现零样本抓取任务,具备强大的泛化能力。此外,语言信息的集成使这些模型能够支持交互式抓取,并增强了它们理解和规划高级认知任务的能力。

在导航模块(第 VI 节)中,与传统的场景表示方法相比,神经场景表示能够提供高度准确的环境重建。此外,它们还有助于更好地融合语义和语言信息,从而能够执行更复杂的导航任务。我们将导航模块分为两个部分:(i)规划:从当前位置到目标目的地生成最优或可行路径,同时避开障碍物。(ii)探索:主动导航并绘制先前未知区域的地图。



不同 3D 场景表示的特点对比,包含连续性,存储效率,真实性,灵活性,几何表示精度。

二、现有方法的问题与未来发展方向

1、端到端通用网络还是模块化?

目前,大多数机器人系统都建立在模块化智能(Modular Intelligence)的基础上。为了完成复杂任务,系统会将导航或操作等功能分解为独立的模块,例如感知、建图、定位、操作和导航。这种设计虽然有助于实现各种机器人功能,但其模块化特性在本质上可能会限制机器人智能的进一步发展。

尽管模块化解决方案引入了有用的归纳偏置(Inductive Biases)并支持有效的特定任务性能,但它们通常面临泛化能力有限和迁移性差的问题。在实际应用中,这些系统往往需要在不同场景下进行重复的传感器校准、特定环境建模以及参数重新调优。此外,在高度复杂的环境中,构建精确的模型仍然极具挑战性。基础模型的最新进展提供了一条替代路径,即实现端到端智能。

2、数据瓶颈

尽管神经场景表示(Neural Scene Representations)在准确性和泛化性方面具有显著优势,但一个主要的挑战在于,与训练大语言模型(LLM)和视觉语言模型(VLM)所使用的互联网规模的文本与图像语料库相比,机器人特有的数据非常匮乏。这种局限性显著阻碍了机器人领域神经场景表示和基础模型的发展。

为了解决这一问题,研究重点已转向增强神经场景表示在有限数据情况下的泛化能力。另一个方向则是利用世界模型(World Models)来预测以动作为条件的(Conditioned on actions)状态转移,从而生成额外的训练数据集。

3、实时性瓶颈

与传统的场景表示相比,在机器人领域部署神经场景表示的另一个关键瓶颈在于其推理时间(Inference Time),这仍是制约可靠实时应用的一个限制因素。目前神经网络的部署策略通常分为两大类:

第一类是基于云端的部署。通常托管在远程数据中心,并通过 API 进行访问。在这种模式下,响应延迟和服务时间很大程度上取决于底层的网络路由、带宽以及数据中心的计算能力。因此,在将此类模型集成到自主机器人技术栈之前,必须仔细权衡网络的可靠性和延迟问题。

第二类是边缘计算平台上的车载 / 机载部署(Onboard Deployment)。此类方案通常采用模型蒸馏(Model Distillation)和量化(Quantization)等技术来减小模型体积,从而实现实时推理。然而,这往往以牺牲泛化能力为代价。一个极具前景的未来方向在于硬件 - 算法协同设计(Hardware–Algorithm Co-design),旨在同时提高推理效率并保持模型的泛化性能,以满足机器人实时部署的需求。

本文探讨了机器人不同模块最适合的三维场景表示方法,研究了相关方法、并讨论了挑战和未来方向。本文的主要贡献如下:

  • 全面、最新的综述与基准测试:本文对机器人领域的不同场景表示方法进行了广泛且最新的综述,涵盖了经典方法和前沿方法。对于每个模块,团队都提供了详细介绍,并突出了该模块中不同场景表示的优势。
  • 三维场景表示的未来方向:在机器人领域的每个模块中,团队指出了当前研究的技术局限性,并提出了几个有前景的未来研究方向,旨在激励这一快速发展领域的进一步进步。
  • 开源项目:团队在 GitHub 上发布了一个开源项目,整理了机器人领域不同场景表示的相关文章,并将继续向该项目添加新的研究成果和技术,网址为https://github.com/dtc111111/awesome-representation-for-robotics。团队希望更多研究人员能够利用它获取最新的研究信息。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
县法院副院长办案期间与原告同行同吃同烧香拜佛?被告:启动惩戒但没结果;涉事法官:你找单位了解

县法院副院长办案期间与原告同行同吃同烧香拜佛?被告:启动惩戒但没结果;涉事法官:你找单位了解

大风新闻
2026-03-26 21:47:02
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
随着姆巴佩无敌挑射+登贝莱妙传+比分2-1,10人法国掀翻五星巴西

随着姆巴佩无敌挑射+登贝莱妙传+比分2-1,10人法国掀翻五星巴西

侧身凌空斩
2026-03-27 06:05:32
爆大冷!点球大战决胜负,威尔士无缘世界杯,40岁哲科立大功

爆大冷!点球大战决胜负,威尔士无缘世界杯,40岁哲科立大功

足球狗说
2026-03-27 06:50:25
罗技中国致歉

罗技中国致歉

界面新闻
2026-03-26 23:25:51
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
愧对巴西10号!维尼修斯演砸了:0球0射正 万人呼唤内马尔

愧对巴西10号!维尼修斯演砸了:0球0射正 万人呼唤内马尔

叶青足球世界
2026-03-27 08:05:32
官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

官宣《浪姐7》遭全网抵制,49岁的范玮琪,终于迎来了“报应”!

阿纂看事
2026-03-26 20:49:43
伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

伊朗官媒发布《为众人复仇》AI短片:一枚伊朗导弹在哈梅内伊等人注视下,精准炸毁幻化成羊头恶魔的美国自由女神像

大象新闻
2026-03-26 09:45:03
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
世人只知体操冠军“擦边”,吴柳芳亲述其背后的“心酸”

世人只知体操冠军“擦边”,吴柳芳亲述其背后的“心酸”

一支破笔半支烟
2026-03-26 10:58:32
马杜罗夫妇将再次出庭受审,关押地如“人间炼狱”

马杜罗夫妇将再次出庭受审,关押地如“人间炼狱”

环球网资讯
2026-03-26 20:23:08
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
把刘涛抱在怀里,有谁注意到他手上的小动作,人品如何一目了然。

把刘涛抱在怀里,有谁注意到他手上的小动作,人品如何一目了然。

TVB的四小花
2026-03-27 01:19:43
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

涛哥锐评
2026-03-26 17:57:04
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
2026-03-27 10:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12609文章数 142595关注度
往期回顾 全部

科技要闻

OpenAI果断砍掉"成人模式",死磕生产力

头条要闻

65岁上海老伯相信"33岁女老师"给自己生儿子 被骗16万

头条要闻

65岁上海老伯相信"33岁女老师"给自己生儿子 被骗16万

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

很反常!油价向上,黄金向下

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
本地
亲子
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

过敏性鼻炎需要注意什么,饮食注意事项

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版