开发者计划丨基于3D高斯的多视图三维重建与语义理解框架|新论文

开发者计划丨基于3D高斯的多视图三维重建与语义理解框架

分享至

摘要

从多视图图像中重建并语义理解三维场景，是计算机视觉与具身智能领域的核心挑战。传统方法通常将几何重建与语义理解解耦建模，或依赖逐场景优化，导致系统复杂度高、泛化能力弱。本文以3D高斯为核心统一表征，整合几何、语义与渲染等多任务，提出无需位姿的多视图三维重建与语义理解框架。该方法从视频中同步恢复场景、相机位姿及语义信息，通过跨视角融合构建联合表征空间。实验证明，统一建模能降低计算冗余，并在重建、合成与语义间形成协同增益，输出更一致可靠的三维表征。

关键词

三维重建；高斯泼溅；语义理解；前馈框架；具身智能；自动驾驶

1.引言

从二维图像感知并重构三维物理世界，是实现具身智能（Embodied AI）的关键前置条件。这一能力不仅构成了计算机视觉的基石，更直接决定了机器人、自动驾驶汽车及增强现实设备在复杂环境中的交互上限。然而，从稀疏多视图图像中重建并语义解释三维场景，至今仍面临根本性挑战。

近年来，以神经辐射场和三维高斯溅射为代表的神经渲染方法在重建质量上取得显著突破，但二者均依赖逐场景优化策略——每个新场景需从头训练，无法直接泛化至未见环境。与此同时，三维重建与语义理解两大领域长期割裂：传统方案通常先重建几何结构，再在重建结果上附加语义标注，两阶段独立优化导致系统复杂度高、误差累积严重。

针对上述问题，Uni3R提出了统一的前馈式解决方案。它以三维高斯泼溅为核心表征，将几何、渲染与语义整合到同一框架中，无需相机位姿即可从多视图图像并发输出三维结构、新视角渲染与开放词汇语义理解。对于狗熊机器人所处的园区低速自动驾驶场景，该技术有望加速仿真闭环迭代，并显著提升语义交互的灵活性与鲁棒性。

2.研究现状

2.1 传统三维重建与神经渲染

三维重建的传统路径基于运动恢复结构与多视图立体匹配，通过逐像素深度估计融合生成点云或网格模型。该类方法对相机位姿精度要求极高，且在纹理稀疏或光照剧烈变化的场景中表现不佳。

神经辐射场（NeRF）的提出深刻改变了这一格局。NeRF利用深度神经网络将空间坐标与视角方向映射为颜色与密度，实现了前所未有的渲染保真度。然而，其隐式表示带来巨大的计算负担——渲染单张新视图需沿光线密集采样并逐点查询网络，实时应用受到严重制约。

三维高斯泼溅（3DGS）提供了新的技术路径。与NeRF的隐式表征不同，3DGS将场景表示为数百万个三维高斯椭球体的集合，通过并行可微分光栅化实现高效渲染。每个高斯原语由位置、尺度、旋转、不透明度和颜色参数化，兼具表达力与渲染效率。3DGS已广泛应用于机器人、城市建模与自动驾驶等领域，但其仍依赖逐场景优化，无法直接泛化到新场景。

2.2 可泛化高斯泼溅与语义场

为突破逐场景优化的效率瓶颈，近年涌现出一系列可泛化前馈式高斯泼溅方法（如NoPoSplat、FreeSplatter等）。其共同思路是：在大规模数据上学习通用几何先验，推理时无需任何逐场景优化，单次前向传递即可完成新场景重建，并支持无位姿输入。

在语义场引入方面，LangSplat与Feature-3DGS为高斯原语附加语义特征，实现三维语义渲染，但仍囿于逐场景优化框架。LSM与UniForward尝试在前馈框架中统一几何与语义，但因基于DUSt3R架构设计，扩展至多视图时面临效率瓶颈与一致性挑战。Uni3R正是在此基础上，通过跨视图全局融合与统一表征实现了突破。

2.3 三维感知在具身智能中的应用

具身智能要求机器人在物理环境中通过“感知-行动”循环实时交互，三维场景理解能力是其核心基石。当前，三维感知技术已广泛用于机器人避障导航、物体识别与抓取等环节，通过激光雷达、深度相机等多传感器融合实现环境建模与定位。Uni3R将高效重建、开放词汇语义理解与新视角合成整合于统一框架，为具身智能感知层提供了兼具效率与表现力的新方案。

3.Uni3R核心技术

3.1 统一表示框架

Uni3R以3D高斯泼溅作为统一的三维表征基础，将外观、几何与语义整合到共享的高斯原语中。每个高斯原语由十维参数全面描述：位置、尺度、旋转、不透明度、球谐系数及高维语义特征向量。几何结构与语义信息在三维空间中天然对齐，从根本上避免了“先重建后理解”两阶段方法可能引入的累积误差。

3.2 跨视图变换器与全局融合

多视图信息融合是Uni3R的关键突破。模型以多视角RGB图像为输入，经编码器提取特征后，利用跨视角注意力机制一次性整合所有视图信息，构建全局一致的场景表征。区别于基于DUSt3R的方法需逐对匹配特征，Uni3R的全局融合机制不仅提升了效率，更有效避免了局部匹配误差在多视图累积导致的重建扭曲。

3.3 前馈架构与端到端推理

Uni3R采用完全前馈设计，单次前向传播直接预测三维高斯原语，无需任何逐场景优化或迭代细化。推理仅需约0.16秒即可完成从图像到三维场景表示的完整转换，且训练完成后可直接泛化至任意新场景。

模型通过光度损失、语义损失与几何损失的联合优化实现端到端训练。尤为重要的是，Uni3R的训练无需真实三维点云或三维语义标注，仅以RGB图像为监督信号，大幅降低了数据准备门槛，便于在大规模场景数据上持续演进。

3.4 开放词汇语义理解

Uni3R将每个高斯原语与从预训练2D视觉基础模型蒸馏得到的高维语义特征向量绑定。推理时，用户可通过任意文本查询（如“红色锥桶”“临时施工区”）与三维场景交互，模型将文本嵌入与高斯语义特征计算相似度，直接输出对应三维区域。

这一开放词汇机制突破了传统语义分割固定类别集的限制，将三维语义理解转化为开放域检索问题。对于园区场景中频繁出现的临时展台、施工标识、遗落物品等长尾物体，该能力提供了充分的适应灵活性。

4.在园区具身智能中的应用分析

4.1 加速Real2Sim2Real闭环迭代

狗熊机器人的核心技术架构之一是“真实-仿真-真实”闭环训练框架，其关键在于如何高效地将真实场景转化为高保真、富含语义的仿真环境。

传统方案依赖人工建模或昂贵的三维扫描设备，难以规模化。Uni3R可通过机器人搭载的多摄像头采集数据，快速重建任意园区场景的三维数字孪生，并自动为每个物体标注开放词汇语义信息。

具体价值体现在三方面：场景复现——遇到施工路段、临时拥堵等挑战性场景时，可快速生成数字孪生导入仿真平台进行针对性训练；语义化仿真——生成的场景附带完整语义字段，支持“礼让行人”等语义驱动的行为约束训练；规模扩展——以极低边际成本将超过1000个运营场景逐步转化为仿真训练数据，大幅丰富数据池。

4.2 开放词汇语义导航

园区漫游车不仅需要识别“行人”和“车辆”，还需理解“临时展台”“施工锥桶”“伏下的猫”等多样化长尾物体。Uni3R的开放词汇能力使机器人可通过自然语言动态定义关注目标，不受预定义类别集约束，在巡检、安防、接待等业务场景中显著提升任务适应性与交互自然度。

4.3 多机器人协同与群体智能

当多台机器人在同一园区运行时，各自的三维感知结果可通过Uni3R直接融合到统一的全局三维坐标系中，无需复杂的跨机器人标定流程。共享的语义地图使群体智能系统能做出更优的全局调度决策，如自动调度最近机器人前往处理突发事件。

5.结论

Uni3R通过将几何重建、新视角合成与开放词汇语义理解统一到前馈式高斯泼溅框架中，在效率、泛化能力和语义表现上均达到当前领先水平。该技术为机器人感知系统提供了新范式：不再需要在多个独立感知模块间协调校准，而是通过统一的三维表征空间实现几何与语义的天然对齐。

对于狗熊机器人的园区具身智能业务，Uni3R在以下方向形成多重价值：Real2Sim2Real闭环场景转换的大幅提速、开放词汇语义导航对长尾场景的灵活适应、以及多机器人协同建图的便利性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.