网易首页 > 网易号 > 正文 申请入驻

开发者计划丨基于3D高斯的多视图三维重建与语义理解框架

0
分享至



摘要

从多视图图像中重建并语义理解三维场景,是计算机视觉与具身智能领域的核心挑战。传统方法通常将几何重建与语义理解解耦建模,或依赖逐场景优化,导致系统复杂度高、泛化能力弱。本文以3D高斯为核心统一表征,整合几何、语义与渲染等多任务,提出无需位姿的多视图三维重建与语义理解框架。该方法从视频中同步恢复场景、相机位姿及语义信息,通过跨视角融合构建联合表征空间。实验证明,统一建模能降低计算冗余,并在重建、合成与语义间形成协同增益,输出更一致可靠的三维表征。

关键词

三维重建;高斯泼溅;语义理解;前馈框架;具身智能;自动驾驶

1.引言

从二维图像感知并重构三维物理世界,是实现具身智能(Embodied AI)的关键前置条件。这一能力不仅构成了计算机视觉的基石,更直接决定了机器人、自动驾驶汽车及增强现实设备在复杂环境中的交互上限。然而,从稀疏多视图图像中重建并语义解释三维场景,至今仍面临根本性挑战。

近年来,以神经辐射场和三维高斯溅射为代表的神经渲染方法在重建质量上取得显著突破,但二者均依赖逐场景优化策略——每个新场景需从头训练,无法直接泛化至未见环境。与此同时,三维重建与语义理解两大领域长期割裂:传统方案通常先重建几何结构,再在重建结果上附加语义标注,两阶段独立优化导致系统复杂度高、误差累积严重。

针对上述问题,Uni3R提出了统一的前馈式解决方案。它以三维高斯泼溅为核心表征,将几何、渲染与语义整合到同一框架中,无需相机位姿即可从多视图图像并发输出三维结构、新视角渲染与开放词汇语义理解。对于狗熊机器人所处的园区低速自动驾驶场景,该技术有望加速仿真闭环迭代,并显著提升语义交互的灵活性与鲁棒性。



2.研究现状

2.1 传统三维重建与神经渲染

三维重建的传统路径基于运动恢复结构与多视图立体匹配,通过逐像素深度估计融合生成点云或网格模型。该类方法对相机位姿精度要求极高,且在纹理稀疏或光照剧烈变化的场景中表现不佳。

神经辐射场(NeRF)的提出深刻改变了这一格局。NeRF利用深度神经网络将空间坐标与视角方向映射为颜色与密度,实现了前所未有的渲染保真度。然而,其隐式表示带来巨大的计算负担——渲染单张新视图需沿光线密集采样并逐点查询网络,实时应用受到严重制约。

三维高斯泼溅(3DGS)提供了新的技术路径。与NeRF的隐式表征不同,3DGS将场景表示为数百万个三维高斯椭球体的集合,通过并行可微分光栅化实现高效渲染。每个高斯原语由位置、尺度、旋转、不透明度和颜色参数化,兼具表达力与渲染效率。3DGS已广泛应用于机器人、城市建模与自动驾驶等领域,但其仍依赖逐场景优化,无法直接泛化到新场景。

2.2 可泛化高斯泼溅与语义场

为突破逐场景优化的效率瓶颈,近年涌现出一系列可泛化前馈式高斯泼溅方法(如NoPoSplat、FreeSplatter等)。其共同思路是:在大规模数据上学习通用几何先验,推理时无需任何逐场景优化,单次前向传递即可完成新场景重建,并支持无位姿输入。

在语义场引入方面,LangSplat与Feature-3DGS为高斯原语附加语义特征,实现三维语义渲染,但仍囿于逐场景优化框架。LSM与UniForward尝试在前馈框架中统一几何与语义,但因基于DUSt3R架构设计,扩展至多视图时面临效率瓶颈与一致性挑战。Uni3R正是在此基础上,通过跨视图全局融合与统一表征实现了突破。

2.3 三维感知在具身智能中的应用

具身智能要求机器人在物理环境中通过“感知-行动”循环实时交互,三维场景理解能力是其核心基石。当前,三维感知技术已广泛用于机器人避障导航、物体识别与抓取等环节,通过激光雷达、深度相机等多传感器融合实现环境建模与定位。Uni3R将高效重建、开放词汇语义理解与新视角合成整合于统一框架,为具身智能感知层提供了兼具效率与表现力的新方案。



3.Uni3R核心技术

3.1 统一表示框架

Uni3R以3D高斯泼溅作为统一的三维表征基础,将外观、几何与语义整合到共享的高斯原语中。每个高斯原语由十维参数全面描述:位置、尺度、旋转、不透明度、球谐系数及高维语义特征向量。几何结构与语义信息在三维空间中天然对齐,从根本上避免了“先重建后理解”两阶段方法可能引入的累积误差。

3.2 跨视图变换器与全局融合

多视图信息融合是Uni3R的关键突破。模型以多视角RGB图像为输入,经编码器提取特征后,利用跨视角注意力机制一次性整合所有视图信息,构建全局一致的场景表征。区别于基于DUSt3R的方法需逐对匹配特征,Uni3R的全局融合机制不仅提升了效率,更有效避免了局部匹配误差在多视图累积导致的重建扭曲。

3.3 前馈架构与端到端推理

Uni3R采用完全前馈设计,单次前向传播直接预测三维高斯原语,无需任何逐场景优化或迭代细化。推理仅需约0.16秒即可完成从图像到三维场景表示的完整转换,且训练完成后可直接泛化至任意新场景。

模型通过光度损失、语义损失与几何损失的联合优化实现端到端训练。尤为重要的是,Uni3R的训练无需真实三维点云或三维语义标注,仅以RGB图像为监督信号,大幅降低了数据准备门槛,便于在大规模场景数据上持续演进。

3.4 开放词汇语义理解

Uni3R将每个高斯原语与从预训练2D视觉基础模型蒸馏得到的高维语义特征向量绑定。推理时,用户可通过任意文本查询(如“红色锥桶”“临时施工区”)与三维场景交互,模型将文本嵌入与高斯语义特征计算相似度,直接输出对应三维区域。

这一开放词汇机制突破了传统语义分割固定类别集的限制,将三维语义理解转化为开放域检索问题。对于园区场景中频繁出现的临时展台、施工标识、遗落物品等长尾物体,该能力提供了充分的适应灵活性。



4.在园区具身智能中的应用分析

4.1 加速Real2Sim2Real闭环迭代

狗熊机器人的核心技术架构之一是“真实-仿真-真实”闭环训练框架,其关键在于如何高效地将真实场景转化为高保真、富含语义的仿真环境。

传统方案依赖人工建模或昂贵的三维扫描设备,难以规模化。Uni3R可通过机器人搭载的多摄像头采集数据,快速重建任意园区场景的三维数字孪生,并自动为每个物体标注开放词汇语义信息。

具体价值体现在三方面:场景复现——遇到施工路段、临时拥堵等挑战性场景时,可快速生成数字孪生导入仿真平台进行针对性训练;语义化仿真——生成的场景附带完整语义字段,支持“礼让行人”等语义驱动的行为约束训练;规模扩展——以极低边际成本将超过1000个运营场景逐步转化为仿真训练数据,大幅丰富数据池。

4.2 开放词汇语义导航

园区漫游车不仅需要识别“行人”和“车辆”,还需理解“临时展台”“施工锥桶”“伏下的猫”等多样化长尾物体。Uni3R的开放词汇能力使机器人可通过自然语言动态定义关注目标,不受预定义类别集约束,在巡检、安防、接待等业务场景中显著提升任务适应性与交互自然度。

4.3 多机器人协同与群体智能

当多台机器人在同一园区运行时,各自的三维感知结果可通过Uni3R直接融合到统一的全局三维坐标系中,无需复杂的跨机器人标定流程。共享的语义地图使群体智能系统能做出更优的全局调度决策,如自动调度最近机器人前往处理突发事件。



5.结论

Uni3R通过将几何重建、新视角合成与开放词汇语义理解统一到前馈式高斯泼溅框架中,在效率、泛化能力和语义表现上均达到当前领先水平。该技术为机器人感知系统提供了新范式:不再需要在多个独立感知模块间协调校准,而是通过统一的三维表征空间实现几何与语义的天然对齐。

对于狗熊机器人的园区具身智能业务,Uni3R在以下方向形成多重价值:Real2Sim2Real闭环场景转换的大幅提速、开放词汇语义导航对长尾场景的灵活适应、以及多机器人协同建图的便利性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
易立竞51岁了,该干的事一样没干,,她没结婚,没生娃,没恋爱

易立竞51岁了,该干的事一样没干,,她没结婚,没生娃,没恋爱

南万说娱26
2026-06-25 09:04:40
大陆得到信,岛内都一边倒了,蒋万安已经动手了,4 字问罪台当局

大陆得到信,岛内都一边倒了,蒋万安已经动手了,4 字问罪台当局

丁丁鲤史纪
2026-06-24 15:45:27
这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

这个一妻多夫制的民族,晚上怎么过?女人直言:简直就是受罪

哄动一时啊
2026-06-24 14:26:23
张维为:中国哲学从不信奉所谓的“绝对真理”

张维为:中国哲学从不信奉所谓的“绝对真理”

看看新闻Knews
2026-06-24 23:22:23
央视警告!日本囤弹药备战台海,要是非要打,中国就能一劳永逸了

央视警告!日本囤弹药备战台海,要是非要打,中国就能一劳永逸了

寄予的清风
2026-06-25 10:50:09
盖茨第三段婚外情对象曝光,系哈佛医学博士及美医疗创业者,曾获评“最值得关注女性”

盖茨第三段婚外情对象曝光,系哈佛医学博士及美医疗创业者,曾获评“最值得关注女性”

红星新闻
2026-06-25 12:14:14
马宁有望再度主哨世界杯!获FIFA充分肯定,淘汰赛大概率亮相

马宁有望再度主哨世界杯!获FIFA充分肯定,淘汰赛大概率亮相

奥拜尔
2026-06-25 09:26:26
国际篮联重磅宣布,中国男篮碾压日本韩国,冲亚洲地区第一

国际篮联重磅宣布,中国男篮碾压日本韩国,冲亚洲地区第一

宗介说体育
2026-06-25 11:29:38
邓加:维尼修斯不是巴西队更衣室领袖,这个角色是马金

邓加:维尼修斯不是巴西队更衣室领袖,这个角色是马金

懂球帝
2026-06-25 02:30:21
高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

好爸育儿
2026-02-12 16:04:52
K组局势大反转!哥伦比亚提前出线,C罗两球难挡葡萄牙争榜首压力

K组局势大反转!哥伦比亚提前出线,C罗两球难挡葡萄牙争榜首压力

以茶带书
2026-06-24 22:20:44
刘嘉玲自曝“梁朝伟见灯泡坏了只会喊我”:他连和家政阿姨沟通都不好意思,要我代传话,我内心也渴望被照顾

刘嘉玲自曝“梁朝伟见灯泡坏了只会喊我”:他连和家政阿姨沟通都不好意思,要我代传话,我内心也渴望被照顾

台州交通广播
2026-06-25 00:31:29
67岁富商与网红偷情九年生四胎,原配蒙在鼓里,小三竟公开炫富

67岁富商与网红偷情九年生四胎,原配蒙在鼓里,小三竟公开炫富

橙星文娱
2026-06-24 11:57:25
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
《抓特务》:沉重的虚无

《抓特务》:沉重的虚无

非典型佛教徒
2026-06-23 01:22:30
穆里尼奥:“我非常珍视那张与瓜迪奥拉和路易斯·恩里克的合影”

穆里尼奥:“我非常珍视那张与瓜迪奥拉和路易斯·恩里克的合影”

绿茵情报局
2026-06-25 00:00:59
印度这次真踢到铁板!054AP电子干扰一开,P-8I想到100米以下都难

印度这次真踢到铁板!054AP电子干扰一开,P-8I想到100米以下都难

闻识
2026-06-24 13:03:31
普京:整个西方都在为基辅效力

普京:整个西方都在为基辅效力

西楼饮月
2026-06-25 00:45:03
今年六月气温一反常态,白天温和早晚添衣,老话预兆别不当回事!

今年六月气温一反常态,白天温和早晚添衣,老话预兆别不当回事!

老特有话说
2026-06-25 01:25:03
中国足坛6月24日迎来久违巨星!曾是英格兰队主力,已现身村超

中国足坛6月24日迎来久违巨星!曾是英格兰队主力,已现身村超

振刚说足球
2026-06-25 10:01:32
2026-06-25 16:31:00
狗熊机器人智能观光车
狗熊机器人智能观光车
国内领先的低速自动驾驶解决方案供应商
100文章数 0关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

0球0助攻 曾经的"亚洲一哥"孙兴慜经历最差一届世界杯

头条要闻

0球0助攻 曾经的"亚洲一哥"孙兴慜经历最差一届世界杯

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

白玉兰颁奖预测,杨幂胜算大吗?

财经要闻

财报炸裂!美光让空头闭嘴

汽车要闻

2027款星途ES 天马1:11:36背后的实力

态度原创

亲子
本地
房产
旅游
教育

亲子要闻

儿子进步了吗?

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

房产要闻

万万没想到 这家国企造的住宅竟成了区域顶流!

旅游要闻

化身欢乐趣味亲子主场!狮城暑期 “新” 发现

教育要闻

22万人围观AI志愿填报,这背后透露了什么信号?

无障碍浏览 进入关怀版