现有主动式3D重建与感知方法多侧重几何完整性,往往忽略视觉细节保真度;高质量重建往往依赖海量扫描输入,显著降低机器人作业效率。Auto3R引入数据驱动的不确定性量化机制,可自适应求解最优增益的扫描视角与运动路径,为机器人自主3D扫描与感知任务提供高效、精准的全新技术方案。
![]()
论文标题: Auto3R: Automated 3D Reconstruction and Scanning via Data-driven Uncertainty Quantification 论文链接: https://arxiv.org/abs/2512.04528v1 代码链接: https://github.com/tomatoma00/Auto3R 项目主页: https://tomatoma00.github.io/auto3r.github.io
一、导读
高质量3D资产获取是游戏、影视、VR/AR、机器人数字化的核心基础。尽管3D高斯溅射(3DGS)与神经渲染已大幅提升重建视觉质量,但扫描获取图像的流程仍高度依赖人工:轨迹规划、视角选择、质量检查均需人工参与,效率低、成本高、难以自动化。
为解决这一痛点,我们提出Auto3R——一套基于数据驱动不确定性量化的全自动3D扫描与重建框架。它基于视觉与深度的联合不确定度模型,通过当前重建结果即可预测最优扫描视角,在普通物体、镜面反射物体、复杂场景三大任务上超越SOTA,并可直接部署于机械臂完成真实世界扫描任务。
![]()
Auto3R的核心价值:
彻底摆脱人工路径规划,实现端到端全自动3D扫描
联合建模2D外观与3D几何不确定性,视角选择更精准
支持连续路径规划,适配真实机器人扫描
主动3D重建(Active Reconstruction)的目标是让系统自主选择能最大程度降低重建误差的下一个视角。其核心瓶颈在于:如何高效、准确地估计重建结果的不确定性。
现有方法存在明显缺陷:
传统解析方法依旧是主要实现方式,基于可见性的理论忽视了视觉的还原;基于互信息、Fisher信息论的方法,计算开销大,过多的理论近似限制了质量;
数据驱动方法研究逐渐起步,多为估计图像级误差估计,缺少3D几何与深度可靠性。
这些局限导致现有方案在复杂材质、遮挡区域、大规模场景中表现不稳定。Auto3R针对上述问题,提出深度与视觉感知联合不确定性建模,实现外观与几何的联合推理,让视角规划更准、更鲁棒。
三、方法
Auto3R基于3DGS构建迭代式主动重建闭环,整体流程分为:重建 → 渲染 → 不确定性量化 → 视角/路径选择 → 再扫描。
![]()
3.1 数据驱动图像不确定性先验
Auto3R从渲染RGB图像与深度图中直接学习重建不确定性,无需真实标签。
使用两个轻量ResNet‑50网络,分别预测视觉不确定性图与深度不确定性;
在Objaverse数据集上自监督训练,以渲染图与真实图的SSIM作为监督信号;
模型可捕捉模糊、重影、几何畸变等重建伪影,输出像素级置信度。
考虑到不确定性的scale问题,Auto3R提出两步融合策略:
深度感知融合:远处高斯在图像上投影更大、影响更多像素,因此对深度更大的区域赋予更高权重。
深度不确定性加权:重建初期深度不可靠,用深度置信度动态抑制不可靠区域,提升稳定性。
最终不确定性将同时涵盖:外观误差(颜色、纹理、伪影)、几何误差(深度、形状、完整性)、遮挡与观测缺失。
3.3 面向机器人的路径级不确定性规划
![]()
为支持真实机器人连续扫描,Auto3R将模型扩展为视频序列输入:
基于TMFI‑Net构建路径不确定性评估模块;
直接输入候选轨迹上的连续渲染帧;
输出整条路径的不确定性分数,选择最优扫描轨迹;
无需逐点停顿,提升真实世界效率。
Auto3R在物体重建、镜面物体重建、场景重建、真实机器人部署四大任务上全面验证。
4.1 数据集与基线
对象数据集:Objaverse(含普通与高光材质)
场景数据集:Mip‑NeRF360
基线:FisherRF、AVS、Gauss‑MI、TOPIQ、TRES、MANIQA、MUSIQ
普通物体重建(Objaverse)Auto3R大幅超越所有SOTA方法,尤其是在重建物体的细节方面,在有限视角数量输入下减少伪影。
![]()
![]()
场景重建(Mip‑NeRF360)
Auto3R在场景重建中也得到较好的效果,由于视角数量限制,无法在有限视角获取更多场景信息,与其余方法差距相对较小。
![]()
镜面/反射物体
结合GIR逆渲染框架后,Auto3R在高反光物体的重建上取得较好效果,其反射区域重建精度显著领先。![]()
4.3 真实机器人部署
Auto3R在真实机器人部署实验中,推理速度满足实时要求,随着视角加入,重建结果稳步提升,适配机器人自主作业的实际场景需求。
![]()
![]()
五、总结
Auto3R提出了首个面向3DGS的视觉联合深度感知、数据驱动不确定性量化框架,实现了无需人工干预的全自动3D扫描与重建。
它通过联合建模2D外观与3D几何不确定性,精准定位重建模糊区域,自动选择最优视角甚至连续路径,在普通物体、高光物体、复杂场景均达到SOTA,并成功部署于真实机器人系统。
未来方向将扩展至超大规模场景、多机器人协同、实时在线重建等更具挑战性的环境。
Illustration generated by AI.
-The End-
本周上新!
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
![]()
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.