港科大谭平团队突破万帧级图像大规模3D场景重建Transformer|视觉

港科大谭平团队突破万帧级图像大规模3D场景重建Transformer

2025-09-08 10:14:05　来源: 机器之心Pro

北京举报

分享至

机器之心报道

机器之心编辑部

香港科技大学谭平教授团队与地平线（Horizon Robotics）团队最新发布了一项3D 场景表征与大规模重建新方法 SAIL-Recon，通过锚点图建立构建场景全局隐式表征，突破现有 VGGT 基础模型对于大规模视觉定位与 3D 重建的处理能力瓶颈，实现万帧级的场景表征抽取与定位重建，将空间智能「3D 表征与建模」前沿推向一个新的高度。该技术作为 3D 场景表征与重建的一个基础模型，不仅可以用于任意场景中的大规模 3D 重建和空间漫游，也可以为机器人的 3D 空间感知、自主空间定位与导航提供基础技术支撑。

谭平教授目前为香港科技大学电子与计算机工程系正教授，冯诺依曼人工智能研究院副院长，也是「香港科技大学–比亚迪具身智能联合实验室」主任，长期致力于 3D 空间智能与具身智能相关的技术前沿研究。

谭平教授创立的人工智能初创公司「光影焕像」致力于 3D 和空间智能的核心技术和产品研发，打造 3D 空间智能大脑，推进相关技术在游戏、影视和具身智能等行业场景的商业化应用。

作者简介：

邓俊源分别于2021年和2024年获上海交通大学学士及硕士学位，现为香港科技大学电子与计算机工程系博士研究生，主要研究方向为多模态三维定位与场景重建、世界模型，代表论文有NeRF-LOAM、DrivingWorld、SAIL-Recon等。

李恒现为香港科技大学电子与计算机工程系高年级博士研究生，主要研究方向为三维重建与定位、生成与重建一体化等，代表论文有DIM-SLAM、SAIL-Recon等。

本文中SAIL-Recon的共同一作邓俊源和李恒均为谭平教授在香港科技大学博士研究生。

项目主页：https://hkust-sail.github.io/sail-recon/
论文链接：https://arxiv.org/abs/2508.17972
代码链接：https://github.com/HKUST-SAIL/sail-recon

在 3D 视觉领域，3D 场景回归模型（如 VGGT）虽能通过输入图像直接预测相机位姿与三维结构，但在极端视角变化场景中表现出色的同时，却受限于大规模图像输入的处理能力，仅能处理几百张图像进行位姿估计和 3D 重建。为此，论文推出全新解决方案SAIL-Recon，一种增强型场景回归网络，通过融合视觉定位能力，构建专为大规模运动恢复结构（SfM）设计的前馈 Transformer 架构

技术革新亮点

1.全局隐式场景表征：使用图像子集构建全局表征，支持万帧级场景重建；

2.统一 Transformer 架构：同时处理场景表征抽取与定位重建任务；

3.权威基准领先性能：在 TUM-RGBD、CO3Dv2、Tanks & Temples 数据集上，相机位姿估计与新视角合成精度均显著超越现有方法。

方法概述

传统运动恢复结构（SfM）技术依赖特征匹配与增量优化，面对低纹理场景或重复图案时极易失效。近年兴起的场景回归方法（如 DUST3R、VGGT）虽能通过 Transformer 直接预测相机位姿与 3D 结构，却因 GPU 内存限制无法处理大规模图像集合，限制了其应用范围。受传统视觉重定位启发，论文提出增强型场景回归网络 SAIL-Recon，通过结合视觉定位与场景回归，突破大规模 3D 重建瓶颈。

场景回归网络：从图像到场景回归

场景回归网络（VGGT，DUST3R）旨在从输入图像集合中直接预测相机位姿与三维结构。论文方法中采用了与 VGGT 类似的 Transformer 架构，利用其强大的全局信息建模能力，来处理图像间的复杂关系。具体来说，该方法将输入图像通过 DINOv2 提取特征，然后将这些特征输入到 Transformer 中进行全局建模。Transformer 的自注意力机制使得网络能够捕捉图像间的长距离依赖关系，从而更好地理解场景的几何结构。经过 Transformer 处理后，该方法使用 DPT 头来分别预测每张图像的深度图与场景坐标图，从而实现对场景的三维重建。同时，该方法通过一个单独的 MLP 分支来预测每张图像的相机位姿。整个网络通过联合训练，使得深度图、场景坐标图与相机位姿的预测相互促进，提高了整体的重建精度。

锚点图像集构建：子集表征全局场景

然而，由于 Transformer 的结构特性，当一次性处理所有的输入图片时，GPU 的显存会随着图片数目的增加而成倍的增长。当场景中的图像扩展到数千的规模时，直接处理全部图像（如 1000 + 张）会导致 GPU 显存爆炸。为此，论文提出使用图像子集来构建全局隐式场景表征的新方法。具体来说，该方法从输入图像集合中选择一小部分图像作为锚点图像集（Anchor Image Set），且选出的图像集也能够代表整个场景的多样性和结构信息。通过这种方式，该方法可以在不牺牲场景信息的前提下，大幅减少需要处理的图像数量，从而降低计算复杂度和内存需求。更具体的来说，该方法从全量图像中筛选出 50-100 张代表性锚点图像作为 Transformer 的输入，并采用均匀采样方式进行筛选以有效避免对相机以及对场景几何做出假设。这种方法能够使用图像子集构建用于全局场景隐式表达，为后续的定位与重建任务提供坚实基础。

全局隐式场景表征：渐进式 2D-3D 编码

通过锚点图像集，该方法能够构建一个全局隐式场景表征。一种最直接的思路是直接使用 Transformer 的最终层的输出特征作为场景表示。因为该层的 feature 经过多层的注意力交互，已经全局的场景几何结构。之前的一些工作，如 CUT3R，SLAM3R 和 SPANN3R，均使用类似的思路。但论文实验发现，由于 Transformer 的最终层特征通常只能用于表示 3D 的几何信息，与需要恢复相机位姿的 query image 的 2D 特征存在很大的差别，因此此类方法的效果通常较差。论文作者注意到场景回归会逐步将 2D 图像特征转换为 3D 场景表示，因此在论文中提出了可以通过提取 Transformer 所有注意力层的中间特征，用于表达特定图像从 2D 图像特征到 3D 结构的转换的新方法。具体来说，该方法在 Transformer 的中间层提取特征，并通过一个下采样的机制，将这些特征用于整个场景的表达。这样做的好处是这种场景表达保留了每一个图像块从 2D 到 3D 的变化，能够自然的适应于图像重定位的任务。当输入了查询图像的 2D 信息，该方法能够将利用 2D-3D 的特征，将查询图像注册到对应的全局表达上。

视觉定位与重建：基于视觉定位的场景回归

在获得全局隐式场景表征后，论文采用与场景回归相同的网络，进行视觉定位与重建。具体来说，该方法将查询图像通过 DINOv2 提取特征，并将其与全局隐式场景表征在 Transformer 中的每一层进行注意力交互。在通过这种方式，该方法能够在 Transformer 的输入层附近使用 2D 图像特征进行注意力交互，实现类似特征匹配的效果。在 Transformer 的后续层中，方法使用 3D 的特征层进行注意力交互，从而将恢复出查询图像相对于全局隐式场景表达的相机位置与几何结构。为了避免查询图像对场景表达进行修改，该方法修改了 Transformer 中全局注意力层的行为，在定位的过程中，查询图像的特征只会与隐式表达的特征进行交互，而场景表达的特征只会与其本身发生交互。在得到了查询图像的最终特征后，该方法使用一个单独的 MLP 分支来预测查询图像的相机位姿，同时使用 DPT 头来预测查询图像的深度图与场景坐标图。

实验结果

论文在多个权威基准数据集上对 SAIL-Recon 方法进行了评估，包括 TUM-RGBD、CO3Dv2 和 Tanks & Temples。实验结果显示，SAIL-Recon 在相机位姿估计与新视角合成精度方面均显著优于现有方法

相机位姿

论文在 TUM-RGBD 和 Tanks and Temples 数据集上评估了 SAIL-Recon 的相机位姿估计性能。结果表明，SAIL-Recon 在这两个数据集上均取得了优异的表现，显著优于传统 SfM 方法和其他神经网络驱动的 SfM 方法。

在 Tanks and Temples 数据集上，SAIL-Recon 在所有场景中均表现出色，在所有非优化的方法中，取得了最强的性能。而 VGGT 因为无法处理大规模图像集合，在该数据集上无法运行。其他的 3R 方法精度均不如 SAIL-Recon。在优化的方法中，SAIL-Recon 的表现也非常接近最优的方法 GLOMAP。

在 TUM-RGBD 数据集上，SAIL-Recon 同样表现出色，在给定的数千帧图像中，效果与现有的 SLAM 方案接近。需要注意的是 SAIL-Recon 是一个离线重建方法，并没有利用时序上的连续性信息。

新视角合成

由于传统相机位姿的数据集提供的相机位姿通常是由传统的 SfM 或 SLAM 方法计算得到的，因此这些相机位姿本身可能存在一定的误差。为了更客观地评估 SAIL-Recon 的性能，论文使用了与 ACE0 一致的新视角合成指标 PSNR 来评估相机位姿的准确度。在训练 NeRF 用于新视角合成的过程中，如果训练图像的相机位姿存在误差，那么 NeRF 的合成效果会受到影响，PSNR 值也会降低。如果测试图像的相机位姿准确，则合成的图像 PSNR 值会更高。因此，PSNR 值可以作为评估相机位姿准确度的一个指标。

在 Tanks and Temples 数据集上，SAIL-Recon 在新视角合成的 PSNR 指标上也表现出色，显著优于其他方法。特别是在大规模场景中，SAIL-Recon 能够有效地处理数千帧图像，取得了远超现有方法的 PSNR 值。其中 VGGT 与其他 3R 方法均无法处理大规模图像集合，因此无法在该数据集上运行。更重要的是，SAIL-Recon 只需要几分钟的时间就能得到 SOTA 的效果，在速度上远超之前的方法。

在新视角的可视化上也能显著发现 SAIL-Recon 的优势。下图展示了 Tanks and Temples 数据集中新视角合成结果。可以看到，SAIL-Recon 的图像质量明显高于 ACE0，展示了 SAIL-Recon 在处理大规模场景时相机的准确度。

总结

本文提出了 SAIL-Recon，一种结合视觉定位与场景回归的增强型场景回归网络，成功突破了大规模 3D 重建的瓶颈。通过使用图像子集构建全局隐式场景表征，并利用 Transformer 同时进行隐式场景表达抽取与视觉定位，SAIL-Recon 能够高效地处理包含上万帧图像的场景。在多个权威基准数据集上的实验结果表明，SAIL-Recon 在相机位姿估计与新视角合成精度方面均显著优于现有方法，展示了其在大规模 3D 重建领域的巨大潜力。未来，论文计划进一步优化 SAIL-Recon 的架构与训练策略，以提升其在更复杂场景中的表现，并挖掘其在具身智能导航和感知中的应用潜力。

视频链接：https://mp.weixin.qq.com/s/5CZFIhy-mAia8gIw0SsDug

SAIL-Recon 与现有方法的 3D 重建结果对比

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.