网易首页 > 网易号 > 正文 申请入驻

港科大谭平团队 | SAIL-Recon突破万帧级图像大规模3D场景重建

0
分享至

香港科技大学谭平授团队与地平线(Horizon Robotics)团队最新发布了一项 3D 场景表征与大规模重建新方法 SAIL-Recon,通过锚点图建立构建场景全局隐式表征,突破现有 VGGT 基础模型对于大规模视觉定位与 3D 重建的处理能力瓶颈,实现万帧级的场景表征抽取与定位重建,将空间智能「3D 表征与建模」前沿推向一个新的高度。该技术作为 3D 场景表征与重建的一个基础模型,不仅可以用于任意场景中的大规模 3D 重建和空间漫游,也可以为机器人的 3D 空间感知、自主空间定位与导航提供基础技术支撑。

谭平教授目前为香港科技大学电子与计算机工程系正教授,冯诺依曼人工智能研究院副院长,也是「香港科技大学–比亚迪具身智能联合实验室」主任,长期致力于 3D 空间智能与具身智能相关的技术前沿研究。

谭平教授创立的人工智能初创公司「光影焕像」致力于 3D 和空间智能的核心技术和产品研发,打造 3D 空间智能大脑,推进相关技术在游戏、影视和具身智能等行业场景的商业化应用。

作者简介:

邓俊源分别于2021年和2024年获上海交通大学学士及硕士学位,现为香港科技大学电子与计算机工程系博士研究生,主要研究方向为多模态三维定位与场景重建、世界模型,代表论文有NeRF-LOAM、DrivingWorld、SAIL-Recon等。

李恒现为香港科技大学电子与计算机工程系高年级博士研究生,主要研究方向为三维重建与定位、生成与重建一体化等,代表论文有DIM-SLAM、SAIL-Recon等。

本文中SAIL-Recon的共同一作邓俊源和李恒均为谭平教授在香港科技大学博士研究生。

  • 项目主页:https://hkust-sail.github.io/sail-recon/

  • 论文链接:https://arxiv.org/abs/2508.17972

  • 代码链接:https://github.com/HKUST-SAIL/sail-recon

在 3D 视觉领域,3D 场景回归模型(如 VGGT)虽能通过输入图像直接预测相机位姿与三维结构,但在极端视角变化场景中表现出色的同时,却受限于大规模图像输的处理能力,仅能处理几百张图像进行位姿估计和 3D 重建。为此,论文推出全新解决方案 SAIL-Recon,一种增强型场景回归网络,通过融合视觉定位能力,构建专为大规模运动恢复结构(SfM)设计的前馈 Transformer 架构

技术革新亮点

1. 全局隐式场景表征:使用图像子集构建全局表征,支持万帧级场景重建;

2. 统一 Transformer 架构:同时处理场景表征抽取与定位重建任务;

3. 基准领先性能:在 TUM-RGBD、CO3Dv2、Tanks & Temples 数据集上,相机位姿估计与新视角合成精度均显著超越现有方法。

方法概述

传统运动恢复结构(SfM)技术依赖特征匹配与增量优化,面对低纹理场景或重复图案时极易失效。近年兴起的场景回归方法(如 DUST3R、VGGT)虽能通过 Transformer 直接预测相机位姿与 3D 结构,却因 GPU 内存限制无法处理大规模图像集合,限制了其应用范围。受传统视觉重定位启发,论文提出增强型场景回归网络 SAIL-Recon,通过结合视觉定位与场景回归,突破大规模 3D 重建瓶颈。

场景回归网络:从图像到场景回归

场景回归网络(VGGT,DUST3R)旨在从输入图像集合中直接预测相机位姿与三维结构。论文方法中采用了与 VGGT 类似的 Transformer 架构,利用其强大的全局信息建模能力,来处理图像间的复杂关系。具体来说,该方法将输入图像通过 DINOv2 提取特征,然后将这些特征输入到 Transformer 中进行全局建模。Transformer 的自注意力机制使得网络能够捕捉图像间的长距离依赖关系,从而更好地理解场景的几何结构。经过 Transformer 处理后,该方法使用 DPT 头来分别预测每张图像的深度图与场景坐标图,从而实现对场景的三维重建。同时,该方法通过一个单独的 MLP 分支来预测每张图像的相机位姿。整个网络通过联合训练,使得深度图、场景坐标图与相机位姿的预测相互促进,提高了整体的重建精度。

锚点图像集构建:子集表征全局场景

然而,由于 Transformer 的结构特性,当一次性处理所有的输入图片时,GPU 的显存会随着图片数目的增加而成倍的增长。当场景中的图像扩展到数千的规模时,直接处理全部图像(如 1000 + 张)会导致 GPU 显存爆炸。为此,论文提出使用图像子集来构建全局隐式场景表征的新方法。具体来说,该方法从输入图像集合中选择一小部分图像作为锚点图像集(Anchor Image Set),且选出的图像集也能够代表整个场景的多样性和结构信息。通过这种方式,该方法可以在不牺牲场景信息的前提下,大幅减少需要处理的图像数量,从而降低计算复杂度和内存需求。更具体的来说,该方法从全量图像中筛选出 50-100 张代表性锚点图像作为 Transformer 的输入,并采用均匀采样方式进行筛选以有效避免对相机以及对场景几何做出假设。这种方法能够使用图像子集构建用于全局场景隐式表达,为后续的定位与重建任务提供坚实基础。

全局隐式场景表征:渐进式 2D-3D 编码

通过锚点图像集,该方法能够构建一个全局隐式场景表征。一种最直接的思路是直接使用 Transformer 的最终层的输出特征作为场景表示。因为该层的 feature 经过多层的注意力交互,已经全局的场景几何结构。之前的一些工作,如 CUT3R,SLAM3R 和 SPANN3R,均使用类似的思路。但论文实验发现,由于 Transformer 的最终层特征通常只能用于表示 3D 的几何信息,与需要恢复相机位姿的 query image 的 2D 特征存在很大的差别,因此此类方法的效果通常较差。论文作者注意到场景回归会逐步将 2D 图像特征转换为 3D 场景表示,因此在论文中提出了可以通过提取 Transformer 所有注意力层的中间特征,用于表达特定图像从 2D 图像特征到 3D 结构的转换的新方法。具体来说,该方法在 Transformer 的中间层提取特征,并通过一个下采样的机制,将这些特征用于整个场景的表达。这样做的好处是这种场景表达保留了每一个图像块从 2D 到 3D 的变化,能够自然的适应于图像重定位的任务。当输入了查询图像的 2D 信息,该方法能够将利用 2D-3D 的特征,将查询图像注册到对应的全局表达上。

视觉定位与重建:基于视觉定位的场景回归

在获得全局隐式场景表征后,论文采用与场景回归相同的网络,进行视定位与重建。具体来说,该方法将查询图像通过 DINOv2 提取特征,并将其与全局隐式场景表征在 Transformer 中的每一层进行注意力交互。在通过这种方式,该方法能够在 Transformer 的输入层附近使用 2D 图像特征进行注意力交互,实现类似特征匹配的效果。在 Transformer 的后续层中,方法使用 3D 的特征层进行注意力交互,从而将恢复出查询图像相对于全局隐式场景表达的相机位置与几何结构。为了避免查询图像对场景表达进行修改,该方法修改了 Transformer 中全局注意力层的行为,在定位的过程中,查询图像的特征只会与隐式表达的特征进行交互,而场景表达的特征只会与其本身发生交互。在得到了查询图像的最终特征后,该方法使用一个单独的 MLP 分支来预测查询图像的相机位姿,同时使用 DPT 头来预测查询图像的深度图与场景坐标图。

实验结果

论文在多个权威基准数据集上对 SAIL-Recon 方法进行了评估,包括 TUM-RGBD、CO3Dv2 和 Tanks & Temples。实验结果显示,SAIL-Recon 在相机位姿估计与新视角合成精度方面均显著优于现有方法

相机位姿

论文在 TUM-RGBD 和 Tanks and Temples 数据集上评估了 SAIL-Recon 的相机位姿估计性能。结果表明,SAIL-Recon 在这两个数据集上均取得了优异的表现,显著优于传统 SfM 方法和其他神经网络驱动的 SfM 方法。

在 Tanks and Temples 数据集上,SAIL-Recon 在所有场景中均表现出色,在所有非优化的方法中,取得了最强的性能。而 VGGT 因为无法处理大规模图像集合,在该数据集上无法运行。其他的 3R 方法精度均不如 SAIL-Recon。在优化的方法中,SAIL-Recon 的表现也非常接近最优的方法 GLOMAP。

在 TUM-RGBD 数据集上,SAIL-Recon 同样表现出色,在给定的数千帧图像中,效果与现有的 SLAM 方案接近。需要注意的是 SAIL-Recon 是一个离线重建方法,并没有利用时序上的连续性信息。

新视角合成

由于传统相机位姿的数据集提供的相机位姿通常是由传统的 SfM 或 SLAM 方法计算得到的,因此这些相机位姿本身可能存在一定的误差。为了更客观地评估 SAIL-Recon 的性能,论文使用了与 ACE0 一致的新视角合成指标 PSNR 来评估相机位姿的准确度。在训练 NeRF 用于新视角合成的过程中,如果训练图像的相机位姿存在误差,那么 NeRF 的合成效果会受到影响,PSNR 值也会降低。如果测试图像的相机位姿准确,则合成的图像 PSNR 值会更高。因此,PSNR 值可以作为评估相机位姿准确度的一个指标。

在 Tanks and Temples 数据集上,SAIL-Recon 在新视角合成的 PSNR 指标上也表现出色,显著优于其他方法。特别是在大规模场景中,SAIL-Recon 能够有效地处理数千帧图像,取得了远超现有方法的 PSNR 值。其中 VGGT 与其他 3R 方法均无法处理大规模图像集合,因此无法在该数据集上运行。更重要的是,SAIL-Recon 只需要几分钟的时间就能得到 SOTA 的效果,在速度上远超之前的方法。

在新视角的可视化上也能显著发现 SAIL-Recon 的优势。下图展示了 Tanks and Temples 数据集中新视角合成结果。可以看到,SAIL-Recon 的图像质量明显高于 ACE0,展示了 SAIL-Recon 在处理大规模场景时相机的准确度。

总结

本文提出了 SAIL-Recon,一种结合视觉定位与场景回归的增强型场景回归网络,成功突破了大规模 3D 重建的瓶颈。通过使用图像子集构建全局隐式场景表征,并利用 Transformer 同时进行隐式场景表达抽取与视觉定位,SAIL-Recon 能够高效地处理包含上万帧图像的场景。在多个权威基准数据集上的实验结果表明,SAIL-Recon 在相机位姿估计与新视角合成精度方面均显著优于现有方法,展示了其在大规模 3D 重建领域的巨大潜力。未来,论文计划进一步优化 SAIL-Recon 的架构与训练策略,以提升其在更复杂场景中的表现,并挖掘其在具身智能导航和感知中的应用潜力。


SAIL-Recon 与现有方法的 3D 重建结果对比

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
只要和平不要统一吗?其实郑丽文已经回答了,她还要当台湾领导人

只要和平不要统一吗?其实郑丽文已经回答了,她还要当台湾领导人

福建睿平
2026-04-12 08:13:08
一场4-0!让热刺跌入降级区:后7场拿15分有望保级,森林有难

一场4-0!让热刺跌入降级区:后7场拿15分有望保级,森林有难

体育知多少
2026-04-11 10:33:16
随着马竞1-2,巴塞罗那4-1,西甲最新积分榜出炉

随着马竞1-2,巴塞罗那4-1,西甲最新积分榜出炉

凌空倒钩
2026-04-12 05:07:51
提到本山大叔家的公子赵大牛,他的座驾在沈阳街头可算相当拉风。

提到本山大叔家的公子赵大牛,他的座驾在沈阳街头可算相当拉风。

情感大头说说
2026-04-12 05:21:17
湖人裁掉巴夫金!被呼吁签回昔日控卫,这可是湖人选中的榜眼秀

湖人裁掉巴夫金!被呼吁签回昔日控卫,这可是湖人选中的榜眼秀

林子说事
2026-04-12 00:05:38
470亿遗产争夺战打响,迟重瑞被陈丽华子女踢出局?

470亿遗产争夺战打响,迟重瑞被陈丽华子女踢出局?

王一晓
2026-04-09 17:16:09
原来我们都被他骗了?陈坤儿子的生母,其实早在14年前就公开了

原来我们都被他骗了?陈坤儿子的生母,其实早在14年前就公开了

老吴教育课堂
2026-04-11 14:35:42
他25岁就当上副主席,七大未被选为中央委员,毛主席:这很不合理

他25岁就当上副主席,七大未被选为中央委员,毛主席:这很不合理

抽象派大师
2026-04-11 14:37:29
比大理浪漫!比昆明更近!高铁直达阳光小城,2万株蓝花楹美疯!观海登山,美食吃到爽!

比大理浪漫!比昆明更近!高铁直达阳光小城,2万株蓝花楹美疯!观海登山,美食吃到爽!

掌上金牛
2026-04-10 21:45:56
天才少女神话终结,国羽女单时隔7年再夺冠,三国鼎立时代来临

天才少女神话终结,国羽女单时隔7年再夺冠,三国鼎立时代来临

春日筆記
2026-03-09 18:04:47
解放军唯一的一次乌龙,一野和二野打了一个晚上,各自伤亡多少人

解放军唯一的一次乌龙,一野和二野打了一个晚上,各自伤亡多少人

旧史新谭
2026-04-05 17:00:22
郑丽文对“和平统一”表态后,宋楚瑜发声,郭正亮一句话亮了!

郑丽文对“和平统一”表态后,宋楚瑜发声,郭正亮一句话亮了!

达文西看世界
2026-04-11 10:47:38
美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

美国终于开始害怕?比稀土更致命王牌出手了,万斯:中国要冷静

混沌录
2026-04-10 22:53:19
后妈撕下面具?马筱梅生子后划清界限:大S儿女姓汪不姓马

后妈撕下面具?马筱梅生子后划清界限:大S儿女姓汪不姓马

黔乡小姊妹
2026-04-12 09:35:21
搞笑,勇士队库里在波德齐姆斯基砍30分后:像布克砍70分一样庆祝

搞笑,勇士队库里在波德齐姆斯基砍30分后:像布克砍70分一样庆祝

好火子
2026-04-12 02:45:00
73岁的普京恐怕没想到,和乌克兰打了四年,最支持他的反而是这国

73岁的普京恐怕没想到,和乌克兰打了四年,最支持他的反而是这国

小小科普员
2026-04-10 16:37:53
赵子琪回应被淘汰后不让她拿包:现在已经完全理解了,这就是节目正常的流程和安排

赵子琪回应被淘汰后不让她拿包:现在已经完全理解了,这就是节目正常的流程和安排

生性洒脱
2026-04-12 07:57:43
全红婵后续:香港媒体先爆料,检察日报喊话严查,队友集体背刺!

全红婵后续:香港媒体先爆料,检察日报喊话严查,队友集体背刺!

眼光很亮
2026-04-09 12:34:30
儿子办满月酒亲戚嫌远都不来,我不生气过年他们想来我关机回娘家

儿子办满月酒亲戚嫌远都不来,我不生气过年他们想来我关机回娘家

荷兰豆爱健康
2026-04-12 07:21:49
广东男篮外援人选揭晓:CBA老熟人联手NBL盖帽王

广东男篮外援人选揭晓:CBA老熟人联手NBL盖帽王

徐骧老表哥
2026-04-12 08:42:04
2026-04-12 10:28:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5467文章数 64622关注度
往期回顾 全部

科技要闻

理想称遭恶意拉踩,东风日产:尊重同行

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

头条要闻

牛弹琴:谈判惊心动魄 美军舰强闯霍尔木兹碰一鼻子灰

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

三轮磋商谈至深夜 美伊谈判三大议题仍待解

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
时尚
亲子
家居
游戏

教育要闻

并不是因为差了一分才淘汰你,而是为了淘汰你,才让你差一分

春季穿衣别死气沉沉,看看这27套日常穿搭,活力时尚又减龄

亲子要闻

萌娃躺在地上被旋转木马拖着走

家居要闻

复古风格 自然简约

因为蓝色星原实在是太大了,急不可耐的玩家们纷纷用梗图表达不满

无障碍浏览 进入关怀版