网易首页 > 网易号 > 正文 申请入驻

VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

0
分享至



如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力?

来自香港科技大学(广州)与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。该工作通过深入分析 Visual Geometry Transformer (VGGT) 的内部机制,发现并利用了隐藏在注意力层中的运动线索。



作为一种无需训练 (Training-free) 的框架,VGGT4D 在动态物体分割、相机位姿估计及长序列 4D 重建等任务上均取得了优异性能。



  • 论文标题: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
  • 论文链接:https://arxiv.org/abs/2511.19971
  • 项目主页: https://3dagentworld.github.io/vggt4d/
  • 代码链接:https://github.com/3DAgentWorld/VGGT4D

研究背景

近年来,以 VGGT、DUSt3R 为代表的 3D 基础模型在静态场景重建中表现出色。然而,面对包含移动物体(如行人、车辆)的动态 4D 场景时,这些模型的性能往往显著下降。动态物体的运动不仅干扰背景几何建模,还会导致严重的相机位姿漂移。

现有的解决方案通常面临两类挑战:

  • 计算或训练成本高:依赖繁重的测试时优化 (Test-time Optimization) 或需要在大规模 4D 数据集上进行微调。
  • 依赖外部先验:通常需要引入光流、深度估计或语义分割等额外模块,增加了系统的复杂性。

VGGT4D 的核心设想:能否在不进行额外训练的前提下,直接从预训练的 3D 基础模型中挖掘出 4D 感知能力?

核心洞察:VGGT 内部的潜在运动线索

研究人员对 VGGT 的注意力机制进行了可视化分析,观察到一个关键现象:VGGT 的不同网络层对动态区域表现出截然不同的响应模式。

  • 浅层网络:倾向于捕捉语义上显著的动态物体。
  • 深层网络:则逐渐抑制几何不一致的区域。



这一发现表明,VGGT 虽然是基于静态假设训练的,但其内部实际上已经 隐式编码 了丰富的动态线索。



方法论:潜在运动线索的挖掘与解耦

VGGT4D 的核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制。该方法深入特征流形内部,利用 Gram 矩阵和梯度流实现了高精度的动静分离。



跨越投影间隙:基于 Gram 相似度的特征挖掘







基于投影雅可比矩阵的梯度流精修

为了解决 Attention Map 分辨率不足导致的边界模糊问题,VGGT4D 引入了 投影梯度感知精修 (Projection Gradient-aware Refinement)。





分布内早期掩膜策略(In-Distribution Early-Stage Masking)

在推理阶段,直接的全层掩膜(Full Masking)会将模型推向分布外(OOD)状态,导致性能下降。

VGGT4D 提出了一种早期阶段干预策略:仅在浅层抑制动态 Token 的 Key 向量。这种设计既在早期切断了动态信息对深层几何推理的影响,又保证了深层 Transformer Block 依然在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性。

实验验证

研究团队针对动态物体分割、相机位姿估计和 4D 点云重建三大核心任务,在六个基准数据集上进行了详尽的定量和定性评估。

核心组件评估:动态物体分割性能

实验首先评估了该方法的核心组件:动态物体分割。





定性分析:定性结果清晰地展示了基线方法的不足:Easi3R 的掩码较为粗糙且遗漏细节;DAS3R 倾向于过度分割并渗入静态背景;MonST3R 则常常分割不足。相比之下,VGGT4D 生成的掩码更加准确,且边界更加清晰。这些结果有力地验证了研究团队的假设:VGGT 的 Gram 相似度统计信息中嵌入了丰富的、可提取的运动线索。



鲁棒性验证:相机位姿估计

强大的基线与持续改进:数据表明,原始 VGGT 已经是一个非常强大的基线,其自身就优于 MonST3R、DAS3R 等许多专门的 4D 重建方法。这表明 VGGT 的预训练隐式地使其对动态物体具有一定的鲁棒性。然而,这种鲁棒性并不完美。 VGGT4D 在所有数据集上均持续改进了这一强大的 VGGT 基线。例如在 VKITTI 数据集上,VGGT4D 的 ATE 仅为 0.164,而 MonST3R 高达 2.272。



长序列鲁棒性突破:在极具挑战性的长序列 Point Odyssey 基准测试中,VGGT4D 在所有指标上均取得了最佳结果,同时保持了高度效率。许多其他 4D 方法由于内存不足(OOM)错误甚至无法在该 500 帧序列上运行。这表明 VGGT4D 提出的显式、无需训练的动态 - 静态分离方法成功地识别并消除了由运动引起的残余位姿不一致性,从而实现了更稳定、更准确的相机轨迹,尤其是在长且复杂的序列上。



最终目标:4D 点云重建质量实验

在 DyCheck 数据集上的评估显示,VGGT4D 在所有重建指标(准确度、完整度和距离)上均取得了最佳性能。与 VGGT 基线相比,中位准确度误差从 0.009 降低到 0.004,平均距离从 0.150 降低到 0.123。这证明了该方法不仅实现了精准的动静分离,更能实质性提升几何重建质量。





结语

VGGT4D 提出了一种无需训练的新范式,成功将 3D 基础模型的能力扩展至 4D 动态场景。该工作证明了通过合理挖掘模型内部的 Gram 相似度统计特性,可以有效解耦动态与静态信息。这不仅为低成本的 4D 重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马1-2拜仁!阿韦洛亚:不信能翻盘的留在马德里,下场别踢了!

皇马1-2拜仁!阿韦洛亚:不信能翻盘的留在马德里,下场别踢了!

仰卧撑FTUer
2026-04-08 07:10:06
捞到3吨黄金,被关押10年的寻宝人,不肯交代宝藏下落也放出来了

捞到3吨黄金,被关押10年的寻宝人,不肯交代宝藏下落也放出来了

收藏大视界
2026-04-05 17:49:44
大陆给高规格礼遇,郑丽文接下鲜花,坐高铁到南京前,她喊出12字

大陆给高规格礼遇,郑丽文接下鲜花,坐高铁到南京前,她喊出12字

哄动一时啊
2026-04-07 22:20:56
英国霸权如何落幕:又一历史被误读,盎撒内斗果然残酷

英国霸权如何落幕:又一历史被误读,盎撒内斗果然残酷

百家杂评
2026-03-26 07:36:23
一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

嫹笔牂牂
2026-04-07 14:51:29
伊朗代表:中俄坚定站在历史正确的一边

伊朗代表:中俄坚定站在历史正确的一边

新京报
2026-04-08 07:11:39
陈丽华66岁儿子赵勇担任富华国际集团总裁,是陈丽华和前夫所生

陈丽华66岁儿子赵勇担任富华国际集团总裁,是陈丽华和前夫所生

观鱼听雨
2026-04-07 17:58:37
毛主席有个奇怪的原则,一生从不碰这三种东西,它们都是什么?

毛主席有个奇怪的原则,一生从不碰这三种东西,它们都是什么?

历史点行
2026-04-05 17:49:27
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
WTI原油价格跌幅扩大至15%

WTI原油价格跌幅扩大至15%

每日经济新闻
2026-04-08 07:27:05
开始清算?法院接连出手,赵薇9天传来2个坏消息,哥哥也被牵连

开始清算?法院接连出手,赵薇9天传来2个坏消息,哥哥也被牵连

小熊侃史
2026-04-06 10:08:49
哈梅内伊“死而复生”?特朗普吹嘘美军功绩后,伊朗这般用意何在

哈梅内伊“死而复生”?特朗普吹嘘美军功绩后,伊朗这般用意何在

阿芒娱乐说
2026-04-07 17:37:54
官方通报“河北一羊汤店老鼠啃生肉”:网传情况属实,该门店已停业整顿,相关食材已进行登记、查封,并送样检测,对发现的问题将依法处理

官方通报“河北一羊汤店老鼠啃生肉”:网传情况属实,该门店已停业整顿,相关食材已进行登记、查封,并送样检测,对发现的问题将依法处理

潇湘晨报
2026-04-08 16:18:43
我年薪800万,妻子却总说我挣3000,小舅子婚礼那天才懂她的苦心

我年薪800万,妻子却总说我挣3000,小舅子婚礼那天才懂她的苦心

晓艾故事汇
2025-11-28 17:53:38
北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

北京挖出大太监李莲英之墓,开棺后,考古人员被吓得浑身发抖

历史人文2
2026-04-05 11:30:03
全新一代奥迪A6L销量大跌!2.0T最新发动机8秒多才破百,减配减料

全新一代奥迪A6L销量大跌!2.0T最新发动机8秒多才破百,减配减料

趣味萌宠的日常
2026-04-08 17:05:35
“微退休”成体制内新趋势:还有3-5年退休,不用硬扛到最后一刻

“微退休”成体制内新趋势:还有3-5年退休,不用硬扛到最后一刻

侃故事的阿庆
2026-04-08 16:43:46
太解气,全红婵动真格!官方出手整治幕后黑手,陈若琳的话应验了

太解气,全红婵动真格!官方出手整治幕后黑手,陈若琳的话应验了

TVB的四小花
2026-04-08 16:39:08
“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

极目新闻
2026-04-07 12:39:33
《浪姐7》小考状况多!李心洁团第一,陈瑶抢眼,江语晨又掉链子

《浪姐7》小考状况多!李心洁团第一,陈瑶抢眼,江语晨又掉链子

水中烧烤的娱
2026-04-08 15:00:25
2026-04-08 19:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12712文章数 142618关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

男子称套中的鹦鹉致父亲高烧患肺炎:治疗25天花费18万

头条要闻

男子称套中的鹦鹉致父亲高烧患肺炎:治疗25天花费18万

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

游戏
本地
家居
手机
公开课

PS港服春季优惠上线!《地平线5》《如龙8》好价来临

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

自在恣意 侘寂风别墅

手机要闻

OPPO哈苏大师模全新升级 胶片配方水印同款直出

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版