网易首页 > 网易号 > 正文 申请入驻

VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建

0
分享至



如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力?

来自香港科技大学(广州)与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。该工作通过深入分析 Visual Geometry Transformer (VGGT) 的内部机制,发现并利用了隐藏在注意力层中的运动线索。



作为一种无需训练 (Training-free) 的框架,VGGT4D 在动态物体分割、相机位姿估计及长序列 4D 重建等任务上均取得了优异性能。



  • 论文标题: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction
  • 论文链接:https://arxiv.org/abs/2511.19971
  • 项目主页: https://3dagentworld.github.io/vggt4d/
  • 代码链接:https://github.com/3DAgentWorld/VGGT4D

研究背景

近年来,以 VGGT、DUSt3R 为代表的 3D 基础模型在静态场景重建中表现出色。然而,面对包含移动物体(如行人、车辆)的动态 4D 场景时,这些模型的性能往往显著下降。动态物体的运动不仅干扰背景几何建模,还会导致严重的相机位姿漂移。

现有的解决方案通常面临两类挑战:

  • 计算或训练成本高:依赖繁重的测试时优化 (Test-time Optimization) 或需要在大规模 4D 数据集上进行微调。
  • 依赖外部先验:通常需要引入光流、深度估计或语义分割等额外模块,增加了系统的复杂性。

VGGT4D 的核心设想:能否在不进行额外训练的前提下,直接从预训练的 3D 基础模型中挖掘出 4D 感知能力?

核心洞察:VGGT 内部的潜在运动线索

研究人员对 VGGT 的注意力机制进行了可视化分析,观察到一个关键现象:VGGT 的不同网络层对动态区域表现出截然不同的响应模式。

  • 浅层网络:倾向于捕捉语义上显著的动态物体。
  • 深层网络:则逐渐抑制几何不一致的区域。



这一发现表明,VGGT 虽然是基于静态假设训练的,但其内部实际上已经 隐式编码 了丰富的动态线索。



方法论:潜在运动线索的挖掘与解耦

VGGT4D 的核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制。该方法深入特征流形内部,利用 Gram 矩阵和梯度流实现了高精度的动静分离。



跨越投影间隙:基于 Gram 相似度的特征挖掘







基于投影雅可比矩阵的梯度流精修

为了解决 Attention Map 分辨率不足导致的边界模糊问题,VGGT4D 引入了 投影梯度感知精修 (Projection Gradient-aware Refinement)。





分布内早期掩膜策略(In-Distribution Early-Stage Masking)

在推理阶段,直接的全层掩膜(Full Masking)会将模型推向分布外(OOD)状态,导致性能下降。

VGGT4D 提出了一种早期阶段干预策略:仅在浅层抑制动态 Token 的 Key 向量。这种设计既在早期切断了动态信息对深层几何推理的影响,又保证了深层 Transformer Block 依然在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性。

实验验证

研究团队针对动态物体分割、相机位姿估计和 4D 点云重建三大核心任务,在六个基准数据集上进行了详尽的定量和定性评估。

核心组件评估:动态物体分割性能

实验首先评估了该方法的核心组件:动态物体分割。





定性分析:定性结果清晰地展示了基线方法的不足:Easi3R 的掩码较为粗糙且遗漏细节;DAS3R 倾向于过度分割并渗入静态背景;MonST3R 则常常分割不足。相比之下,VGGT4D 生成的掩码更加准确,且边界更加清晰。这些结果有力地验证了研究团队的假设:VGGT 的 Gram 相似度统计信息中嵌入了丰富的、可提取的运动线索。



鲁棒性验证:相机位姿估计

强大的基线与持续改进:数据表明,原始 VGGT 已经是一个非常强大的基线,其自身就优于 MonST3R、DAS3R 等许多专门的 4D 重建方法。这表明 VGGT 的预训练隐式地使其对动态物体具有一定的鲁棒性。然而,这种鲁棒性并不完美。 VGGT4D 在所有数据集上均持续改进了这一强大的 VGGT 基线。例如在 VKITTI 数据集上,VGGT4D 的 ATE 仅为 0.164,而 MonST3R 高达 2.272。



长序列鲁棒性突破:在极具挑战性的长序列 Point Odyssey 基准测试中,VGGT4D 在所有指标上均取得了最佳结果,同时保持了高度效率。许多其他 4D 方法由于内存不足(OOM)错误甚至无法在该 500 帧序列上运行。这表明 VGGT4D 提出的显式、无需训练的动态 - 静态分离方法成功地识别并消除了由运动引起的残余位姿不一致性,从而实现了更稳定、更准确的相机轨迹,尤其是在长且复杂的序列上。



最终目标:4D 点云重建质量实验

在 DyCheck 数据集上的评估显示,VGGT4D 在所有重建指标(准确度、完整度和距离)上均取得了最佳性能。与 VGGT 基线相比,中位准确度误差从 0.009 降低到 0.004,平均距离从 0.150 降低到 0.123。这证明了该方法不仅实现了精准的动静分离,更能实质性提升几何重建质量。





结语

VGGT4D 提出了一种无需训练的新范式,成功将 3D 基础模型的能力扩展至 4D 动态场景。该工作证明了通过合理挖掘模型内部的 Gram 相似度统计特性,可以有效解耦动态与静态信息。这不仅为低成本的 4D 重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
争议!墨菲失误后,女球迷对赵心童喊汉语“XX他”,裁判:谢谢你

争议!墨菲失误后,女球迷对赵心童喊汉语“XX他”,裁判:谢谢你

风过乡
2026-04-28 21:37:56
出其不意!阿联酋退出欧佩克,引爆石油美元,人民币迎来史诗利好

出其不意!阿联酋退出欧佩克,引爆石油美元,人民币迎来史诗利好

蓝色海边
2026-04-29 14:22:16
茶颜悦色深圳排队降温,黄牛价格跳水,五六月深圳还有新店

茶颜悦色深圳排队降温,黄牛价格跳水,五六月深圳还有新店

南方都市报
2026-04-29 14:09:19
竞拍者叫价6003万元抢到深圳高端别墅后悔拍,758万元保证金打水漂,竞拍时曾一次性加价达2211万元,拍卖方回应

竞拍者叫价6003万元抢到深圳高端别墅后悔拍,758万元保证金打水漂,竞拍时曾一次性加价达2211万元,拍卖方回应

极目新闻
2026-04-29 12:45:06
广东男篮球票降到六折,高诗岩膝伤严重,李炎哲点赞加盟辽宁留言

广东男篮球票降到六折,高诗岩膝伤严重,李炎哲点赞加盟辽宁留言

中国篮坛快讯
2026-04-28 18:15:54
男子一身名牌坐地铁,被指像成功人士,网友:再有钱也怕堵车

男子一身名牌坐地铁,被指像成功人士,网友:再有钱也怕堵车

丫头舫
2026-04-27 17:39:57
上海女博士在家8年未出门,警察破门后,看到屋内景象顿时傻眼了

上海女博士在家8年未出门,警察破门后,看到屋内景象顿时傻眼了

诡谲怪谈
2025-05-02 00:08:52
中国遭警告:拒收将面临供应中断!

中国遭警告:拒收将面临供应中断!

共工之锚
2026-04-28 23:20:50
天呢!上海再曝丑闻,引炸评论区…

天呢!上海再曝丑闻,引炸评论区…

慧翔百科
2026-04-28 08:56:47
越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

越南少将的坦白:中国军队在谅山再停留五天,越军将无一幸免

正观历史
2026-04-29 14:04:21
台湾政坛彻底炸锅!

台湾政坛彻底炸锅!

安安说
2026-04-28 10:56:05
山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

莫地方
2026-04-28 01:10:03
35.98万元起,第二代腾势D9上市,重塑豪华MPV价值新标杆

35.98万元起,第二代腾势D9上市,重塑豪华MPV价值新标杆

Geek研究僧
2026-04-28 13:52:24
母亲:你舅舅是我的亲弟弟,你应该给他养老,女儿:轮不到我养。

母亲:你舅舅是我的亲弟弟,你应该给他养老,女儿:轮不到我养。

施工员小天哥
2026-04-28 14:50:46
张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

张子强团伙中,唯一听了李嘉诚建议买28套豪宅的青年,后来如何了

深度报
2026-04-14 22:45:47
广东17分惨败夜揪出三大罪人!别急着喊杜锋下课:他才是罪魁祸首

广东17分惨败夜揪出三大罪人!别急着喊杜锋下课:他才是罪魁祸首

篮球快餐车
2026-04-29 02:57:48
Manus,彻底凉凉了

Manus,彻底凉凉了

技术领导力
2026-04-27 20:37:27
无人关注的金像奖,早已沦为村奖

无人关注的金像奖,早已沦为村奖

闲人电影
2026-04-20 16:43:27
克林根:这是我人生中经历过最棒的赛季之一,我很感激斯普利特

克林根:这是我人生中经历过最棒的赛季之一,我很感激斯普利特

懂球帝
2026-04-29 14:47:09
蒋勤勤素颜出镜,网友却吵翻了:这才是50岁最顶级的凡尔赛

蒋勤勤素颜出镜,网友却吵翻了:这才是50岁最顶级的凡尔赛

木子娱你同行
2026-04-29 09:35:38
2026-04-29 15:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12889文章数 142639关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

媒体:阿联酋官宣要走 对欧佩克重重一击

头条要闻

媒体:阿联酋官宣要走 对欧佩克重重一击

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

旅游
健康
房产
艺术
家居

旅游要闻

Club Med地中海俱乐部泰国首家奢华产品线度假村落子苏梅岛

揭秘干细胞抗衰美容七大谣言

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

艺术要闻

这些女神,竟然都是摄影师切尔尼亚季耶夫的复古作品!

家居要闻

寂然无界 简洁风格

无障碍浏览 进入关怀版