网易首页 > 网易号 > 正文 申请入驻

3D基础模型时代开启?Meta与牛津大学VGGT,开创高效3D视觉新范式

0
分享至


「仅需一次前向推理,即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉?」

3D 视觉领域正迎来新的巨变。牛津大学 VGG (Visual Geometry Group) 与 Meta AI 团队联合发布的最新研究 VGGT(Visual Geometry Grounded Transformer),提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型,能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。无需任何后处理优化,该模型已经在多个 3D 任务中性能显著超越传统优化方法与现有 SOTA 模型,推理速度可达秒级。这一研究打破了过去 3D 任务依赖繁琐几何迭代优化的传统范式,展示了 “越简单,越有效” 的强大潜力。

论文标题:VGGT: Visual Geometry Grounded Transformer

论文链接:https://arxiv.org/abs/2503.11651

  • 代码链接:https://github.com/facebookresearch/vggt
  • 演示平台:https://huggingface.co/spaces/facebook/vggt

打破传统范式:从迭代优化到端到端推理

传统 3D 重建技术高度依赖束调整(Bundle Adjustment, BA)等几何优化方法,需反复迭代且计算成本高昂。尽管近年来机器学习被引入辅助优化,但仍难以摆脱复杂后处理的桎梏。VGGT 开创性地采用纯前馈设计:通过大规模 3D 标注数据与 Transformer 架构的结合,模型在一次前向传播中即可完成全部几何推理任务。实验表明,即便输入数百张图像,VGGT 仍能在数秒内输出高质量结果,在精度与速度上均超越传统优化方法。

研究团队指出,VGGT 的成功并非源于复杂的结构设计或领域先验,而是得益于 Transformer 架构的通用性与大规模 3D 数据训练的协同效应。模型将输入图像转化为 Tokens 后,与随机初始化的相机 Tokens 共同输入交替注意力模块(Alternating-Attention),通过全局与帧级自注意力层的交替堆叠,逐步融合多视图几何信息。最终,相机参数经专用头部解码,图像 Tokens 则通过 DPT 头部生成密集预测(如深度图与点图)。值得一提的是,VGGT 仅使用自注意力机制(self attention),未使用跨注意力(cross attention)。

同时,为保持输入图像的置换不变性(改变输入图像顺序不改变预测结果),VGGT 摒弃了帧索引 (frame index) 位置编码。相反,VGGT 仅通过帧级自注意力机制动态关联同一图像的 Tokens。这种设计不仅使得模型无需依赖预设位置信息即可区分多视图数据,更赋予模型强大的泛化能力 —— 即便训练时仅使用 2-24 帧数据,测试时亦可轻松处理超过 200 帧的输入。VGGT 收集了 17 个大型 3D 数据集一起进行训练,在 64 块 A100GPU 上共耗时 9 天。

性能与泛化性双突破

定性演示视频显示,VGGT 能轻松应对不同数量图像及复杂场景的重建。同时,研究人员提供了与过去 SOTA 的定性比较。VGGT 可精准重建梵高油画等非真实场景的几何结构,甚至能处理无重叠视图或重复纹理的极端案例。用户可通过 Hugging Face Demo 上传图像,实时体验 3D 重建效果。

在定量实验中,VGGT 无需任何后处理即在相机姿势估计,多视图深度估计、点云重建等任务中全面领先,其推理速度较传统方法提升近 50 倍。即便与同期 CVPR 2025 的 Transformer-based 重建模型相比,VGGT 性能优势明显,并与速度最快的 Fast3R 相当。有趣的是,研究团队还意外发现,利用模型预测的深度图与相机参数反投影生成的点云,其质量甚至超过直接回归的点图,这一现象揭示了模型对几何一致性内在规律的自发学习能力。

跨任务泛化的潜力 - 单目重建

尽管 VGGT 从未接受单图训练,但仍展现出强大的跨任务泛化能力。研究团队公布的单图重建定性结果显示,VGGT 在未专门训练的单目任务中表现出色。

VGGT 的代码和模型公开后,迅速有 github 社区成员跟进,在标准的单目设置下进行测试。GitHub 社区测试显示,VGGT 在 NYU V2 等数据集上的表现已逼近单目 SOTA 水平,这一「意外之喜」进一步印证了 VGGT 作为通用 3D 基础模型的潜力。

结语

视觉重建作为所有 3D 任务的核心,VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的,基础模型的时代。正如论文作者所述,我们正在见证视觉几何从 「手工设计」到「数据驱动」的范式迁移,而这可能仅仅是个开端。「简单架构 + 数据驱动」的模式是否能如 2D 视觉和 NLP 领域般彻底重塑 3D 任务?让我们拭目以待。

作者介绍:论文第一作者王建元为牛津大学视觉几何组(VGG)与Meta AI的联合培养博士生(博士三年级),长期致力于3D重建方法研究。其博士工作聚焦于端到端几何推理框架的创新,曾主导开发PoseDiffusion、VGGSfM,以及本次提出的通用3D基础模型VGGT,相关成果均发表于CVPR、ICCV等顶级会议,推动了数据驱动式3D重建技术的演进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

桌子的生活观
2026-03-26 12:28:04
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
A股:股民做好下车准备,大资金明牌了,周五将迎更大的暴风雨?

A股:股民做好下车准备,大资金明牌了,周五将迎更大的暴风雨?

夜深爱杂谈
2026-03-26 17:19:44
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
乌克兰打出400:1恐怖战绩,俄罗斯列宁格勒港口基本被打瘫痪

乌克兰打出400:1恐怖战绩,俄罗斯列宁格勒港口基本被打瘫痪

史政先锋
2026-03-26 16:17:12
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

湖北十堰大山深处,那个号称“小香港”的万人厂,如今人去楼空

GA环球建筑
2026-03-26 14:10:54
斯柯达将退出中国,大众中国回应

斯柯达将退出中国,大众中国回应

第一财经资讯
2026-03-26 15:14:56
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
张雪峰去世巨额遗产曝光,能给女儿留下多少钱?

张雪峰去世巨额遗产曝光,能给女儿留下多少钱?

蓝鲸新闻
2026-03-26 17:41:20
俄罗斯主帅:FIFA把我们禁赛了,就算加入亚足联顶多踢亚洲杯

俄罗斯主帅:FIFA把我们禁赛了,就算加入亚足联顶多踢亚洲杯

懂球帝
2026-03-26 16:30:07
香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

香港马拉松,阿Sa脸馒化成蔡明,黄晓明白又嫩,林志玲被嘲太做作

老吴教育课堂
2026-03-26 14:11:15
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
2026-03-26 21:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
家居
时尚
游戏
公开课

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

家居要闻

傍海而居 静观蝴蝶海

上新|| 她们说,找到了自己的人生裙子!

开冲!PS会员4月离库名单公布:独立神作进入倒计时

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版