网易首页 > 网易号 > 正文 申请入驻

Feed-Forward 3D综述:三维视觉如何「一步到位」

0
分享至



在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。

然而,以往的方法往往依赖于每个场景的反复优化(per-scene optimization),既慢又缺乏泛化能力。在 AI 驱动的新时代,一个全新的范式正在崛起 ——Feed-Forward 3D。

这篇由NTU、Caltech、Westlake、UCSD、Oxford、Harvard、MIT 等 12 所机构联合撰写的综述论文,主要总结了过去五年(2021–2025)间涌现的数百项创新工作,首次建立了完整的Feed-Forward 3D 方法谱系与时间线。



  • 论文标题:Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey
  • 论文地址:https://arxiv.org/abs/2507.14501
  • 论文主页:https://fnzhan.com/projects/Feed-Forward-3D/





五大代表性技术分支

综述将所有 Feed-Forward 3D 方法划分为五类主流架构,每一类都推动了该领域的关键进展:

NeRF-based Models


Neural Radiance Fields (NeRF) 提出了体积渲染的可微分框架,但其「每个场景都要优化」的缺点导致效率低下。自 PixelNeRF [CVPR ’21] 起,研究者们开始探索「条件式 NeRF」,让网络直接预测辐射场。这一方向发展出多个分支:

  • 1D 特征方法(如 CodeNeRF、ShaRF)
  • 2D 特征方法(如 GRF、IBRNet、GNT、MatchNeRF)
  • 3D 特征方法(如 MVSNeRF、GeoNeRF、NeuRay)



PointMap Models


这一分支由 DUSt3R (CVPR ’24) 引领,直接在 Transformer 中预测像素对齐的 3D 点云(pointmap),无需相机姿态输入。后续工作 MASt3R、Fast3R、CUT3R、SLAM3R、VGGT 等相继提出更高效的多视整合、长序列记忆机制,以及大场景处理能力等。



3D Gaussian Splatting (3DGS)

3DGS 是近年来最具突破性的表示之一,将三维场景表示为高斯点云,兼顾了体积渲染的质量与光栅化的速度。然而原始 3DGS 仍需优化。Feed-Forward 研究者通过引入神经预测器,实现了「直接输出高斯参数」的能力,主要方法包括:

  • Image-based Gaussian Map:如 PixelSplat、GS-LRM、LGM、FreeSplatter,实现从单张图像到高斯场的预测;
  • Volume-based Gaussian Representation:如 LaRa、GaussianCube、QuickSplat、SCube,将场景嵌入可学习体素或三平面结构中。



Mesh / Occupancy / SDF Models


这一类方法延续了传统几何建模思路,并与 Transformer 与 Diffusion 模型结合:

  • MeshFormer、InstantMesh、MeshGPT、MeshXL 引入可自回归或大模型结构;
  • SDF 方法(如 SparseNeuS、C2F2NeuS、UFORecon)结合体积感知与 Transformer 特征聚合,实现了高精度表面建模。

3D-Free Models


这类方法不再依赖显式三维表示,而是直接学习从多视图到新视角的映射。

  • Regression-based:如 SRT、OSRT、RePAST、LVSM,利用深度神经网络直接端到端拟合目标结果;
  • Generative Diffusion-based:以 Zero-1-to-3、SyncDreamer、MVDream、CAT3D、CAT4D 为代表,将图像或视频扩散模型迁移到三维生成领域。 这些模型让「一张图生成整个场景」成为可能。





多样化任务与应用场景

论文系统总结了 Feed-Forward 模型在多个方向的应用:

  • Pose-Free Reconstruction & View Synthesis(PF3Plat、NoPoSplat)
  • Dynamic 4D Reconstruction & Video Diffusion(MonST3R、4D-LRM、Aether)
  • SLAM 与视觉定位(SLAM3R、VGGT-SLAM、Reloc3R)
  • 3D-Aware 图像与视频生成(DiffSplat、Bolt3D)
  • 数字人建模(Avat3R、GaussianHeads、GIGA)
  • 机器人操作与世界模型(ManiGaussian、ManiGaussian++)

Benchmark 与评测指标

论文收录了超过 30 个常用 3D 数据集(见第 13 页表 1),涵盖对象级、室内、室外、静态与动态场景,标注模态包括 RGB、深度、LiDAR、语义与光流等。

同时总结了 PSNR / SSIM / LPIPS(图像质量),Chamfer Distance(几何精度),AUC / RTE / RRA(相机姿态)等标准指标体系,为未来的模型比较提供统一基线。



评测结果:

Feed-Forward 3D 的量化进展

根据 Table 2–5 的结果,本综述对多项任务进行了系统对比:

  • 相机姿态估计(Camera Pose Estimation)



  • 点图重建(Point Map Estimation)



  • 视频深度估计(Video Depth Estimation)



  • 单图新视角合成(Single-Image NVS)



未来挑战与趋势

论文在第 5 章提出四大开放问题:

  • 多模态数据不足:RGB-only 仍占主流,缺乏统一的深度/LiDAR/语义对齐数据;
  • 重建精度待提升:尚未全面超越 MVS 在细节层面的表现;
  • 自由视角渲染难度高:遮挡与光照建模仍受限;
  • 长上下文推理瓶颈:处理 100+ 帧序列需 40 GB 以上显存。

未来方向包括:Diffusion Transformers 与长程注意力结构;可扩展的 4D 记忆机制;多模态大规模数据集构建(RGB + Depth + LiDAR + 语义);同时具有生成和重建能力的 Feed-Forward 模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贝克汉姆授爵后全家餐厅庆功,维多利亚优雅领衔、小七显成熟韵味

贝克汉姆授爵后全家餐厅庆功,维多利亚优雅领衔、小七显成熟韵味

述家娱记
2025-11-06 10:17:41
火箭对阵马刺!伤病名单出炉:2位老将缺阵,32岁高塔出战成疑

火箭对阵马刺!伤病名单出炉:2位老将缺阵,32岁高塔出战成疑

熊哥爱篮球
2025-11-07 10:14:23
“高贵”的玛莎拉蒂,降到35万了!超豪车品牌扛不住了,搞起了双11大促销,“骨折式”大甩卖,纯电降价更多

“高贵”的玛莎拉蒂,降到35万了!超豪车品牌扛不住了,搞起了双11大促销,“骨折式”大甩卖,纯电降价更多

和讯网
2025-11-06 09:34:39
人形机器人IRON里藏真人?何小鹏拍一镜到底视频回应

人形机器人IRON里藏真人?何小鹏拍一镜到底视频回应

21世纪经济报道
2025-11-06 14:28:02
被判死刑她大喊:愿捐200万亿买自己小命,成为一只会下金蛋的鹅

被判死刑她大喊:愿捐200万亿买自己小命,成为一只会下金蛋的鹅

梦史
2025-11-06 17:06:07
华为新机突然上架:11月11日,正式开启发售!

华为新机突然上架:11月11日,正式开启发售!

Q科技基地
2025-11-07 12:03:56
出差前我关了水闸,楼下邻居却投诉我家漏水,撬开门后我大吃一惊

出差前我关了水闸,楼下邻居却投诉我家漏水,撬开门后我大吃一惊

黄小乖的日记
2025-11-02 14:00:21
爆雷的私处“高潮针”,掏空2亿少妇!

爆雷的私处“高潮针”,掏空2亿少妇!

广告创意
2025-08-21 17:30:28
见过最傻的父母:手里攥着大把的存款和退休金,等着给子女当遗产

见过最傻的父母:手里攥着大把的存款和退休金,等着给子女当遗产

阿芒娱乐说
2025-11-05 05:04:48
两性关系:70岁后,最可怕的,不是病不是死,而是这四件事。

两性关系:70岁后,最可怕的,不是病不是死,而是这四件事。

小影的娱乐
2025-11-07 12:05:06
女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

思絮
2025-10-24 10:42:12
郑丽文公开表态,为了两岸和平,她愿意访问大陆100次!

郑丽文公开表态,为了两岸和平,她愿意访问大陆100次!

林子说事
2025-11-07 11:26:40
67岁老人哭诉:我和老伴的退休金共11000,现在却连20块都拿不出

67岁老人哭诉:我和老伴的退休金共11000,现在却连20块都拿不出

拾代谈生活
2025-11-07 02:16:33
1945年刘伯承女儿刘华北遇害,死前对凶手说:叔叔我认识你

1945年刘伯承女儿刘华北遇害,死前对凶手说:叔叔我认识你

抽象派大师
2025-11-03 22:02:00
签下合同,王岚嵚发声,正式加盟,名单公布,出发广东,目标冲冠

签下合同,王岚嵚发声,正式加盟,名单公布,出发广东,目标冲冠

乐聊球
2025-11-06 11:28:55
不跳水了?央视发声,官宣决定,全红婵:知道不练,大家会不喜欢

不跳水了?央视发声,官宣决定,全红婵:知道不练,大家会不喜欢

乐聊球
2025-11-07 10:17:36
女子离婚1年想复婚,结果前夫娶了小6岁娇妻,网友:被秒杀

女子离婚1年想复婚,结果前夫娶了小6岁娇妻,网友:被秒杀

农村情感故事
2025-11-05 13:08:58
涉嫌严重违纪违法!江苏省灌云县农业农村局原党委书记、局长任礼宁被查

涉嫌严重违纪违法!江苏省灌云县农业农村局原党委书记、局长任礼宁被查

鲁中晨报
2025-11-07 11:31:03
11月7日金价!大家要有心理准备了,下周金价或将迎来大风暴

11月7日金价!大家要有心理准备了,下周金价或将迎来大风暴

三农老历
2025-11-07 10:36:01
定档将播!总台央八、腾优爱将播5部大剧,众星云集,你们追哪部

定档将播!总台央八、腾优爱将播5部大剧,众星云集,你们追哪部

小椰的奶奶
2025-11-07 12:39:21
2025-11-07 13:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11669文章数 142500关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

美国试射洲际弹道导弹后 俄方几乎整个领导层齐聚克宫

头条要闻

美国试射洲际弹道导弹后 俄方几乎整个领导层齐聚克宫

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

白百何回应东京电影节争议

财经要闻

老登们的社交货币全崩了

汽车要闻

小鹏X9增程版综合续航1606公里 有底气挑战赛那?

态度原创

房产
家居
教育
数码
艺术

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

家居要闻

现代自由 功能美学居所

教育要闻

成都市金牛区实外高级中学第五届综合运动会盛大开幕

数码要闻

快讯|《移动终端通用快速充电解决方案》发布

艺术要闻

上海人狂喜!百米“翡翠山”官宣,魔都真要造山了!

无障碍浏览 进入关怀版