网易首页 > 网易号 > 正文 申请入驻

Feed-Forward 3D综述:三维视觉如何「一步到位」

0
分享至



在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。

然而,以往的方法往往依赖于每个场景的反复优化(per-scene optimization),既慢又缺乏泛化能力。在 AI 驱动的新时代,一个全新的范式正在崛起 ——Feed-Forward 3D。

这篇由NTU、Caltech、Westlake、UCSD、Oxford、Harvard、MIT 等 12 所机构联合撰写的综述论文,主要总结了过去五年(2021–2025)间涌现的数百项创新工作,首次建立了完整的Feed-Forward 3D 方法谱系与时间线。



  • 论文标题:Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey
  • 论文地址:https://arxiv.org/abs/2507.14501
  • 论文主页:https://fnzhan.com/projects/Feed-Forward-3D/





五大代表性技术分支

综述将所有 Feed-Forward 3D 方法划分为五类主流架构,每一类都推动了该领域的关键进展:

NeRF-based Models


Neural Radiance Fields (NeRF) 提出了体积渲染的可微分框架,但其「每个场景都要优化」的缺点导致效率低下。自 PixelNeRF [CVPR ’21] 起,研究者们开始探索「条件式 NeRF」,让网络直接预测辐射场。这一方向发展出多个分支:

  • 1D 特征方法(如 CodeNeRF、ShaRF)
  • 2D 特征方法(如 GRF、IBRNet、GNT、MatchNeRF)
  • 3D 特征方法(如 MVSNeRF、GeoNeRF、NeuRay)



PointMap Models


这一分支由 DUSt3R (CVPR ’24) 引领,直接在 Transformer 中预测像素对齐的 3D 点云(pointmap),无需相机姿态输入。后续工作 MASt3R、Fast3R、CUT3R、SLAM3R、VGGT 等相继提出更高效的多视整合、长序列记忆机制,以及大场景处理能力等。



3D Gaussian Splatting (3DGS)

3DGS 是近年来最具突破性的表示之一,将三维场景表示为高斯点云,兼顾了体积渲染的质量与光栅化的速度。然而原始 3DGS 仍需优化。Feed-Forward 研究者通过引入神经预测器,实现了「直接输出高斯参数」的能力,主要方法包括:

  • Image-based Gaussian Map:如 PixelSplat、GS-LRM、LGM、FreeSplatter,实现从单张图像到高斯场的预测;
  • Volume-based Gaussian Representation:如 LaRa、GaussianCube、QuickSplat、SCube,将场景嵌入可学习体素或三平面结构中。



Mesh / Occupancy / SDF Models


这一类方法延续了传统几何建模思路,并与 Transformer 与 Diffusion 模型结合:

  • MeshFormer、InstantMesh、MeshGPT、MeshXL 引入可自回归或大模型结构;
  • SDF 方法(如 SparseNeuS、C2F2NeuS、UFORecon)结合体积感知与 Transformer 特征聚合,实现了高精度表面建模。

3D-Free Models


这类方法不再依赖显式三维表示,而是直接学习从多视图到新视角的映射。

  • Regression-based:如 SRT、OSRT、RePAST、LVSM,利用深度神经网络直接端到端拟合目标结果;
  • Generative Diffusion-based:以 Zero-1-to-3、SyncDreamer、MVDream、CAT3D、CAT4D 为代表,将图像或视频扩散模型迁移到三维生成领域。 这些模型让「一张图生成整个场景」成为可能。





多样化任务与应用场景

论文系统总结了 Feed-Forward 模型在多个方向的应用:

  • Pose-Free Reconstruction & View Synthesis(PF3Plat、NoPoSplat)
  • Dynamic 4D Reconstruction & Video Diffusion(MonST3R、4D-LRM、Aether)
  • SLAM 与视觉定位(SLAM3R、VGGT-SLAM、Reloc3R)
  • 3D-Aware 图像与视频生成(DiffSplat、Bolt3D)
  • 数字人建模(Avat3R、GaussianHeads、GIGA)
  • 机器人操作与世界模型(ManiGaussian、ManiGaussian++)

Benchmark 与评测指标

论文收录了超过 30 个常用 3D 数据集(见第 13 页表 1),涵盖对象级、室内、室外、静态与动态场景,标注模态包括 RGB、深度、LiDAR、语义与光流等。

同时总结了 PSNR / SSIM / LPIPS(图像质量),Chamfer Distance(几何精度),AUC / RTE / RRA(相机姿态)等标准指标体系,为未来的模型比较提供统一基线。



评测结果:

Feed-Forward 3D 的量化进展

根据 Table 2–5 的结果,本综述对多项任务进行了系统对比:

  • 相机姿态估计(Camera Pose Estimation)



  • 点图重建(Point Map Estimation)



  • 视频深度估计(Video Depth Estimation)



  • 单图新视角合成(Single-Image NVS)



未来挑战与趋势

论文在第 5 章提出四大开放问题:

  • 多模态数据不足:RGB-only 仍占主流,缺乏统一的深度/LiDAR/语义对齐数据;
  • 重建精度待提升:尚未全面超越 MVS 在细节层面的表现;
  • 自由视角渲染难度高:遮挡与光照建模仍受限;
  • 长上下文推理瓶颈:处理 100+ 帧序列需 40 GB 以上显存。

未来方向包括:Diffusion Transformers 与长程注意力结构;可扩展的 4D 记忆机制;多模态大规模数据集构建(RGB + Depth + LiDAR + 语义);同时具有生成和重建能力的 Feed-Forward 模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大量食用油被检测出致癌物!自查厨房是否有这3种油,可别再吃了

大量食用油被检测出致癌物!自查厨房是否有这3种油,可别再吃了

读懂世界历史
2026-03-01 18:09:06
A股开盘:三大指数集体低开,石油、有色·钨、航运等概念逆势走强

A股开盘:三大指数集体低开,石油、有色·钨、航运等概念逆势走强

界面新闻
2026-03-02 09:27:56
为什么懂车的人,都悄悄选了问界M7?答案很现实!

为什么懂车的人,都悄悄选了问界M7?答案很现实!

阿芒娱乐说
2026-03-01 17:38:55
伊朗宣布斩首以色列空军司令,摧毁法国海军基地!

伊朗宣布斩首以色列空军司令,摧毁法国海军基地!

胜研集
2026-03-02 00:05:34
曼联2-1排第三!B费传射创纪录谢什科制胜,卡里克建立争四大优势

曼联2-1排第三!B费传射创纪录谢什科制胜,卡里克建立争四大优势

罗米的曼联博客
2026-03-02 07:21:48
脸在江山在?事实证明,失去黄晓明的杨颖,又回到了她的“怪圈”

脸在江山在?事实证明,失去黄晓明的杨颖,又回到了她的“怪圈”

观察鉴娱
2026-02-28 10:07:44
研究警告:越来越多家庭因吃它中毒!冰箱里这类肉别超3个月!

研究警告:越来越多家庭因吃它中毒!冰箱里这类肉别超3个月!

全球军事记
2026-02-28 10:12:38
中东多地遭伊朗报复性打击,迪拜帆船酒店遭袭起火

中东多地遭伊朗报复性打击,迪拜帆船酒店遭袭起火

观察者网
2026-03-01 12:13:04
比亚迪股份:1—2月新能源汽车销量同比下降35.8%

比亚迪股份:1—2月新能源汽车销量同比下降35.8%

证券时报
2026-03-01 20:11:35
从1200万到100万,日本围棋实际被精致利己主义毁掉了

从1200万到100万,日本围棋实际被精致利己主义毁掉了

月满大江流
2026-03-01 14:52:46
随着AC米兰2-0,尤文图斯3-3,亚特兰大1-2,意甲最新积分榜出炉

随着AC米兰2-0,尤文图斯3-3,亚特兰大1-2,意甲最新积分榜出炉

侧身凌空斩
2026-03-02 07:01:35
美国警方承认谷爱凌曾遭殴打,手臂抓伤严重,未来人身安全存隐患

美国警方承认谷爱凌曾遭殴打,手臂抓伤严重,未来人身安全存隐患

削桐作琴
2026-03-01 14:27:41
笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

笑发财,那些年港媒取的标题真的狠毒!网友:鸭脖也是鸭,没毛病

夜深爱杂谈
2026-03-01 20:12:43
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
美军四星上将亲口承认:全球战力最强的只有3国,其他的不值一提

美军四星上将亲口承认:全球战力最强的只有3国,其他的不值一提

迷彩前沿
2025-10-05 13:49:19
伊朗外长:新任最高领袖将在“一或两天”内被选出

伊朗外长:新任最高领袖将在“一或两天”内被选出

参考消息
2026-03-01 23:29:38
全网被萌翻!汪小菲家小七宝成马年第一团宠,玥儿抱弟弟画面太暖

全网被萌翻!汪小菲家小七宝成马年第一团宠,玥儿抱弟弟画面太暖

扒星人
2026-02-28 20:35:02
向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

向美国捐8亿被骂叛徒!无锡唐氏21代掌门:我的钱只认文明归属

谈史论天地
2026-02-10 08:16:24
人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

小熊侃史
2026-01-18 07:20:09
74岁陈凯歌在三亚豪宅过年,穿5万元皮鞋戴大金表,脸上有老年斑

74岁陈凯歌在三亚豪宅过年,穿5万元皮鞋戴大金表,脸上有老年斑

洲洲影视娱评
2026-02-26 13:52:42
2026-03-02 11:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12384文章数 142573关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

头条要闻

牛弹琴:伊朗之战比俄乌之战更生猛 给世界5个深刻教训

体育要闻

卡里克主场5连胜!队史第2人通过最大考验

娱乐要闻

美伊以冲突爆发,多位明星被困中东

财经要闻

中东局势影响如何?十大券商策略来了

汽车要闻

小米发布超跑! 游戏中对标布加迪法拉利

态度原创

本地
游戏
时尚
艺术
公开课

本地新闻

津南好·四时总相宜

知名可靠消息人士谈《巫师3》DLC:它确实存在!

从每天只睡4小时到8小时:一个失眠者的自救指南

艺术要闻

这幅草书的14个字,您能全部认出来吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版