网易首页 > 网易号 > 正文 申请入驻

Feed-Forward 3D 综述:三维视觉如何“一步到位”

0
分享至


投稿作者:占方能(MIT研究员)

在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。从早期的Structure-from-Motion (SfM) 到Neural Radiance Fields (NeRF),再到3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。


然而,以往的方法往往依赖于每个场景的反复优化(per-scene optimization),既慢又缺乏泛化能力。在 AI 驱动的新时代,一个全新的范式正在崛起 ——Feed-Forward 3D


这篇由NTU、Caltech、Westlake、UCSD、Oxford、Harvard、MIT 等 12 所机构联合撰写的综述论文《Advances in Feed-Forward 3D Reconstruction and View Synthesis》,主要总结了过去五年(2021–2025)间涌现的数百项创新工作,首次建立了完整的Feed-Forward 3D 方法谱系与时间线


论文链接:https://arxiv.org/abs/2507.14501

论文主页:https://fnzhan.com/projects/Feed-Forward-3D/

五大代表性技术分支

综述将所有 Feed-Forward 3D 方法划分为五类主流架构,每一类都推动了该领域的关键进展:

1.NeRF-based Models

Neural Radiance Fields (NeRF) 提出了体积渲染的可微分框架,但其“每个场景都要优化”的缺点导致效率低下。自 PixelNeRF [CVPR’21] 起,研究者们开始探索“条件式 NeRF”,让网络直接预测辐射场。这一方向发展出多个分支:

  • 1D 特征方法(如 CodeNeRF、ShaRF)

  • 2D 特征方法(如 GRF、IBRNet、GNT、MatchNeRF)

  • 3D 特征方法(如 MVSNeRF、GeoNeRF、NeuRay)


2.PointMap Models

这一分支由 DUSt3R (CVPR’24) 引领,直接在 Transformer 中预测像素对齐的 3D 点云(pointmap),无需相机姿态输入。后续工作 MASt3R、Fast3R、CUT3R、SLAM3R、VGGT 等相继提出更高效的多视整合,长序列记忆机制,以及大场景处理能力等。


3.3D Gaussian Splatting (3DGS)

3DGS 是近年来最具突破性的表示之一,将三维场景表示为高斯点云,兼顾了体积渲染的质量与光栅化的速度。然而原始 3DGS 仍需优化。Feed-Forward 研究者通过引入神经预测器,实现了“直接输出高斯参数”的能力,主要方法包括:

  • Image-based Gaussian Map:实现从单张图像到高斯场的预测,如 PixelSplat、GS-LRM、LGM、FreeSplatter;

  • Volume-based Gaussian Representation:将场景嵌入可学习体素或三平面结构中,如 LaRa、GaussianCube、QuickSplat、SCube。


4.Mesh / Occupancy / SDF Models

这一类方法延续了传统几何建模思路,并与 Transformer 与 Diffusion 模型结合:

  • MeshFormer、InstantMesh、MeshGPT、MeshXL 引入可自回归或大模型结构;

  • SDF 方法(如 SparseNeuS、C2F2NeuS、UFORecon)结合体积感知与 Transformer 特征聚合,实现了高精度表面建模。


5.3D-Free Models

这类方法不再依赖显式三维表示,而是直接学习从多视图到新视角的映射。

  • Regression-based:如 SRT、OSRT、RePAST、LVSM,利用深度神经网络直接端到端拟合目标结果;

  • Generative Diffusion-based:以 Zero-1-to-3、SyncDreamer、MVDream、CAT3D、CAT4D 为代表,将图像或视频扩散模型迁移到三维生成领域。这些模型让“一张图生成整个场景”成为可能。



多样化任务与应用场景

  • 论文系统总结了 Feed-Forward 模型在多个方向的应用:

  • Pose-Free Reconstruction & View Synthesis(PF3Plat、NoPoSplat)

  • Dynamic 4D Reconstruction & Video Diffusion(MonST3R、4D-LRM、Aether)

  • SLAM 与视觉定位(SLAM3R、VGGT-SLAM、Reloc3R)

  • 3D-Aware 图像与视频生成(DiffSplat、Bolt3D)

  • 数字人建模(Avat3R、GaussianHeads、GIGA)

  • 机器人操作与世界模型(ManiGaussian、ManiGaussian++)


Benchmark 与评测指标

论文收录了超过 30 个常用 3D 数据集(见第 13 页表 1),涵盖对象级、室内、室外、静态与动态场景,标注模态包括 RGB、深度、LiDAR、语义与光流等。

同时总结了 PSNR / SSIM / LPIPS(图像质量),Chamfer Distance(几何精度),AUC / RTE / RRA(相机姿态)等标准指标体系,为未来的模型比较提供统一基线。


评测结果: Feed-Forward 3D 的量化进展

根据 Table 2–5 的结果,本综述对多项任务进行了系统对比:

1. 相机姿态估计(Camera Pose Estimation)


2. 点图重建(Point Map Estimation)


3 .视频深度估计(Video Depth Estimation)


4. 单图新视角合成(Single-Image NVS)


未来挑战与趋势

论文在第 5 章提出四大开放问题:

1.多模态数据不足RGB-only 仍占主流,缺乏统一的深度/LiDAR/语义对齐数据;

2.重建精度待提升尚未全面超越 MVS 在细节层面的表现;

3.自由视角渲染难度高遮挡与光照建模仍受限;

4.长上下文推理瓶颈处理 100+ 帧序列需 40 GB 以上显存。

未来方向包括:

  • Diffusion Transformers 与长程注意力结构

  • 可扩展的4D 记忆机制;

  • 多模态大规模数据集构建(RGB + Depth + LiDAR + 语义);

  • 同时具有生成和重建能力的 Feed-Forward 模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国队逆转日本揪出最大毒瘤!他上场8分钟 球队输10分 打的真差

中国队逆转日本揪出最大毒瘤!他上场8分钟 球队输10分 打的真差

篮球专区
2026-02-26 21:18:29
网约车司机行驶中突发疾病昏迷,车上有乘客,“撞路边停下” 平台:已不幸离世,将做好关怀工作

网约车司机行驶中突发疾病昏迷,车上有乘客,“撞路边停下” 平台:已不幸离世,将做好关怀工作

红星新闻
2026-02-26 19:49:31
韦雪广西被偶遇,像杨幂但差远了,馒化严重,吃螺蛳粉不敢张大嘴

韦雪广西被偶遇,像杨幂但差远了,馒化严重,吃螺蛳粉不敢张大嘴

非常先生看娱乐
2026-02-25 16:59:15
春天吃一瓜,中药不用抓!一降火、二润肠、三强免疫,鲜嫩营养高

春天吃一瓜,中药不用抓!一降火、二润肠、三强免疫,鲜嫩营养高

阿龙美食记
2026-02-25 13:18:07
“预订三亚民宿8499元被毁约”后续:拟罚款35万,吊销营业执照

“预订三亚民宿8499元被毁约”后续:拟罚款35万,吊销营业执照

界面新闻
2026-02-26 18:36:33
突发!香港发生山火,深圳可见!

突发!香港发生山火,深圳可见!

港你知
2026-02-26 19:59:41
BBA集体 “大跳水”!奥迪跌破10万,宝马降27万...网友:感谢新能源!

BBA集体 “大跳水”!奥迪跌破10万,宝马降27万...网友:感谢新能源!

极果酷玩
2026-02-26 16:49:51
不容易!全员杀红眼逆转日本!5人满分大秋封神,继伟证明自己

不容易!全员杀红眼逆转日本!5人满分大秋封神,继伟证明自己

后仰大风车
2026-02-26 20:27:20
央视报道:我国干细胞治疗迎来临床转折,8类难治病或将率先受益

央视报道:我国干细胞治疗迎来临床转折,8类难治病或将率先受益

细胞
2026-02-25 19:00:04
概率六千万分之一!新疆24岁产妇在武汉诞下“一兄四妹”五胞胎

概率六千万分之一!新疆24岁产妇在武汉诞下“一兄四妹”五胞胎

互联网大观
2026-02-26 19:28:11
伊朗外交部发言人:本轮伊美谈判非常深入

伊朗外交部发言人:本轮伊美谈判非常深入

界面新闻
2026-02-26 21:59:28
河南项城15岁女孩离家失联16天被找到,已不幸遇难,其母亲称孩子平时成绩优秀,性格开朗

河南项城15岁女孩离家失联16天被找到,已不幸遇难,其母亲称孩子平时成绩优秀,性格开朗

极目新闻
2026-02-26 18:32:28
最新:乌克兰收复库皮扬斯克99%!摧毁俄军S400系统

最新:乌克兰收复库皮扬斯克99%!摧毁俄军S400系统

项鹏飞
2026-02-26 17:32:02
两会前夕,9名解放军将领全国人大代表资格被罢免(附完整名单)

两会前夕,9名解放军将领全国人大代表资格被罢免(附完整名单)

翻译大傻
2026-02-26 22:35:34
WTT大满贯!八强出炉,日乒两人止步,张本美和强势,王曼昱压力大增

WTT大满贯!八强出炉,日乒两人止步,张本美和强势,王曼昱压力大增

篮球看比赛
2026-02-26 16:34:46
WTT新加坡大满贯:男单8强已出其5!王楚钦大逆转,单局1-7翻盘

WTT新加坡大满贯:男单8强已出其5!王楚钦大逆转,单局1-7翻盘

全言作品
2026-02-26 21:52:48
中国音乐家李梳曈在纽约路边换胎时被撞身亡,年仅35岁,留下妻子和仅1岁的孩子

中国音乐家李梳曈在纽约路边换胎时被撞身亡,年仅35岁,留下妻子和仅1岁的孩子

大象新闻
2026-02-26 13:45:03
赢日本7分!杨鸣大赞中国男篮1人:三分很关键,起到了奇兵作用

赢日本7分!杨鸣大赞中国男篮1人:三分很关键,起到了奇兵作用

体育哲人
2026-02-26 20:44:43
洛克希德·马丁的生产线突然停了,中国冻结了他们在华的全部资产

洛克希德·马丁的生产线突然停了,中国冻结了他们在华的全部资产

百态人间
2026-02-25 15:33:21
太惨了!阿里跌20%,腾讯跌24%,小米跌40%,美团跌62%,内资被套

太惨了!阿里跌20%,腾讯跌24%,小米跌40%,美团跌62%,内资被套

新浪财经
2026-02-26 16:33:55
2026-02-27 03:15:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

美国政府对外交官下令:开始行动

头条要闻

美国政府对外交官下令:开始行动

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

本地
游戏
亲子
房产
公开课

本地新闻

津南好·四时总相宜

穿不起内衣的啥子国王,是怎么从妮姬表情包之王变成底层逻辑的?

亲子要闻

带孩子去公司是什么体验?网友:童言无忌,倒是能添许多的快乐

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版