语义感知神经辐射场在视觉场景理解中的应用：全面综述|算法|体素|视图|鲁棒性

分享至

Semantically-aware Neural Radiance Fields for Visual Scene Understanding: A Comprehensive Review

语义感知神经辐射场在视觉场景理解中的应用：全面综述

https://arxiv.org/abs/2402.11141

摘要

本综述全面探讨了语义感知神经辐射场（NeRFs）在视觉场景理解中的作用，涵盖了对250多篇学术论文的分析。文章探讨了NeRFs如何娴熟地推断场景中静态和动态物体的三维表示。这一能力对于生成高质量的新视角、完成缺失的场景细节（修复）、进行全面的场景分割（全景分割）、预测三维边界框、编辑三维场景以及提取以对象为中心的三维模型至关重要。本研究的一个重要方面是应用语义标签作为视点不变函数，这些函数有效地将空间坐标映射到一系列语义标签，从而促进场景中不同物体的识别。总体而言，本综述强调了语义感知神经辐射场在视觉场景解释中的进展和多样化应用。

**关键词:** 神经辐射场，NeRFs，视觉场景理解，三维场景表示生成人工智能，文献综述。

1 引言

自诞生以来，神经辐射场（NeRFs）标志着显著的发展[145]，通过一种新的三维场景表示，前所未有地从一组二维图像中合成逼真的不可见视图。NeRFs的核心优势在于它们能够精细地模拟场景中光的复杂交互，从而生成既详细又逼真的三维表示。然而，传统的NeRFs主要关注几何和光度精度，往往忽略了观察场景的底层语义。

语义感知NeRFs（SRFs）的出现标志着这一领域的重要进步。这些模型不仅捕捉场景的物理特征，还融入了对语义和上下文信息的理解。这一技术飞跃促进了场景编辑、改进的对象识别以及更互动和逼真的虚拟环境等一系列复杂应用。

隐式神经渲染的最新发展也至关重要。这些方法展示了通过仅使用一组RGB图像作为监督，预测场景的体积密度和颜色，从而学习复杂场景的精确视图合成的可能性。尽管取得了这些进展，大多数现有方法仍局限于静态场景。它们倾向于将所有场景对象编码到单个神经网络中，因此无法表示动态场景或将场景分解为单个对象。这一限制是创建更具动态性和响应性的三维环境道路上的重大障碍。

视觉场景理解，通常分为计算机视觉的三个R[139]，即重建、识别和重新组织（即自底向上的分割），在领域内受到了大量关注，既作为单独的问题，也作为旨在利用其固有的相互信息性质的联合多任务方法，从而提高性能和效率[2, 224, 203, 42, 272]。类似地，传统的顺序解决NeRF然后感知的方法不仅为感知任务引入了额外的计算成本和低效性，而且在训练阶段也未能充分利用体积渲染相对于感知的互利潜力。这一差距代表了一个错失的机会，未能最大化三维场景重建和语义感知之间的协同效应。

我们的全面综述深入探讨了这些方面，探索了语义感知NeRFs的最新进展。我们研究了语义信息的整合如何显著增强NeRFs的能力，特别是在复杂和动态环境中。我们的讨论涵盖了将语义数据整合到辐射场中的各种方法、这些过程中固有的挑战以及这些丰富模型在不同领域的广泛潜在应用。

定位和影响。本文的最终目标是全面理解语义感知NeRFs的当前状态和潜力。我们的目标是识别现有方法中的差距，突出尚未克服的挑战，并提供未来研究方向的愿景。据我们所知，本综述是该领域首次专门集中于神经辐射场中的语义耦合。考虑到对该领域研究兴趣的日益增长，这一点具有重要意义。

1.1 先前相关综述

本节重点介绍先前进行的综述，这些综述探索了神经辐射场（NeRFs），特别强调从不同角度（包括二维、2.5D和多视图成像技术）对语义场景理解的研究。这些综述为该领域奠定了基础，并提供了关于NeRFs在处理和解释复杂视觉数据方面的开发、能力和局限性的见解。

我们的综述通过考虑特定时间段内广泛的场所和研究，扩展了现有的知识基础，提供了一个关于语义感知NeRFs领域进展的当代快照。我们不仅回顾了这些先前综述的发现和方法，还强调了我们的综述在其方法和重点上的独特之处。

特别是，我们的综述探讨了NeRF技术的最新进展如何被定制以增强语义场景理解。

这包括探索这些先进的NeRF模型如何解释和与复杂的视觉场景互动，推动视觉感知和场景解释的边界。我们还讨论了这些研究采用的方法论方法，提供了一个分析框架，将我们的方法与先前综述的方法进行对比。

更具体地说，在2023年11月发表的综述中，Xia等人[244]广泛涵盖了三维感知图像合成的领域，包括对隐式场景表示（如占用场、有符号距离场和辐射场）的详细讨论，特别强调了NeRFs。它还研究了可微神经渲染，强调其在微调神经网络进行三维渲染中的关键作用，并突出了体积渲染在基于NeRF的方法中的重要性。然而，与我们的综述相比，某些局限性变得明显。

[244]的更广泛范围与我们的综述的更集中方法形成对比，后者深入探讨了语义理解与NeRFs的整合。我们更窄的焦点允许更全面地探索语义整合如何增强或扩展NeRFs，特别是在复杂和动态环境中，这一方面在[244]中可能没有得到如此彻底的覆盖。

此外，我们的综述可能提供了关于实施语义增强NeRFs的实际应用和挑战的更丰富见解。这些实际考虑在[244]中代表不足。在未来的研究方向方面，我们的综述提供了针对NeRFs中语义理解的具体指导，而[244]可能呈现了更广泛的3D感知图像合成领域内的未来趋势和研究领域。

总之，尽管两篇综述都对计算机视觉和三维图像合成领域做出了重要贡献，但我们的综述因其对神经辐射场语义方面的专门和深入关注而脱颖而出，提供了与该领域语义整合进展特别相关的细致视角和见解。

在2023年11月的一份技术报告中，Gao等人[51]提供了对神经辐射场的广泛概述，讨论了NeRF模型、训练要求、研究中使用的各种数据集以及质量评估指标，如PSNR、SSIM和LPIPS。然而，与我们的综述相比，他们的综述在焦点和深度上显示出局限性。我们的综述专门集中于将语义理解整合到NeRFs中，提供了关于复杂和动态环境中语义增强的详细见解、实际应用和具体未来研究方向。相比之下，[51]涵盖了NeRF的更广泛主题，但缺乏对语义方面的专门关注，使我们的综述在推进神经辐射场语义整合方面更具全面性和针对性。

与通常涵盖NeRFs的已发表综述相比，如表1所述，我们的目标是向读者提供对语义感知NeRFs研究的全面理解。通过将我们的方法与先前综述进行比较，我们旨在强调我们的研究提供的独特贡献和见解，特别是在神经辐射场框架内整合和解释语义信息方面。

1.2 范围和方法论

本综述中引用的论文主要发表在计算机视觉、计算机图形学、机器学习和机器人学的顶级场所。它们涵盖了从2020年（第一篇NeRF论文[145]）到2024年1月提交本文的时间段。

我们的研究主要集中在语义感知NeRFs的六个主要类别上，这些类别定义了本工作中考虑的语义基本概念，如图2所示。

首先，我们考虑三维几何方法，这些方法主要使用语义信息来提高几何导向任务（如新视图合成和表面重建）的性能。具体来说，在非常具有挑战性的一对少场景中，即输入视图非常有限的情况下，基于NeRF的方法可以通过利用更高层次的信息来应对这种具有挑战性的设置的欠约束性质。除了“重建”应用外，我们的研究还包括分割，这些分割考虑了视觉场景理解的“识别”和“重新组织”R（分别是语义和预语义分割）[139]。可编辑的NeRFs允许通过各种先验和策略来操纵场景。我们还讨论了丰富辐射场公式的工作，这些工作考虑了三维物体检测或6D姿态。整体分解旨在以自上而下的方式编码输入场景的详尽结构。最后，我们研究了语言丰富的NeRFs，这些NeRFs为人类交互或有效的场景操纵启用了新的多模态应用。

三维视觉计算应用中的语义已被彻底探索，通常具有截然不同的定义和考虑。在本研究的背景下，我们意图中的“语义”可以分解为三个主要类别。最初，我们将语义视为一个显式的高级构造，用于指定对象和/或实例级标签[195]、三维物体边界框[72]、三维物体6D姿态[184]或场景范围分解[160, 119]。其次，对于可编辑的NeRFs和某些三维几何增强方法，我们通过语言表示学习的视角考虑语义（例如，[227]），旨在用紧凑、可控的代码描述场景对象[85]。这通常用于有效提高多视图一致性、应对缺失视图[83]或启用对象或场景级操纵[155]。最后，我们考虑了显式连接视觉和语言的SRF策略，以便通过文本提示生成新的三维内容[97]，或启用更高层次的场景交互和用户引导的操纵[192]。

我们的工作还旨在帮助不熟悉该主题的计算机视觉研究人员进入语义感知NeRFs。因此，我们涵盖了原始NeRF架构[145]的关键概念以及联合考虑语义分割的经典扩展[285]。此外，我们提供了一个全面的概述，包括相关公共数据集和评估工具。这还包括对这些公共基准测试中领先方法的集中视图，通过将最初分散在数十篇参考文献中的结果分组，并提供原创讨论和见解。

1.3 论文组织

本文的其余部分组织如下。第2节讨论了标准NeRF公式的关键原则及其扩展到基本语义任务，即语义分割。第3节提供了对SRFs的广泛文献综述，而第4节回顾了该领域常用的主要公共数据集、指标和评估工具。第5节探讨了当前的挑战和前景，强调了在理解语义场景和探索实际应用方面的潜在改进。最后，第6节总结了论文，为该领域提供了更高层次的视角。我们还将维护一个深入的项目存储库在GitHub上，网址为github.com/abourki/SoTA-Semantically-aware-NeRFs，包括一个全面的参考文献、数据集和性能评估列表，并定期更新以提供最新的最先进发展。

2 神经辐射场基础

本节介绍了初始NeRF论文的核心原则和术语，以及其将语义推理能力整合到其中的一个简单扩展。为此，我们涵盖了三维场景如何沿着NeRFs的正式定义进行表示，以及它们如何用于生成新视图。对于更一般或几何导向的细节，我们建议感兴趣的读者参考其他现有的综述，这些综述在这些方面比我们的研究更强调，我们的研究侧重于语义考虑，例如[244, 216, 249, 51]。

2.1 场景表示和问题陈述

由Mildenhall等人[145]引入的神经辐射场（NeRFs）彻底改变了新视图合成的领域。一个NeRF模型通过一个辐射场封装了一个三维场景，该辐射场本质上是一个5D函数，描述了穿过场景中每个方向的光强度。这是通过在空间中的每个点指定颜色（作为RGB值）和体积密度来实现的。NeRF模型的核心在于它使用多层感知器（MLPs）近似这个辐射函数的能力。在标准的NeRF框架[145]中，一个单一的MLP，记作FΘ，用于此目的，如下所示：

2.1.1 三维场景表示

辐射场通常使用两种不同的方法之一来表示三维场景：隐式和显式表示，分别使它们成为隐式或显式辐射场。当使用隐式场景表示时，例如在NeRFs的情况下使用有符号距离函数（SDFs）或深度神经网络（DNNs），场景的底层几何结构既没有显式定义也没有存储。它必须通过后处理或查询步骤来检索，因此在牺牲额外计算的情况下更具内存效率。

另一方面，显式辐射场依赖于显式定义场景几何结构的数据结构，例如点云[78]、体素网格[207]或置换晶格[183]，这些结构允许以更快的访问速度存储辐射信息，但通常受到与其优越内存复杂性相关的场景分辨率限制。

2.1.2 体渲染

体渲染[92]是一种技术，用于计算任何相机射线r(t) = o + td的颜色C(r)，其中o代表相机位置，d是观察方向，给定被渲染场景的体积密度和颜色函数。

2.1.3 训练新视角合成

在训练过程中，对于每个像素，使用平方误差光度损失来优化多层感知器（MLP）参数，如下所示：

其中R是每个批次中的光线集合，C(r)和分别是光线r的真实值和体积预测的RGB颜色。训练过程通常是特定于场景的，并且需要密集的图像及其三维姿态和内在参数，以及可以使用从运动结构（SfM）端到端框架估计的场景边界，例如COLMAP [186]、OpenMVG [153]或PixelPerfect [125]。

以下是使用NeRFs进行新视图合成的过程概述（参见图3中的(a–c)）。

i 通过场景中的图像像素发送相机光线，以生成采样点。

ii 使用MLP计算这些采样点的局部颜色和密度数据，并带有相应的观察方向。

iii 通过在整个过程中集成颜色和密度信息，计算体积渲染以重建输出图像。

2.2 位置编码

通过使用我们目前描述的标准方法处理场景，实验表明，输入到MLP FΘ的空间坐标中的小位移有时会导致合成图像中的严重后果，特别是在高频纹理区域。为了缓解这个问题，Mildenhall等人[145]考虑了位置编码，这是在将坐标输入传递给神经网络之前，使用非线性将其映射到更高维空间的过程。这使得更好地拟合包含高频变化的数据。编码函数的形式如下：

其中，γ(·)分别应用于x的每个归一化坐标值以及观察方向单位向量d的三个分量，其中L是编码维度参数（对于x，L通常为10；对于d，L通常为4）。

2.3 深度渲染

深度是视图合成和三维表示的宝贵数据来源。从特定姿态计算深度值的方式与渲染RGB像素类似：

此外，一些方法[159, 251]除了深度损失外，还加入了深度平滑约束。这是基于观察到现实世界几何通常表现出分段平滑的特征，其中平面比高频结构更常见。为了强制深度平滑，这些方法通常引入惩罚，鼓励渲染补丁的相邻像素具有相似的深度值。

2.4 赋予NeRFs语义推理能力

神经场表示的研究表明，MLP网络可以通过仅由一组RGB图像监督来预测其体积密度和颜色，从而从头开始训练复杂场景。然而，辐射场仅提供几何和辐射的低级表示，缺乏对场景的高级（例如，语义或以对象为中心）理解。标准的NeRF方法通常训练缓慢，并且在输入视图稀疏且深度范围无限的情况下，无法恢复可靠的几何结构[83, 45]。它们还局限于学习静态场景的高效表示，这些场景编码了场景中的所有对象，并且缺乏表示复杂场景和分解为填充场景的单个对象的能力[160]。

2.4.1 语义辐射场

语义标签也可以被形式化为一个固有的视图不变函数，该函数仅将世界坐标x映射到语义标签的分布，通过预softmax语义对数s(x)，而实例标识符则是一个独热编码。这是通过在将观察方向d注入渲染函数之前添加额外的分支来实现的：

2.4.2 先验学习和条件NeRFs

条件神经场引入了通过操纵潜在变量z来改变辐射场特性的能力。这些潜在变量可以涵盖各种方面，从从任何分布中抽取的随机样本到几何/语义属性，如形状、类型、大小、颜色等。或者，它们可以源自其他数据类型的编码，包括嵌入的文本或音频数据。实例特定的细节可以编码在条件潜在变量z中，而跨实例共享的信息存储在神经场的参数中。当这些潜在变量映射到语义或平滑变化的空间时，允许它们进行插值或编辑。

条件潜在代码z = E(I)由编码器或嵌入机制E生成，通常实现为神经网络（如图5所示）。E中的参数能够编码先验知识，这些知识可以从在数据集上的预训练或通过辅助任务中学习。解码器是受潜在代码条件化的神经场：

这种适应可以通过将场条件化为潜在变量z来实现，这些潜在变量封装了场景中的特定高级语义特征。当这些潜在变量被编辑时，相应的神经场可以相应地修改。

2.4.3 高级特征一致性

尽管3D场景领域具有独特的挑战和复杂性，但图像领域以其丰富的高质量数据集和大量已建立的有效特征提取技术而脱颖而出。图像特征空间中捕获的语义丰富性可以用来建立对应关系，并通过文本、图像查询或聚类来增强理解。尽管视图之间存在像素级错位，但观察到预训练的深度神经网络作为特征提取器提取的表示对这种错位具有鲁棒性，并在语义层面提供监督[83, 251, 150]。直观上，这种情况自然发生，因为两个视图的内容和风格相似，允许深度网络学习一个在它们之间保持一致的表示。感知损失，也称为特征损失或内容损失，是预测图像和真实图像之间高级特征差异的度量，两者都是从预训练网络中提取的：

3 用于视觉场景理解的语义感知神经网络

在本节中，我们将回顾最突出的基于NeRF的方法和策略，这些方法或策略利用语义级推理来增强3D几何，或旨在通过我们在考虑的分类法中提到的任务和应用（图2和图6）来实现更高层次的场景理解。

3.1 3D几何增强

在这一类别中，有几种值得注意的方法通过引入语义推理来提高性能，这些方法用于改进新视角合成（NVS），弥补输入视角数量的不足，推广到未见过的环境，或解决3D表面重建问题。

3.1.1 单次/少次NeRF

PixelNeRF [268]（图7）和S-RF [32]使用图像级的CNN特征，而MVSNeRF [22]通过图像扭曲构建3D成本体积，然后由3D CNN处理。这种全卷积策略允许网络跨多个场景进行训练，以学习场景级先验，从而推广到未见过的环境和对象类别。基于这一概念，MINE [113]、Behind the Scenes [238]和SceneRF [14]通过利用单目深度估计来降低场景表示的复杂性，并相应地重新定义特征提取和光线与颜色采样，以考虑自监督深度网络。

DietNeRF [83]和SinNeRF [251]将高级和全局语义属性与不同视角的语义伪标签进行匹配，并结合纹理指导，使我们能够从随机姿态监督训练过程。这特别改进了少次设置下的NVS感知质量。

单视图（即单次）重建也可以被表述为单图像NVS任务的条件3D生成问题，而无需显式的3D监督。RealFusion [142]和Zero-1-to-3 [132]从原始图像输入和互联网级别的预训练扩散模型中提取神经场，从而从未见过的视角或提示约束的零样本设置中实现对象的全面重建。此过程捕捉了外观和几何结构。此外，可以通过文本反转提取图像级文本嵌入，捕捉额外的视觉高级线索。然而，这种策略在未观察区域产生了相当模糊的表示，并且它们大多是面向对象的，假设背景为平面。

NeRDi [37]也使用在大规模图像数据集上训练的扩散先验。它利用两部分的语义指导来细化基于输入图像的通用先验知识。这确保了合成的新视角在语义和视觉上都是一致的。尽管模型在合成数据集上进行训练，但它显示出强大的零样本泛化能力。它有效地扩展到分布外的数据集和现实世界中的野外图像。SegNeRF [273]和S4C [66]解决了泛化问题，并学习了语义场，以自监督的方式从单个视图进行重建和分割，同时还允许语义对象/场景完成。Neural groundplans [191]将自监督的NeRF条件化为从多视图视频训练的地面对齐2D特征网格。NeO 360 [81]利用混合条件三平面表示，结合了体素和鸟瞰图（BEV）表示的优势。这些混合离散-连续表示允许从大量360度无界场景中学习，同时解决不同的下游任务，包括NVS、对象定位和从推理时的单个图像进行场景编辑。

3.1.2 表面重建

分段平面性假设，即假设给定场景主要可以通过分段平面表面来解释，一直是传统3D重建文献中的稳定先验，并且在隐式神经表示的背景下也已被证明是有效的。Guo等人[60]在法线损失函数中制定了地板和墙壁的几何约束，遵循曼哈顿世界假设[34]，假设三个相互正交的表面方向。这些区域通过2D语义分割网络获得。为了解决分割不准确的问题，他们使用另一个MLP对3D点的语义进行编码，该MLP联合优化场景几何和语义。PlaNeRF [230]也基于奇异值分解（SVD）进行平面正则化。这改进了对应于低纹理图像区域的底层几何结构，而无需任何额外的几何先验。S3PRecon [262]引入了一种迭代训练方案，通过超平面约束对像素进行分组并优化重建网络。这特别比使用显式的3D平面监督效果更好，后者获取成本高昂。

SS-NeRF [279]和MuvieNeRF [283]是多功能的多任务框架。它们可以从新视角渲染图像，并管理各种场景属性，如外观、几何和语义分割。两者都使用共享的场景编码网络，允许跨视图和跨任务注意力模块确保视图一致性。它们还研究了不同场景属性之间的关系以提高性能。这种方法突显了多任务学习和合成范式中知识转移的潜力，从不同任务和属性（如语义标签、表面法线、阴影、关键点和边缘）之间的相互信息关系中受益。

3.2 分割

场景理解的最常见方法通常集中在图像空间的2D推理上，使用经典的图像到图像架构，这些架构在大量语义注释的图像集上进行训练。尽管这些技术易于实现，但它们仅生成逐像素的注释，并且大多忽略了场景的底层3D结构。相比之下，我们的目标是使用一组具有已知姿态的RGB图像来生成3D语义/实例场。这涉及设计一个函数，该函数将语义和/或实例级类别的概率分布分配给特定的3D位置和视角。

3.2.1 语义、实例和全景分割

NeSF [226]使用预训练的NeRF生成体积密度网格。随后，使用3D UNet生成保持相同空间分辨率的特征网格。这一过程使得在3D空间内进行高级推理成为可能。通过在语义场上应用体积渲染方程并使用相机姿态生成语义图。因此，NeSF在各种场景上进行了全面训练，消除了在新场景推理时需要分割输入的需求。

Semantic-NeRF [285]是一项开创性的工作，它扩展了NeRF以包括语义、外观和几何。通过在场景特定的隐式MLP模型中添加语义类别预测到辐射和密度，它可以确保语义标签的多视图一致性。因此，实验展示了其在各种场景中进行多视图语义标签融合的能力：像素级标签噪声、区域级标签噪声、低分辨率密集或稀疏标签、部分标签以及使用不完美分割模型的输出。在这方面，一些研究利用3D几何和语义预测来解决标签不确定性。例如，Panoptic NeRF [45, 46]引入了一种由语义引导的优化过程来增强底层几何结构。该技术使用双重语义场：一个固定的语义场专注于指导底层密度，由3D边界基元定义，以及一个学习到的语义场，旨在捕捉语义分布。

另一项工作Semantic Ray [126]充分利用了从其多视图重投影中沿光线方向的语义信息。作者解决了先前方法的局限性，这些方法依赖于位置编码和场景特定模型进行语义学习。与这些方法不同，他们利用来自多个视图的见解，使用名为Cross-Reprojection Attention的新模块。该模块有效地捕捉重投影光线路径上的上下文信息，丰富了从不同视图的理解。

JacobiNeRF [253]引入了一种学习过程的正则化，以对齐高度相关实体的雅可比矩阵，在场景中的随机扰动中有效最大化它们的互信息。这种互信息建模方法对于配置NeRF进行稀疏标签传播以进行语义和实例分割是关键的。对于未标记的目标场景视图，可以通过选择源视图注释的扰动响应的argmax来生成标签。

Liu等人[137]提出通过融合分割模型的预测并使用视图一致渲染的语义标签作为模型适应的伪标签，为每个场景训练Semantic-NeRF网络。他们的方法同时训练帧级语义网络和场景级NeRF，确保语义预测和NeRF渲染的一致性。这种转移策略不仅提升了两个模型的性能，还反映了考虑不同场景之间的协变量偏移和重新访问先前观察到的场景的实际部署场景。

传统方法依赖于准确标记的地面真实数据来训练模型进行对象组合场景表示。重要的是要认识到，这些手动注释旨在保持3D一致性，确保特定对象的标识符在不同视点之间保持一致。然而，当使用现成网络生成的伪标签时，会出现一个主要挑战。这些从单个视图推断的标签通常无法保持实例索引的3D对齐，导致不一致。一些研究专注于解决这些差异并在同一场景的不同视点之间保持一致性，特别是在使用现成的2D全景分割网络时。这些努力旨在在隐式3D体积表示中保留机器生成的全景标签中的对象实例身份。例如，Panoptic Lifting [195]通过解决线性分配问题为机器生成的实例分配3D代理标识符，使用这些关联通过NCE损失指导实例场的训练。

Contrastive Lift [6]通过使用低维欧几里得空间改变了标记过程，简化了模型，减少了计算成对距离所需的维度。这种慢-快聚类目标函数是可扩展的，适合于大量对象（每个场景最多500个）。另一方面，PCFF [31]提出了实例四重损失，导致场景分解在实例级别上具有判别特征空间。该模型进一步通过添加到架构中的策略进行细化，如语义-外观层次学习和语义引导区域细化。最后，Instance-NeRF [136]试图将基于提议的NeRF-RCNN从3D对象掩码投影与图像空间中的不一致分割图匹配，从而细化初始实例分割结果。

3.2.2 预语义分割

DFF [104]、N3F [221]和FeatureNeRF [263]采用了一种2D教师-3D学生框架。在这种设置中，预训练的2D图像特征提取器如LSeg [111]、SAM [102]和DINO [16]充当“教师”，指导NeRF“学生”网络的学习过程。在这种情况下，损失函数通过施加渲染特征与特征描述符生成的输出之间的差异惩罚来设计。这些方法为语言引导编辑、3D空间重新排列和目标场景移除等应用铺平了道路。

NeRF-SOS [41]集成了一种自监督预训练框架，从模型渲染的颜色块生成特征张量。然后，该方法使用这些特征创建外观分割的体积，应用对比损失来关联外观分割和几何分割。在推理过程中，模型对渲染的特征场进行聚类处理以生成分割掩码。类似地，3D-OVS [128]展示了在弱监督方式下将类别相关性分布与这些预训练基础模型对齐可以实现精确的无注释分割，如图9所示。Feature-Realistic Fusion [141]将从EfficientNet学习到的通用特征融合到NeRF表示中。通过SLAM后端，该系统以实时增量方式运行，有效管理场景中新未观察区域的开探索。

RFP [135]引入了一种创新传播方法，使用双向光度损失。这种方法允许将场景无监督地划分为对应于单个对象实例的不同显著区域，从而在场景内有效执行对象分割。IntrinsicNeRF [264]更进一步，生成反射率、阴影和残差项等输出。该模型使用无监督先验和反射率聚类作为损失函数中的约束进行训练。这些项对于实时增强应用特别有用，如重新着色、光照变化和重要的语义分割。

SNeRL [193]将NeRF与语义和蒸馏特征场集成，专门用于强化学习应用。它采用基于NeRF的自编码器，训练为特征提取器，用于多视图强化学习（RL）任务的微调。该方法在各种3D环境中，在无模型和基于模型的RL算法中均优于当前的表示学习技术。

3.2.3 交互式分割

对于实用的场景标注工具，简单的用户注释如稀疏点击可以扩展和传播，以实现场景的密集和准确标注。这一过程允许以最少的特定场景注释创建完整和准确的2D语义标签。iLabel [284]进一步将语义标签传播集成到在线交互式3D场景捕捉系统中，使用户能够以最少的点击注释对连贯的3D实体进行分割。作者还引入了一种新颖的分层语义表示，使用二叉树，便于在不同层次上进行语义预测。Baking in the Feature [10]和ISRF [56]在统一的空间-语义空间中将蒸馏特征与双边搜索结合，用于交互式分割用户界面。NVOS [177]训练3D分割网络，使用部分用户涂鸦作为监督，将每个体素分类为前景或背景。随后应用学习到的分类器，并通过3D图切割进一步细化分割，利用涂鸦的3D距离场。其他方法[17, 236]旨在将Segment Anything Model (SAM) [102]推广到3D对象提取。这些方法在不同视图之间交替进行掩码逆渲染和跨视图自提示，从单个视图迭代完成3D对象掩码。用户可以用画笔在RGB视频序列中标注帧，同时系统同步拟合场景和注释模型。这些策略超越了传统预训练语义分割方法的标注准确性。SGISRF [215]更进一步，通过使用跨维度指导传播和隐藏-揭示学习方案，减少了交互式分割所需的用户交互次数。

3D场景操作中的另一个关键交互功能是以无缝和逻辑的方式移除不需要的对象，这一过程通常称为图像修复。该技术从预训练的NeRF模型及其关联的图像数据集开始。在第一阶段，即掩码生成阶段，使用一次性分割方法如Mask R-CNN [67]、SAM [102]或GLIP [114, 229]从单视图注释创建初始掩码。随后，NeRF-In [127]使用修复网络[15, 211]生成指导图像和深度图像，基于用户选择要移除的区域。此过程通过优化颜色指导和深度指导损失来更新NeRF模型。尽管NeRF-In并未完全解决修复器输出中的3D不一致性，并且仅最小化了使用的视图数量，但有建议克服模糊并确保视图之间的一致性。这些方法包括基于感知损失的松弛方法[150]、应用双边求解器以及结合估计深度以在修复区域中引入视图相关效果[149]。另一种技术涉及使用不确定性机制和像素级损失选择性排除视图[235]。Weder等人[235]的方法基于置信度分数迭代更新用于优化的图像集，以在修复过程中保持一致性。这使得在移除对象后生成场景的真实新视图成为可能。

3.3 可编辑的NeRF

3.3.1 条件NeRF

CodeNeRF [85]实现了独立嵌入的学习，而EditNeRF [133]在条件辐射场中集成了共享形状分支，旨在更好地重建形状实例。这两种方法都鼓励网络在不同对象实例之间开发共同表示，从而增强形状编辑和一致性。

ShaRF [175]使用形状网络将形状潜在代码映射为体素网格形式的3D形状。然后，NeRF网络在两个额外因素上进行条件处理：从体素网格估计的占用值和决定对象外观的外观潜在代码。AE-NeRF [100]引入了两个特定的损失——全局-局部属性一致性损失和交换属性分类损失——以增强解耦能力。此外，这种条件模型受益于基于GAN的分阶段训练方法，显著提升了其性能。AutoRF [155]和Car-NeRF [134]开发了专门用于汽车的对象级辐射场，有效地在其图像编码器中解耦形状和外观。对于每个汽车实例，他们使用全景分割掩码和3D边界框，描述对象的姿态和尺寸。这些模型将每条光线从相机空间转换为归一化对象坐标空间（NOCS），创建以对象为中心的光线，允许从任何单视图输入生成高质量的汽车图像。由于它们能够在网络层内执行形状和颜色编辑，这些模型促进了混合网络更新策略。这种方法使得在满足特定用户要求的同时，保持原始对象结构完整性的颜色和形状编辑优化问题的制定成为可能。这些特性在保持编辑对象的整体视觉连贯性方面至关重要，并减少了测试期间所需的图像数量。

3.3.2 生成式NeRF

基于NeRF的生成模型（包括VAE、GAN和扩散模型）的最新进展在创建3D感知生成器方面取得了显著进展。这些模型能够解耦它们所表示对象的底层3D方面，从而在生成高保真对象渲染的同时精确控制相机姿态。此外，这些模型设计用于生成视图一致且多样的图像，准确反映指定条件。这些模型的多功能性进一步增强，因为它们能够将一系列用户定义的条件（如文本和图像）纳入其生成过程。GRAF [187]和pi-GAN [18]引入了一种生成模型，该模型采用隐式辐射场进行新场景的合成。这些模型在无姿态图像上进行训练，专注于简单对象。在GRAF的基础上，GIRAFFE [157]通过表示场景的组合生成神经特征场增强了这种方法。这一进步允许在不需显式监督的情况下解耦单个对象的形状和外观与背景。因此，用户在组合更复杂场景时获得了更大的灵活性。尽管这种方法在扩展到更高分辨率时比基于体素的技术对内存的要求较低，但仍需要大量计算能力来训练和渲染高分辨率图像。为此，StyleNeRF [59]、GIRAFFE HD [255]和Chan等人的工作[19]都旨在保留GIRAFFE的3D可控性特征，同时生成质量更高、分辨率更高的图像（超过512×512），使用StyleGAN2 [95]的架构。在此基础上，UrbanGIRAFFE [261]通过使用语义体素网格和对象布局形式的粗略全景先验扩展了这一概念。这种方法进一步增强了可控性，特别是在相机视角和语义布局发生重大变化时。

重建动态人脸由于面部几何的复杂性和多样表情引起的外观变化而面临独特挑战。面部表情涉及局部变形的混合，可以通过定义为潜在变量的可控属性来表示。这些属性可以灵活应用于不同类型的条件，如地标[171]、草图、低分辨率图像和文本[90]作为输入条件。基于HyperNeRF [163]的方法，如CoNeRF [94]和FaceCLIPNeRF [79]，能够在动态场景上进行训练，仅使用稀疏输入视图控制面部变形。用户可以通过提供简单的表情代码[47, 277]、面部区域的掩码注释[208, 94]（如眼睛睁开/闭合或嘴巴微笑/皱眉）或文本描述[79]（如“快乐”、“惊讶”、“恐惧”、“愤怒”和“悲伤”）来有效操纵面部属性。这些方法允许对面部表情和属性进行精确控制。

该领域的最新进展导致了更细粒度的应用，特别是在头像生成[39, 40, 19, 289, 267, 27, 286, 245, 49]和人体姿态生成[130, 206, 276, 282, 237, 86, 28, 73, 154, 25]方面。这些技术的一个重要成就是它们能够仅使用有限数量的输入图像生成真实主体的高保真动画。这一突破不仅节省了资源，还开启了令人兴奋的研究前景，特别是在视频游戏、增强现实和虚拟现实（AR/VR）以及人机交互等领域。

3.3.3 空间变换编辑

ST-NeRF [275]提出了一种分层表示方法，用于场景中的每个动态实体，其中每个实体表示为一个跨越空间和时间的独立连续函数。模型的MLP网络由两个关键模块组成：时空变形模块和神经辐射模块。在这种设置中，帧号直接编码在模型中。这种空间和时间的解耦方法促进了各种空间编辑技术，如仿射变换、插入和移除，以及时间编辑能力，如重定时，如图12所示。

AutoRF [155]、Neural Scene Graph [160]、PNF [107]或DisCoScene [254]等方法为包含在边界框内的每个对象构建完整的3D辐射场。通过将对象的辐射场视为独立实体，我们可以通过仅关注光线与这些边界框相交的相关点（光线-边界框相交）来更高效地渲染场景。这允许通过操纵边界框进行图像编辑，使用户能够在不改变其视觉外观的情况下重新定位（旋转和平移）场景中的对象。对于移除或复制等操作，用户可以通过删除或克隆边界框来调整场景布局。在没有边界框的情况下[195]，对象移除通过将目标实例关联的点的密度减少到零来实现。同时，复制对象的MLP权重或其潜在代码可以导致该实例在场景中的克隆。

Control-NeRF [109]通过使用单一共享渲染模型学习多个场景的体积表示。在测试期间，由于特征体积与渲染模型分离，作者可以对这些体积进行空间调整或组合。此过程允许在不改变渲染网络固定参数的情况下编辑场景内容。

3.4 对象检测和6D姿态估计

3D对象检测任务对于各种应用至关重要，因为它提供了对象在三维空间中的尺寸和位置的详细理解。由于获取精确3D数据的挑战和额外的自由度（DoF），这一任务比2D对象检测更为复杂。基于点云表示的方法严重依赖于来自专用传感器的准确数据。因此，创新技术是必要的，以利用NeRF的能力同时解决从2D图像进行精确3D对象检测的复杂性。

3.4.1 3D对象检测

NeRF-RPN [72]旨在识别场景中的所有边界框。该过程首先从采样点网格中提取RGB和密度值，使用预训练的NeRF模型。然后，这些体积特征通过3D特征金字塔网络（FPN）[123]主干进行处理，生成深度多尺度3D特征。这些特征输入到3D区域提议网络（RPN）头，生成区域提议。NeRF-RPN的一个关键创新是其使用新颖的体素表示，集成了多尺度3D神经体积特征。这允许在NeRF中直接回归3D边界框，而无需从任何视点渲染。相比之下，NeRF-Det [250]是一种联合NeRF和检测方法，通过共享基于几何的MLP将NeRF分支与检测分支连接。这种设置使检测分支能够使用来自NeRF的梯度流来估计不透明度场。因此，它有效地屏蔽了自由空间，并减少了特征体积中的模糊性，相对于NeRF到检测的方法提供了改进。

MonoNeRD [252]通过将中间视锥体表示视为基于SDF（有符号距离函数）的NeRF来处理单目3D检测的概念。然后使用体积渲染技术对其进行优化。该过程涉及在这些视锥体特征上进行网格采样，以构建规则的3D体素特征及其相应的密度。这些体素特征随后输入到检测模块中。这种方法在使用NeRF进行单目3D检测方面建立了新的标准。

另一方面，Neural groundplans [191]和SUDS [222]等技术使用特征场聚类以无监督的方式推导以对象为中心的3D表示。这些方法从动态场开始，并在特征空间中应用传统的连通分量标记，考虑累积密度值。此过程有助于识别单个对象。然后计算包围每个连通分量的最小框，为每个检测到的对象生成3D边界框。

3.4.2 6D姿态估计

ShAPO [80]从单个RGB-D观察中提取多个对象的全面3D细节，包括对象的形状、6D姿态、尺度和外观。该技术使用基于八叉树的可微优化，基于从FPN [123]主干派生的姿态、纹理和掩码。NCF [75]是一种使用单个RGB图像估计刚性对象6D姿态的方法。它从相机空间映射到对象模型空间。NCF预测模型空间中的相应3D点及其有符号距离。这有助于创建3D-3D对应关系，对于确定对象的姿态至关重要。NeurOCS [147]专注于预测对象掩码和NOCS（归一化对象坐标空间）映射，然后用于PnP（透视n点）算法来估计对象姿态。此外，将单独的检测器应用于NOCS和预测的深度数据，有助于精确的3D对象定位。

3.5 整体分解

3.5.1 对象与背景

NeRF-W [140]引入了每帧嵌入和瞬态分支，以模拟不受约束的照片集合中的非光度一致效应。尽管它并非专门设计用于将对象与其周围环境明确分离，但它提供了一种在各种环境中捕捉前景元素的创新方法。

随后的研究，包括[204, 248, 257, 8]等作品，导致了NeRF的双路径架构的划分。这种结构包括一个场景（背景）分支，用于编码场景几何和外观，以及一个对象（前景）分支，用于单独对象编码。这些模型通过为每个对象的训练光线分配激活代码来学习同时编码多个对象，从而消除了每个对象单独训练的需求。对于带有对象操作的视图生成，它们使用条件对象分支渲染变换后的对象，并与场景分支的背景一起渲染。一个附加功能包括一个对象操纵器，用于精确的辐射和对象场编辑，考虑到对象碰撞和遮挡等挑战。同时，像uORF [270, 197]这样的作品旨在通过注意力机制推导出潜在的对象中心表示到不同的槽中，促进无监督分割。

在他们的全景房间捕捉研究中，Yang等人[258]首先预测对象元数据并推断对象间和对象与房间间的关系，利用对象级预测和几何线索。他们还将预卷积的HDR地图和表面法线纳入全局优化，实现新光照条件和场景漫游的合成。Zhu等人[287]使用一个MLP准确建模带有遮挡的场景，另一个MLP用于背景。他们训练背景MLP并从场景MLP的聚合信息中移除遮挡，以确定背景NeRF的输出是否与观察到的颜色匹配，从光线的权重中学习掩码。这种方法包括一个深度约束，通过比较遮挡和背景的深度来探测遮挡区域，基于遮挡是距离较近的前景对象的假设。

vMAP [105]设计了一个矢量化的对象级映射，其中每个对象通过其3D点云和实例分割图进行检测，然后由单独的MLP表示。3D边界通过跨帧的数据关联不断更新，与传统的SLAM系统相比，提高了对象级重建质量和运行时效率。Zhang等人[281]专注于使用小型局部辐射场（称为“nerflets”）表示场景。每个nerflet覆盖特定的场景部分，由其影响函数确定。这些nerflets可以共同表示复杂对象实例，为户外环境提供更高效和紧凑的表示，可以渲染、分解和编辑。

AssetField [247]通过与物理地面对齐的信息化地面特征平面，以鸟瞰图（BEV）呈现场景的自然可视化。该方法提取并分类场景对象的神经表示，使用户能够直接在地面特征平面上使用来自多个场景的特征补丁操作和组合资产。

Haughton等人[65]和Chen等人[26]展示了机器人如何通过物理交互（如推动、抓取或戳）识别对象并构建组合的3D表示。他们模型的连贯性允许在整个场景中高效传播测量的物理属性（如姿态、刚度、材料）。他们的实验突显了自动化分类和抓取任务的潜力。

3.5.2 静态与动态对象

感知和表示动态环境对于自主代理理解并与其周围环境交互至关重要。关键挑战在于在同时重建动态场景的同时解耦相机和对象运动。这种表示允许在动态设置中合成新视图或区分移动和静止元素，提供在自由视图和时间变化方式下的灵活性。将时间元素纳入MLP可能是一种可行的方法。这涉及通过频率编码或4D哈希网格将时间变量t映射到更高维空间，类似于空间坐标x和d，或通过可学习的时间相关潜在代码，如几项研究[116, 164]所建议的。

对于主要是静态的场景，优化单一模型可能导致模糊输出和不一致。DynNeRF [50]和STaR [271]等解决方案已开发出来，以将移动对象与静态背景分离。它们使用两个独立的分支：一个静态分支包含视频中一致的非移动地形，一个动态分支处理动态对象。这些分支的训练通常使用现有的语义和运动分割方法进行指导，创建排除“动态”像素的掩码，以确保背景在不受移动对象干扰的情况下准确重建。此外，通过正则化[271, 220, 191, 240]可以以自监督的方式考虑时间变化，使动态场能够根据需要学习。D2NeRF [240]是HyperNeRF [163]对动态场景的扩展，可以处理涉及多个非刚性和拓扑变化对象的复杂场景。该方法能够通过分离场解耦动态移动的阴影，减少静态辐射输出。两个分支编码的特征可以在训练期间进行正则化，并使用MLP或4D哈希网格在短期和长期时空范围内进行插值[164]。这种技术不仅提供了高质量、平滑的渲染性能，还增强了训练过程的效率和稳定性。

相反，Li在NSFF [117]中提出的动态模型更进一步，直接从多层感知器（MLP）预测前向/后向场景流和遮挡权重。这些遮挡权重作为无监督的置信度，确定应用时间光一致性损失的位置和强度。该模型使用预训练的2D光流模型来监督预测的3D流，并使用循环一致性项进行正则化。基于这项工作，SAFF [119]通过生成语义和显著性特征增强了模型，这些特征有助于细化场景中静态和动态元素的分割。类似地，Factored-NeRF [239]利用关键帧的注释，将其传播到相邻帧以推导场景流、映射对象轨迹和确定刚度。通过全面的端到端优化，该模型获得了修改对象位置、轨迹甚至适应非刚性运动的能力。通过独立计算静态和动态场，这些方法促进了场景中静止和移动部分的单独渲染。此外，大量研究致力于在动态环境中测试这些方法，特别是在城市环境中具有复杂运动（如车辆和行人）的环境。Neural Scene Graphs [160]引入了一种学习的场景图表示，编码对象的变换和辐射。该方法使用跟踪数据和视频帧为场景图中的每个对象学习不同的表示，从而简化了在各种对象排列和动态条件下的视图合成和分解过程。这一进展不仅实现了新场景和对象的真实渲染，还通过逆渲染技术实现了3D对象检测的潜力。

PNF [107]、LANe [106]和MARS [242]也将场景分解为不同的对象和背景，为每个对象使用全景分割和边界框。每个对象由一个定向的3D边界框表示，并由一个专门的MLP计算密度和辐射，输入如位置、方向和姿态。这些MLP针对单个实例进行定制，并通过元学习初始化过程进行细化[107]。LANe [106]在不同光照条件下对单个场景进行训练，通过创建光场并使用相应的着色器调节对象的外观，以适应不同光照场景中的连贯集成。SUDS [222]及其后续的EmerNeRF [260]通过采用多分辨率哈希表进行场景划分来处理可扩展性，使用隐式场景流和DINO [16]特征，在广阔区域（数百公里）上动态管理大量对象。Neural groundplans [191]通过2D CNN处理其地面对齐的2D特征网格，有效地将表示分解为静态和动态特征的两个不同地面图，从而实现清晰的解耦。

3.6 NeRFs与语言

3.6.1 文本驱动的3D生成与编辑

近年来，文本引导的图像生成取得了巨大的成功，主要归功于语言图像和扩散模型方面的惊人进展。这些进展也激发了文本引导形状生成的主要突破。这一进展影响了研究，将NeRF与文本输入描述联系起来。

CLIP-NeRF [227]通过促进场景的CLIP [170]嵌入之间的相似性，扩展了条件神经辐射场（NeRF）的工作，使用户能够通过简短的文本提示或示例图像轻松操作NeRF。这种方法解耦了潜在表示，允许分别控制对象的形状和外观。因此，它能够创建基于用户指定的文本提示或图像修改潜在代码的代码映射器，展示了改进的编辑能力和缩小了文本和视觉编辑提示之间的差距。

DreamField [84]使用在网络上大量带标题图像数据集上预训练的CLIP模型。它指导生成过程，使得渲染图像在CLIP模型下根据目标标题获得高分，即使没有访问3D形状或多视图数据。这种方法促进了从标题进行零样本生成多样化的3D对象。此外，Lee等人[110]探索了不同CLIP模型架构在体素网格表示中的性能，发现指导模型的集成可以防止对抗生成并改善几何结构、内存和训练速度。

同时，2D扩散模型在类似目的上的应用，如[181]中所讨论的，也被引入。由于NeRF在图像空间中操作，使用扩散模型引导NeRF场景涉及实际解决方案，如推导分数蒸馏损失或利用潜在空间中的训练过程，如在DreamFusion [168]和Latent-NeRF [143]中看到的。然而，这些方法通常导致不满意的输出和从相同输入文本生成的对象的低多样性，以及较长的合成时间。为了应对这些挑战，DITTO-NeRF [188]引入了渐进重建方案，重点关注尺度（从低到高分辨率）、角度（从内到外边界）和掩码（从对象到背景边界）。这种方法在多样性、质量和生成对象的速度和保真度方面取得了显著改进，标志着该领域的重要进展。

LaTeRF [148]通过为每个点引入“对象性”概率，增强了NeRF框架，允许使用像素注释从场景中提取对象。SINE [3]通过引入高级方法增强了语义编辑：循环约束和代理网格用于精确的几何修改，颜色合成系统用于更好的纹理编辑，以及基于特征簇的正则化来管理编辑区域同时保持未编辑内容的完整性。这些增强使得与现成的文本提示编辑方法兼容，能够修改对象的外观和几何形状，并根据文本提示修复对象的缺失部分。NeRF-Art [228]和Blending-NeRF [199]将预训练的NeRF与可编辑的NeRF集成。可编辑的NeRF被训练为渲染与目标文本对齐的混合图像，允许精确编辑3D对象区域同时保留其原始外观。

Instruct-NeRF2NeRF [64]在NeRF模型训练期间，通过InstructPix2Pix [12]的全局文本指令迭代更新数据集图像。这一过程涉及结合来自不同视点的光线的损失，导致更高质量和更稳定的优化。

然而，现有方法在控制场景中的单个对象方面存在局限性。在不影响其他方面的情况下修改特定场景方面仍然是一个挑战，而使用长文本提示的场景级编辑可能导致指导崩溃，阻止特定场景组件的编辑。CompoNeRF [124]和Set-the-Scene [33]通过采用组合模块来调整文本指导水平，确保实体的独特性同时保持整体场景连贯性，解决了这些问题。它们将场景表示为多个NeRF的组合，每个NeRF优化以“局部”表示特定对象，并“全局”无缝集成到更广泛的场景中，从而消除指导模糊性。通过代理操作，场景可以分解和重新组装以进行编辑，而无需额外的微调。

3.6.2 可查询交互

CLIP-Fields [190]结合了CLIP [170]图像编码器、Sentence BERT [172]和NeRF的优势，创建了一种可查询的3D场景表示，适用于移动机器人。该架构配备了输出向量的头部，对应于自然语言描述、对象的视觉外观以及空间中每个特定点的实例识别。它使用两个对比损失：一个用于标签令牌，另一个用于视觉语言嵌入。CLIP-Fields在低样本场景和标签错误中表现出鲁棒性，能够回答具有不同现实复杂度的查询。VL-Fields [219]旨在克服CLIP-Fields的局限性，后者仅限于已知对象类别的场景点子集。它提出了一个无需先验知识即可操作的开集视觉语言模型。

LERF [97]使用多尺度特征金字塔结合3D CLIP场和DINO [16]特征，以细化对象边界进行语言查询交互。它支持对蒸馏的3D CLIP嵌入进行像素对齐查询，无需区域提议、掩码或微调。LERF支持场景体积中的层次、长尾、开放词汇查询。F3RM [192]进行少样本学习实验，用于抓取和放置任务，借鉴了Deep Fusion Field [104]（DFF）方法。这使得机器人能够根据自然语言命令执行6-DoF对象操作，展示处理具有显著差异的未见对象的开集泛化能力。GNFactor [274]优化了一个可泛化的NeRF用于重建，同时使用Perceiver Transformer [82]进行决策。该Transformer集成了机器人的本体感觉和语言特征，基于Q函数[152]执行决策，促进机器人应用中的高级决策过程。

4 数据集和评估

4.1 核心指标和原则

4.1.1 重建和新视图合成

在标准设置中，图像重建和新视图合成使用视觉质量评估指标进行基准测试。以下指标是NeRF文献中的常见标准：

峰值信噪比（PSNR）量化了最大可能信号功率（由最高像素强度值表示）与信号中噪声功率的比率。PSNR值越高表示图像质量越好。然而，PSNR可能无法可靠地反映感知相似性，因为它无法精确表示人类如何感知图像质量。

结构相似性指数度量（SSIM）[233]通过亮度、对比度和结构完整性等方面比较两幅图像，提供了更具感知相关性的评估。它考虑了像素强度的变化、空间关系和纹理对比度。SSIM值范围从-1到1，1表示原始图像和重建图像之间的完全对应。在与人眼视觉感知对齐方面，SSIM比PSNR提供了更准确的图像质量度量。

学习感知图像块相似性（LPIPS）[280]指标评估渲染视图/姿态与特定观看方向的相应地面真实图像之间的感知相似性。使用深度学习，这种感知指标基于从预训练的卷积神经网络（CNN）（如AlexNet或VGG）中提取的特征来测量两幅图像之间的相似性，这些网络在ImageNet数据集上进行了训练。设计得更接近人类对图像相似性的感知，较低的LPIPS分数表示比较的图像之间具有更大的感知相似性。LPIPS在识别细微的几何和纹理差异方面特别有效，因此在评估生成模型和与图像合成相关的任务时特别有价值。

为了便于比较，还补充提出了一个汇总上述所有三个指标的“平均”误差指标[4]：

Fr´echet Inception距离（FID）[70]是一种用于测量特征空间中真实图像分布与生成图像分布之间相似性的指标。它使用Inception-v3 [212]模型从真实图像和生成图像中提取特征。FID分数通过计算真实图像和生成图像的特征表示的多变量高斯分布之间的Fr´echet距离来计算。较低的FID分数表示生成图像在视觉外观和多样性方面更接近真实图像。

核Inception距离（KID）[9]是FID的扩展，旨在解决FID的一些局限性。它使用核函数测量真实图像和生成图像的特征分布之间的最大均值差异。KID通过考虑特征的分布特性，专注于对图像质量和多样性进行更稳健和信息丰富的评估。它提供了真实图像和生成图像分布之间真实距离的无偏估计，确保在特征空间中更准确地表示它们的相似性。此外，KID对样本选择的鲁棒性最小化了不同样本大小引起的变异性，并且与替代指标相比，计算所需的样本更少。

4.1.2 分割

各种评估指标用于评估分割算法的性能，量化图像中不同区域之间划分的准确性和可靠性。以下是一些常用的指标：

像素准确率计算正确分类的像素占总像素的比例。它是一个简单直观的度量，但在处理类别不平衡时可能无法准确捕捉整体性能。

平均交并比（mIoU），也称为Jaccard指数，本质上是一种量化目标掩码与预测输出之间重叠百分比的方法。mIoU通过计算每个类别的IoU并取平均值来计算。

全景分割结合了语义分割和实例分割。因此，全景分割的评估指标对于定量评估将图像中每个像素分类为预定义类别或实例ID的算法的性能至关重要，需要考虑这两个方面。全景质量（PQ）[101]定义为匹配片段的平均IoU，而分母（见公式13）旨在惩罚没有匹配的片段。PQ以可解释和统一的方式处理所有类别的分割掩码质量，捕捉任务的所有方面。

4.2 用于语义感知NeRF的公共数据集

现有用于经典NeRF文献中新视图合成的数据集可以分为以下主要类别：

a 半球形360°向内视图，围绕感兴趣的对象，通常设置在纯白色背景上（包括ShapeNet [21]、CO3D [174]、OmniObject3d [241]和Realistic Synthetic [145]）。

b 前向场景，相机朝向单一方向并在对象附近移动（包括DTU [87, 1]和LLFF [144]）。

c 无界360°真实场景，提供完整的周围覆盖和详细的背景（包括Tanks and Temples [103]和MipNeRF360 [5]数据集）。

尽管在提供相机内参和姿态的情况下可以进行细粒度重建，但这些数据集通常缺乏组合注释（如3D边界框或多对象掩码），并且通常包含有限数量的场景。努力最小化光度变化并在捕捉过程中避免引入多个复杂对象。然而，在这些数据集上训练的辐射场场景表示通常专注于单个场景的优化，而没有额外的语义注释或学习泛化先验。这使得评估大多数语义感知NeRF的性能具有挑战性。

某些方法使用手工注释或预训练模型从场景中提取感兴趣区域，但这些方法缺乏作为比较不同方法的官方基准的可靠性。因此，在本节中，我们将讨论包含高质量语义注释的公开可用数据集，这些数据集在文献中最为相关和广泛使用。

4.2.1 室内场景

Scannet [35]是一个RGB-D视频数据集，包含来自1,500多次扫描的250万张视图，注释了3D相机姿态、表面重建和实例级语义分割。它包括2D和3D数据，支持多种3D场景理解任务，包括3D对象分类、语义体素标记和CAD模型检索。

Replica [205]由18个高度逼真的3D室内场景重建组成，涵盖房间和建筑尺度。每个场景包括密集网格、高分辨率HDR纹理、每基元的语义类和实例信息，以及平面镜和玻璃反射器。

Hypersim [178]是一个用于整体室内场景理解的逼真合成数据集。它包含461个室内场景的77,400张图像，具有详细的每像素标签和相应的地面真实几何，包括完整场景几何、材料信息、每个场景的照明信息、密集的每像素语义实例分割以及每张图像的完整相机信息。

HM3DSem [256]基于Matterport 3D [20]构建，包含216个空间和3,100个房间中的142,600个对象实例注释，用于具身AI应用。与其他数据集的一个关键区别是使用纹理信息注释像素精确的对象边界。

最近引用的数据集ScanNet++ [266]提供高分辨率和高质量的RGBD捕捉，支持新视图合成任务以及密集语义注释。它包含460个场景，具有280K DSLR图像和超过370万张iPhone RGBD帧。

PeRFception [89]使用辐射场（Plenoxels [269, 43]）作为另一种数据表示，有效地在统一和压缩模型中传达2D和3D的相同信息，无需单独存储不同数据格式。目前，创建了PeRFception-CO3D和PeRFception-ScanNet，分别涵盖了以对象为中心和以场景为中心的环境。

为了解决大规模3D场景理解数据集的收集、处理和注释问题，Kubric [57]被引入作为生成合成数据集的框架，具有对数据复杂性和丰富地面真实注释的细粒度控制。该管道与开源Python框架和Blender链接，便于跨多个尺度的数据生成代码重用。此外，Kubric提供了各种自定义用例的随机化选项。已有许多论文应用此框架创建了自己的数据集[226, 240, 6, 52]。然而，大多数收集的数据集在该领域是新的，仅限于文章的方法而没有适当的基准，它们仍然是重要的部分，等待社区的测试。

4.2.2 户外城市场景

KITTI [54, 55]数据集是一个著名的集合，专为城市规模2D-3D环境中的计算机视觉研究而设计，特别用于训练和评估旨在自动驾驶技术的算法。该数据集使用安装在车辆上的系统在德国卡尔斯鲁厄收集的原始LiDAR和视频数据编译而成，配备GPS和惯性测量单元。为了适应各种研究目标，部分数据集由研究人员手动注释，使KITTI成为一个全面的资源，包括用于一系列任务的标记数据，如立体2D-3D分割、光流、里程计、2D-3D对象检测、跟踪、车道检测和深度预测/完成。然而，缺乏完整的语义标记限制了其用于合成新视图图像或构建大规模语义地图的任务，因为这些活动需要完全标记的数据集进行准确评估。

其他数据集如nuScenes [13]、Waymo [209]通过提供更多带有语义/实例标签的2D和3D数据以及更丰富的360°感官信息，对应更长的驾驶日志和更准确的地理定位车辆姿态，试图解决这一不足。特别是，KITTI-360 [120]通过其3D到2D标签转移，开启了更多有趣的任务，如语义SLAM或新视图语义合成。

适应不断变化的环境是所有自动驾驶系统不可避免面临的安全关键挑战。然而，现有的图像和视频驾驶数据集未能捕捉现实世界的可变性。换句话说，它们是在大致静止的条件下捕捉的。Virtual KITTI [48]和SHIFT [210]在各种环境方向（如一天中的时间、云量、雨、雾强度和车辆及行人密度）捕捉这些驾驶场景，并提供更详细的对象类别注释（人、车、车牌等）在单独的离散变化[48]或连续变化条件[210]。

NERDS 360 [81]是一个用于3D城市场景理解的大规模数据集。该数据集包含75个具有多样背景的户外城市场景，涵盖360°半球形视图，包含超过15,000张图像。由于遮挡、背景多样性和具有各种光照和阴影的渲染对象，该数据集及其对应任务极具挑战性。

4.2.3 视觉与语言

CLEVR [91]是一个用于研究视觉问答（VQA）系统能力的诊断数据集。它包含100,000张渲染图像和853,000个生成的独特问题，用于视觉推理能力，如计数、比较、逻辑推理和存储信息。场景中的每个对象，除了位置外，还由一组四个属性表征：2种大小：大和小，3种形状：方形、圆柱和球体，2种材料类型：橡胶和金属，8种颜色类型：灰色、蓝色、棕色、黄色、红色、绿色、紫色和青色，共96种独特组合。

3DMV-VQA [71]包含约5,000个场景和600,000张图像，配对50,000个问题。该数据集基于HM3DSem数据集[256]，包含四种类型的问题：概念性、计数、关系性和比较性问题。作者进一步提出了一个基于开放词汇语义概念的3D概念学习和推理框架。

5 挑战与展望

为了在语义感知NeRF领域取得进展，有针对性的研究努力是必要的。本节概述了我们确定的主要挑战和改进机会，这些是我们认为的关键关注领域。

i 场景泛化性。当前的语义感知NeRF（SRF）方法能够在不需要场景特定训练或优化的情况下处理数据集，这标志着比原始NeRF方法[145]的显著进步，后者缺乏任何跨数据集泛化的能力。尽管有这些改进，仍存在明显的局限性。当前方法可能需要昂贵的密集语义注释[81]，需要大量数据量[185]，主要在合成环境中操作，或在新生成视图合成中产生模糊，通常归因于L2损失训练[185, 268]。这些挑战在测试时视点密度变化时进一步放大，影响传统性能和效率。此外，虽然一些策略使用预训练的稀疏检测器和分割网络，但它们往往只能实现以对象为中心的泛化[155, 61]。解决这些挑战以提高跨数据集泛化性，或结合各自的优势，将代表一个重大飞跃，实现从采集到渲染的真正实时应用。

ii 相机校准。虽然一些基于NeRF的方法设计用于处理无姿态图像并同时恢复其外部矩阵[88, 234]，但大多数NeRF衍生方法假设作为输入的RGB视图已经具有姿态。因此，即使是很小的校准误差也可能导致不同视图之间的显著语义错位。这种错位可能导致过程早期失败，在后续训练或场景优化阶段往往无法逆转。因此，在整个NeRF领域，不仅需要改进校准技术，还需要开发在训练过程中进行姿态优化的特定机制，这是非常必要的。

iii 数据效率和增强。解决数据效率挑战对于使NeRF在现实世界中更实用至关重要。未来的工作可能涉及探索方法，以更少的训练数据和更少的注释训练准确的语义感知模型，使它们更易于广泛应用，特别是在现实世界中的一/少次设置中。将语义理解成功集成到NeRF中，有可能通过提供更有意义和上下文感知的3D环境解释，显著增强增强现实、自主导航等应用。这些功能使NeRF非常适合作为各种组件的基础。通过理解场景的分解并允许对模拟环境进行动态调整，NeRF在创建用于闭环模拟的真实场景中成为宝贵的资产，为许多系统的训练和测试场景提供关键要素。此外，其数据增强的适应性增强了其在提高机器学习模型鲁棒性和泛化性方面的效用。

iv 多模态、多任务和高效场景理解。目前，NeRF领域内研究的多模态方法主要集中在文本到3D。尽管有许多潜在的多任务组合[272, 2]，但许多仍未被充分探索，代表错失了在辐射场领域发现新的、相互信息任务的机会。例如，声音处理或其他类型的输入[138]尚未被充分探索。

v 实时和移动性能。NeRF在计算效率方面面临挑战，特别是由于专门的三维体积渲染算法与广泛部署的图形硬件不匹配。这些计算密集型方法通常需要较长的渲染时间和大量资源，阻碍了实时应用。为了解决这一问题，探索替代数据结构或渲染技术，特别是那些适合低计算移动设备的技术，是一个有前景的方向。例如，3D高斯光栅化[96]（3DGS）以其前所未有的渲染效率和其他非语义感知策略可以类似地作为SRF的骨干模型。

vi 伦理关注和社会影响。可编辑NeRF的生成能力，允许创建以前未见过的逼真3D对象、人类和场景，可能带来类似于2D图像生成中DeepFakes[194]的挑战。这些潜在问题需要类似的审查和努力来缓解。相反，这些方法的生成和可编辑性质可能为3D爱好者和内容创作者提供大量机会，归功于其用户友好的设计。

vii 性能评估。当前用于新视图合成的指标在领域内已得到良好确立。然而，这些指标与人眼感知脱节，意味着定量评估无法保证与人类评估一致的客观最优性。多任务模型也面临问题，因为缺乏复合指标，而是依赖于不连贯的线性组合指标。现有的学习感知指标，如LPIPS，仅限于静态图像帧的评估[280]。它们不考虑视频或3D一致性[118]，包括形状、外观和语义。这是评估通常动态的复杂3D环境的一个必要研究机会。

viii 协作框架。认识到分散代码库和缺乏整合支持带来的困难，Nerfstudio[214]是一个端到端的框架，聚合了模块化的即插即用组件，如查看器、算法、数据集和基准测试工具。这促进了不同实现之间的功能集成，简化了研究人员和从业者的协作过程，并通过原生支持语义信息的实时可视化工具增强了可访问性。提供一个连贯且可扩展的平台，这样的框架可以促进协作，加速进展，并更高效和连贯地推动NeRF研究的发展。

6 结论

我们进行了首次关于神经辐射场（NeRF）的调查，特别是语义感知NeRF。我们的全面回顾揭示了最先进的方法、挑战和广泛的应用。它还强调了该领域进一步发展的必要性，以实现NeRF的全部潜力，从而实现更复杂、高效和上下文感知的3D场景解释。这将为由商品硬件支持的从采集到渲染的真正实时端到端应用铺平道路。

https://arxiv.org/abs/2402.11141

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.