语言模型来卷3D视觉了，UC伯克利提出语言嵌入的NeRF框架LERF|视图|卷3d视觉

分享至

神经辐射场（NeRFs）作为最近几年3D计算机视觉社区中最为火热的话题，近日又迎来了大升级。之前的NeRF模型的输出可以看做是一个富含深度信息的密度场，其中可以表示的语义信息很少，这限制了NeRF模型在更高级任务上的语义理解能力。

近期以GPT系列为代表的语言模型向社区宣布，发展以自然语言为基础的深度学习模型可能是我们迈向通用人工智能的重要一步。人类使用自然语言来描述物理世界，其中包括所处环境中3D物体的视觉外观、语义、抽象关系等信息。结合这一点，来自UC伯克利的研究者们提出一种新型的NeRF模型，称为语言嵌入神经辐射场（Language Embedded Radiance Fields，LERF），顾名思义，这是一种将自然语言表征嵌入到NeRF中的方法。作者使用的OpenAI公司提出的明星模型CLIP，在CLIP的加持下，LERF可以轻松的实现3D环境中的开放式语言查询功能。

论文链接： https://arxiv.org/abs/2303.09553 项目主页： https://www.lerf.io/

想象在一个三维的厨房场景环境，如上图所示，如果我们想要直接找到胡椒粉（pepper mill）和植物油（vegetable oil），只需要对LERF输入这些目标，LERF就会在场景中迅速查询得到这些目标物体的位置，并生成相应的3D图，如下图所示。

除了这些日常生活中比较常见的目标，LERF还可以进行非常细粒度的3D目标查询，例如下图中，LERF可以根据手办的名称，快速在桌面上找到位置非常隐蔽的手办”瓦尔多（waldo）“。

这种查询能力不仅需要LERF可以处理自然语言的输入，还需要在多种语义尺度上对目标的抽象表示进行融合和对齐。通过将CLIP模型嵌入到模型中，LERF可以学习到富含语言和空间语义的多尺度辐射场，并通过一种多视图训练方式来优化LERF中的语言、3D目标联合嵌入。在模型推理阶段，LERF可以实现一种实时的3D场景互动查询效果，这一功能在机器人导航、3D场景视觉理解和3D场景互动等方面都有广泛的应用潜力。

一、引言

目前，神经辐射场（NeRFs）已经发展成为3D计算机视觉领域中一种常用的工具，其可以将现实世界中的复杂三维场景使用数字形式来表示和计算，NeRF的输出往往是一些五颜六色的密度场，缺乏明确的语义建模。本文提出的LERF通过将像CLIP这样的文本视觉模型的嵌入引入到3D场景中，可以建立起3D视觉与文本语言之间的桥梁。这样设计的LERF有三个明显的优势：

1. LERF直接内置CLIP，而不需要通过COCO这样的数据集进行微调，也不需要引入bounding box来作为提示信息。

2. 由于LERF是从多尺度的多个视图中提取CLIP嵌入，这样得到的获得的文本查询向量更适用于3D场景，可以直接在三维环境中进行文本查询，而不必渲染到多个视图。

3. LERF可以在几乎不影响原始NeRF模型推理速度的情况下进行训练，训练过程完成后，LERF可以为各种语言提示实时生成三维场景图。

二、本文方法

给定一组校准后的输入图像，LERF将其中物体的位置和物理尺度作为输入并提取其CLIP向量来嵌入到NeRF的3D场中，整体流程如下图所示。需要清楚的一点是，对于模型来说，根据文本来查询单个3D点的CLIP嵌入是一个相当不明确的任务，因为CLIP本质上是一个全局图像嵌入，其本身不利于进行像素级的特征提取。

为了缓解这个问题，作者在LERF中设计了一种基于区域的嵌入学习方式，具体来说，可以以某一个3D样本点作为中心，并设定围绕该中心的一个体积空间，裁剪其中的所有训练视图的平均CLIP嵌入来作为整体嵌入。通过执行从点到空间的文本查询，LERF可以有效地对当前输入图像的密集场预测进行监督，在模型推理阶段，LERF可以将不同区域尺度作为模型条件，并以像素级对齐的方式来对所给图像的3D场进行预测。

2.1 多尺度监督下的区域渲染

在模型训练阶段，LERF的输入为位置和观察方向，输出为颜色和密度。这些参数随后可以沿着一条射线方向来生成三维空间中的像素点。为了提高LERF的性能和语义理解能力，作者使用语言嵌入来增强 NeRF 的输出，它采用输入位置和空间尺度作为参数，并输出维度为的语言嵌入。作者将该输出看做是一种与视图无关的特征向量，作者认为在三维空间中，物体位置的语义不应该随着视角发生变化，这种设定允许LERF同时对多种视图的语言嵌入做平均操作。空间尺度表示以为中心的立方体区域在世界坐标中的边长。

相比2D图像可以在图像块级别上计算语言嵌入的损失，LERF需要对三维目标完成多种尺度下像素级别的损失计算。为了实现这一点，作者选择以当前射线起点像素为中心、大小为的平面裁剪图像块为基础来计算损失。在具体操作时，如果计算每条射线起点的CLIP嵌入会带来非常大的计算量，因此作者在每个图像裁剪尺度上预先计算了一个图像金字塔，并存储每个尺度上的CLIP嵌入，如上图所示。这个金字塔有层，在和之间取样。在模型训练时，作者在整个3D输入视图中均匀随机采样射线样本，并为每个视图随机选择。由于这些样本不一定落在该图像金字塔图像块的中心，因此作者在其落点附近4个最近区域的嵌入之间执行三线性插值，来得到最终的近似ground-truth嵌入。通过最小化渲染结果和ground-truth嵌入之间的损失，最大化两者之间的余弦相似性来优化模型，损失函数形式化表示如下：

2.2 DINO正则化

在加入CLIP的语言嵌入监督后，LERF已经能够产生初步的语言三维目标查询能力，但是其仍然不够精细。如下图所示，作者展示了LERF在一些文本查询情况下的相关性热图，可以看到LERF对于一些目标的关键区域，渲染的置信度不高。如下图第一行的“手指”例子中，手指前景与背景分离的区域存在较多的异常值，为了缓解这一问题，作者在语言嵌入监督的基础上加入了额外的DINO正则项[1]。在加入DINO正则约束后，能够明显提升LERF的渲染置信度。

DINO模型已被证实，可以在没有明确标签的情况下提升前景目标与背景的分离效果，同时也能很好的适应到三维场中。因此作者另外训练了一个DINO场，可以在每个射线起点上输出一个DINO特征。由于DINO输出的是像素对齐的特征，所以无需再将空间尺度参数作为输入，而是直接用DINO的特征对每条射线进行监督。DINO在LERF的整体优化目标中可以被看作是一个额外的正则项，这是因为DINO和CLIP的预测头共享同一个特征提取backbone。

2.3 LERF的查询过程

通常，像CLIP这样的语言模型是在zero-shot分类的实验设置上进行评估的，模型可以从一组预定义的类别中选择一个最接近的类别作为预测结果。但是在开放环境中，LERF缺乏这样的预定义类别列表。作者因而提出了一种可以在给定任意文本查询的情况下从LERF查询3D相关目标映射的方法。这种方法由两个步骤构成：

1. 相关性分数: 为了给每个射线方向的语言嵌入分配一个分数，作者首先计算计算文本查询的 CLIP 嵌入，以及一组规范短语的嵌入。随后计算渲染嵌入和规范短语嵌入之间的余弦相似度，然后计算渲染嵌入与文本提示之间的softmax分数。

2. 空间比例选择: 对于每个查询，需要计算出一个比例来评估。作者首先在0到2米的范围内生成相关图，并选择产生最高相关度分数的比例。在输出的相关性图中，所有的像素都使用这一比例。作者经过实验发现这种启发式方法在真实三维环境中是比较稳定的，并被用于本文后续的所有图像和视频实验中。

三、实验效果作者在实验部分重点评估了LERF的三维场景查询能力，其中涵盖了开放式词汇实验设置。由于现有的3D扫描数据集缺乏完整的三维空间场景，大多只提供单个对象的扫描数据，并且存在一定的长尾问题。为了能够突出LERF可以渲染查询真实环境数据的能力，作者团队专门收集了一个评测数据集，该数据集由13个场景构成，其中混合了野外（杂货店、厨房、书店）和长尾目标场景（下午茶时间、小雕像、手）。作者使用iPhone上的Polycam程序捕捉三维场景数据，图像分辨率使用994×738的，下图展示了在其中几种场景中，LERF的三维查询效果。

此外，为了评估LERF在三维场景中定位文本提示的能力，作者为5个场景中的72个对象渲染了新视图和标签边界框。对于3D定位方法，如果最高置信度的像素落在标注框内，或者模型预测框的中心落在标注框内，就可以认为3D目标定位成功。作者将LERF与目前两个SOTA方法LSeg[2]和OWL-ViT[3]进行对比，结果如下表所示，可以看出，LERF的语言嵌入定位能力大大超越了LSeg，并且在长尾目标定位方面也优于OWL-ViT方法。

四、总结

本文提出了一种将图像文本模型嵌入到NeRF渲染pipeline中的通用框架LERF，LERF可以一种密集、多尺度的方式将原始CLIP的嵌入融合到NeRF中，且不需要明确的物体bounding box标注和微调过程。LERF也可以在多种空间尺度中保留CLIP嵌入的完整性，这使得其能够处理各种自然语言查询，包括不同的视觉属性概念。LERF的惊艳效果再次向我们展示了在计算机视觉社区引入语言模型的魅力，可以想象如果在LERF中嵌入的不是简单的CLIP，而是GPT-4或者ChatGPT，是否会带来更惊人的效果呢。

参考

[1] Mathilde Caron, Hugo Touvron, Ishan Misra, Herve ́ Je ́gou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In Proceedings of the IEEE/CVF international conference on com- puter vision, pages 9650–9660, 2021.

[2] Boyi Li, Kilian Q Weinberger, Serge Belongie, Vladlen Koltun, and Rene ́ Ranftl. Language-driven semantic segmentation. arXiv preprint arXiv:2201.03546, 2022.

[3] Matthias Minderer, Alexey Gritsenko, Austin Stone, Maxim Neumann, Dirk Weissenborn, Alexey Dosovitskiy, Aravindh Mahendran, Anurag Arnab, Mostafa Dehghani, Zhuoran Shen, et al. Simple open-vocabulary object detection with vision transformers. arXiv preprint arXiv:2205.06230, 2022.

-The End-

本周上新！

扫码观看！

「热门研究云际会」来啦！

搜罗四大热门技术方向#基础模型 #视觉感知 #文字识别 #扩散模型，邀请十几位热门工作研究者，组成四场「热门研究云际会」，邀请你来参加！

4.18 下午 14:00

「迈向通用的视觉感知」

4.19 上午 10:00

「探索文字识别的前沿技术与应用」

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.