MAE入局多模态分析，CMU联合微软发布仅需文本监督的视觉语言新模型VLC|image

分享至

视觉语言Transformer（Vision-Language Transformers）一直是多模态领域中的重要研究话题，其可以同时对图像数据和语言数据进行编码，将二者在嵌入空间中对齐进而去执行下游任务。但是现有的关于视觉语言Transformer的工作仍然需要先在ImageNet上对视觉backbone进行预训练，随后再借助关键视觉目标的标注框进行引导，才可以完成视觉目标和语言描述的特征映射，这种模式使模型强依赖于预训练数据集和标注，严重限制了模型的学习能力和可扩展性。本文首先讨论了上述模式的弊端，并引入了目前较为火热的自监督Masked Auto-Encoders（MAE）[1]技术，构建了一种仅凭语言信号监督的视觉语言Transformer模型（Vision-Language from Captions，VLC），VLC在一系列的下游任务上（包括视觉问答VQA，自然语言和视觉推理NLVR和图像文本检索任务）都展现出了优越的性能。本文来自卡内基梅隆大学和微软研究院。

论文链接： https://arxiv.org/abs/2205.09256 代码链接： https://github.com/guilk/VLC

一、引言

对于视觉语言联合建模，大体上有两种模式，第一种是先使用视觉特征来引导语言特征，第二种则与此相反，即先对语言数据编码，随后使用语言信息来构建出视觉表征。现有的视觉语言Transformer大多遵循后者，将语言特征放在首位，而对于视觉部分，会部署一个在ImageNet上预训练的视觉特征提取器，并通过bounding box和ROI操作来提取感兴趣的视觉特征。

在这种模式下，视觉特征会被强制嵌入到经过大规模语料预训练的语言空间中，视觉Transformer（ViT）[2]的出现，对这种固定范式进行了改变，例如基于ViT提出的ViLT[3]模型，就先使用视觉概念对模型进行初始化，并将语言嵌入映射到对应的视觉patch上，极大的提高了模型的可解释性，同时这种新范式还有一定的工程优势，因为其消除了先前方法ROI提取的计算代价。

但是这种模式也有缺陷，由于ViT是通过有监督的视觉标签进行训练的，其产生的表示可能会受到ImageNet等数据集的语义边界限制，为了解决这一问题，作者团队巧妙的引入了Masked Auto-Encoders（MAE）技术帮助模型进行自监督训练，也提升了模型对其他陌生视觉或语言概念的泛化能力，下图展示了本文方法与之前使用监督模式方法（ViLT）的可视化对比，可视化的单词为动词“扔（throw）”，可以看到本文方法可以非常精确的定位到做出动作扔的运动员以及被扔出的棒球，而ViLT的定位效果则较差。

二、本文方法

本文方法的设计目标是在无需有监督预训练的情况下，完成高效视觉语言Transformer模型的构建，作者在视觉ViT框架的基础上进行构建，模型的构建可以分为两个阶段，

首先通过图像掩码/语言嵌入进行模态内的重建自监督来学习多模态表示；
随后对上一步得到的多模态特征进行图像-文本匹配的模态间对齐。

为了完成以上两个步骤，作者为VLC框架设计了三个模块，VLC框架的整体架构如下图所示，由一个模态特定的映射模块、一个多模态编码器和三个特定任务的解码器构成，图中红色和蓝色箭头分别代表图像和文本的信息流，在模态特定的映射模块中，作者使用了简单的线性投影对图像块进行编码，并设置了一个词嵌入层对来输入文本进行编码。在多模态编码器中，作者使用MAE自监督预训练（使用ImageNet-1K）的12层ViT作为编码器的主干。在任务特定的解码器模块中，作者设置了三个预训练任务，下面进行详细介绍。

2.1 模态特定的映射模块

之前的工作在处理原始数据的编码问题时，仍然采用非常复杂的CNN特征提取器和一些目标检测框架中的对象检测组件来得到初始的视觉特征，这在一定程度上增大了模型的复杂程度，本文作者使用可训练的线性投影层进行替换，直接将图像块转换到视觉嵌入空间，，其中为图像块的数量，为视觉嵌入的特征维度。对于词嵌入层，作者仿照BERT[4]将输入句子进行标记，随后通过词嵌入查找层将标记化的词向量投影到文本嵌入空间中，得到，其中为token的数量，随后分别通过和对两种嵌入施加位置编码，并对两种嵌入加入标记符和，最终的嵌入计算公式如下：

2.2 多模态编码器

多模态编码器的作用是对输入的视觉和文本嵌入向量进行模态间的对齐，输出较为稳定的多模态特征，本文遵循单流方法的设定，使用ViT-B/16结构作为多模态编码器，其中包含了12个交替多头自注意力层（MSA）和MLP层。

为了对两个模态进行对齐，作者使用合并注意力机制[5]来融合视觉和文本模式，具体操作为，先将视觉和文本嵌入拼接起来得到联合嵌入，随后送入到transformer层中得到上下文对齐表示，相比于其他的双流方法，这样的设计可以提高模型的参数效率，此外，由于编码器是通过MAE自监督预训练得到，也减少了对标注数据的需求。

2.3 任务特定解码器

为了得到下游任务中所需的视觉和本文的通用表示，作者为上面两步得到的多模态特征进行自监督预训练，与之前只mask掉文本token的方法不同，作者在这里将图像块和文本token同时mask，设计了三个独立的自监督任务：（1）Masked语言建模（Masked Language Modeling，MLM），（2）Masked图像建模（Masked Image Modeling，MIM），（3）图像本文匹配（Image-Text Matching，ITM）。

Masked Language Modeling

在语言模态预训练中，MLM将输入的文本token随机遮挡，并训练模型根据上下文重构出遮挡区域，具体细节作者仿照BERT模型，先以0.15的概率随机遮挡token，并将模态特定映射模块中的mask标志打上一个特殊标记，这样做的目的是使模型根据文本和图像块共同对遮挡区域做出预测，MLM头由一个线性层构成，直接输出对应于词汇表的logits，方便计算遮挡区域对应文本的负对数似然损失，MLM的目标函数可以表示为：

Masked Image Modeling

对于视觉预训练，本文遵循原始MAE的做法，对输入的图像块随机屏蔽掉60%的区域，然后根据和直接恢复原始图像块像素，MIM头由一个8层的transformer构成，对于每一个mask掉的图像块，重构损失可以表示为，MIM的整体目标函数可以表示为：

Image-Text Matching

除了上述常规的语言和视觉模态的预训练任务之外，作者还引入了一种模态间的匹配对齐任务ITM，具体来说，给定一批次的图像和文本数据对，ITM头需要判断输入序列之间是否对齐。作者以50%的概率将对齐的两个序列进行打乱，并将两个模态融合后的特征输入到ITM头中进行训练，ITM头同样通过一个简单的线性层实现，目标函数可以表示为：

其中表示当前图像和文本序列是否匹配。

三、实验效果

本文的实验设置主要分为两步，首先先在大规模的视觉和文本数据集上进行预训练，随后再将预训练模型拓展到下游任务中，模型的性能评估主要通过下游任务的效果来反映，本文的预训练语料库包括了四个常用的视觉语言数据集，包括COCO、Visual Genome、Google Conceptual Captions和SBU Captions，总共包括400万张图像和510万图像-文本对，在完成预训练之后，作者主要在三个多模态下游任务上对VLC进行了评估，三个任务分别是图像文本检索、视觉问答VQA和自然语言和视觉推理NLVR。

其中图像文本检索包含两个子任务：图像到文本的检索（TR）和文本到图像的检索（IR），作者在两个权威的基准MSCOCO和Flickr30K上进行了对比实验，实验效果如下表所示，其中对比的几个方法中集成了在MSCOCO上预训练好的Faster RCNN检测器，其拥有更好的ROI提取优势，本文提出的VLC框架舍弃了这些结构，直接通过微调ITM头来完成检索任务，反而展现出了更优越的性能。

与图像文本检索任务相比，VQA和NLVR任务更能反映模型在多模态嵌入空间的推理能力，下表展示了VLC框架在这两个任务上的结果，作者分别与两种有监督形式训练的方法进行对比，第一种方法是只提供目标在ImageNet上的回归框进行监督，另一种是只提供目标在ImageNet上的类别信息进行监督，这里作者也提供了VLC方法的两个版本，可以看到在参数量为4M时，VLC的性能与有监督方法相差较大，但是当参数量增加到5.6M时，VLC的性能已经能超越一部分有监督方法，这验证了VLC的可扩展性以及基于MAE自监督任务的有效性。

为了更加方便的理解VLC的工作模型，作者也进行了可视化的分析，需要明确的一点是，VLC是以图像块作为基本单元来进行视觉文本的对应，而之前的方法是先基于边界框再定位到图像上提取特征，二者是完全相反的过程，作者列举了一个简单的图像块聚类可视化的例子，如下图所示，分别对ViLT和VLC的图像patch嵌入进行聚类（着色），其中ViLT的图像块尺寸相对较大，而VLC的图像块分辨率更加精细，可以看到，VLC可以更加精确地识别到图像中的关键语义区域，例如地毯、墙上的插画和柜子上的植物等等，可以看作是一种自底向上的匹配过程。

四、总结

本文针对视觉语言任务提出了一种全新的预训练范式，与之前依赖预训练目标检测器和有监督训练的CNN/ViT模型相比，本文提出的VLP模型仅使用几个简单的线性层进行自监督预训练就可以在多个下游任务上达到不错的效果，大规模的预训练语料库和多样化的下游任务适应性也验证了VLC框架的扩展能力，此外，VLC的可视化可以准确的将图像块与文本数据对齐，展现出了较强的可解释性能。作者希望VLC的提出能为社区进一步研究大规模弱监督的开放域视觉和语言模型开辟一条新的道路。

参考文献

[1] He, K., X. Chen, S. Xie, et al. Masked autoencoders are scalable vision learners. CVPR, 2022.

[2] Dosovitskiy, A., L. Beyer, A. Kolesnikov, et al. An image is worth 16x16 words: Transformers for image recognition at scale. ICLR, 2021.

[3] Kim, W., B. Son, I. Kim. Vilt: Vision-and-language transformer without convolution or region supervision. In ICML. 2021.

[4] Devlin, J., M.-W. Chang, K. Lee, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2019.

[5] Dou, Z.-Y., Y. Xu, Z. Gan, et al. An empirical study of training end-to-end vision-and-language transformers. CVPR, 2022.

作者：seve n_

Illustration b y Alex Manokhi from icon s8

-The End-

7.6 周三 19:00

快来直播预约，或扫码报名吧！

扫码观看！

本周上新！

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.