网易首页 > 网易号 > 正文 申请入驻

MAE入局多模态分析,CMU联合微软发布仅需文本监督的视觉语言新模型VLC

0
分享至

视觉语言Transformer(Vision-Language Transformers)一直是多模态领域中的重要研究话题,其可以同时对图像数据和语言数据进行编码,将二者在嵌入空间中对齐进而去执行下游任务。但是现有的关于视觉语言Transformer的工作仍然需要先在ImageNet上对视觉backbone进行预训练,随后再借助关键视觉目标的标注框进行引导,才可以完成视觉目标和语言描述的特征映射,这种模式使模型强依赖于预训练数据集和标注,严重限制了模型的学习能力和可扩展性。本文首先讨论了上述模式的弊端,并引入了目前较为火热的自监督Masked Auto-Encoders(MAE)[1]技术,构建了一种仅凭语言信号监督的视觉语言Transformer模型(Vision-Language from Captions,VLC),VLC在一系列的下游任务上(包括视觉问答VQA,自然语言和视觉推理NLVR和图像文本检索任务)都展现出了优越的性能。本文来自卡内基梅隆大学和微软研究院。

论文链接: https://arxiv.org/abs/2205.09256 代码链接: https://github.com/guilk/VLC
一、引言

对于视觉语言联合建模,大体上有两种模式,第一种是先使用视觉特征来引导语言特征,第二种则与此相反,即先对语言数据编码,随后使用语言信息来构建出视觉表征。现有的视觉语言Transformer大多遵循后者,将语言特征放在首位,而对于视觉部分,会部署一个在ImageNet上预训练的视觉特征提取器,并通过bounding box和ROI操作来提取感兴趣的视觉特征。

在这种模式下,视觉特征会被强制嵌入到经过大规模语料预训练的语言空间中,视觉Transformer(ViT)[2]的出现,对这种固定范式进行了改变,例如基于ViT提出的ViLT[3]模型,就先使用视觉概念对模型进行初始化,并将语言嵌入映射到对应的视觉patch上,极大的提高了模型的可解释性,同时这种新范式还有一定的工程优势,因为其消除了先前方法ROI提取的计算代价

但是这种模式也有缺陷,由于ViT是通过有监督的视觉标签进行训练的,其产生的表示可能会受到ImageNet等数据集的语义边界限制,为了解决这一问题,作者团队巧妙的引入了Masked Auto-Encoders(MAE)技术帮助模型进行自监督训练,也提升了模型对其他陌生视觉或语言概念的泛化能力,下图展示了本文方法与之前使用监督模式方法(ViLT)的可视化对比,可视化的单词为动词“扔(throw)”,可以看到本文方法可以非常精确的定位到做出动作扔的运动员以及被扔出的棒球,而ViLT的定位效果则较差。

二、本文方法

本文方法的设计目标是在无需有监督预训练的情况下,完成高效视觉语言Transformer模型的构建,作者在视觉ViT框架的基础上进行构建,模型的构建可以分为两个阶段,

  1. 首先通过图像掩码/语言嵌入进行模态内的重建自监督来学习多模态表示;

  2. 随后对上一步得到的多模态特征进行图像-文本匹配的模态间对齐。

为了完成以上两个步骤,作者为VLC框架设计了三个模块,VLC框架的整体架构如下图所示,由一个模态特定的映射模块、一个多模态编码器和三个特定任务的解码器构成,图中红色和蓝色箭头分别代表图像和文本的信息流,在模态特定的映射模块中,作者使用了简单的线性投影对图像块进行编码,并设置了一个词嵌入层对来输入文本进行编码。在多模态编码器中,作者使用MAE自监督预训练(使用ImageNet-1K)的12层ViT作为编码器的主干。在任务特定的解码器模块中,作者设置了三个预训练任务,下面进行详细介绍。

2.1 模态特定的映射模块

之前的工作在处理原始数据的编码问题时,仍然采用非常复杂的CNN特征提取器和一些目标检测框架中的对象检测组件来得到初始的视觉特征,这在一定程度上增大了模型的复杂程度,本文作者使用可训练的线性投影层进行替换,直接将图像块转换到视觉嵌入空间, ,其中 为图像块的数量, 为视觉嵌入的特征维度。对于词嵌入层,作者仿照BERT[4]将输入句子进行标记,随后通过词嵌入查找层将标记化的词向量投影到文本嵌入空间中,得到 ,其中 为token的数量,随后分别通过 和 对两种嵌入施加位置编码,并对两种嵌入加入标记符 和 ,最终的嵌入计算公式如下:

2.2 多模态编码器

多模态编码器的作用是对输入的视觉和文本嵌入向量进行模态间的对齐,输出较为稳定的多模态特征,本文遵循单流方法的设定,使用ViT-B/16结构作为多模态编码器,其中包含了12个交替多头自注意力层(MSA)和MLP层

为了对两个模态进行对齐,作者使用合并注意力机制[5]来融合视觉和文本模式,具体操作为,先将视觉和文本嵌入拼接起来得到联合嵌入 ,随后送入到transformer层中得到上下文对齐表示 ,相比于其他的双流方法,这样的设计可以提高模型的参数效率,此外,由于编码器是通过MAE自监督预训练得到,也减少了对标注数据的需求。


2.3 任务特定解码器

为了得到下游任务中所需的视觉和本文的通用表示,作者为上面两步得到的多模态特征进行自监督预训练,与之前只mask掉文本token的方法不同,作者在这里将图像块和文本token同时mask,设计了三个独立的自监督任务:(1)Masked语言建模(Masked Language Modeling,MLM),(2)Masked图像建模(Masked Image Modeling,MIM),(3)图像本文匹配(Image-Text Matching,ITM)。

Masked Language Modeling

在语言模态预训练中,MLM将输入的文本token随机遮挡,并训练模型根据上下文重构出遮挡区域,具体细节作者仿照BERT模型,先以0.15的概率随机遮挡token,并将模态特定映射模块中的mask标志 打上一个特殊标记 ,这样做的目的是使模型根据文本 和图像块 共同对遮挡区域做出预测,MLM头由一个线性层构成,直接输出对应于词汇表的logits,方便计算遮挡区域对应文本的负对数似然损失,MLM的目标函数可以表示为:

Masked Image Modeling

对于视觉预训练,本文遵循原始MAE的做法,对输入的图像块随机屏蔽掉60%的区域,然后根据 和 直接恢复原始图像块像素,MIM头由一个8层的transformer构成,对于每一个mask掉的图像块,重构损失可以表示为 ,MIM的整体目标函数可以表示为:

Image-Text Matching

除了上述常规的语言和视觉模态的预训练任务之外,作者还引入了一种模态间的匹配对齐任务ITM,具体来说,给定一批次的图像和文本数据对,ITM头需要判断输入序列之间是否对齐。作者以50%的概率将对齐的两个序列进行打乱,并将两个模态融合后的特征输入到ITM头中进行训练,ITM头同样通过一个简单的线性层实现,目标函数可以表示为:

其中 表示当前图像和文本序列是否匹配。


三、实验效果

本文的实验设置主要分为两步,首先先在大规模的视觉和文本数据集上进行预训练,随后再将预训练模型拓展到下游任务中,模型的性能评估主要通过下游任务的效果来反映,本文的预训练语料库包括了四个常用的视觉语言数据集,包括COCO、Visual Genome、Google Conceptual Captions和SBU Captions,总共包括400万张图像和510万图像-文本对,在完成预训练之后,作者主要在三个多模态下游任务上对VLC进行了评估,三个任务分别是图像文本检索、视觉问答VQA和自然语言和视觉推理NLVR

其中图像文本检索包含两个子任务:图像到文本的检索(TR)和文本到图像的检索(IR),作者在两个权威的基准MSCOCO和Flickr30K上进行了对比实验,实验效果如下表所示,其中对比的几个方法中集成了在MSCOCO上预训练好的Faster RCNN检测器,其拥有更好的ROI提取优势,本文提出的VLC框架舍弃了这些结构,直接通过微调ITM头来完成检索任务,反而展现出了更优越的性能。

与图像文本检索任务相比,VQA和NLVR任务更能反映模型在多模态嵌入空间的推理能力,下表展示了VLC框架在这两个任务上的结果,作者分别与两种有监督形式训练的方法进行对比,第一种方法是只提供目标在ImageNet上的回归框进行监督,另一种是只提供目标在ImageNet上的类别信息进行监督,这里作者也提供了VLC方法的两个版本,可以看到在参数量为4M时,VLC的性能与有监督方法相差较大,但是当参数量增加到5.6M时,VLC的性能已经能超越一部分有监督方法,这验证了VLC的可扩展性以及基于MAE自监督任务的有效性。

为了更加方便的理解VLC的工作模型,作者也进行了可视化的分析,需要明确的一点是,VLC是以图像块作为基本单元来进行视觉文本的对应,而之前的方法是先基于边界框再定位到图像上提取特征,二者是完全相反的过程,作者列举了一个简单的图像块聚类可视化的例子,如下图所示,分别对ViLT和VLC的图像patch嵌入进行聚类(着色),其中ViLT的图像块尺寸相对较大,而VLC的图像块分辨率更加精细,可以看到,VLC可以更加精确地识别到图像中的关键语义区域,例如地毯、墙上的插画和柜子上的植物等等,可以看作是一种自底向上的匹配过程。

四、 总结

本文针对视觉语言任务提出了一种全新的预训练范式,与之前依赖预训练目标检测器和有监督训练的CNN/ViT模型相比,本文提出的VLP模型仅使用几个简单的线性层进行自监督预训练就可以在多个下游任务上达到不错的效果,大规模的预训练语料库和多样化的下游任务适应性也验证了VLC框架的扩展能力,此外,VLC的可视化可以准确的将图像块与文本数据对齐,展现出了较强的可解释性能。作者希望VLC的提出能为社区进一步研究大规模弱监督的开放域视觉和语言模型开辟一条新的道路。

参考文献

[1] He, K., X. Chen, S. Xie, et al. Masked autoencoders are scalable vision learners. CVPR, 2022.

[2] Dosovitskiy, A., L. Beyer, A. Kolesnikov, et al. An image is worth 16x16 words: Transformers for image recognition at scale. ICLR, 2021.

[3] Kim, W., B. Son, I. Kim. Vilt: Vision-and-language transformer without convolution or region supervision. In ICML. 2021.

[4] Devlin, J., M.-W. Chang, K. Lee, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL, 2019.

[5] Dou, Z.-Y., Y. Xu, Z. Gan, et al. An empirical study of training end-to-end vision-and-language transformers. CVPR, 2022.

作者:seve n_

Illustration b y Alex Manokhi from icon s8

-The End-

7.6 周三 19:00

快来直播预约,或扫码报名吧!

扫码观看!

本周上新!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际原油跌幅重新扩大至12%

国际原油跌幅重新扩大至12%

每日经济新闻
2026-03-23 23:17:05
日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

日本不再欢迎中国人?3月起日本签证“一刀切”,华人进退两难!

瑛派儿老黄
2026-03-23 16:53:21
别再吃了!央视曝光“毒鱼”,商户主动投毒,孕妇儿童成重灾区

别再吃了!央视曝光“毒鱼”,商户主动投毒,孕妇儿童成重灾区

潮鹿逐梦
2026-03-23 16:57:11
苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值!

共工之锚
2026-03-24 01:31:15
220吨!中国再次破获稀土走私,伪装“废铁”偷偷卖给美国军火商

220吨!中国再次破获稀土走私,伪装“废铁”偷偷卖给美国军火商

策前论
2026-03-23 20:10:45
伊朗否认议长与美国谈判

伊朗否认议长与美国谈判

财联社
2026-03-23 23:24:49
137分钟鏖战!郑钦文2-1逆转澳网冠军,解锁3大成就,获73万奖金

137分钟鏖战!郑钦文2-1逆转澳网冠军,解锁3大成就,获73万奖金

刘姚尧的文字城堡
2026-03-23 09:39:13
油价一夜大变!央妈出手控价,3月23日全国加油站最新价格公布

油价一夜大变!央妈出手控价,3月23日全国加油站最新价格公布

汽车大事记
2026-03-23 20:07:01
曾指挥击毙拉登的美国前防长:伊朗冲突让美进退两难!共和党中期选举或现“20年前败局”

曾指挥击毙拉登的美国前防长:伊朗冲突让美进退两难!共和党中期选举或现“20年前败局”

红星新闻
2026-03-23 17:50:11
祁东女教师的瓜

祁东女教师的瓜

皮蛋儿电影
2026-03-23 15:30:40
特朗普在与内塔尼亚胡通话后批准对伊朗行动

特朗普在与内塔尼亚胡通话后批准对伊朗行动

财联社
2026-03-24 04:12:14
取消交强险呼声高涨!交通部重磅出手,车主集体叫好:太给力

取消交强险呼声高涨!交通部重磅出手,车主集体叫好:太给力

小怪吃美食
2026-03-24 02:51:39
凌晨 4:30 绝境翻盘!郑钦文爆冷晋级,硬刚三大满贯冲 8 强难度拉满

凌晨 4:30 绝境翻盘!郑钦文爆冷晋级,硬刚三大满贯冲 8 强难度拉满

生活新鲜市
2026-03-23 11:48:01
伊朗称将展示新惊喜,让特朗普“抬头看”

伊朗称将展示新惊喜,让特朗普“抬头看”

界面新闻
2026-03-23 23:11:51
今日油价:今天3月24日,全国加油站调整后92、95汽油最新零售价

今日油价:今天3月24日,全国加油站调整后92、95汽油最新零售价

沙雕小琳琳
2026-03-24 03:06:04
接连官宣!北京两所211高校,即将开启搬迁

接连官宣!北京两所211高校,即将开启搬迁

京城教育圈
2026-03-23 21:52:50
金正恩再次当选朝鲜国务委员长!新标准像正式发布

金正恩再次当选朝鲜国务委员长!新标准像正式发布

IN朝鲜
2026-03-23 12:55:54
阿里:裁员超66000人!

阿里:裁员超66000人!

最通信
2026-03-23 19:59:41
国家出手!成品油价临时调控,每升少涨8毛5

国家出手!成品油价临时调控,每升少涨8毛5

大象新闻
2026-03-23 15:49:01
国际油价持续跳水 美油布油均跌近13%

国际油价持续跳水 美油布油均跌近13%

财联社
2026-03-23 19:10:19
2026-03-24 06:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2319文章数 596关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

消息人士:谈判假消息欲为暗杀伊朗议长创造条件

头条要闻

消息人士:谈判假消息欲为暗杀伊朗议长创造条件

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

钟丽缇就女儿考拉争议道歉:女儿还小

财经要闻

市场见底了吗?谁在抛售?机构火线解读

汽车要闻

东风雪铁龙新凡尔赛C5X上市 官方一口价11.37万起

态度原创

手机
健康
艺术
教育
公开课

手机要闻

传闻折叠屏iPhone采用双层玻璃设计,进一步弱化折痕

转头就晕的耳石症,能开车上班吗?

艺术要闻

高剑父写梅,疏疏几点,雄厚奇拙

教育要闻

延时费说穿了就是学校光明正大的补课费,怪不得学校不愿意取消!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版