视觉语言预训练(VLP)已经提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型只在基于理解的任务或基于生成的任务中表现出色。此外,性能的提高在很大程度上是通过扩大从网络上收集的有噪声的图像-文本对的数据集实现的,而这是一个次优的监督来源。
在本文中,我们提出了BLIP,一个新的VLP框架,它可以灵活地兼顾视觉-语言理解和生成任务。BLIP通过自助抽样法有效地利用了带噪声的网络数据,其中一个描述生成器生成了合成的图像描述,一个过滤器去除了带噪声的描述。我们在多个视觉语言任务上取得了最先进的结果,如图像文本检索(平均召回率+2.7%@1)、图像描述生成(CIDEr+2.8%)和VQA(VQA得分+1.6%)。BLIP在零样本学习中也表现出强大的泛化能力。
两个主要限制
模型角度: 大多数方法要么采用一个基于编码器的模型或编码器-解码器模型。然而,基于编码器的模型不太容易直接转移到文本生成任务中,而编码器-解码器模型还没有被成功地用于图像-文本检索任务。
数据角度: 大多数最先进的方法CLIP,ALBEF,SimVLM)使用从网络上收集的图像-文本对进行预训练。尽管通过扩大数据集获得了性能上的提高,我们的论文显示带噪音的网络文本对于视觉语言学习来说是次优的。
两个贡献
多模态混合编码器-解码器(MED): 一个新的的模型架构,用于有效的多任务预训练和灵活的迁移学习。MED可以作为一个单模态编码器,或一个基于图像的文本编码器,或一个基于图像的的文本解码器。该预训练模型有三个训练任务:图像文本对比学习、图像文本匹配和图像条件下的语言模型。
描述生成和过滤(CapFilt): 我们将预先训练好的MED微调为两个模块:一个是合成图片描述的描述生成器,另一个是去除噪音描述的过滤器。
两个关键发现
我们发现,描述生成器和过滤器一起工作,可以在各种情况下大幅提高性能。在各种下游任务中,通过对描述的Bootstrapping,实现了大幅度的性能提升。我们还发现,更多样化的图像描述会产生更大的收益。
BLIP在多个视觉语言任务上取得了最先进的性能。视觉语言任务,包括图像文本检索、图像描述生成、VQA。我们的模型迁移到两个视频语言任务时:文本视频检索和videoQA.。我们也取得了最好的Zero-shot效果。
模型结构
用图像-文本对比(ITC)损失来训练单模态编码器,使视觉和语言表征保持一致。
Image-grounded文本编码器使用额外的交叉注意力层来模拟视觉-语言的相互作用,并通过图像-文本匹配(ITM)损失来区分正例和负例。
Image-grounded文本解码器用因果自注意层取代了双向自注意层。并与编码器共享相同的交叉自注意层和前馈网络。解码器是用语言建模(LM)损失来训练的,以生成图像描述。
训练流程
我们使用一个描述生成器,以及一个去除噪声图像-文本对的过滤器。描述生成器和过滤器从同一个预训练的模型中初始化,并在一个小规模的人工注释的数据集上进行微调。bootstrap数据集被用来训练一个新的模型。
来源:知乎
作者:霍华德
|深延科技|
深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.