网易首页 > 网易号 > 正文 申请入驻

ICML 2024 | 直面CLIP内在缺陷,Meta提出全新latent对比预训练框架Llip

0
分享至

基于对比视觉-语言预训练技的大型多模态模型目前已成为人工智能领域研究的热点课题。但这一预训练技术仍然以经典的CLIP模型为基础,缺乏进一步的发展。此外,鉴于CLIP模型通过将图像及其caption映射到单个向量这样的底层机制,可以认为这限制了对比预训练模型描述图像各种其他方面的能力。本文介绍一篇来自Meta AI和纽约大学等研究机构合作完成的工作,目前已发表在国际机器学习顶级会议ICML 2024上。

本文提出了一种名为Llip的架构(Latent Language Image Pretraining),即潜空间图像语言预训练。Llip以图像字幕生成(Image Caption)任务作为出发点,用来模拟自然场景中与单张图像进行匹配caption的多样性。Llip仍然采用双塔特征提取模式,其视觉编码器可以对给定图像输出一组视觉特征,这些特征可以总结与当前图像匹配的多样式captions中的文本信息,来得到最终的表示。作者通过实验表明,在相同参数规模的backbone设置下,Llip在各种任务上的表现均优于CLIP[1]和SigLIP[2]等传统对比预训练模型。尤其是在ImageNet数据集上,Llip实现了 83.5% 的zero-shot top-1 准确率,比参数规模相同的 CLIP 高出 1.4%。

论文题目: Modeling Caption Diversity in Contrastive Vision-Language Pretraining 论文链接: https://arxiv.org/abs/2405.00740

一、引言

以CLIP为代表的视觉语言预训练(Vision-Language Pretraining,VLP)模型基本上都是通过对比学习将图像和文本映射到共同的表征空间。后续出现的SigLIP以及一些基于不变表征学习的方法,大多是在对比学习目标函数以及自监督对比方法层面进行创新和改 进。但是这类方法忽略了一个重要的事实,即单个图像可能对应多种合理的文本描述,视觉和文本模态之间存在信息不平衡的现象。视觉内容通常相比文本描述更加丰富,多个不同的文本描述可以同时有效地描述给定的图像,每个描述都侧重于不同的视觉方面。例如下图(a)中所是,有的人可能会描述图中出现的动物,而有的人则会突出显示拍摄照片的位置。

因此,本文提出的Llip框架旨在解决这一问题,上图(a)展示了本文方法与CLIP之间的架构对比,具体来说,Llip方法可以在输出单一跨模态token的基础上,额外输出个可学习的混合token。这些混合token的目标是捕捉输入的不同视觉方面,随后再通过交叉注意机制与描述文本进行融合以生成更鲁棒的上下文表示。虽然Llip在形式上与CLIP模型类似,但是却实现了更优越的视觉语言预训练效果,上图(b)展示了Llip模型与各种CLIP模型的zero-shot性能对比。

二、本文方法

Llip框架的核心思想是显式建模单个图像对应多种可能文本描述的事实。为了实现这一目标,Llip首先引入了一种全新的视觉混合token(Visual mixture tokens)用来捕获输入图像的不同视角特征。随后作者对Llip中的对比学习目标进行了优化,使其更好的适应到图像文本一对多的对比关系中,Llip的整体框架如下图所示。

Llip仍然使用Vision Transformer (ViT)作为视觉编码器,ViT可以将输入图像分割成固定大小的patches,并且对其进行线性嵌入同时添加位置嵌入。与标准ViT不同的是,作者对Llip进行了关键调整,即在输入序列中添加了个可学习的混合token(mixture tokens)。这些mixture tokens与图像patch一起通过Transformer层处理,令输入图像为 ,Llip的视觉编码器为 ,编码器对mixture tokens处理后得到 ,其中 是[CLS]token, 是 个mixture tokens的输出。

2.2 交叉注意力模块

为了实现从图像到文本表征的一对多映射,作者在Llip中设置了一个交叉注意力模块,该模块是实现上下文视觉表征的关键,其使用文本特征来调制mixture tokens,并且通过加权求和来得到与特定文本描述相关的视觉表征。在这一过程中,文本特征被作为查询(Query)向量,mixture tokens被作为键(Key)和值(Value)向量,具体计算过程如下:

其中, 是可学习的投影矩阵,随后我们可以计算混合交叉注意力权重如下:

其中, 是带温度参数 的softmax函数。最后,通过加权求和就可以得到上下文化视觉表征:

2.3 改进的对比学习目标

相比传统CLIP的目标函数,Llip采用了基于SigLIP的改进对比学习目标,该函数可以最大化正样本对(匹配的图像-文本对)的相似度,最小化负样本对的相似度,同时提高内存效率,目标函数公式如下:

其中, 是归一化的上下文化视觉表征, 是归一化的文本表征, 分别是可学习的缩放和偏置参数, 是批次大小。此外,作者还考虑到了规避对比训练过程中的有害捷径。直观上理解,将视觉特征与目标描述文本联系起来可能会产生一种捷径解决方案,即网络完全忽略输入图像,完全依靠描述文本来最小化对比目标函数。为了避免这种捷径,作者在上述目标中加入了负样本进行平衡。

2.4 Llip的推理

Llip最终的视觉处理性能取决于图像与多个描述文本之间的混合token,因此在对每幅图像进行推理时,Llip都需要对所有匹配的描述文本进行编码。由于本文设计的mixture tokens较为轻量,且文本和图像的融合仅在输出层进行,即使扩大编码器backbone的规模,对于个固定数量的mixture tokens而言,增加的计算量和内存成本是恒定的,如下图所示。

Llip 中零样本分类的推理类似于 CLIP,对于给定的图像 ,有 个可能的文本标签 。首先用每个文本标签 对每个图像 进行编码,以获得上下文化的视觉特征 。然后再计算规范化的视觉特征 和文本特征 之间的余弦相似度,并将预测标签定义为上下文化图像特征和文本特征之间余弦相似度最高的标签

三、实验分析

本文的实验在MetaCLIP数据集上进行,其中共包含约2.5B个图像-文本对,为了验证Llip的适应能力,作者选取了5种不同规模的ViT进行实验,从基础版本ViT-B/32(patch大小为32×32)到巨型版本ViT-G/14(patch大小为14×14)。训练硬件配置使用128个V100或A100 GPU。为了验证Llip的综合性能,作者主要选择了包含零样本图像分类、多样化分类任务和零样本检索任务等多种基础视觉语言任务进行评估。

上表展示了本文Llip模型在多种图像识别数据集上的零样本分类性能对比,对比基线包括CLIP, OpenCLIP, CLIPA-v2, SigLIP, MetaCLIP, EVA-CLIP, DFN等流行的对比预训练模型,从表中我们可以观察到,Llip (ViT-G/14)版本达到了83.5%的Top-1准确率,相比同等规模的MetaCLIP提高了1.4%,这表明Llip的性能优势主要来自其能够建模图像与多样化文本描述的关系。并且,随着模型规模增大,Llip的优势更加明显。

上表展示了本文方法在Flickr30k和MSCOCO数据集上进行零样本检索任务的实验效果,评估设置分为图像到文本和文本到图像两种任务,对比基线选用MetaCLIP和SigLIP。可以看到,Llip在所有检索设置和所有模型规模下均显著优于基线方法,特别是在图像到文本的检索上。其中,模型的性能提升在MSCOCO上更为明显,作者分析这可能是因为MSCOCO数据集更大、更复杂,更能体现Llip建模多样化描述的优势

为了进一步探索Llip的建模优势,作者对其生成特征的表达能力进行了评估,作者将这种评估称为表征表达性分析,即通过计算视觉特征协方差矩阵的奇异值来评估学习到的视觉特征的表达能力。具体来说,作者首先从ImageNet验证集中随机选择了5000个样本,并对比了SigLIP, SigLIP with learned query和Llip64三种特征的协方差矩阵,并分别绘制其奇异值谱,如上图所示。可以看出,Llip 在奇异值谱中的衰减比另外两条基线都慢,这表明Llip特征具有更大的可变性和更丰富的表达能力

四、总结

本文提出了一种全新的对比视觉语言预训练框架Llip,Llip通过引入上下文化的视觉表征,成功地建模了图像与多样化文本描述之间的关系。通过引入混合token和交叉注意力机制,Llip实现了从单个图像到多个可能文本描述的映射,这种一对多映射的形式优化了传统对比预训练模型中的固有缺陷,允许模型捕捉图像的多个方面,提高了表征的丰富性。此外,本文还引入了一种基于SigLIP改进的对比目标函数,提高了模型的训练效率和性能。实验结果表明,Llip在多个零样本任务上显著优于现有的VLP方法,可以说,这项工作为视觉-语言预训练提供了一个新的研究方向。

参考资料

[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J.,Krueger, G., and Sutskever, I. Learning Transferable Visual Models From Natural Language Supervision, February 2021.

[2] Zhai, X., Mustafa, B., Kolesnikov, A., and Beyer, L. Sigmoid Loss for Language Image Pre-Training, September 2023.

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新欢不保?杨子家族爆大雷,和黄圣依离婚真实目的藏不住了!

新欢不保?杨子家族爆大雷,和黄圣依离婚真实目的藏不住了!

今夜繁星坠落
2026-05-20 12:30:27
泡泡玛特购入北京太古坊二期整栋写字楼

泡泡玛特购入北京太古坊二期整栋写字楼

观点机构
2026-05-20 20:06:26
北京一男子掏空积蓄,凑500万入股中国人寿,20年后分红吓人

北京一男子掏空积蓄,凑500万入股中国人寿,20年后分红吓人

一刀故事
2025-05-14 13:32:29
美股CPU概念股表现强势

美股CPU概念股表现强势

每日经济新闻
2026-05-20 22:01:51
性,已成为职场流通的硬资源!

性,已成为职场流通的硬资源!

黯泉
2026-05-18 17:46:44
A股:股民系好安全带了,不出意外的话,A股或迎来更大级别变盘行情?

A股:股民系好安全带了,不出意外的话,A股或迎来更大级别变盘行情?

趋势清风侠
2026-05-20 16:36:32
云南电工挫败黑社会团伙,1人对抗120名混混,造成对方9死48伤

云南电工挫败黑社会团伙,1人对抗120名混混,造成对方9死48伤

莫地方
2026-05-15 01:30:04
美中将终于交底:中国三大“底牌”已曝光,每一张都戳中西方痛点

美中将终于交底:中国三大“底牌”已曝光,每一张都戳中西方痛点

叹为观止易
2026-05-17 01:26:08
记者:狼队希望快速重返英超,已和特里皮尔谈自由转会的可能

记者:狼队希望快速重返英超,已和特里皮尔谈自由转会的可能

懂球帝
2026-05-20 03:05:17
卫报:马雷斯卡离开切尔西另有隐情

卫报:马雷斯卡离开切尔西另有隐情

懂球帝
2026-05-20 21:05:39
95岁港星爆李泳豪杨思琦分手内情,称男方家境普通,女方受尽委屈无奈离场

95岁港星爆李泳豪杨思琦分手内情,称男方家境普通,女方受尽委屈无奈离场

TVB剧评社
2026-05-20 22:18:06
37岁杨颖贵州被偶遇,脸肿嘴歪眼里没光,这状态跟以前差太多了

37岁杨颖贵州被偶遇,脸肿嘴歪眼里没光,这状态跟以前差太多了

铁锤妹妹是只猫
2026-05-18 12:26:17
妈妈带2岁孩子送外卖后情绪崩溃:我凭什么背负这些还要养你!

妈妈带2岁孩子送外卖后情绪崩溃:我凭什么背负这些还要养你!

映射生活的身影
2026-05-20 16:55:01
老板娘问我她身材好不好?我该怎么回答?

老板娘问我她身材好不好?我该怎么回答?

太急张三疯
2026-05-20 15:20:05
至今,全球还没有完成统一的10个国家,你知道几个?

至今,全球还没有完成统一的10个国家,你知道几个?

七号说三国
2026-04-19 19:35:33
烈性犬咬死2岁女童,狗主人毛某义犯过失致人死亡罪,获刑三年缓刑四年,赔偿25万元,为避免再次伤人,案发后该狗被警方无公害处理

烈性犬咬死2岁女童,狗主人毛某义犯过失致人死亡罪,获刑三年缓刑四年,赔偿25万元,为避免再次伤人,案发后该狗被警方无公害处理

大风新闻
2026-05-20 11:34:00
AI集体涨价后,打工人反而「赢麻」了?

AI集体涨价后,打工人反而「赢麻」了?

凤凰WEEKLY
2026-05-19 20:27:41
突发:取消入境免签!中国澳洲护照都中招!

突发:取消入境免签!中国澳洲护照都中招!

澳洲红领巾
2026-05-20 15:33:52
欧联杯霸主埃梅里!率队六进决赛,麾下最强11人豪阵出炉

欧联杯霸主埃梅里!率队六进决赛,麾下最强11人豪阵出炉

仰卧撑FTUer
2026-05-20 22:24:21
2-0击败强敌,中国男足3连胜,时隔22年再次杀入亚洲杯决赛

2-0击败强敌,中国男足3连胜,时隔22年再次杀入亚洲杯决赛

侧身凌空斩
2026-05-20 04:25:16
2026-05-20 23:32:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2382文章数 596关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

白宫称中方同意近3年每年买170亿美元农产品 中方回应

头条要闻

白宫称中方同意近3年每年买170亿美元农产品 中方回应

体育要闻

尼克斯赢下最窒息的一场翻盘,场场都是逆天局

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

旅游
游戏
时尚
亲子
军事航空

旅游要闻

“孔子家乡 好客山东”文旅推介会在香港举行

EWC电竞世界杯:放你一局,功德圆满!T1三局战胜KRX

“血糖焦虑”的年轻女性,为什么越努力越疲惫?

亲子要闻

不断努力是真的会被看到!

军事要闻

俄媒盛赞中国军人:身姿挺拔 站如松柏

无障碍浏览 进入关怀版