网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2023 | 对比损失深度刨析!三星研究院提出全新连续性对比损失CMCL

0
分享至

一些通过大规模预训练的跨模态表示对齐模型(例如CLIP和LiT)往往能够展示出非常强大的跨领域zero-shot能力,这种能力是我们通向通用人工智能的重要步骤。目前较为常用的技术手段都是使用标准的对齐训练损失从大规模的正例样本和负例样本对中挖掘不同模态之间的语义交互。但是这种方式也存在一个明显的缺陷,即训练集中有一定数量的样本对相似性具有更加连续的性质,因此简单的使用二元对比损失来进行优化是不全面的

本文介绍一篇发表在人工智能顶级会议NeurIPS 2023上的一篇文章,本文作者团队来自三星研究院,本文在原有标准对比损失的基础上提出了一种新型连续加权对比损失(Continuously Weighted Contrastive Loss,CWCL),CWCL使用了一种连续的相似性度量,可以在连续性空间中将两个不同模态的嵌入空间进行对齐。作者通过大量的实验发现,基于函数的连续性质,CWCL不仅可以在图像-文本模态对之间实现性能提升(提高5-8%),在语音-文本模态对之间也表现出了优越的性能(提高20-30%)

论文名称: CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss 论文链接: https://arxiv.org/abs/2309.14580

一、引言

目前,视觉图像和文本模态已经存在一些很强大的预训练模型,例如CLIP[1]和LiT[2]。但其他模态仍然缺乏这类模型,例如语音音频领域,与视觉语言模型可以通过zero-shot的形式推广到新任务的迁移范式不同,语音和音频模型仍然需要使用特定任务的数据进行微调训练。并且,在语音领域收集和标注数据集也存在一定的难度,例如如何进行质量控制、消除噪声等。此外,即使是在图像预训练模态,也存在具有挑战性的子模态,例如医学成像领域,直接使用自然图像的预训练模型也存在问题。

因此本文主要着重于如何更好的从一个大规模预训练模型中向其他模态进行知识迁移,目前的常用做法是使用标准对比损失从配对数据集中以监督学习的方式进行,然而,监督模式中可能有许多相似的样本,并且相似程度不同。为了缓解这种低效率迁移的局限,本文提出了一种连续加权对比损失CWCL,用于多模态模型的对比训练。作者使用了图像-文本和语音-文本两种模态对来进行研究,上图展示了CWCL与LiT的对齐性能对比,可以看到在两种模态对中,CWCL均展现出了更好的zero-shot能力,尤其是在语音-文本模态。

此外,下图展示了使用CWCL对齐后的两种模态之间的相似性矩阵(对角线区域的相似性更加显著),从图中可以看出,即使在迁移训练时没有提供任何标签,CWCL相比普通损失函数实现了更好的模态对齐效果

二、本文方法

2.1 现有的对比训练框架和损失函数

传统的对比损失函数通常用于单模态自监督学习和多模态对齐首先令 表示一批训练数据对,该训练数据由来自两种模态大小为 的样本对组成: 。其中 来自模态 , 来自模态 。将 和 的编码分别表示为嵌入 、 。然后,就可以得到对比损失函数 (contrastive loss,CL)的定义:

其中每个 , 被认为是正例,而所有其他样本 被认为是负例,如下图所示,其中对角矩阵表示所选的正例样本集(针对每行和每列)。

如果使用上面的定义,不难想象到,在给定的训练批次中,正样本的数量一定会多于负样本的数量。并且如果训练模式是自监督对比范式时,样本的标签信息就无法利用, 因此如果令 表示由样本和标签组成的一批大小为 的训练数据: ,显然,集合 就可以在标签信息指定下构成一组正例样本,这样就可以在整体损失函数中来利用标签信息:

本文作者表明,如果使用上述辅助损失和普通对比损失的组合会比单独使用对比损失得到更好的性能。但是上述两个损失都存在一个普遍的缺陷,即它们均没有考虑在同一个训练批次中可能存在非常相似的同类型样本,例如在监督范式中,某些类别可能拥有相同的抽象属性(例如,多个品种的狗),但被认为是彼此的反例。其次,这两种损失都会简单的将相似性定义为二元属性,这样就会所有的“正例”都被平等地拉近,而所有的“反例”都被平等地排斥。但这与实际情况不相符合,如下图所示,在标准对比方法中会将同一批次的样本视为严格的正样本或负样本,然而本文提出的CWCL方法会根据所有样本之间的吸引程度来衡量相似性,这样可以实现更细粒度的模态差距计算

2.2 CWCL损失函数定义

为了解决上述缺点,本文提出了一种新型损失函数,称为连续加权对比损失(CWCL),这里作者使用了与传统对比学习的多模态训练相同的设置,损失函数(将 与其他模态中的 对齐)定义为:

其中, 表示模态 中 和 之间的模态内相似性权重,使用该权重就可以在对比优化时对不同的样本进行有针对性的约束。同时需要注意的是,该权重需要在每个训练批次中进行成对计算。随后还需要对权重进行后处理,即首先将权重标准化为0到1之间: 。其次,检查是否实现了在同一模态中的“相似”样本具有较高的权重,不同的样本应具有较低的权重。

2.3 如何获得模态内相似权重?

在传统的自监督学习范式中,训练数据样本缺乏互相的相似性信息,因此作者想到是否使用一个预训练模型来作为样本间相似性度的计算工具呢?即用参数冻结的编码器来计算样本间的相似性,这样做不仅成本很低,而且可以获得一种在高层语义空间中度量的方法。在具体操作时,就可以使用一种模态的预训练模型来训练另一种未知模态的模型。如果令 为具有预训练初始化的冻结模态, 表示使用该预训练模型得到的嵌入特征,则模态 内的相似性权重就可以简单计算为:

这样可以直接保证 ,随后就可以使用 在损失函数 中进行跨模态迁移。

三、实验效果

本文的实验主要针对两种模态转换进行,即图像-文本和语音-文本。对于图像-文本对,作者进行了图像分类和图像/文本检索的zero-shot迁移实验。在这两项任务中,CWCL的zero-shot迁移性能都超过了目前的SOTA方法。而对于语音-文本模态,作者进行了语音-意图分类和关键字查询任务,下面将分别介绍这些实验的细节。

3.1 zero-shot图像分类

对于零样本图像分类任务,作者在5个数据集上进行了实验:ImageNet、ImageNetV2、ImageNet-R、ImageNet-A和ObjNet。下表中展示了具体的实验结果,其中作者使用SimCon和LiT等方法作为对比基线,可以看到CWCL在ViT+transformer和ViT+BERT两种不同架构上都获得了更好的零样本分类性能

3.2 zero-shot图像-文本检索

此外,作者还进行了零样本图像文本检索实验,实验数据集选用MS-COCO验证集,下表展示了具体的实验结果,模型架构同样使用ViT+BERT,可以看到使用CWCL对比训练得到的模型性能明显优于使用标准对比损失函数训练的模型

3.3 zero-shot提示模板的鲁棒性分析

在完成对CWCL的zero-shot分类和检索实验之后,作者还对CWCL的提示鲁棒性进行了分析,例如在zero-shot图像分类中,可以将标签直接转换为文本提示,以便将分类任务调整为对齐任务,因此作者设置了数量为 k 个的文本提示模板,并且在构建分类器时将这些模板句子全部输入模型,例如"这是…的照片"、"这是…的图片"等,并且对 k=1,5,10 个模板进行了实验,下图展示了CWCL和普通CL损失在不同数量模板设置时的表现情况。

可以看出,使用CWCL损失训练的模型在使用较少的模板数量时就可以获得峰值性能,这表明CWCL在面对不同的文本提示时具有更强的鲁棒性。

3.4 zero-shot语音到意图分类

而对于语音到意图分类任务,作者遵循了ASR-NLU的pipeline,即首先通过ASR(语音-文本)进行转录,然后使用NLU(文本-文本)将转录分类为意图,下表展示了本文方法与其他方法的对比效果。

可以看到,在所有的实验设置下,使用CWCL损失的多模态训练均优于CL损失。在SLURP数据集上,使用RoBERTa+S与BART+Y作为文本模型架构会带来更加显著的性能提升。

四、总结

本文提出了一种新型的用于跨模态对比学习范式中损失函数,称为连续加权对比损失CWCL,CWCL的设计目标是从传统对比损失的固有缺陷出发,作者发现传统损失在使用预训练模型进行跨模态对齐时监督效率较低,对训练数据中具有连续性相似的样本完全忽略。CWCL重点考虑了同一批次中所有样本的相似性信息来增强对比监督。作者在两种模态迁移的zero-shot下游任务中验证了本文方法的性能。

参考

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning. PMLR, 2021, pp. 8748–8763.

[2] Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer, “Lit: Zero-shot transfer with locked-image text tuning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18123–18133.

Illustration by IconScout From DavaregaStudio

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国海军是最强大的海军,但为什么美国在霍尔木兹海峡如此吃力?

美国海军是最强大的海军,但为什么美国在霍尔木兹海峡如此吃力?

小萝卜丝
2026-03-17 14:50:46
伊朗内部“反水”?拉里贾尼被锁定,情报竟来自德黑兰市民

伊朗内部“反水”?拉里贾尼被锁定,情报竟来自德黑兰市民

桂系007
2026-03-17 23:41:02
以色列刺杀伊朗最高安全官员拉里贾尼

以色列刺杀伊朗最高安全官员拉里贾尼

凤眼论
2026-03-17 16:52:03
进口头孢西力欣涨价52倍!最高一盒1600元,医生称国产替代品种较多,无囤货必要

进口头孢西力欣涨价52倍!最高一盒1600元,医生称国产替代品种较多,无囤货必要

红星资本局
2026-03-16 19:49:13
59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

59岁巩俐身材引热议,外套都快撑不住丰腴身材了,却被夸少女体态

一盅情怀
2026-03-16 16:52:57
以色列总理发见美大使视频自证活着

以色列总理发见美大使视频自证活着

财联社
2026-03-18 00:41:06
3月16日俄乌最新:欧尔班要玩完了

3月16日俄乌最新:欧尔班要玩完了

西楼饮月
2026-03-16 22:24:18
特朗普向全球发出通牒:180天内必须对中国动手,不帮忙就加税

特朗普向全球发出通牒:180天内必须对中国动手,不帮忙就加税

徐竦解说
2026-03-17 11:01:12
女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

女子赴发小婚礼穿瑜伽裤,打扮过于火辣,网友直呼跟没穿似的

一盅情怀
2026-03-16 17:28:45
美国国家反恐中心主任宣布辞职:无法昧着良心支持正在对伊朗进行的战争

美国国家反恐中心主任宣布辞职:无法昧着良心支持正在对伊朗进行的战争

环球网资讯
2026-03-17 21:59:13
3月17日俄乌最新:库尔斯克战役再次打响?

3月17日俄乌最新:库尔斯克战役再次打响?

西楼饮月
2026-03-17 20:23:21
破案了!34岁泰国被杀女子新进展:凶手长相帅气、有钱,也有案底

破案了!34岁泰国被杀女子新进展:凶手长相帅气、有钱,也有案底

江山挥笔
2026-03-17 15:42:46
外交部:中方决定向伊朗、约旦、黎巴嫩、伊拉克四国提供紧急人道主义援助

外交部:中方决定向伊朗、约旦、黎巴嫩、伊拉克四国提供紧急人道主义援助

新京报
2026-03-17 15:48:15
禁区内手球犯规,B席职业生涯首次被罚下

禁区内手球犯规,B席职业生涯首次被罚下

懂球帝
2026-03-18 05:02:19
特朗普推迟访华的三个原因,一个比一个尴尬

特朗普推迟访华的三个原因,一个比一个尴尬

公子故事会
2026-03-17 18:16:36
第六波反制来了!巴拿马呼吁中方冷静,但中方给不了它想要的

第六波反制来了!巴拿马呼吁中方冷静,但中方给不了它想要的

阿离家居
2026-03-18 03:34:02
胖东来回应鸡蛋被检出角黄素:已成立小组进行调查,若无问题将诉讼维权,追究个人、自媒体、平台法律责任

胖东来回应鸡蛋被检出角黄素:已成立小组进行调查,若无问题将诉讼维权,追究个人、自媒体、平台法律责任

每日经济新闻
2026-03-16 21:13:31
杜锋做对决定!弃用3将激活最强崔永熙徐杰,广东22分复仇新疆

杜锋做对决定!弃用3将激活最强崔永熙徐杰,广东22分复仇新疆

后仰大风车
2026-03-17 21:50:56
吴曼青院士简历被撤:预警机领域专家,最近一次公开露面照流出

吴曼青院士简历被撤:预警机领域专家,最近一次公开露面照流出

博士观察
2026-03-17 23:40:36
连发7条"救我"信息后失联 34岁中国女子泰国遇害

连发7条"救我"信息后失联 34岁中国女子泰国遇害

封面新闻
2026-03-17 12:53:01
2026-03-18 08:07:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2313文章数 596关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

伊朗高官:将战斗到底 美国应记住越南战争的教训

头条要闻

伊朗高官:将战斗到底 美国应记住越南战争的教训

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁官宣离婚,评论区全是冷嘲热讽

财经要闻

多款药品被曝线上线下价差巨大

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

家居
房产
手机
本地
公开课

家居要闻

侘寂美学 无用之美

房产要闻

炸裂!狂拆642亩!那个要砸100亿的三亚香港城来了!

手机要闻

9999元起!OPPO Find N6发布:折叠屏最大痛点终于被干掉!

本地新闻

春天出门像出舱?一个过敏星人的装备进化史

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版