网易首页 > 网易号 > 正文 申请入驻

NeurIPS 2023 | 对比损失深度刨析!三星研究院提出全新连续性对比损失CMCL

0
分享至

一些通过大规模预训练的跨模态表示对齐模型(例如CLIP和LiT)往往能够展示出非常强大的跨领域zero-shot能力,这种能力是我们通向通用人工智能的重要步骤。目前较为常用的技术手段都是使用标准的对齐训练损失从大规模的正例样本和负例样本对中挖掘不同模态之间的语义交互。但是这种方式也存在一个明显的缺陷,即训练集中有一定数量的样本对相似性具有更加连续的性质,因此简单的使用二元对比损失来进行优化是不全面的

本文介绍一篇发表在人工智能顶级会议NeurIPS 2023上的一篇文章,本文作者团队来自三星研究院,本文在原有标准对比损失的基础上提出了一种新型连续加权对比损失(Continuously Weighted Contrastive Loss,CWCL),CWCL使用了一种连续的相似性度量,可以在连续性空间中将两个不同模态的嵌入空间进行对齐。作者通过大量的实验发现,基于函数的连续性质,CWCL不仅可以在图像-文本模态对之间实现性能提升(提高5-8%),在语音-文本模态对之间也表现出了优越的性能(提高20-30%)

论文名称: CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss 论文链接: https://arxiv.org/abs/2309.14580

一、引言

目前,视觉图像和文本模态已经存在一些很强大的预训练模型,例如CLIP[1]和LiT[2]。但其他模态仍然缺乏这类模型,例如语音音频领域,与视觉语言模型可以通过zero-shot的形式推广到新任务的迁移范式不同,语音和音频模型仍然需要使用特定任务的数据进行微调训练。并且,在语音领域收集和标注数据集也存在一定的难度,例如如何进行质量控制、消除噪声等。此外,即使是在图像预训练模态,也存在具有挑战性的子模态,例如医学成像领域,直接使用自然图像的预训练模型也存在问题。

因此本文主要着重于如何更好的从一个大规模预训练模型中向其他模态进行知识迁移,目前的常用做法是使用标准对比损失从配对数据集中以监督学习的方式进行,然而,监督模式中可能有许多相似的样本,并且相似程度不同。为了缓解这种低效率迁移的局限,本文提出了一种连续加权对比损失CWCL,用于多模态模型的对比训练。作者使用了图像-文本和语音-文本两种模态对来进行研究,上图展示了CWCL与LiT的对齐性能对比,可以看到在两种模态对中,CWCL均展现出了更好的zero-shot能力,尤其是在语音-文本模态。

此外,下图展示了使用CWCL对齐后的两种模态之间的相似性矩阵(对角线区域的相似性更加显著),从图中可以看出,即使在迁移训练时没有提供任何标签,CWCL相比普通损失函数实现了更好的模态对齐效果

二、本文方法

2.1 现有的对比训练框架和损失函数

传统的对比损失函数通常用于单模态自监督学习和多模态对齐首先令 表示一批训练数据对,该训练数据由来自两种模态大小为 的样本对组成: 。其中 来自模态 , 来自模态 。将 和 的编码分别表示为嵌入 、 。然后,就可以得到对比损失函数 (contrastive loss,CL)的定义:

其中每个 , 被认为是正例,而所有其他样本 被认为是负例,如下图所示,其中对角矩阵表示所选的正例样本集(针对每行和每列)。

如果使用上面的定义,不难想象到,在给定的训练批次中,正样本的数量一定会多于负样本的数量。并且如果训练模式是自监督对比范式时,样本的标签信息就无法利用, 因此如果令 表示由样本和标签组成的一批大小为 的训练数据: ,显然,集合 就可以在标签信息指定下构成一组正例样本,这样就可以在整体损失函数中来利用标签信息:

本文作者表明,如果使用上述辅助损失和普通对比损失的组合会比单独使用对比损失得到更好的性能。但是上述两个损失都存在一个普遍的缺陷,即它们均没有考虑在同一个训练批次中可能存在非常相似的同类型样本,例如在监督范式中,某些类别可能拥有相同的抽象属性(例如,多个品种的狗),但被认为是彼此的反例。其次,这两种损失都会简单的将相似性定义为二元属性,这样就会所有的“正例”都被平等地拉近,而所有的“反例”都被平等地排斥。但这与实际情况不相符合,如下图所示,在标准对比方法中会将同一批次的样本视为严格的正样本或负样本,然而本文提出的CWCL方法会根据所有样本之间的吸引程度来衡量相似性,这样可以实现更细粒度的模态差距计算

2.2 CWCL损失函数定义

为了解决上述缺点,本文提出了一种新型损失函数,称为连续加权对比损失(CWCL),这里作者使用了与传统对比学习的多模态训练相同的设置,损失函数(将 与其他模态中的 对齐)定义为:

其中, 表示模态 中 和 之间的模态内相似性权重,使用该权重就可以在对比优化时对不同的样本进行有针对性的约束。同时需要注意的是,该权重需要在每个训练批次中进行成对计算。随后还需要对权重进行后处理,即首先将权重标准化为0到1之间: 。其次,检查是否实现了在同一模态中的“相似”样本具有较高的权重,不同的样本应具有较低的权重。

2.3 如何获得模态内相似权重?

在传统的自监督学习范式中,训练数据样本缺乏互相的相似性信息,因此作者想到是否使用一个预训练模型来作为样本间相似性度的计算工具呢?即用参数冻结的编码器来计算样本间的相似性,这样做不仅成本很低,而且可以获得一种在高层语义空间中度量的方法。在具体操作时,就可以使用一种模态的预训练模型来训练另一种未知模态的模型。如果令 为具有预训练初始化的冻结模态, 表示使用该预训练模型得到的嵌入特征,则模态 内的相似性权重就可以简单计算为:

这样可以直接保证 ,随后就可以使用 在损失函数 中进行跨模态迁移。

三、实验效果

本文的实验主要针对两种模态转换进行,即图像-文本和语音-文本。对于图像-文本对,作者进行了图像分类和图像/文本检索的zero-shot迁移实验。在这两项任务中,CWCL的zero-shot迁移性能都超过了目前的SOTA方法。而对于语音-文本模态,作者进行了语音-意图分类和关键字查询任务,下面将分别介绍这些实验的细节。

3.1 zero-shot图像分类

对于零样本图像分类任务,作者在5个数据集上进行了实验:ImageNet、ImageNetV2、ImageNet-R、ImageNet-A和ObjNet。下表中展示了具体的实验结果,其中作者使用SimCon和LiT等方法作为对比基线,可以看到CWCL在ViT+transformer和ViT+BERT两种不同架构上都获得了更好的零样本分类性能

3.2 zero-shot图像-文本检索

此外,作者还进行了零样本图像文本检索实验,实验数据集选用MS-COCO验证集,下表展示了具体的实验结果,模型架构同样使用ViT+BERT,可以看到使用CWCL对比训练得到的模型性能明显优于使用标准对比损失函数训练的模型

3.3 zero-shot提示模板的鲁棒性分析

在完成对CWCL的zero-shot分类和检索实验之后,作者还对CWCL的提示鲁棒性进行了分析,例如在zero-shot图像分类中,可以将标签直接转换为文本提示,以便将分类任务调整为对齐任务,因此作者设置了数量为 k 个的文本提示模板,并且在构建分类器时将这些模板句子全部输入模型,例如"这是…的照片"、"这是…的图片"等,并且对 k=1,5,10 个模板进行了实验,下图展示了CWCL和普通CL损失在不同数量模板设置时的表现情况。

可以看出,使用CWCL损失训练的模型在使用较少的模板数量时就可以获得峰值性能,这表明CWCL在面对不同的文本提示时具有更强的鲁棒性。

3.4 zero-shot语音到意图分类

而对于语音到意图分类任务,作者遵循了ASR-NLU的pipeline,即首先通过ASR(语音-文本)进行转录,然后使用NLU(文本-文本)将转录分类为意图,下表展示了本文方法与其他方法的对比效果。

可以看到,在所有的实验设置下,使用CWCL损失的多模态训练均优于CL损失。在SLURP数据集上,使用RoBERTa+S与BART+Y作为文本模型架构会带来更加显著的性能提升。

四、总结

本文提出了一种新型的用于跨模态对比学习范式中损失函数,称为连续加权对比损失CWCL,CWCL的设计目标是从传统对比损失的固有缺陷出发,作者发现传统损失在使用预训练模型进行跨模态对齐时监督效率较低,对训练数据中具有连续性相似的样本完全忽略。CWCL重点考虑了同一批次中所有样本的相似性信息来增强对比监督。作者在两种模态迁移的zero-shot下游任务中验证了本文方法的性能。

参考

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning. PMLR, 2021, pp. 8748–8763.

[2] Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer, “Lit: Zero-shot transfer with locked-image text tuning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18123–18133.

Illustration by IconScout From DavaregaStudio

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3天让一众美国高官开了眼界,鲁比奥惊叹:中国军力不愧世界第二

3天让一众美国高官开了眼界,鲁比奥惊叹:中国军力不愧世界第二

未来展望
2026-05-15 22:59:27
马琳还坐着,孙颖莎直接冲到王曼昱跟前,甩出6个字,全场都愣了。 当时王曼昱正卡在关键分,急得满头是汗

马琳还坐着,孙颖莎直接冲到王曼昱跟前,甩出6个字,全场都愣了。 当时王曼昱正卡在关键分,急得满头是汗

乒乓助手
2026-05-16 00:13:06
库存260万辆,难怪整体销量下跌,车企销量上涨,经销商承接了

库存260万辆,难怪整体销量下跌,车企销量上涨,经销商承接了

柏铭锐谈
2026-05-14 22:14:18
俄方三大红线被捅破,俄军起杀心了:1500枚导弹无人机横扫乌克兰

俄方三大红线被捅破,俄军起杀心了:1500枚导弹无人机横扫乌克兰

近史博览
2026-05-15 04:01:26
一手术人就废了?医生:这6疾病保守治疗更好,动刀反而过度医疗

一手术人就废了?医生:这6疾病保守治疗更好,动刀反而过度医疗

岐黄传人孙大夫
2026-05-13 10:00:10
知名女主持人自曝痛到当场求饶,要求立即终止!医生提醒:这些人不要盲目跟风

知名女主持人自曝痛到当场求饶,要求立即终止!医生提醒:这些人不要盲目跟风

上海约饭局
2026-05-13 15:05:22
玄学提醒:你永远不要操心你孩子的命运,看完这段话让你释怀

玄学提醒:你永远不要操心你孩子的命运,看完这段话让你释怀

金沛的国学笔记
2026-05-13 10:55:09
网传上海交通大学某学生用AI伪造竞赛奖金发放记录,想私吞团队奖金?

网传上海交通大学某学生用AI伪造竞赛奖金发放记录,想私吞团队奖金?

文忆天下
2026-05-15 22:57:01
昨晚老婆子忽然伸手摸过来,一把年纪了我没躲,谁知她摸上来!

昨晚老婆子忽然伸手摸过来,一把年纪了我没躲,谁知她摸上来!

热心市民小黄
2026-05-15 00:50:40
调查发现:老年人若经常吃香蕉,用不了多久,身体或迎来3大改变

调查发现:老年人若经常吃香蕉,用不了多久,身体或迎来3大改变

芹姐说生活
2026-05-15 15:06:08
唏嘘!日本3大旅欧名将无缘世界杯 三笘薫梦碎:开赛1个月前重伤

唏嘘!日本3大旅欧名将无缘世界杯 三笘薫梦碎:开赛1个月前重伤

我爱英超
2026-05-15 13:50:18
国宴上众人排队找马斯克合影,最尴尬的可能是杨元庆

国宴上众人排队找马斯克合影,最尴尬的可能是杨元庆

历史总在押韵
2026-05-15 19:05:11
谈判桌上摊牌!美方死咬 2500 万吨大豆订单,想把中国当接盘侠?

谈判桌上摊牌!美方死咬 2500 万吨大豆订单,想把中国当接盘侠?

达文西看世界
2026-05-15 08:35:02
中国股市唯一赚钱最快思路:持有一只股,保留30%仓位,长期做T!

中国股市唯一赚钱最快思路:持有一只股,保留30%仓位,长期做T!

股经纵横谈
2026-05-15 19:18:34
马斯克长子现状:生活很低调,跟着母亲姓,和马斯克关系很紧张

马斯克长子现状:生活很低调,跟着母亲姓,和马斯克关系很紧张

青橘罐头
2026-05-15 22:03:20
白宫称中方同意重开霍尔木兹海峡 外交部回应

白宫称中方同意重开霍尔木兹海峡 外交部回应

财联社
2026-05-15 15:40:12
你知道哪些因果报应的真实案例?网友:这现世报来的太快太准了

你知道哪些因果报应的真实案例?网友:这现世报来的太快太准了

解读热点事件
2026-05-10 01:59:22
杭州街头跪地救人女子身份曝光!新华社亲自点名,工作单位被曝光

杭州街头跪地救人女子身份曝光!新华社亲自点名,工作单位被曝光

小陆搞笑日常
2026-05-16 00:08:50
5位北舞走出的女星,北舞老师:我培养的人才,都被拐去当演员了

5位北舞走出的女星,北舞老师:我培养的人才,都被拐去当演员了

阿纂看事
2026-05-15 19:27:53
500米林带停了百余辆车?公益诉讼检察官这样“破局”

500米林带停了百余辆车?公益诉讼检察官这样“破局”

上观新闻
2026-05-15 21:06:12
2026-05-16 06:40:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2377文章数 596关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

艺术
时尚
亲子
本地
军事航空

艺术要闻

让人拍案叫绝的图片

顶级团队拍出来的作品不如素人,问题出在哪儿了?

亲子要闻

孕妇补钙怕刺激怎么选?液体钙无添加配方实测,蓝帽认证更靠谱

本地新闻

用苏绣的方式,打开江西婺源

军事要闻

乌克兰首都基辅遭空袭 死亡人数增至12人

无障碍浏览 进入关怀版