网易首页 > 网易号 > 正文 申请入驻

AAAI 2024 | Adobe提出全新上下文提示学习框架CoPL,高效提升下游性能

0
分享至

提示学习(Prompt Learning)在近几年的快速发展,激活了以Transformer为基础的大型语言模型(LLM)的性能涌现。这一技术范式迅速在多模态学习等领域进行迁移,例如在CLIP跨模态对齐模型中加入可学习的Prompt,就可以在多种下游任务展现出通用性能,且具有一定的泛化能力。但这种简单的提示方法仍具有局限性,主要分为两个方面,其一是使用全局视觉特征作为提示输入可能会导致模型缺乏关注图像中前景对象的注意力能力。此外,在将提示送入到下游模块时,现有的方法对所有提示设置的权重完全相同,直观上思考,应该根据不同输入图像的内容来重新调整这一权重。

基于这两方面的局限,本文介绍一篇发表在人工智能顶级会议AAAI 2024上的文章,本文提出了一种称为上下文提示学习(Contextual Prompt Learning)的框架CoPL,CoPL可以更精确的实现提示信息与图像局部特征的对齐,为了使学习到的提示能够更好的适应到不同的下游任务中,作者设计了一种动态提示机制,从提取图像上下文特征的角度来对提示进行加权处理。本文的实验在包含few-shot和out-of-distribution等多种任务设置上进行,实验结果表明,CoPL在多模态提示学习领域已达SOTA性能。

论文题目: CoPL: Contextual Prompt Learning for Vision-Language Understanding 论文链接: https://arxiv.org/abs/2307.00910

一、引言

传统的视觉分类任务通常需要在包含大规模类别的数据集上进行训练,例如ImageNet和OpenImages等。但是当模型在遇到一些训练分布之外的特殊图像时,就无法做出合理的预测,这种方法因为缺乏泛化性一直被学术界所诟病。 研究人员开始探索如何将特定领域的知识注入到已有的模型中,使其具有一定的扩展能力。CoOp[1]方法是这一领域的先行工作,其通过引入NLP领域中提示学习的思想,通过训练可学习的提示向量来保留句子和标签之间的语义关系。 但后来的一些工作指出,基于CoOp的方法具有灾难性知识遗忘的特点, 同时仅采用模型的全局特征来生成提示,提示无法很好的适应到特定的下游任务中。

本文首先分析了现有框架的缺陷,相应的提出了一种上下文提示学习的改进框架CoPL,CoPL的关键思想是将提示与局部图像上下文进行对齐, 如果仅使用全局特征,模型在很多few-shot和分布外的测试样本上很容易受到噪声的影响。如上图所示,CoPL首先确定图像局部上下文与哪些提示在语义上更相关,然后计算得到更合适的提示权重,通过拟合上下文信息到提示中,CoPL产生的特征会具有更强的鲁棒性和通用性

二、本文方法

2.1 原始CLIP模型

CLIP模型一种标准对比学习模型,其目前已成为多模态领域中的基础架构。CLIP由一个文本编码器和一个图像编码器构成,对比训练目标是使文本模态和视觉模态的输出在联合空间中尽可能接近。其中文本编码器使用 Transformer 实现的,将单词序列作为输入,生成序列级特征表示。图像编码器使用 ViT 架构实现,ViT对图像块(patch)进行运算得到特征表示。对比损失函数会将相关的文本和图像之间的余弦相似度最大化,其他不相关的文本图像对的余弦相似度将最小化。 准确地说,如果对于一个K类分类问题,CLIP模型的提示被设计为一个含有“class” token的向量,模型会对该向量代表的第 个类别进行拟合,其权重向量 是通过CLIP的文本编码器生成得到。

2.2 CoOp和CoCoOp

在CLIP之后,CoOp方法提出了一种条件提示学习范式来生成图像的上下文提示, 这种提示在反向传播期间以一组连续的可学习向量 的形式作为条件与原有的图像特征一起送入模型中。在CoOp的基础上,研究者们又提出了CoCoOp方法[2],CoCoOp通过学习生成以每个图像实例为条件的提示来提高CoOp的性能,从实现细节上说,CoCoOp会对每个类别生成一个动态提示,而在CoOp中则是固定的。 CoCoOp设计了一种轻量级的meta-net来生成此条件向量,该条件向量会与提示向量相结合来生成最终的提示,计算过程可以表示如下:

其中 代表meta-net, 代表图像特征向量。

2.3 上下文提示学习CoPL

虽然CoCoOp相比CoOp在性能方面已经获得了较大的提升,但其仍有很大的改进空间,由于 CoCoOp 使用全局特征向量来更新提示向量,因此其很难关注到图像中的局部感兴趣区域。 此外,在将meta-net生成的条件向量附加到提示向量上时,CoCoOp没有体现不同区域的提示重要性。为了解决这些问题,本文提出了一种CoPL方法,CoPL方法的整体框架如下图所示。

首先给定一个图像 ,将其送入到ViT中生成一组局部特征向量 。为了从这些局部特征中选取语义特征最强的部分,CoPL设计了一个轻量级网络来对每个patch的特征生成一个明确的条件token: 。随后需要对文本特征进行对齐,即生成一个长度可变的对齐向量 , 反映了初始化提示向量中与每个图像patch特征 的对应关系,其计算过程表示如下:

随后计算每个patch的上下文表示 , 由当前patch在所有提示token上对齐分数的加权和 ,随后就可以对文本模态中的上下文向量进行动态更新来得到最终的提示向量

CoPL在下游任务进行预测时,首先对第 个类别计算提示向量

随后根据提示向量计算预测概率:

其中 是文本编码器产生的特征向量, 是温度系数,在CoPL的整个流程中,预训练的 CLIP 模型参数是固定的

三、实验效果

本文的实验在11个不同复杂度的图像分类数据集上进行, 这些数据集主要包含通用分类数据集,例如ImageNet和Caltech-101,以及细粒度类别数据集:OxfordPets、StanfordCars、Flowers102、Food101和 FGVCAircraft。还有一些特殊领域中的标准数据集,例如场景识别、动作分类、纹理和卫星图像识别数据集。 作者也选取了一些常见的CoOp变体方法作为baseline对比方法,包括CoCoOp、KgCoOp和ProGrad等。

上表展示了本文方法在上述几种数据集上的性能表现,本文作者提到,CoOp方法的主要缺点之一是其在训练分布之外的样本上表现不佳,无法很好的泛化到一些unseeen的类别上。本文的方法对这一方面进行了改进, 如上表所示,CoPL在绝大多数数据集上的unseen子集上均获得了更好的分类精度。此外,我们还可以观察到,CoOp方法相比原始的CLIP方法性能有所下降,这也证明了其具有灾难性遗忘的问题

此外,作者在上图中进一步分析了本文提出的CoPL相比CoOp和CoCoOp方法在unseeen类别上的性能提升效果。可以看到,在行为识别数据集UCF101上,CoPL实现了将近20.6%的性能增益,而在其他语义信息较少的数据集,例如纹理数据集等,CoPL也可以得到一定的性能增益,这表明本文方法的出发点是正确的,通过对图像局部区域的注意力特征进行上下文建模,可以使得到的动态提示向量包含更多与下游任务相关的语义信息。

除了常规分类任务之外,本文作者还重点探索了本文方法在零样本(zero-shot)分类任务上的性能,如上表所示,首先将实验方法在简单的Caltech101数据集上进行训练,随后测试其在其他数据集上的性能,以评估方法的零样本迁移能力。从上表中可以看出,CoPL方法在大多数数据集上的表现都优于CoCoOp。虽然Caltech101是通用对象分类数据集,但是CoPL仍然能够将知识迁移到DTD数据集上来执行纹理识别任务。

四、总结

本文作者首先对现有基于提示的图像分类方法的缺陷进行了分析,即这些方法无法很好的关注到图像的局部关键信息。 本文提出另一种全新的多模态提示学习方法CoPL,CoPL通过动态学习提示权重并将生成的提示向量与局部图像进行特征对齐来解决上述问题。 作者通过在包含11个不同的数据集和场景中进行了完整的视觉分类实验,包括zero-shot、few-shot等不同的实验设置。实验结果表明,经过CoPL方法处理后的多模态对齐特征,具有良好的下游任务适应能力。

参考

[1] Zhou, K.; Yang, J.; Loy, C. C.; and Liu, Z. 2022b. Learning to Prompt for Vision-Language Models. Int. J. Comput. Vis., 130(9): 2337–2348.

[2] Zhou, K.; Yang, J.; Loy, C. C.; and Liu, Z. 2022a. Conditional Prompt Learning for Vision-Language Models. In CVPR.

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正大量上市,钾含量是苹果15倍,6月使劲吃,腿脚有劲,精神饱满

正大量上市,钾含量是苹果15倍,6月使劲吃,腿脚有劲,精神饱满

笑熬浆糊111
2026-06-11 00:05:33
林彪生命中的最后七天,都做了什么?

林彪生命中的最后七天,都做了什么?

河山历史
2026-06-11 11:25:22
9年了!林生斌澳洲富人区定居,儿女双全,现任妻子是“老”员工

9年了!林生斌澳洲富人区定居,儿女双全,现任妻子是“老”员工

原梦叁生
2026-06-11 12:37:32
一夫一妻制让男性阴茎骨退化,还会导致智力下降?

一夫一妻制让男性阴茎骨退化,还会导致智力下降?

宇宙时空
2026-06-07 18:00:16
教你如何给自己预测运势

教你如何给自己预测运势

Pandora占星小巫
2026-06-10 16:26:29
湖人太精明!放弃重磅大交易,2000万补强内线,带回8大自由球员

湖人太精明!放弃重磅大交易,2000万补强内线,带回8大自由球员

凡知
2026-06-11 11:42:21
德国外长:台海有事就是德国有事,我们不接受用暴力改变台海现状

德国外长:台海有事就是德国有事,我们不接受用暴力改变台海现状

補懂事的孩紙
2026-06-11 06:04:07
伊朗称美军炸毁250万升储水箱,45℃高温中2万人断水!美方尚未回应

伊朗称美军炸毁250万升储水箱,45℃高温中2万人断水!美方尚未回应

红星新闻
2026-06-11 14:30:18
退伍之后去大公司当保安,董事长看见我后惊呼:竟然是你!

退伍之后去大公司当保安,董事长看见我后惊呼:竟然是你!

烟火人间故事汇
2025-10-23 01:00:03
卢伟:队医说王哲林撕裂受伤至少缺席半个月 但他不想错过机会

卢伟:队医说王哲林撕裂受伤至少缺席半个月 但他不想错过机会

狼叔评论
2026-06-11 17:58:06
新易盛,痛击“站在光里”的16万股东

新易盛,痛击“站在光里”的16万股东

磐石之心
2026-06-11 16:36:12
拒绝试训!拒绝加盟火箭!只想联手文班

拒绝试训!拒绝加盟火箭!只想联手文班

篮球教学论坛
2026-06-11 18:17:06
锐评:郑钦文到底得罪了谁?

锐评:郑钦文到底得罪了谁?

网球之家
2026-06-10 23:47:04
上海司机没礼让行人被扣分后表示不认罚,交警反怼:我不需要你认

上海司机没礼让行人被扣分后表示不认罚,交警反怼:我不需要你认

青梅侃史啊
2026-06-11 10:04:02
1980年轰动巨大的新疆白毛风事件有多恐怖?749局首次认怂

1980年轰动巨大的新疆白毛风事件有多恐怖?749局首次认怂

小月文史
2024-11-20 19:14:38
震惊!四队身价破10亿欧,世界杯历史首次!

震惊!四队身价破10亿欧,世界杯历史首次!

球天下资讯
2026-06-10 23:42:37
郭威肠子悔青,没钱还房贷工作也丢,田静给许妈示好:我们是直系

郭威肠子悔青,没钱还房贷工作也丢,田静给许妈示好:我们是直系

子芫伴你成长
2025-03-25 23:13:48
张艺谋出席《主角》庆功宴,陈婷穿搭格格不入,孙浩发型成亮点

张艺谋出席《主角》庆功宴,陈婷穿搭格格不入,孙浩发型成亮点

观察鉴娱
2026-06-09 10:37:50
比亚迪王传福透露汽车销量受制于电池产能,正以每月2-3万爬升

比亚迪王传福透露汽车销量受制于电池产能,正以每月2-3万爬升

金融界
2026-06-09 12:37:55
黑龙江挪车纠纷后续:持刀闯仓库将人捅死,超市老板曝隐情

黑龙江挪车纠纷后续:持刀闯仓库将人捅死,超市老板曝隐情

奇思妙想草叶君
2026-06-08 18:01:24
2026-06-11 18:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2404文章数 596关注度
往期回顾 全部

科技要闻

淘宝、京东、拼多多、抖音、小红书被约谈

头条要闻

伊朗再次关闭霍尔木兹海峡 美军"暗航"线路公布

头条要闻

伊朗再次关闭霍尔木兹海峡 美军"暗航"线路公布

体育要闻

比起总冠军,更大的悬念成了FMVP?

娱乐要闻

《花少8》阵容大揭秘!秒杀前一季

财经要闻

干细胞生意:17万一针的希望

汽车要闻

全新奥迪Q3L申报信息曝光 轴距加长111mm 三款动力可选

态度原创

旅游
家居
数码
教育
公开课

旅游要闻

“上海之夏”为四类家庭定制专属套餐,乐高套票、漫展通票、宠物泳池都安排上了

家居要闻

空间微调 移形换境

数码要闻

VGN蜻蜓3大师版GT鼠标上市:升级PAW3955传感器,299元

教育要闻

考完语文,985没了;考完数学,211没了;考完物理,本科没了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版