网易首页 > 网易号 > 正文 申请入驻

Prompt—从CLIP到CoOp,Visual-Language Model新范式

0
分享至

△「ICCV2021 群星闪耀·围炉夜话」 活动持续报名中△

最近NLP领域提出了Prompt新范式,企图革新原先的Fine-tuning方法,而在CV领域中,Prompt其实可以理解为图像label的设计,从这个角度看,Prompt(预测文本中mask的字符,类似完形填空)其实是介于Image caption(迭代预测出每一个字符)和one-hot label(one-hot可以认为是prompt的特例,单字符通过text encoder成one-hot)之间的任务。最近在Visual-Language Model(缩写VLM)任务中,prompt开始展现出强大的能力。

本文首先介绍一下prompt和fine-tuning范式本质上有什么区别,然后介绍一下NLP中基于prompt的PET和AutoPrompt方法,最后介绍一下VLM任务中应用prompt范式的CLIP和CoOp方法。

另外,CLIP和CoOp都是基于prompt的判别式VLM方法,最近还有几篇基于prompt生成式VLM方法,基于prompt的生成式VLM和基于prompt的NLP方法非常类似,本文不展开细讲,详细内容推荐阅读以下文章:

Unifying Vision-and-Language Tasks via Text Generation:

https://arxiv.org/abs/2102.02779v1

Multimodal Few-Shot Learning with Frozen Language Models:

https://arxiv.org/abs/2106.13884

一、Prompt vs Fine-tuning

引用刘鹏飞大佬的原话:

https://zhuanlan.zhihu.com/p/395115779

图中,圆形表示预训练语言模型,矩形框表示的是各种下游NLP任务。那么,我们就有这样一句话:大家都是希望让 预训练语言模型和下游任务靠的更近,只是实现的方式不一样。

· Fine-tuning中:是预训练语言模型“迁就“各种下游任务。具体体现就是上面提到的通过引入各种辅助任务loss,将其添加到预训练模型中,然后继续pre-training,以便让其更加适配下游任务。总之,这个过程中,预训练语言模型做出了更多的牺牲。

· Prompting中,是各种下游任务“迁就“预训练语言模型。具体体现也是上面介绍的,我们需要对不同任务进行重构,使得它达到适配预训练语言模型的效果。总之,这个过程中,是下游任务做出了更多的牺牲。

下面讲一下NLP中的两个前置工作PET和AutoPrompt,这两个工作对于Visual-Language Model任务的启发是非常大的。

二、PET

PET是第一个将prompt训练的语言模型应用到下游任务的方法,并且把prompt范式规范化,给后续prompt范式的研究提供了示范。

PET的设计流程如下:

1.预先设置多种prompt,其中包含需要预测的文字(比如上图中的Best pizza ever! It was ___.其中It was就是预先设置的prompt,可以替换成其他的prompt),然后将多种prompt送入不同的PLM模型中进行训练,最终得到多个PET模型。

2.将需要预测的文本送入多个PET模型中进行推理,综合多个PET模型结果得到soft label。

3.把需要预测的文本和soft label放到分类器中进行训练,得到最终的文本分类模型。

三、Autopromt

PET构建的prompt是人为设计的,这可能会导致设计的prompt不够合理。AutoPrompt提出在构建prompt时通过网络自动化学习出Trigger Tokens [T] [T] [T] [T] [T],优化目标是加入合适的token之后,预测结果越来越倾向于正确结果(比如上图中,token为atmosphere alot dialogue clone totally时,positive的概率越高)。

四、CLIP

OpenAI从网络收集了4亿数据量的图片文本对用于CLIP训练,最后进行zero-shot transfer到下游任务达到了非常好的效果(关于zero-shot learning可以看我之前的文章ViLD:超越Supervised的Zero-Shot检测器)。

简单回顾一下CLIP的使用流程:

1.如图(1)所示,CLIP将一批文本通过Text Encoder编码成一批word embedding,将一批图片(与文本一一对应)通过Image Encoder编码成一批feature embedding,然后将对应的word embedding和feature embedding先归一化然后进行点积得到相似度矩阵,点积数值越大,代表word embedding和feature embedding的向量越相似,这里的监督信号就是矩阵对角线为1,其余位置为0。其中Text Encoder使用的是Transformer,而Image Encoder使用ResNet50和ViT两种架构其中一个,Image Encoder和Text Encoder都是从头训练。

2.然后将预训练好的CLIP迁移到下游任务,如图(2)所示,先将下游任务的标签构建为一批带标签的文本(例如 A photo of a {plane}),然后经过Text Encoder编码成一批相应的word embedding。

3.最后将没有见过的图片进行zero-shot预测,如图(3)所示,通过Image Encoder将一张小狗的图片编码成一个feature embedding,然后跟(2)编码的一批word embedding先归一化然后进行点积,最后得到的logits中数值最大的位置对应的标签即为最终预测结果。

从CLIP的流程中可以看出,CLIP和PET的prompt使用方式非常相似,A photo of a就是一个人为设计的prompt。

五、CoOp

CoOp明显是受到了AutoPrompt的启发,并且CoOp发现CLIP实际上就是prompt在visual-language model中的一个应用,于是CoOp在CLIP的基础上进一步进行改进。

CoOp先在四个数据集上做实验,发现更合理的prompt能够大幅度的提升分类精度尤其是使用了本文提出的CoOp之后,最终的分类精度远超CLIP人为设计的prompt。

和CLIP的主要不同之处在于,CoOp在CLIP的第二个阶段中引入了context optimization。具体的,CoOp将prompt设计为:

其中每个向量跟word embedding的维度相同,可以理解为可学习的context,并且所有类别对应的context共享参数。

将learnable context和不同类别的word embedding拼接起来送入text encoder中进行训练,优化目标是使得和图片对应的prompt预测分数最大。训练完成后,learnable context的参数就固定下来了。

Other Variants

作者还尝试了两种变体:

· 一种是prompt可以在需要预测的class前后都插入learnable context,这可以增加prompt的灵活性。

· 另一种是设计class-specific context(CSC),也就是所有类别的prompt参数独立,在一些细粒度分类任务中效果更好。

CoOp vs CLIP

从11个数据集的实验中可以看出,CoOp均超过了CLIP,并且在一些数据集上,大幅度超过CLIP。证明了可学习的prompt优于人为设计的prompt。CoOp提出的两种变体,在一些数据集中效果更好。

CoOp vs Prompt Ensembling

将CoOp和PET中提出的Prompt ensembling进行比较,CoOp也展现出了优越性。

CoOp的影响因素

从上面的实验中可以看出,CoOp对于噪声的鲁棒性优于CLIP。

从上面的实验中可以看出,context length长度越长,CoOp效果越好;backbone模型越大,CoOp效果越好。

Random vs. manual initialization

这个对比实验相当的精髓,也就是说learnable context的初始化prompt是什么没那么重要,随机初始化就能达到精调初始化相当的精度。

六、总结

因为CoOp是class-level的自适应,不能根据输入图片的不同动态变化prompt,如果能够根据输入图片动态调整prompt的话,也就是instance-level的自适应,可能会有奇效。learnable context的作用类似于去噪,让网络拟合噪声,使得预测部分的关注区域更为干净。感觉learnable context和ViT中的object query的功能非常相似,都是任意学习出信息,只根据最后的监督信号更新参数。后续可以挖掘一下如何控制learnable context的学习,来提升基于prompt的VLM性能。生成式的VLM也可以探索一下如何设计prompt更合理。

另外就是纯CV方向的prompt,也就是类似于ViT将图片拆分patch,每个patch实际上可以看成一个字符,那么也可以设计patch的prompt对模型进行训练,这其中也可以分成生成式(类似ViT)和判别式(类似self-supervised)两种方法。

Reference

[1] https://zhuanlan.zhihu.com/p/395115779

[2] https://zhuanlan.zhihu.com/p/391606045

[3] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

[4] AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts

[5] Learning Transferable Visual Models From Natural Language Supervision

[6] LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS

Illustrastion by Natasha Remarchuk from Icons8

-The End-

怀念不如相见!

10.16晚18:00

将门-TechBeat将在上海与大家一起围炉夜话

ICCV线上线下嘉宾连线交流

分享AI道路上的故事集、经验贴

扫描下方二维码,即刻索票

还不知道本次活动详情?

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
飙涨近4%!港股硬科技再创上市新高

飙涨近4%!港股硬科技再创上市新高

每日经济新闻
2026-05-25 10:36:39
1983年,红卫兵头子被判刑,晚年沦落到捡菜叶子充饥,活到2019年

1983年,红卫兵头子被判刑,晚年沦落到捡菜叶子充饥,活到2019年

米果说识
2024-09-12 04:20:03
普京回国后,拉夫罗夫给了一句忠告:美国对华“包围圈”即将合拢

普京回国后,拉夫罗夫给了一句忠告:美国对华“包围圈”即将合拢

阿讯说天下
2026-05-25 13:17:23
金溥聪记者会晒出马英九委托书,称萧王频繁赴陆引马英九不满!

金溥聪记者会晒出马英九委托书,称萧王频繁赴陆引马英九不满!

琴音缭绕回
2026-05-25 14:23:02
网红殷世航爆料好兄弟童锦程一个月三四百万,三年狂赚一个亿,网友:说好的吃泡面呢?

网红殷世航爆料好兄弟童锦程一个月三四百万,三年狂赚一个亿,网友:说好的吃泡面呢?

科学发掘
2026-05-25 15:09:22
A股:今日放量上涨,科技股再度爆发!不用猜了,新一轮上涨来了

A股:今日放量上涨,科技股再度爆发!不用猜了,新一轮上涨来了

云鹏叙事
2026-05-25 11:45:38
为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

别让往昔的悲伤和对未来的恐惧
2026-05-13 16:03:22
日经225指数突破64000点,再创历史新高

日经225指数突破64000点,再创历史新高

澎湃新闻
2026-05-25 08:24:15
迈阿密主帅:梅西确实很疲劳,我们还在等医疗报告

迈阿密主帅:梅西确实很疲劳,我们还在等医疗报告

懂球帝
2026-05-25 10:55:08
匪夷所思!山西煤矿爆炸揭开行业真实一面:煤矿连手套都没发过

匪夷所思!山西煤矿爆炸揭开行业真实一面:煤矿连手套都没发过

Mr王的饭后茶
2026-05-25 10:29:49
震惊!杨梅“药泡”跨省蔓延至安徽,网友:不刮骨疗毒,没有未来

震惊!杨梅“药泡”跨省蔓延至安徽,网友:不刮骨疗毒,没有未来

火山詩话
2026-05-25 10:04:10
马办确认移送检调,金溥聪连忙改口,萧旭岑不再让了,宣布提告!

马办确认移送检调,金溥聪连忙改口,萧旭岑不再让了,宣布提告!

暮雪无痕
2026-05-25 11:04:56
第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

第一次感受到“荔枝核的威力”,泡水里20天,长成“粉盆栽”

美家指南
2026-05-15 15:27:43
马德兴:中国U19踢土伦杯是以小打大,集训时间短人员也不齐

马德兴:中国U19踢土伦杯是以小打大,集训时间短人员也不齐

懂球帝
2026-05-25 10:13:16
2300亿大牛股,封板涨停!华为宣布重大突破

2300亿大牛股,封板涨停!华为宣布重大突破

21世纪经济报道
2026-05-25 14:15:29
5月22日养老金上调通知发布了?真相和网传不一样!

5月22日养老金上调通知发布了?真相和网传不一样!

李博世财经
2026-05-24 14:13:03
入夏后,遇到这4种养心菜抓紧吃!公认的“长寿菜”,补血又消暑

入夏后,遇到这4种养心菜抓紧吃!公认的“长寿菜”,补血又消暑

花小厨
2026-05-25 15:34:31
俄罗斯突然发出警告,一大批西方武器装备,正在中国周边急速扩张

俄罗斯突然发出警告,一大批西方武器装备,正在中国周边急速扩张

无情有思可
2026-05-25 15:46:44
胜率暴跌至25%!杨楷文深陷申真谞布局陷阱,绝处逢生能否逆转?

胜率暴跌至25%!杨楷文深陷申真谞布局陷阱,绝处逢生能否逆转?

L76号
2026-05-25 12:05:34
切尔西去年1.4亿欧签下“三叉戟”,结果三人在英超共打进2球

切尔西去年1.4亿欧签下“三叉戟”,结果三人在英超共打进2球

懂球帝
2026-05-25 02:51:18
2026-05-25 16:23:03
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2387文章数 596关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

学生被要求每天体育活动2小时 有学生跑300米后离世

头条要闻

学生被要求每天体育活动2小时 有学生跑300米后离世

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

退市!33年“A股不死鸟”落幕

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

教育
房产
旅游
游戏
亲子

教育要闻

第07课-跟人碰面怎么打招呼更亲切?

房产要闻

工抵房骗局!134套房款入私账!海南这个盘,坑惨买房人!

旅游要闻

云南瑞丽:凤凰花开 展初夏芳华

D加密又输了了!《红色沙漠》刚更新就被火速攻破

亲子要闻

儿童牙膏标着“不能食用”,电商却暗示“可吞咽”?儿童牙膏乱象调查——

无障碍浏览 进入关怀版