网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 Spotlight | 自蒸馏激发CLIP模型的检测分割能力

0
分享至

得益于大规模的视觉语言预训练,CLIP模型(尤其是基于ViT的CLIP模型)在图像识别任务上展现出强大的泛化性。然而,对于下游的密集预测(dense prediction)视觉任务,如目标检测和图像分割,CLIP ViT对图像局部区域表现出的识别能力并不尽如人意。

在这篇论文中,我们对CLIP ViT模型的区域特征进行了详细分析,并提出通过自蒸馏(self-distillation)的方式,用CLIP ViT模型强大的图像层级表征,提升其区域层级的表征。我们将该方法称为CLIPSelf。实验上,我们在开放词汇目标检测和图像分割上广泛地验证了CLIPSelf的效果,并提供了有趣的定量和定性分析。

论文名称: CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction 论文链接: https://arxiv.org/pdf/2310.01403.pdf 代码地址: https://github.com/wusize/CLIPSelf

一、分析CLIP模型的区域表征

我们利用COCO数据集上的区域物体框,让CLIP模型对这些物体框进行分类,计算分类的准确度(mAcc)。

我们分别采用两种方式利用CLIP模型对物体框进行处理:

一种是将整个图像利用CLIP模型提取图像特征,再根据物体框的坐标信息通过局部区域的池化操作(RoIAlign)得到区域密集特征(dense feature),下游的目标检测和图像分割任务需要采用这种方式获得局部物体的感知;

另一种是先将物体框区域从原图裁剪得到的小图像(image crop),再采用CLIP预训练相同的方式,将整个小图像送入CLIP模型提取图像层级的特征。

图1. CLIP模型分析

尽管基于ViT的CLIP模型在全图分类上展现出很好的效果(图1(a)),但如图1(b)所示,CLIP ViT的dense feature的效果不佳,不能被用于很好地识别物体。图1(c)中的Kmeans可视化结果也表明ViT的局部特征相对于CNN分散嘈杂。

这是由于ViT不具有CNN的平移等变性和局部性等特点,而预训练只在图像层级对齐了视觉语言的表征,从而缺乏提取良好区域特征的能力。

我们进一步对更多主流的CLIP模型的区域密集特征进行分析,在不同的原图尺度上统计物体框的分类精度。

如图2所示,各种CLIP ViT模型的Dense feature对物体框的分类均不如Image crop的图像层级特征。并且,随着图像输入尺寸的增大,CLIP ViT dense feature的能力并没有随之提升,这将不利于下游的目标检测和图像分割任务进行区域识别。

图2. CLIP模型的区域分类精度

二、方法

为提升CLIP ViT的区域表征,一个自然的做法是构造区域文本对(region-text pairs),直接学习区域表征和文本表征之间的对齐。

然而,人工标注区域文本对数据成本巨大。因此现有的方法(如RegionCLIP)解析图像的caption得到物体名词(object nouns),同时利用预训练的区域生成网络(RPN)生成region proposals吗,再匹配两者获得区域文本对。

由于匹配结果准确度有限,这种区域文本对提供的监督噪声极大。因此,本文提出CLIPSelf以解决上述问题。

受图1、2中Image Crop的高分类精度启发,我们试图用CLIP高质量的图像特征(teacher)监督其区域特征(student),利用自监督的方式来提升CLIP ViT的密集表征。

CLIPSelf通过最小化CLIP ViT的dense feature(student)和对应的Image crop特征(teacher)的cosine距离,来优化CLIP的局部特征。

如图3所示,CLIPSelf可以不依赖RPN网络提供region proposals,仅将图像均匀划分成MxN个patch即可得到self-distillation所需的图像区域。训练过程中,对每一张图片,我们从{2,3,4,5,6}中随机采样得到M和N。

图3. CLIPSelf的自蒸馏框架

三、实验结果

3.1 开放词汇目标检测

通过将开放词汇目标检测器中的CLIP模型替换为我们CLIPSelf自蒸馏后的版本,我们取得了开放词汇目标检测任务上新的SOTA。

图4. 开放词汇目标检测任务结果

3.2 开放词汇图像分割

用CLIPSelf优化后的CLIP ViT模型替换原始的模型,可以显著提升现有开放词汇图像分割的效果。

3.3 开放词汇图像分割与构造区域文本对比较

如下表所示,在使用相同的region proposals情况下,self-distillation是比region-text pairs更好的监督来源。

四、总结

在这篇论文中,我们详细地分析了CLIP模型的局部区域表征能力,发现CLIP ViT区域层级的表征较弱,但是有很强的图像层级表征。

因此,我们提出了一种自蒸馏的方式CLIPSelf,用CLIP ViT强大的图像表征来优化其自身的区域表征。CLIPSelf显著提升了CLIP ViT在开放词汇密集预测(dense prediction)任务中的性能。

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第二代,集体谢世……

第二代,集体谢世……

力哥说
2026-01-18 00:38:43
公开露面两天后,李湘再曝大瓜,这次无关释永信和让她怀二胎的人

公开露面两天后,李湘再曝大瓜,这次无关释永信和让她怀二胎的人

80后房车生活
2026-01-16 22:28:33
彻底瞒不住了!特朗普反常言行暴露痴呆症状,白宫也无能为力了

彻底瞒不住了!特朗普反常言行暴露痴呆症状,白宫也无能为力了

影孖看世界
2026-01-17 16:40:47
最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

最小红军向轩:7岁投身革命9岁长征路,1955年授衔他获封什么军衔

磊子讲史
2026-01-14 11:16:27
“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

“油耗子”越南付出代价,盗挖中国石油数十年,最终付出惨痛代价

阿坹武器装备科普
2026-01-17 14:31:40
又来!印度羽毛球赛因场地落鸟粪中断,本土选手淡定自若、对手直接干呕

又来!印度羽毛球赛因场地落鸟粪中断,本土选手淡定自若、对手直接干呕

懂球帝
2026-01-17 12:51:11
忘本早有预兆!闫学晶和前夫离婚真相被曝,出名后看上大款,飘了

忘本早有预兆!闫学晶和前夫离婚真相被曝,出名后看上大款,飘了

兴史兴谈
2026-01-17 05:30:49
纯棉、全棉、100%棉的区别,终于讲清楚了

纯棉、全棉、100%棉的区别,终于讲清楚了

大象新闻
2026-01-16 08:09:03
这个周末,陈小群深陷舆论漩涡!一张截图刷屏,大佬说教陈小群

这个周末,陈小群深陷舆论漩涡!一张截图刷屏,大佬说教陈小群

金石随笔
2026-01-18 00:06:02
5-6!小特先赢后输无缘决赛,囧哥单杆76分零封,3-2领先吴宜泽!

5-6!小特先赢后输无缘决赛,囧哥单杆76分零封,3-2领先吴宜泽!

刘姚尧的文字城堡
2026-01-18 05:27:53
拔出萝卜带出泥!李湘全网被禁关,王诗龄身份遭质疑,前夫已被抓

拔出萝卜带出泥!李湘全网被禁关,王诗龄身份遭质疑,前夫已被抓

一娱三分地
2026-01-16 19:22:29
万茜自曝上学时没人追,看清她的校服照后,网友:这谁敢追啊!

万茜自曝上学时没人追,看清她的校服照后,网友:这谁敢追啊!

背包旅行
2026-01-17 15:03:45
超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

超级骗子刘特佐,如何掏空一个国家?肥头大耳却能泡遍女明星?

午夜故事会
2024-07-08 10:57:49
脸疼不疼?人民网彻查后,闫学晶首现身再传噩耗,这回真洗不白了

脸疼不疼?人民网彻查后,闫学晶首现身再传噩耗,这回真洗不白了

草莓解说体育
2026-01-18 05:06:40
情感纠纷长达20余年?编剧汪海林爆黄慧颐曾在剧组捅伤保剑锋

情感纠纷长达20余年?编剧汪海林爆黄慧颐曾在剧组捅伤保剑锋

扬子晚报
2026-01-17 21:22:43
赶紧关张倒闭,没人拦着您

赶紧关张倒闭,没人拦着您

在远方的德彪
2026-01-17 18:48:56
人民日报祝贺!中国队进四强仅2小时 连获3个喜讯 半决赛时间确定

人民日报祝贺!中国队进四强仅2小时 连获3个喜讯 半决赛时间确定

侃球熊弟
2026-01-17 23:33:48
热议U23国足点杀乌兹:土帅玩防守没这么成功过,李昊笑容代表自信

热议U23国足点杀乌兹:土帅玩防守没这么成功过,李昊笑容代表自信

懂球帝
2026-01-17 22:49:01
浙江省委常委、政法委书记王成国当选省人大常委会副主任

浙江省委常委、政法委书记王成国当选省人大常委会副主任

澎湃新闻
2026-01-17 15:56:26
多地“刨猪宴”临时取消!年味狂欢要热情更要理性

多地“刨猪宴”临时取消!年味狂欢要热情更要理性

极目新闻
2026-01-17 11:17:02
2026-01-18 07:36:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

头条要闻

美国因格陵兰岛问题对欧洲8国加关税 多国反击特朗普

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

时尚
健康
房产
本地
艺术

“这个风格”今年冬天又火了!谁穿谁高级

血常规3项异常,是身体警报!

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

艺术要闻

你绝对想不到!央美华宜玉的水彩画竟然如此震撼!

无障碍浏览 进入关怀版