网易首页 > 网易号 > 正文 申请入驻

ECCV 2022 | 腾讯优图提出DisCo:拯救小模型在自监督学习中的效果

0
分享至

自监督学习通常指的模型在大规模无标注数据上学习通用的表征,迁移到下游相关任务。 因为学习到的通用表征能显著提升下游任务的性能,自监督学习被广泛用于各种场景。 通常来讲,模型容量越大,自监督学习的效果越好 [1,2]。 反之,轻量化的模型(EfficientNet-B0, MobileNet-V3, EfficientNet-B1) 在自监督学习上效果就远不如容量相对大的模型 (ResNet50/101/152/50*2)。

论文地址:https://arxiv.org/abs/2104.09124 官方代码实现:https://github.com/Yuting-Gao/DisCo-pytorch
一、Motivation

目前提升轻量化模型在自监督学习上性能的做法主要是通过蒸馏的方式,将容量更大的模型的知识迁移给学生模型。SEED [2]基于MoCo-V2框架 [3,4],容量大的模型作为Teacher,轻量化模型作为Student,共享MoCo-V2框架中负样本空间(Queue),通过交叉熵迫使正样本与相同的负样本在Student与Teacher空间中的分布尽可能相同。CompRess [1]还尝试了Teacher和Student维护各自的负样本空间,同时使用KL散度来拉近分布。以上方法可以有效的将Teacher的知识迁移给Student,从而提升轻量化模型Student的效果(本文会交替使用Student与轻量化模型)。

本文提出了Distilled Contrastive Learning (DisCo),一种简单有效的基于蒸馏的轻量化模型的自监督学习方法,该方法可以显著提升Student的效果并且部分轻量化模型可以非常接近Teacher的性能。该方法有以下几个观察:

  1. 基于自监督的蒸馏学习,因为最后一层的表征包含了不同样本的在整个表征空间中的全局的绝对位置和局部的相对位置信息,而Teacher中的这类信息比Student更加的好,所以直接拉近Teacher与Student最后一层的表征可能是效果最好

  2. 在CompRess [1] 中,Teacher 与 Student 模型共享负样本队列(1q) 与拥有各自负样本队列(2q) 差距在1%内。该方法迁移到下游任务数据集CUB200, Car192,该方法拥有各自的负样本队列甚至可以显著超过共享负样本队列。这说明,Student并没有从Teacher共享的负样本空间学习中获得足够有效的知识。Student不需要依赖来自Teacher的负样本空间

  3. 放弃共享队列的好处之一,是整个框架不依赖于MoCo-V2,整个框架更加简洁。Teacher/Student 模型可以与其他比MoCo-V2更加有效的自监督/无监督表征学习方法结合,进一步提升轻量化模型蒸馏完的最终性能。

  4. 目前的自监督方法中,MLP的隐藏层维度较低可能是蒸馏性能的瓶颈。在自监督学习与蒸馏阶段增加这个结构的隐藏层的维度可以进一步提升蒸馏之后最终轻量化模型的效果,而部署阶段不会有任何额外的开销。将隐藏层维度从512->2048,ResNet-18可以显著提升3.5%。


二、Method

本文提出一个简单却很有效的框架 Distilled Contrastive Learning (DisCo) 。Student 会同时进行自监督学习和学习相同的样本在Teacher的表征空间中分布。

DisCo的框架

如上图所示,通过数据增广 (Data Augmentation) 操作将图像生成为两个视图 (View)。除了自监督学习,还引入一个自监督学习获得的Teacher模型。要求相同样本的相同视图,经过Student和固定参数的Teacehr的最终表征保持一致。在本文的主要实验中,自监督学习基于MoCo-V2 (Contrastive Learning),而保持相同样本通过Teacher与Student的输出表征的表征相似是通过一致性正则化(Consistency Regularization)。本文采用均方误差来使Student学习到样本在对应Teacher空间中的分布。


三、Experiments

此处我们列出一些重要的实验结果。

在ImageNet验证集,对不同轻量化模型进行线性评估 (Linear Evaluation)

在上图,DisCo 大大超出了轻量化模型(EfficientNet-B0, MobileNet-V3, Efficient-B1, ResNet18, ResNet34)直接使用MoCo-V2的自监督学习得到的效果,并且超越了SOTA(SEED)。特别值得注意的是,EfficientNet-B0的结果非常接近作为Teacher的ResNet-50,而EfficientNet-B0的参数仅为ResNet-50的16.3%。

除了与SOTA对比,我们还从以下几个方面的实验来验证DisCo的有效性:

1. 表征泛化能力

  1. 迁移到下游分类任务:Cifar10/100

  2. 迁移到检测/分割任务:VOC07,COCO2012

2. DisCo相比已有蒸馏方法,能更好的拉近Teacher与Student的表征分布。同时,与已有的蒸馏方法结合,能进一步提升蒸馏效果

3. 半监督学习下的表现

4. 消融实验

  1. Teacher采用其他的自监督学习方法的影响

  2. Student/Teacher同时采用其他的自监督学习方法的影

除此之外,本文还从分析了MLP隐藏层维度的影响,使用IB理论进一步分析隐藏层的维度可以有效提升方法轻量化模型性能的原因。详情可见论文链接。


四、Visualization

本文还可视化了相同样本在经过MoCo-2得到的EfficientNet-B0, 经过MoCo-V2得到的ResNet-50,以及本文的方法得到的EfficientNet-B0的表征。可以观察到ResNet-50形成比EfficientNet-B0更多的分离簇,单独使用MoCo-V2,本文的方法得到的EfficientNet-B0有更清晰的分离簇,也与ResNet-50更接近。

在ImageNet测试集上聚类结果(不同的颜色代表不同的类别)

五、Conclusion

针对怎么缓解轻量化的模型在自监督任务上性能远不如容量大的模型的现象,本文通过知自监督学习和知识蒸馏,约束轻量级模型Student的输出表征与容量大的模型Teacher的输出表征在空间上尽量相近。该方法可以不依赖特定的自监督方法。特别是,当ResNet101 / ResNet-50被用作教师,EfficientNet-B0在ImageNet上的 Linear Evaluation 结果非常接近ResNet-101 / ResNet-50,但EfficientNet-B0的参数量仅为ResNet101 / ResNet-50的9.4%/ 16.3%。

Reference

[1] Soroush Abbasi Koohpayegani, Ajinkya Tejankar, and Hamed Pirsiavash. Compress: Self-supervised learning by compressing representations. In NeurIPS, pages 12980– 12992, 2020.

[2] Zhiyuan Fang, Jianfeng Wang, Lijuan Wang, Lei Zhang, Yezhou Yang, and Zicheng Liu. Seed: Self-supervised distillation for visual representation. In ICLR, 2021.

[3] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In CVPR, pages 9729–9738, 2020.

[4] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He. Improved baselines with momentum contrastive learning. In CVPR, pages 9729–9738, 2020.

[5] Hao Cheng, Dongze Lian, Shenghua Gao, and Yanlin Geng. Evaluating capability of deep neural networks for image classification via information plane. In ECCV, pages 168–182, 2018.

公众号:【CVer】 作者:Linz

Illustration b y Gregory Avoyan from icon s8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

“签单陪你睡!”女业务员献身客户,半年后被约,拼命逃出报警

一丝不苟的法律人
2026-06-27 14:59:29
整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

整容失败不可怕,一股姨味才尴尬!52岁苏有朋给所有男星提了个醒

胡一舸南游y
2026-06-28 22:43:38
维金斯降薪续约热火3年6400万 帮球队腾空间

维金斯降薪续约热火3年6400万 帮球队腾空间

坠入温柔晚风
2026-06-30 01:24:19
片酬动辄几千万,明星为何全程臭脸?票房翻车直接断送职业生涯

片酬动辄几千万,明星为何全程臭脸?票房翻车直接断送职业生涯

魔都姐姐杂谈
2026-06-29 10:02:27
在跑步机上摔倒,知名音乐人屠颖意外离世!滚石唱片发声明列出酒店7大失职问题

在跑步机上摔倒,知名音乐人屠颖意外离世!滚石唱片发声明列出酒店7大失职问题

都市快报橙柿互动
2026-06-29 15:16:26
57岁森保一回应日本队出局:是我能力不足 很不甘心 球员已经尽力

57岁森保一回应日本队出局:是我能力不足 很不甘心 球员已经尽力

风过乡
2026-06-30 03:39:52
CCTV5美国大满贯!王曼昱战日本削球手佐藤瞳 世界杯女单亚军一轮游!30日赛程出炉

CCTV5美国大满贯!王曼昱战日本削球手佐藤瞳 世界杯女单亚军一轮游!30日赛程出炉

好乒乓
2026-06-29 15:48:03
刚服役就成全球第一?美媒这次说实话了:中国预警机,真无敌了

刚服役就成全球第一?美媒这次说实话了:中国预警机,真无敌了

战域笔墨
2026-06-30 01:43:26
广州一民办高校深夜再回应禁止小米汽车入校:校园车辆管理一视同仁,与品牌无关,并提供教师小米汽车进出记录,涉事保安言论不实正在调查

广州一民办高校深夜再回应禁止小米汽车入校:校园车辆管理一视同仁,与品牌无关,并提供教师小米汽车进出记录,涉事保安言论不实正在调查

扬子晚报
2026-06-29 07:28:02
苹果全球定价迷局:同一部手机,差价为何能翻倍?

苹果全球定价迷局:同一部手机,差价为何能翻倍?

固件更新中
2026-06-29 00:42:14
世界杯天丑闻!佛得角队长涉嫌强奸巴西女翻译,警方调取酒店监控

世界杯天丑闻!佛得角队长涉嫌强奸巴西女翻译,警方调取酒店监控

小兰聊历史
2026-06-29 09:43:13
台海变天?赖清德彻底摊牌,让大陆放弃“攻台”,国防部:不惯着

台海变天?赖清德彻底摊牌,让大陆放弃“攻台”,国防部:不惯着

近史博览
2026-06-30 06:29:20
世贸天阶改造全新效果图曝光!旋转木马撤了,“全北京向上看”的约定没变!

世贸天阶改造全新效果图曝光!旋转木马撤了,“全北京向上看”的约定没变!

北京商报
2026-06-29 13:09:07
特朗普,“和粉丝吵翻了”

特朗普,“和粉丝吵翻了”

中国新闻周刊
2026-06-29 21:30:13
七一4.27亿专项资金到位!党龄满50年到底能领多少钱?一次讲清

七一4.27亿专项资金到位!党龄满50年到底能领多少钱?一次讲清

靓仔情感
2026-06-29 18:33:16
1天4个瓜!当街亲密、全网封禁,自曝怀双胎,赵丽颖最让人意外

1天4个瓜!当街亲密、全网封禁,自曝怀双胎,赵丽颖最让人意外

丁丁鲤史纪
2026-06-28 15:35:14
中国男篮决战日本队,突传坏消息,郭士强面临最大挑战

中国男篮决战日本队,突传坏消息,郭士强面临最大挑战

宗介说体育
2026-06-29 14:23:12
日本7-1巴西!盐贝健人社交媒体被冲,两队球迷高强度互喷

日本7-1巴西!盐贝健人社交媒体被冲,两队球迷高强度互喷

懂球帝
2026-06-29 11:26:16
人伦大乱,正在悄悄毁掉无数中国家庭!看似平常,实则家道衰败

人伦大乱,正在悄悄毁掉无数中国家庭!看似平常,实则家道衰败

大熊欢乐坊
2026-06-30 00:45:36
630G 机密外泄iPhone18 全套图纸从印度代工厂流出,苹果底牌全曝光

630G 机密外泄iPhone18 全套图纸从印度代工厂流出,苹果底牌全曝光

小兔子发现大事情
2026-06-30 00:34:50
2026-06-30 07:16:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2415文章数 596关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

头条要闻

巴西2-1逆转日本 卡塞米罗头槌马丁内利96分钟绝杀

体育要闻

日本众将掩面痛哭 连续3届先破门却被逆转

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

万达广场批量易主 多位投资人正式入局

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

艺术
时尚
游戏
手机
公开课

艺术要闻

16幅 冉茂芹小幅风景油画写生

好特别的白色造型,太高级了

魔坛节奏丨Life带病擒Happy,Sky队后来居上晋级全能王决赛

手机要闻

华为nova17 Air曝光:7000mAh电池+16:10阔直屏,要搅局中端市场

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版