网易首页 > 网易号 > 正文 申请入驻

ICML 2023 | 究竟MAE与对比学习怎样结合才是最优的?ReCon来告诉你答案

0
分享至

介绍一下我们在3D 表征学习上的新工作,ReCon: Contrast with Reconstruct,通过生成式学习指导对比学习实现高效的3D表征,在ScanObjectNN上实现91.26%的OA,以及多项SOTA,代码已开源。

论文链接: https://arxiv.org/abs/2302.02318 代码链接: https://github.com/qizekun/ReCon

一、 引言

我们知道,3D点云长期遭受着严重的数据缺乏问题,常用的ModelNet40、ShapeNet数据集仅包含14k与51k的数据,这与2D或图文多模态上动辄14M、300M甚至5B的超大规模数据形成巨大对比。因此,如何在有限的数据上高效的提取3D表征成为我们的研究动机,我们从Generative和Contrastive两大主流的自监督框架入手进行分析。

我们首先研究了MPM(Masked Point Modeling)、CMC(Cross-modal Contrastive)和SMC(Single-modal Contrastive)等预训练方法对Pretrain数据的依赖性,我们在ShapeNet上进行预训练,并在ScanObjectNN上测试迁移性能,结果在图(a)中展示。我们发现:

  • Contrastive方法具有Over-fitting问题
    当缺乏预训练数据(<90%)时,Contrastive模型无法带来泛化性能,而Generative模型仅需大约25%的数据就可以给下游任务带来显著的性能提升。这表明,对比学习很容易找到表征捷径来过度拟合有限的数据 [1],而生成式模型对数据的依赖程度较低,可以用很少的数据学习到良好的初始化。

  • Generative方法具有Data filling问题
    当预训练数据扩大时,对比学习呈现出更好的潜在能力,而生成模型在提供更多数据时只带来较小的性能提升(从75%提升到100%的数据对下游任务的改善并不明显)。这表明,当预训练数据足够时,对比学习可以为生成模型带来更强的数据扩展能力。在2D中,对比学习模型 [2]在下游任务的效果超越了扩展能力较弱的生成模型 [3]。

我们还研究了MPM(Masked Point Modeling)、CMC(Cross-modal Contrastive)在感受野和注意力区域上的区别,类比2D中ViT的Average Attention Distance [4],我们根据3D patch中心之间的欧式距离和attention map权重来生成3D Average Attention Distance,结果在图(b)中展示。我们观察到一个模式差异问题,即对比模型的注意力主要集中在全局领域,其注意力距离逐步上升并趋于一个较高值,而生成模型对集中的局部注意力有兴趣,这与Xie等人在2D的观察结果一致 [5]。

如何有效地结合Contrastive和Generative方法,并且规避其在注意力模式上的区别成为我们工作的motivation。

二、知识蒸馏——对比式和生成式的统一理论

  • 对比学习通过对统一样本数据的不同view进行拉进、不同样本的view进行推远来促使模型学习深层次的知识,这里的view可以是单模态 [6],也可以是多模态的 [7], 其本质上相当于在feature map或logits上相互提供监督信号来寻找全局语义上的联系,即不同view下特征的蒸馏。

  • 生成式模型通过denoising autoencoder的方式,对数据样本施加扰动(例如mask),并设置数据样本的某一种view(例如pixel [3]、VQ code [8]、HOG特征 [9]等等)作为teacher提供监督信号。其本质在于迫使模型学习局部特征的相互关系来实现对教师特征的对齐。

在知识蒸馏的视角下,我们统一了Contrastive和Generative两种自监督范式,由此引申出ReCon模型,通过多教师蒸馏与学生协同学习下的自监督模型(student-teacher knowledge distillation with student-student assistance)。Local teacher通过局部语义的复原来使Local student学到丰富的局部知识,Local student向Global student提供局部知识以帮助其全局知识的学习。

在细节上,二者使用不同的Transformer Attention架构来规避注意力模式的差异。关于生成式学习的形式,可以类似于BEiT [8]、ACT [10]通过Tokenizer生成语义token用于重建,即使用Tokenizer作为Teacher监督,也可以类似于MAE [3]、PointMAE [11]直接重建源数据,即使用Identity作为Teacher监督。而关于对比学习的形式,可以类似于CLIP [7]进行跨模态之间的对比学习,也可以类似于SimCLR[6]、PointContrast [12]进行单模态的对比学习。

三、方法

我们在主图展示了ReCon的encoder-decoder框架,其中Point Identity作为Local 3D Point Cloud Encoder教师,跨模态预训练模型作为Global 3D Point Cloud Decoder教师,这种配置在后续的消融实验被验证有最优的效果。我们使用timm [13]或CLIP [7]的视觉编码器作为ReCon的2D Teacher,CLIP的文本编码器作为ReCon的Text Teacher,并在后续的消融实验发现freeze parameter有利于知识的迁移。对于Local 3D Point Cloud Encoder,我们完全采用MAE式的非对称结构,来防止位置编码在点云重建中可能附有的知识泄露。

在模型结构上,我们使用了类似BART [14]的encoder-decoder结构,每个Stream在一个layer中均包含一个Attention层与FFN层,其中encoder的inputs embeding产生Cross Attention的K与V,并使用stop-grad来防止梯度干扰。由于global queries一般仅包含少量的几个token,在运算效率上并不会比单流网络增加很多。

四、 实验

我们的ReCon在点云分类最常用的两个数据集ScanObjectNN和ModelNet40均取得了SOTA的性能,尤其是在ScanObjectNN的迁移效果,达到了惊人的91.26% Overall Accuracy。

此外,我们将ReCon分为三种设置,ReCon-T、ReCon-S和ReCon,他们的模型结构完全一样,仅有模型维度上的区别。即使使用了更小维度的ReCon依然产生了优异的性能,拥有19M甚至11M参数的ReCon依然大幅度优于PointMAE等3D自监督方法。

如果进一步利用Pretrain Text Teacher,可以实现Zero-Shot分类,下表展示了ReCon在ModelNet40和ScanObjectNN的test set上的Zero-Shot性能,同样远超其他方法。

五、讨论5.1 ReCon优良性能的来源?

我们首先从loss的角度进行分析,我们记录了vanilla CMC(Cross-Modal Contrastive)与我们的经过重建指导的ReCon-CMC在ShapeNet测试集(未用于预训练)的loss曲线,并记录了在ScanObjectNN上的相应微调精度。可以看出,我们的ReCon-CMC的测试对比损失始终低于普通的CMC,并且更加稳定地收敛到较低的值,表明我们的ReCon带来了更好的预训练对比任务的泛化性能,而不会陷入简单解决方案的捷径,预训练过程中的过拟合问题得到缓解。

此外,我们也对不同token的attention map进行了可视化分析,包括Local Student Encoder的局部token与Global Student Decoder的全局Query,我们用红色的圆圈将查询Token圈出,红色和黄色区域代表注意力的重点区域,青色和紫色区域为注意力的忽视区域。可以看出,3D点云中的Local Token更多地关注Token本身周围的几何结构,而Global Query则关注对象的整个部分。甚至,局部表征可能已经学会了对称性的一些几何理解或世界知识。例如,飞机左翼上的Token也注意到了右翼。此外,Global Image和Text Query可能学到了一些互补的知识。

5.2 是否Pretrained Cross-Modal Teacher is all your need?

为验证模型的收益并不来自教师,而是因为ReCon结构是一种优良的Generative learning和Contrastive learning结合方法,我们在论文的附录C中探究了另外两种掩码数据建模和对比学习结合的方法,包括Vanilla Multi-task Learning Fusion和Two-Tower Network,他们都用了包含预训练权重的跨模态教师来做指导。

  • vanilla multi-task通过添加多个类似于[cls] Token的nn.Parameters() token用于进行对比学习

  • two-tower network通过两个单独的Transformer训练各自的代理任务

经过实验,简单的将包含预训练权重的跨模态知识进行传递并不会产生效果,我们猜测这是引言所表现出的模式差异所导致的,即Local-Global的注意力模式差异与数据缺乏导致的过拟合问题。而这种模式差异正是我们设计ReCon block的动机。

六、展望

ReCon大幅提升了3D表征学习的效果,在点云分类与Zero-Shot中均取得了SOTA的性能。但我们认为ReCon发现并解决的问题并不是在3D中特有的,在其他缺乏数据,或相对缺乏数据的模态中依然有可能有效,我们希望有更多ReCon-Style的架构在更多领域出现。

七、相关工作

  • Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning? ICLR’23

  • CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP


参考文献:

[1] Shortcut learning in deep neural networks

[2] CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet

[3] Masked autoencoders are scalable vision learners

[4] An image is worth 16x16 words: Transformers for image recognition at scale

[5] Revealing the dark secrets of masked image modeling

[6] A simple framework for contrastive learning of visual representations

[7] Learning transferable visual models from natural language supervision

[8] Beit: Bert pre-training of image transformers

[9] Masked feature prediction for self-supervised visual pre-training

[10] Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?

[11] Masked autoencoders for point cloud self-supervised learning

[12] Pointcontrast: Unsupervised pre-training for 3d point cloud understanding

[13] PyTorch Image Models

[14] Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension

作者:董润沛

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美尖端领域10人接连死亡,美前高官:FBI调查或发现“难以置信的离奇情况”

美尖端领域10人接连死亡,美前高官:FBI调查或发现“难以置信的离奇情况”

红星新闻
2026-04-19 15:48:10
女子称酒店回访暴露她开房隐私:丈夫查她开房记录,和她离婚了

女子称酒店回访暴露她开房隐私:丈夫查她开房记录,和她离婚了

江山挥笔
2026-04-19 10:57:54
宠物食品品牌“诚实一口”翻车,创始人深夜致歉!其公司注册资本3年增长137倍

宠物食品品牌“诚实一口”翻车,创始人深夜致歉!其公司注册资本3年增长137倍

半岛官网
2026-04-18 05:58:14
乌克兰对俄本土发起狂风暴雨打击,俄罗斯遭遇黑色星期六

乌克兰对俄本土发起狂风暴雨打击,俄罗斯遭遇黑色星期六

史政先锋
2026-04-19 19:18:27
5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

宝哥精彩赛事
2026-04-19 06:35:05
新西兰军机多次抵近中国周边空域,严重干扰民航!中方:已作出坚决有力应对,并向新方提出严正交涉

新西兰军机多次抵近中国周边空域,严重干扰民航!中方:已作出坚决有力应对,并向新方提出严正交涉

每日经济新闻
2026-04-17 18:37:58
心情复杂?枪手兼曼城旧将阿德巴约向瓜迪奥拉送上祝贺

心情复杂?枪手兼曼城旧将阿德巴约向瓜迪奥拉送上祝贺

懂球帝
2026-04-20 01:58:15
绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

绝不谈判!永久关闭豁免窗口!中国打响光刻机反击战

素衣读史
2026-04-19 21:49:57
为什么全国人民都在拒接电话?

为什么全国人民都在拒接电话?

黯泉
2026-04-18 17:00:56
打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

来科点谱
2026-04-19 07:17:32
五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

五大联赛首冠诞生!拜仁提前4轮夺冠,孔帕尼两连冠,连刷10纪录

奥拜尔
2026-04-20 01:27:03
越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

越南百亿高铁订单给德国,来华体验12小时高铁,背后算计太明显

苗苗情感说
2026-04-19 12:38:15
悲剧!广东一96年女生开会时心梗猝死,网友称她为20000月薪太拼

悲剧!广东一96年女生开会时心梗猝死,网友称她为20000月薪太拼

火山詩话
2026-04-19 09:35:22
何润东半个月狂接6个顶级商务,零成本躺赢翻红第一人!

何润东半个月狂接6个顶级商务,零成本躺赢翻红第一人!

毒舌八卦
2026-04-19 11:36:20
曼城0-1阿森纳:4月掉链子魔咒见鬼去吧!枪手一战定乾坤|前瞻

曼城0-1阿森纳:4月掉链子魔咒见鬼去吧!枪手一战定乾坤|前瞻

体育世界
2026-04-19 16:38:52
塔帅跪了!曼城“提速”,名宿热议:净胜球定生死,阿森纳挡不住

塔帅跪了!曼城“提速”,名宿热议:净胜球定生死,阿森纳挡不住

奥拜尔
2026-04-20 02:01:45
美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

美国妹子崩溃大哭:借9.6万美元上大学,已还16.5万,还欠22万

贱议你读史
2026-04-19 04:30:07
持续低迷,阿森纳自2018年以来首次遭遇国内赛事四连败

持续低迷,阿森纳自2018年以来首次遭遇国内赛事四连败

懂球帝
2026-04-20 02:03:02
2-0夺冠!莱巴金娜赚128万奖金 还开走1辆跑车 传来郑钦文新消息

2-0夺冠!莱巴金娜赚128万奖金 还开走1辆跑车 传来郑钦文新消息

侃球熊弟
2026-04-19 20:59:03
比黄金还稀缺!比尔盖茨、社保重仓硬科技龙头,全是高成长+高roe

比黄金还稀缺!比尔盖茨、社保重仓硬科技龙头,全是高成长+高roe

长风价值掘金
2026-04-19 11:03:37
2026-04-20 02:28:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2347文章数 596关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

健康
本地
旅游
艺术
公开课

干细胞抗衰4大误区,90%的人都中招

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

北京投入2.2亿元建成和田“三馆一院”

艺术要闻

超模施特洛耶克写真曝光,简直美到窒息,别错过!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版