网易首页 > 网易号 > 正文 申请入驻

不平衡数据下对比学习的理论分析:从训练动态到剪枝解决方案

0
分享至



本文第一作者廖海旭为新泽西理工学院数据科学系在读博士生,师从Prof. Shuai Zhang。



  • 论文标题:Theoretical Analysis of Contrastive Learning under Imbalanced Data: From Training Dynamics to a Pruning Solution
  • 论文链接:https://openreview.net/forum?id=DUXG9E8dEO

一、研究背景

对比学习已成为表征学习中的一种强大范式,能够在不依赖标签的情况下有效利用无标注数据。

在这一框架下,语义相似的样本被视为正样本对,而语义不同的样本被视为负样本对。通过在表征空间中拉近正样本对、拉远负样本对之间的距离,对比学习使得模型能够捕捉到丰富且具有判别性的特征。

该方法在广泛的应用领域中取得了显著成功,尤其在多模态学习中影响深远,推动了早期视觉语言模型发展的重大进展。

尽管对比学习具有诸多优势,但它在现实数据集中常见的类别不平衡的问题下,仍然面临挑战。在这类数据中,多数类主导了样本对的构造,而少数类则代表性不足。这种不平衡会阻碍模型对少数类判别性特征的捕捉,降低表征质量,并导致模型产生偏差行为。

近期的研究开始逐步从理论角度理解对比学习,主要关注其相较于传统生成式方法的优势、数据增强在有效表征学习中的必要性,以及其在降低下游任务样本复杂度方面的能力。然而,这些研究尚未考虑数据分布不平衡所带来的影响,缺乏对这些影响的理论刻画。

总体而言,本文在理论和实践层面都提供了新的洞见,主要理论结论也通过数值实验得到了验证。主要贡献如下:

第一,我们构建了一个理论框架,用以刻画在数据分布不平衡条件下、基于 Transformer 编码器的对比学习训练动态。我们表明学习过程可以分为三个阶段。



图 1:神经元在训练过程中投影的动态变化。蓝色曲线表示神经元在其主导特征方向上的投影增长情况,橙色曲线表示其在非主导特征方向上的投影,绿色曲线表示其在噪声空间方向上的投影。在第一阶段,神经元主要沿特征方向增长,同时抑制噪声分量。在第二阶段,其在主导特征方向上的投影增长速度快于所有其他特征方向,从而形成明显的分离。在第三阶段,神经元逐渐收敛,其最终表示由所学习的主导特征所主导

第二,我们定量刻画了少数特征的存在如何影响神经元的学习能力,进而影响整体表征学习。我们的分析表明不平衡会从多个方面削弱表征性能。

第三,基于幅值的剪枝能够增强对少数特征的学习,恢复因数据不平衡而退化的性能。我们的结果显示,剪枝可以加强沿少数特征方向的梯度更新,鼓励更多神经元专门学习少数特征,从而获得更加稳健且更均衡的表示。

二、剪枝算法

为了解决数据不平衡问题,我们在前向传播过程中动态移除幅值较小的神经元权重,而在反向传播过程中仍保留所有参数为可训练状态。

具体而言,二值掩码初始设为全 1,表示训练开始时不进行任何剪枝。在每一个训练周期中,我们剪除幅值最小的一部分神经元,并相应更新二值掩码。在前向传播阶段,使用掩码后的参数对输入进行编码。在反向传播阶段,梯度是基于剪枝后的模型计算,但更新作用于完整的参数集合。

需要注意的是,该过程并不会为了提高效率而永久性地删除任何神经元,尽管可以观察到一定程度的计算成本下降。

三、关键发现的核心洞见

在介绍正式理论结果之前,我们首先总结分析所得的关键洞见。我们的研究表明,神经元在训练过程中会分阶段逐步学习特征表示。具体而言,我们得到以下结论:

(K1) 基于 Transformer-MLP 框架的对比学习训练动态。我们的理论将学习过程划分为三个阶段。

  • 在第一阶段中,神经元权重沿特征方向增长,增长速率由特征频率决定,神经元在非特征方向上的分量则被抑制。
  • 在第二阶段中,幸运神经元进一步和它学习的主导特征方向对齐;而普通神经元则被这些幸运神经元所界定并保持受控,从而使所学习的特征更加纯净,同时非特征分量继续受到抑制。
  • 在最终阶段,训练收敛,每个神经元都会与某一特定特征集合对齐,每个神经元在一个或多个特征方向上强对齐,在其他特征方向上弱对齐,并在非特征方向上保持较小幅度。

(K2) 特征频率比率决定神经元专门化程度。在收敛时,每个神经元主要由某一特定特征集合中的特征主导,而来自其他方向的贡献可以忽略。

  • 首先,越稀有的特征学习得越弱。
  • 其次,该特征集合的大小由特征频率比率决定:较小的特征频率比会扩大该集合,导致特征混合;较大的特征频率比则会缩小该集合,使神经元学习到的特征更加纯净,这对于对比学习而言是更好的。
  • 最后,专门学习单一特征的神经元数量与也由特征频率比率决定,并且随着特征频率比的增大而减少。

由于对比学习在神经元专门学习单一特征时效果最佳,数据不平衡会带来三个相互关联的消极影响:

  • 少数特征以较小幅度被学习。
  • 神经元倾向于学习混合的多个特征而非保持与单个特征对齐。
  • 专门学习单一特征的神经元的总数减少。

这些因素共同削弱了表征质量,并要求更大的模型规模才能学习所有特征。

(K3) 剪枝增强少数特征的学习。

  • 学习少数特征的神经元会获得更强更新;而学习非少数特征的神经元仅获得的更新较弱。
  • 在收敛时,学习少数特征的神经元的系数可以达到与多数特征同阶的规模,从而缓解由数据不平衡带来的性能下降。

直观来看,由于少数特征神经元的幅值较小,它们更容易被剪枝;这种机制在梯度更新中放大了包含少数特征样本的贡献。因此,剪枝强化了少数特征,使其与其他成分明显区分开来,并推动更多神经元专门化学习该特征,从而提升表示学习的鲁棒性。

四、理论结果

理论分析结果的完整内容请参考文章,此处我们给出精简的概括。

理论一:在第一阶段的训练中:

  • 所有神经元都会沿着特征方向增长,而非特征方向则被忽略。
  • 在每个特征方向上的增长速率取决于该特征的出现频率。

理论二:在第二阶段的训练中:

  • 幸运神经元:与单一特征强烈对齐。
  • 普通神经元:其在特征上的分量受幸运神经元的约束。

理论三:当学习收敛时,在没有剪枝的情况下,对比学习中神经元和特征的对齐情况如下:

  • 每个神经元都会与一个或多个特征强对齐,与其他特征弱对齐,并在非特征方向上保持较小幅度。
  • 每个神经元倾向于学习多个特征的混合表示,将学习更大规模的混合特征集合。



理论四:在引入剪枝的情况下,对比学习中神经元和特征的对齐情况如下:

  • 沿少数特征方向的神经元更新得到增强。少数特征对应的神经元权重增长更快。非少数特征对应的神经元权重增长缓慢。



五、实验结果







实验结果表明,剪枝在所有数据集上均持续提升准确率,并且随着不平衡程度加剧,性能提升更加显著。此外,剪枝也改善了头部类别与尾部类别之间的性能不平衡。这些结果表明,剪枝不仅提升了下游任务的整体性能,同时也缩小了头部类别与尾部类别之间的性能差距。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

大铁猫娱乐
2026-02-08 00:10:03
逃之夭夭!美军加油机遇伊朗导弹强击拦截不力,紧急撤离沙特基地

逃之夭夭!美军加油机遇伊朗导弹强击拦截不力,紧急撤离沙特基地

军迷战情室
2026-03-10 20:05:18
小兵张嘎安吉斯的母亲乌兰:内蒙古著名的双枪女将,经历堪称传奇

小兵张嘎安吉斯的母亲乌兰:内蒙古著名的双枪女将,经历堪称传奇

凉州辞
2026-03-10 14:00:03
江苏女子养大型犬,70岁父亲被咬住院,给狗做了安乐,被网友骂惨

江苏女子养大型犬,70岁父亲被咬住院,给狗做了安乐,被网友骂惨

离离言几许
2026-03-09 20:42:28
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
全国人大代表汪玉成:建议修改“工作不满10年休5天年假”规定,按工龄递增让青年“多休假”

全国人大代表汪玉成:建议修改“工作不满10年休5天年假”规定,按工龄递增让青年“多休假”

南国今报
2026-03-10 16:36:46
伊朗锡斯坦俾路支斯坦省闹独立,一旦成功,对伊朗有什么影响?

伊朗锡斯坦俾路支斯坦省闹独立,一旦成功,对伊朗有什么影响?

世界纵横说
2026-03-05 21:11:30
陕西女孩相亲被约挖野菜后续:对方将野菜全拿走,只说我妈蒸得香

陕西女孩相亲被约挖野菜后续:对方将野菜全拿走,只说我妈蒸得香

娱乐圈见解说
2026-03-10 18:37:45
谁都没想到,美伊开战最大赢家是他?中东土豪纷纷抛出大单

谁都没想到,美伊开战最大赢家是他?中东土豪纷纷抛出大单

兵国大事
2026-03-09 20:53:59
打破垄断,利润狂飙200%,机器人独角兽,一骑绝尘!

打破垄断,利润狂飙200%,机器人独角兽,一骑绝尘!

飞鲸投研
2026-03-10 18:36:57
一勺猪油等于五副药?医生劝告:高血压患者吃猪油,要牢记这4点

一勺猪油等于五副药?医生劝告:高血压患者吃猪油,要牢记这4点

蜉蝣说
2026-03-10 11:32:10
A股:要提前准备好,明天周三,A股或将迎来更大的行情?

A股:要提前准备好,明天周三,A股或将迎来更大的行情?

财经大拿
2026-03-10 13:46:02
宋同志的儿子宋宜昌,是下乡务农的红二代,现今是军事专家

宋同志的儿子宋宜昌,是下乡务农的红二代,现今是军事专家

混沌录
2026-03-05 21:57:05
伊朗确认穆杰塔巴受伤;专家会议都是些什么专家?

伊朗确认穆杰塔巴受伤;专家会议都是些什么专家?

寰宇大观察
2026-03-09 15:24:05
地中海又传来一声巨响,俄6万吨巨轮惨遭击沉,普京:绝不轻饶!

地中海又传来一声巨响,俄6万吨巨轮惨遭击沉,普京:绝不轻饶!

趣文说娱
2026-03-09 17:52:17
欧洲打死也不会想到,这场战争彻底打掉了欧洲五十年的国运

欧洲打死也不会想到,这场战争彻底打掉了欧洲五十年的国运

揭秘历史的真相
2026-01-19 21:05:12
很多人将朱棣登基视为篡位,实际上朱元璋传朱允炆皇位是有问题的

很多人将朱棣登基视为篡位,实际上朱元璋传朱允炆皇位是有问题的

铭记历史呀
2026-03-10 15:10:57
这菜再贵也要吃,大量上市!通便排毒,杀菌消炎,提高免疫力

这菜再贵也要吃,大量上市!通便排毒,杀菌消炎,提高免疫力

阿龙美食记
2026-03-10 16:31:51
逆袭成功!三个月兑现承诺,真不是大话王啊,勇士,输麻了

逆袭成功!三个月兑现承诺,真不是大话王啊,勇士,输麻了

球童无忌
2026-03-10 19:50:01
985毕业生为啥很少考公务员?真不是看不上铁饭碗,4个真相太现实

985毕业生为啥很少考公务员?真不是看不上铁饭碗,4个真相太现实

老特有话说
2026-03-09 15:24:05
2026-03-10 21:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12467文章数 142580关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

特朗普开始找接班人 当众问捐款人怎么看万斯和鲁比奥

头条要闻

特朗普开始找接班人 当众问捐款人怎么看万斯和鲁比奥

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

肖战首夺SMG视帝,孙俪四封视后创历史

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

艺术
教育
数码
公开课
军事航空

艺术要闻

30000亩杏花开了,新疆的春天这么美!

教育要闻

两会代表委员:建议减少中小学学科数量、取消中考、将性教育列为中小学必修课……

数码要闻

史上最大电池折叠屏旗舰!荣耀Magic V6图赏

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

刚说完战争很快结束 特朗普改口

无障碍浏览 进入关怀版