网易首页 > 网易号 > 正文 申请入驻

特征嵌入的正则化 SVMax 和 VICReg

0
分享至

还记得LeCun被拒的论文VICReg吗,今天我们就来说说它

在深度网络中权重和激活那个更重要?显然是权重,因为我们可以从权重推导出网络的激活。但是深度网络是非线性嵌入函数;我们只想要这种非线性嵌入。在这种嵌入基础上进行训练并获得结果(例如分类),我们要么需要在分类网络中使用线性分类器,要么需要在输出的特征中计算相似度。但是与权重衰减正则化相比,特征嵌入正则化在论文中却很少被提到和使用。通过权重衰减的正则化可以明显影响网络的性能,尤其是在小数据集上[3]。同样,特征嵌入也可以带来重大影响,例如避免模式崩溃(model collapse)。在本文中,我将介绍两个相关的特征嵌入正则化器:SVMax [1] 和 VICReg [2]。

SVMax 和 VICReg 都是无监督的正则化器,它们都支持监督学习和非/自监督学习,在训练期间可以处理单独的小批量,所以不需要对数据集进行其他的预处理。为了统一起见本篇文章将使用相同的符号来描述两者:我们有一个网络 N,它接受一个大小为 b 的 mini-batch输入 并生成一个 d 维嵌入,即我们有一个输出特征嵌入矩阵 E ∈ R^{b × d},如图 1 所示。矩阵 E 可以从任何网络层中提取,但它通常是从网络的倒数第二层中提取的,即在全局平均池化层之后。

图1:网络N在训练过程中,对于规模为b的小批量,生成特征嵌入矩阵E∈R^{b × d}。

SVMax 和 VICReg 都显式地对单层的特征嵌入输出进行了正则化,这样也就隐式地对网络的权重进行了正则化。 对于 d 维特征嵌入,SVMax 和 VICReg 都旨在激活所有维度。 换句话说,两个正则化器的目标是让每个神经元(维度)同样有可能触发。 这样可以使某些维度(神经元)始终处于活动/非活动状态而与输入无关,也就避免了模式崩溃(model collapse)。

模式崩溃(model collapse):也称为 Helvetica scenario是GAN中提出的感念。当生成器学习将几个不同的输入 z 值映射到同一输出点时发生的问题。 实际上完全模式崩溃很少见,但部分模式崩溃很常见。 部分模式崩溃是指生成器制作包含相同颜色或纹理主题的多张图像,或包含同一物体的不同视图的多张图像的场景。

简单形象地来讲,模式崩溃就是团队中的人员对的目标的理解不同,所以整个团队虽然都在努力的工作,但是都是按照自己理解的目标前进,没有统一的领导所以整个团队都乱成一团了!

SVMax [1] 被提出用于度量学习(Metric Learning)也就是常说的相似度学习,其中特征嵌入在单位圆上进行归一化,即 l2 归一化。 因此,SVMax 旨在将特征嵌入均匀地分散在单位圆上,如图 2(右)所示。 在该图中矩形矩阵 E 的奇异值之间存在显着差异。 当特征在单个或几个维度上极化时,如图 2(左)所示,单个或几个奇异值较大 而其余的小。 相反当特征均匀分散时,所有维度都变得活跃并且所有奇异值都增加,即平均奇异值增加。

图 2:分散在 2D 单位圆上的特征嵌入。 在(a)中,特征在单个轴上极化; 主轴(横)轴奇异值大,副(纵)轴奇异值小。 在(b)中,特征在两个维度上均匀分布; 两个奇异值都比较大。

SVMax 利用这一观察结果并正则化 E 以最大化其平均奇异值。 SVMax 的最简单形式如下

图 3:原始的 SVMax 公式。 L_r 是使用 SVMax 正则化器之前的原始损失函数,而 s_μ 是要最大化的平均奇异值。

其中 s_μ 是要最大化的平均奇异值,L_r 是原始损失函数(例如,交叉熵)。

SVMax 进一步利用单位圆(l2 归一化)约束来建立平均奇异值 s_μ 的刚性下限和上限。 例如当矩阵 E 的秩为 1,即 Rank(E)=1 时,s_μ 的下限成立。 这是模式崩溃的一个明显案例,其中单个维度始终处于活动状态。 在这种情况下,s_μ 的下限等于

图 4:当除第一个(最大的)奇异值之外的所有奇异值都为零时,平均奇异值的下限成立。 s*(E)是当所有其他奇异值都为零时最大奇异值的值。

其中 ||E||_1 和 ||E||_∞ 分别是 L-1 范数和 L-Infinity 范数。 类似地,SVMax 在 s_μ 上建立一个上限如下

图 5:使用核范数 ||E||_* 和 Frobenius 范数 ||E||_F 建立的平均奇异值的上限。

这些界限带来两个好处:(1)很容易调整 SVMax 的平衡超参数 λ(图 3),因为在训练开始之前就知道 s_μ 的范围; (2) 平均奇异值及其边界作为量化指标来评估训练后的网络——包括非正则化网络。 例如,图 6 评估了用不同批量大小训练的四个网络。 对于每个网络,平均奇异值是在分割后的测试数据上计算的,即训练后评估。 与非正则化网络相比,使用 SVMax 训练的网络显着更好地利用了特征嵌入。

图 6:四种不同特征嵌入(度量学习)网络的平均奇异值。 X 和 Y 轴表示小批量大小 b 和 CUB-200 测试拆分的特征嵌入的 s_μ。 特征嵌入是使用对比损失进行训练的,包含了有和没有 SVMax的结果。 水平红线表示 s_μ 的上限。

尽管SVMax很简单,并且有严格的数学界限,但它的计算成本很高。平均奇异值的计算复杂度随着矩阵维数的增加而增加。这就是下一个方法VICReg的改进之处,它提供了一种更轻量的计算方式并且也很有效果。

VICReg [2] 就是LeCun大神被拒的论文了,如果特征嵌入不进行归一化时,也可以用于自监督学习。 VICReg 有三个概念,但本文将只关注一个概念——方差。 该概念旨在激活特征嵌入矩阵 E 中的每个维度。VICReg 计算小批量 E 的标准偏差 (std),如图 7 所示。这会生成一个具有 d 维度的向量,每个维度 表示单个维度的激活。 标准差为零的维度是崩溃维度——维度始终处于打开/关闭状态。

图7:给定特征嵌入矩阵E∈R^{b × d}, VICReg计算维数为d的标准差向量S。标准差作为度量来评估维度的激活。

VICReg中的方差项表示如下:

图8:VICReg中的方差项计算特征嵌入矩阵e中各d维的标准差(std),VICReg 鼓励标准差为 γ。 ϵ 是一个防止数值不稳定性的小标量。

其中 γ 是一个超参数,表示每维所需的标准偏差,ϵ 是防止数值不稳定性的小标量。

这个公式鼓励标准偏差在每个维度上等于 γ。论文中表示这样做应该可以防止映射到同一向量上的所有输入崩溃。由于嵌入未归一化,VICReg 无法对标准偏差项的范围或界限做出任何假设。 VICReg 有两个超参数:与 SVMax 一样的 λ(图 3)和 γ。

对于定性的评估,SVMax 和 VICReg 都可以在没有显式负采样的情况下减轻模式崩溃。两个正则化器在不使用训练技巧(如输出量化、梯度裁剪、等)的情况下收敛到非常准确的特征嵌入。两篇论文都来自具有不同计算能力的不同组织。因此,SVMax 评估是比较原始的,而 VICReg 是相对较新的。使用线性分类器在冻结的 ImageNet 预训练网络之上进行微调并对这两个正则化器进行自监督学习的基准测试如下:

表 1:使用带有 AlexNet 主干的自监督学习的定量 SVMax 评估。 通过 ImageNet 分类评估预训练网络 N,并在冻结卷积层之上使用线性分类器。 对于每一层卷积特征都会在空间上调整大小,直到剩下的维度少于 10K。 在 1000 个对象分类任务上训练一个全连接层,然后是 softmax。

表 2:对使用 VICReg 预训练的 ResNet-50 主干获得的表征进行评估:(1)基于 ImageNet 冻结表征的线性分类; (2) 在来自 1% 和 10% ImageNet 样本的微调表示之上的半监督分类。 这里使用了 Top-1 和 Top-5 的准确率(以 % 为单位)。 前 3 名最佳自我监督方法使用下划线强调。

VICReg 更专注于自监督学习和模式崩溃问题,而 SVMax 使用监督度量学习可以提供进一步评估。 虽然 SVMax 在度量学习中没有达到最先进的结果,但在未调整超参数时它提供了卓越的性能。 例如当使用大学习率 (lr) 进行训练时,度量学习方法会学习较差的嵌入和发散。 SVMax 使这些监督方法更具弹性,尤其是在学习率较大的情况下,如图 9 所示。

图 9:斯坦福 CARS196 的定量评估。 X 和 Y 轴分别表示学习率 lr 和 recall@1 性能。

SVMax 和 VICReg 都是很好的论文。两者都是无监督的,并支持各种网络架构和任务。每个都提供了大量的实验。对特征嵌入文献感兴趣的人强烈推荐这些论文。 并且 SVMax 和 VICReg都有PyTorch 的实现。

与 VICReg 相比,SVMax 论文更容易阅读因为它专注于一个想法。相比之下,VICReg 提供了多个概念,其中一个概念是从另一篇论文 Barlow twins 论文中借用的 [4]

与 SVMax 相比,VICReg 对最近的基准进行了大量的定量评估。 FAIR 有的是 GPU :)关于权重衰减与特征嵌入正则化器,SVMax 和 VICReg 都对单层的输出进行了正则化。相比之下权重衰减始终应用于所有网络权重(层)。

但是目前还没看到有一篇论文评估这些特征嵌入正则化器在应用于所有层时的影响。如前所述,权重衰减对 [3] 产生了重大影响,我很想知道特征正则化器是否也有类似的影响。

[1] Taha, A., Hanson, A., Shrivastava, A. and Davis, L., 2021. SVMax: A Feature Embedding Regularizer.

[2] Bardes, A., Ponce, J. and LeCun, Y., 2021. Vicreg: Variance-invariance-covariance regularization for self-supervised learning.

[3] Power, A., Burda, Y., Edwards, H., Babuschkin, I. and Misra, V., 2021. Grokking: Generalization beyond overfitting on small algorithmic datasets.

[4] Zbontar, J., Jing, L., Misra, I., LeCun, Y. and Deny, S., 2021. Barlow twins: Self-supervised learning via redundancy reduction.

作者:Ahmed Taha

最后如果你对参加Kaggle比赛感兴趣,请私信我,邀你进入Kaggle比赛交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高曙光也没想到,他52岁和富婆生下的儿子,如今成了他的“救赎”

高曙光也没想到,他52岁和富婆生下的儿子,如今成了他的“救赎”

动物奇奇怪怪
2026-03-10 18:47:04
离大谱!许雅钧私联大S粉丝约见面,记录曝光:为自证身份发出殡照

离大谱!许雅钧私联大S粉丝约见面,记录曝光:为自证身份发出殡照

小娱乐悠悠
2026-03-11 10:34:45
日本模特阿部夏树身材惹火,网友:这傲人胸围是真实存在的吗?

日本模特阿部夏树身材惹火,网友:这傲人胸围是真实存在的吗?

娱乐领航家
2026-03-02 19:00:03
西班牙降级与以色列外交关系

西班牙降级与以色列外交关系

界面新闻
2026-03-11 20:05:03
泼汤女彻底凉凉!身份被扒是老师,疑被解雇,严重的还在后面

泼汤女彻底凉凉!身份被扒是老师,疑被解雇,严重的还在后面

社会日日鲜
2026-03-11 03:33:43
困扰中韩关系10年的“萨德”被美调走,韩国变成“临时仓库”?

困扰中韩关系10年的“萨德”被美调走,韩国变成“临时仓库”?

上观新闻
2026-03-11 19:38:14
炸锅!田曦薇这幕真走光还是故意博眼球?

炸锅!田曦薇这幕真走光还是故意博眼球?

手工制作阿歼
2026-03-10 10:00:47
钱再多有什么用?79岁身家525亿的特朗普,给全部中老年人提了醒

钱再多有什么用?79岁身家525亿的特朗普,给全部中老年人提了醒

阿器谈史
2026-01-19 19:33:57
3月11日俄乌:俄罗斯控诉乌克兰的袭击

3月11日俄乌:俄罗斯控诉乌克兰的袭击

山河路口
2026-03-11 21:04:29
小三上位!买超新欢挺孕肚备婚,全家认可,张嘉倪8年终是错付了

小三上位!买超新欢挺孕肚备婚,全家认可,张嘉倪8年终是错付了

八斗小先生
2026-03-09 13:51:02
中国研发出半人马机器人:与人背部连接 全向跟随

中国研发出半人马机器人:与人背部连接 全向跟随

快科技
2026-03-09 18:07:13
俄乌一仗帮了美国,测出中国的真实战争潜力,结论让西方无法面对

俄乌一仗帮了美国,测出中国的真实战争潜力,结论让西方无法面对

何氽简史
2026-03-11 21:33:20
火箭斗掘金!伤病情况出炉:客队3人缺阵1人轮休,主队沃特森不打

火箭斗掘金!伤病情况出炉:客队3人缺阵1人轮休,主队沃特森不打

熊哥爱篮球
2026-03-11 19:33:08
欧冠之夜:马竞5-2热刺 拜仁6-1亚特兰大 纽卡1-1巴萨 利物浦0-1

欧冠之夜:马竞5-2热刺 拜仁6-1亚特兰大 纽卡1-1巴萨 利物浦0-1

狍子歪解体坛
2026-03-11 06:09:57
单场83分!阿德巴约:真希望能再来两次,感谢队友们一直喂球

单场83分!阿德巴约:真希望能再来两次,感谢队友们一直喂球

懂球帝
2026-03-11 11:29:14
胡彦斌易梦玲公园野餐!蹲地拍照被发现后立马拘谨太真实

胡彦斌易梦玲公园野餐!蹲地拍照被发现后立马拘谨太真实

到此为止的印象
2026-03-10 18:40:47
特朗普人还没到,先改访华规格,中方已接到通知,美国要弯道超车

特朗普人还没到,先改访华规格,中方已接到通知,美国要弯道超车

青春染指红颜梦
2026-03-11 21:40:50
伊朗官方变相确认:新最高领袖哈梅内伊志子遭空袭重伤

伊朗官方变相确认:新最高领袖哈梅内伊志子遭空袭重伤

老马拉车莫少装
2026-03-11 07:29:26
隆福寺市集将常态化运营!烟火气不打烊,常逛常新

隆福寺市集将常态化运营!烟火气不打烊,常逛常新

首都之窗
2026-03-11 15:26:05
1975年张爱萍落难,妻子请粟裕帮忙说话,粟裕:赶快去找宋老鬼

1975年张爱萍落难,妻子请粟裕帮忙说话,粟裕:赶快去找宋老鬼

抽象派大师
2026-03-11 17:38:52
2026-03-11 23:03:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1945文章数 1456关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

联合国16位专家呼吁日本道歉 外交部回应

头条要闻

联合国16位专家呼吁日本道歉 外交部回应

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

教育
时尚
手机
数码
房产

教育要闻

顶尖高校,拟削减合同制教师

衣服不用买太多!初春多穿短大衣和针织衫,简单舒适又显高

手机要闻

vivo X300s继续预热,7100mAh蓝海电池加持

数码要闻

分析师“自我辟谣” 第二代MacBook Neo取消换装触控屏计划

房产要闻

最低杀到7800元/㎡!海口2026第一波房价大调整来了!

无障碍浏览 进入关怀版