网易首页 > 网易号 > 正文 申请入驻

SimSiam:孪生网络表征学习的顶级理论解释

0
分享至

为了讲清楚SimSiam和EM算法以及k-means算法有什么内在联系,本文先简单阐述一下EM算法和k-means算法的思想,然后从EM算法出发推导出SimSiam的优化目标,并且通过推导结果解释predictor和momentum encoder(EMA)的作用。

一、EM

EM算法的全称是Expectation-Maximization,是机器学习中最为经典的算法之一。EM算法可以认为是一种算法思想,其实很多机器学习算法中都用到了EM思想,比如非常经典的k-means聚类算法,等下也会讲到k-means是如何应用EM的。

EM算法可以认为是极大似然估计的拓展,极大似然估计只估计一个变量,而EM算法需要同时估计两个变量。学过概率统计的都知道,直接估计两个变量是很困难的问题,所以EM算法实际上是为了解决多个变量估计困难提出来的算法思想,通过一个迭代的方式,先固定其中一个变量,估计另一个变量,然后交替迭代更新,循环往复直至收敛。一个迭代有两个步骤(分别估计两个变量),先E步,然后M步(M步其实就是极大似然估计)。

有关EM算法的详细解释可以看文章链接:https://zhuanlan.zhihu.com/p/36331115

二、k-means

一个最直观了解 EM 算法思路的是 k-means 算法(一个变量是如何得到聚类中心,另一个变量是如何划分数据)。在 k-means 聚类时,每个聚类簇的中心是隐含数据。我们会假设 K 个初始化中心(初始化中心随机得到,后续迭代中心通过聚类平均进行更新),即 EM 算法的 E 步;然后计算得到每个样本最近的中心,并把样本聚类到最近的这个中心,即 EM 算法的 M 步。重复这个 E 步和 M 步,直到中心不再变化为止,这样就完成了 k-means 聚类。

三、SimSiam

图片来源: https://zhuanlan.zhihu.com/p/367290573

SimSiam也可以用EM算法解释。SimSiam实际上隐式的包含了两个变量,并且同时解决了两个潜在的子问题。实际上stop-gradient操作引入了其中一个变量。

我们可以把SimSiam的损失函数定义成以下形式(这里先不考虑SimSiam的predictor):

其中 表示前面的数据增强函数, 表示Encoder加Projector的网络函数。期望E是关于图像x和数据增强 的分布(也就是所有图片和数据增强的损失期望之和)。为了方便分析,用L2余弦相似度的等价形式MSE来表示相似度。 表示图片x的表征(也就是上图下面分支的输出)。那么优化目标就可以定义成:

这个优化目标的形式就类似于EM和k-means算法。其中变量 和聚类中心类似,是encoder和projector的可学习参数;变量 和采样点x的分配向量类似,是图片x的表征。那么SimSiam可以和k-means算法一样,通过一个EM迭代算法来解决,固定住一个变量,估计另一个变量。形式上可以写成以下两个子问题:

其中t表示迭代轮次, 表示赋值。

可以通过SGD来求解 ,从这个求解式子可知,stop-gradient是必须的操作,试想一下,如果没有stop-gradient,那么 就不是一个常数,也就是第一个子问题有两个变量,无法求解。

求解完 之后,第二个子问题就只剩下一个变量 。将 代入损失函数中,第二个子问题就变成了:

通过期望公式可得:

这个式子表示第t个迭代轮次的图片x表征由该图片所有数据增强期望计算得到。

One-step alternation

上述两个子问题的一次step可以近似为SimSiam。

· 首先,可以用一次采样的数据增强 来对第二个子问题进行近似(一次数据增强的期望等于本身):

· 然后把上式代入第一个子问题中:

· 其中 是子问题中的一个常数, 和 表示两个不同的数据增强,于是上式就变成了一个孪生网络结构。

· 如果上式用一个SGD来降低loss,那么就可以得到接近SimSiam的算法(这里没有考虑SimSiam的predictor,等下解释predictor的作用):一个使用stop-gradient的孪生网络

Multi-step alternation

如果把上面一次step拓展到多次step,就可以得到多次step的SimSiam。

多次step的SimSiam可以设计成将t作为迭代的外循环次数,第一个子问题设计成一次迭代k个step SGD(k个step SGD的所有 表征预先计算缓存到内存中)。

上述实验中n-step表示SimSiam一次迭代的step数,1-epoch表示一个epoch中一次迭代总的step数。可以发现,适当的增加SimSiam的一次迭代的step数,可以提升精度(可以认为在一次迭代中变相的增加数据量,从k-means的角度考虑聚类效果会更好)。

Predictor

上述推导为了简便起见,省略了predictor h,如果增加一个predictor h,第二个子问题就变成了:

通过期望公式可得:

前面的一次step近似推导可以省略掉期望E,但是由于predictor h的存在,可以不进行一次step近似,predictor h可以弥补 和期望E的gap。实际上,直接计算出数据增强 的期望E是不现实的,但是可能直接通过predictor h来预测出期望E(因为多个epoch中数据增强 的采样是一个隐式分布,可以通过学习的方式记住)。

Symmetrization

上述推导没有考虑对称计算loss的情况,实际上,对称loss相当于一次SGD密集采样数据增强 [公式] ,也就是优化效率高一倍。

上述实验验证了这个结论,对称loss优化效率大大提高,非对称loss即使使用两倍训练时间,效果也不如单倍对称loss,猜测因为对称loss下数据量更多,从k-means的角度考虑聚类效果会更好。

四、EMA

SimSiam进一步发现predictor h用来预测期望E不是必须的,还有其他的替代方案。SimSiam又做了一个对比实验,去掉predictor h的SimSiam其实就是上面推导的一次step近似,使用momentum encoder(EMA)来得到 [公式] ,EMA相当于提供了更多数据增强 [公式] 的views的近似期望E,在没有predictor h的时取得55.0%的精度;但是如果同时没有EMA和predictor,精度迅速掉到0.1%。这两个实验侧面证实了EMA和predictor都能起到预测期望E的作用。

并且EMA和predictor的实验同时说明了SimSiam和BYOL没有负样本对也能work的原因,因为SimSiam虽然没有EMA但是有predictor,BYOL既有predictor也有EMA。

五、总结

SimSiam的理论解释意味着带stop-gradient的孪生网络表征学习都可以用EM算法解释。stop-gradient起到至关重要的作用,并且需要一个预测期望E的方法进行辅助使用。但是SimSiam仍然无法解释模型坍塌现象,SimSiam以及它的变体不坍塌现象仍然是一个经验性的观察,模型坍塌仍然需要后续的工作进一步讨论。

看懂了SimSiam对孪生网络表征学习的解释,再看其他应用孪生网络的算法就清爽了许多,SimSiam值一个best paper(虽然只拿了2021 CVPR Best Paper Honorable Mention)。

参考文献

[1] Exploring Simple Siamese Representation Learning

[2] August:人人都懂EM算法

[3] 张俊林:对比学习(Contrastive Learning):研究进展精要


本文来自:公众号【Smarter】 作者:Smarter

Illustrastion by By Tatiana Vinogradova from icons8

-The End-

本周上新!

扫码观看!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名品牌“爆雷”:线下门店全部关停,消费者退款遥遥无期,员工遭拖欠薪资;公司已被列入失信名单,实控人被限高

知名品牌“爆雷”:线下门店全部关停,消费者退款遥遥无期,员工遭拖欠薪资;公司已被列入失信名单,实控人被限高

大风新闻
2026-06-23 15:08:04
俄国家重器太空中心遭导弹击中,欧盟警告白俄:乌克兰有权自卫!

俄国家重器太空中心遭导弹击中,欧盟警告白俄:乌克兰有权自卫!

史政先锋
2026-06-23 20:51:37
新疆小伙Cos耶稣火出圈!一言不合就戴荆棘冠,连线老外当场懵圈

新疆小伙Cos耶稣火出圈!一言不合就戴荆棘冠,连线老外当场懵圈

大又元
2026-06-23 18:08:03
娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

往史过眼云烟
2026-06-22 16:48:30
“顺德渔村”避雨事件反转,宝妈带1岁多孩子图方便不想挪电动车

“顺德渔村”避雨事件反转,宝妈带1岁多孩子图方便不想挪电动车

九方鱼论
2026-06-23 07:02:35
金靴争夺白热化!3人进球4+,72年第一次,压力给到凯恩C罗

金靴争夺白热化!3人进球4+,72年第一次,压力给到凯恩C罗

奥拜尔
2026-06-23 10:40:22
这家官方媒体,突破了人伦下限!

这家官方媒体,突破了人伦下限!

汉唐光辉
2026-06-23 07:41:51
梅西金靴赔率从17降至3.75,姆巴佩从6.5降至3.5,为何剧变?

梅西金靴赔率从17降至3.75,姆巴佩从6.5降至3.5,为何剧变?

宝哥精彩赛事
2026-06-23 21:13:47
“多名艺人痛失艺名”,节目单公布多人真名:宋祖儿本名孙凡清、冯绍峰本名冯威、丁禹兮本名丁舟杰

“多名艺人痛失艺名”,节目单公布多人真名:宋祖儿本名孙凡清、冯绍峰本名冯威、丁禹兮本名丁舟杰

洪观新闻
2026-06-23 15:11:08
重磅2换9交易!字母哥加盟热火联手阿德巴约 雄鹿获希罗等筹码

重磅2换9交易!字母哥加盟热火联手阿德巴约 雄鹿获希罗等筹码

罗说NBA
2026-06-23 11:56:47
某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

某地瑜伽馆惊现印度男人教练不堪入目,网友说:瑜伽是印度房中术

黯泉
2026-06-23 17:44:53
高考陆续出分!第一批“天坑专业”开始逆袭,当年哭着说入错行的人,现在闷声发大财?

高考陆续出分!第一批“天坑专业”开始逆袭,当年哭着说入错行的人,现在闷声发大财?

新东方
2026-06-23 12:31:54
波士顿大学回复钟美美:欢迎加入BU大家庭,此前钟美美发文被波士顿大学录取

波士顿大学回复钟美美:欢迎加入BU大家庭,此前钟美美发文被波士顿大学录取

大象新闻
2026-06-23 13:02:38
众多瑜伽馆雇佣印度男人动作不堪入目,充满了性崇拜仪式!

众多瑜伽馆雇佣印度男人动作不堪入目,充满了性崇拜仪式!

灯锦年
2026-06-23 13:18:24
广德车祸家属称两小孩已经去世,肇事女司机被带走时都快哭了

广德车祸家属称两小孩已经去世,肇事女司机被带走时都快哭了

映射生活的身影
2026-06-23 16:28:07
大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

大反转!顺德渔村驱赶母子避雨后续:监控视频公布,宝妈骗了全网

李晚书
2026-06-23 09:56:58
世界杯32强决出6席!阿根廷进天堂半区,避开5大前冠军,4强稳了

世界杯32强决出6席!阿根廷进天堂半区,避开5大前冠军,4强稳了

球场没跑道
2026-06-23 17:17:48
欲罢不能!江苏女子1年半打赏男主播888万元:案发前系某公司大客户经理,侵吞、诈骗客户购卡款1478万余元,被判14年

欲罢不能!江苏女子1年半打赏男主播888万元:案发前系某公司大客户经理,侵吞、诈骗客户购卡款1478万余元,被判14年

大象新闻
2026-06-23 09:53:29
曾琦医生“回来了”!名字和简历重回专家栏,坐诊时间也公示出来

曾琦医生“回来了”!名字和简历重回专家栏,坐诊时间也公示出来

火山詩话
2026-06-23 16:33:56
车主称踩下刹车,特斯拉反而加速,路口“飙到110km/h”:保险还没生效就撞报废了;特斯拉方回复:事发前没有发现制动系统异常

车主称踩下刹车,特斯拉反而加速,路口“飙到110km/h”:保险还没生效就撞报废了;特斯拉方回复:事发前没有发现制动系统异常

极目新闻
2026-06-23 13:25:20
2026-06-24 00:59:01
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2411文章数 596关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

男孩6岁时被女子挖眼永久失明 如今以721分被高校录取

头条要闻

男孩6岁时被女子挖眼永久失明 如今以721分被高校录取

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

旅游
亲子
教育
游戏
公开课

旅游要闻

滇池西岸卧着一名女子,不是天然山石造型,是千年未断的相思!

亲子要闻

雯雯弄坏了豌豆的气球,慌张地把气球藏到身后,豌豆问起来...

教育要闻

刚刚!上海、天津两地2026年高考分数线公布

被腾讯当“新招牌”的游戏,怎么13年了才被看到?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版