网易首页 > 网易号 > 正文 申请入驻

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

0
分享至


新智元报道

编辑:LRS 好困

【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析,目前已被NeurIPS 2023录用。同时,该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。

在标准的UNet结构中,long skip connection上的scaling系数一般为1。

然而,在一些著名的扩散模型工作中,比如Imagen, Score-based generative model,以及SR3等等,它们都设置了,并发现这样的设置可以有效加速扩散模型的训练。




质疑Scaling

然而,Imagen等模型对skip connection的Scaling操作在原论文中并没有具体的分析,只是说这样设置有助于加速扩散模型的训练。

首先,这种经验上的展示,让我们并搞不清楚到底这种设置发挥了什么作用?

另外,我们也不清楚是否只能设置,还是说可以使用其他的常数?

不同位置的skip connection的「地位」一样吗,为什么使用一样的常数?

对此,作者有非常多的问号……


理解Scaling

一般来说,和ResNet以及Transformer结构相比,UNet在实际使用中「深度」并不深,不太容易出现其他「深」神经网络结构常见的梯度消失等优化问题。

另外,由于UNet结构的特殊性,浅层的特征通过long skip connection与深层的位置相连接,从而进一步避免了梯度消失等问题。

那么反过来想,这样的结构如果稍不注意,会不会导致梯度过猛、参数(特征)由于更新导致震荡的问题?


通过对扩散模型任务在训练过程中特征和参数的可视化,可以发现,确实存在不稳定现象。

参数(特征)的不稳定,影响了梯度,接着又反过来影响参数更新。最终这个过程对性能有较大的不良干扰的风险。因此需要想办法去控制这种不稳定性。

进一步的,对于扩散模型。UNet的输入是一个带噪图像,如果要求模型能从中准确预测出加入的噪声,这需要模型对输入有很强的抵御额外扰动的鲁棒性。


论文:https://arxiv.org/abs/2310.13545

代码:https://github.com/sail-sg/ScaleLong

研究人员发现上述这些问题,可以在Long skip connection上进行Scaling来进行统一地缓解。


从定理3.1来看,中间层特征的震荡范围(上下界的宽度)正相关于scaling系数的平方和。适当的scaling系数有助于缓解特征不稳定。

不过需要注意的是,如果直接让scaling系数设置为0,确实最佳地缓解了震荡。(手动狗头)

但是UNet退化为无skip的情况的话,不稳定问题是解决了,但是表征能力也没了。这是模型稳定性和表征能力的trade-off。


类似地,从参数梯度的角度。定理3.3也揭示了scaling系数对梯度量级的控制。


进一步地,定理3.4还揭示了long skip connection上的scaling还可以影响模型对输入扰动的鲁棒上界,提升扩散模型对输入扰动的稳定性。

成为Scaling

通过上述的分析,我们清楚了Long skip connection上进行scaling对稳定模型训练的重要性,也适用于上述的分析。

接下来,我们将分析怎么样的scaling可以有更好的性能,毕竟上述分析只能说明scaling有好处,但不能确定怎么样的scaling最好或者较好。

一种简单的方式是为long skip connection引入可学习的模块来自适应地调整scaling,这种方法称为Learnable Scaling (LS) Method。我们采用类似SENet的结构,即如下所示(此处考虑的是代码整理得非常好的U-ViT结构,赞!)


从本文的结果来看,LS确实可以有效地稳定扩散模型的训练!进一步地,我们尝试可视化LS中学习到的系数。

如下图所示,我们会发现这些系数呈现出一种指数下降的趋势(注意这里第一个long skip connection是指连接UNet首尾两端的connection),且第一个系数几乎接近于1,这个现象也很amazing!


基于这一系列观察(更多的细节请查阅论文),我们进一步提出了Constant Scaling (CS) Method,即无需可学习参数的:

CS策略和最初的使用的scaling操作一样无需额外参数,从而几乎没有太多的额外计算消耗。

虽然CS在大多数时候没有LS在稳定训练上表现好,不过对于已有的策略来说,还是值得一试。

上述CS和LS的实现均非常简洁,仅仅需要若干行代码即可。针对各(hua)式(li)各(hu)样(shao)的UNet结构可能需要对齐一下特征维度。(手动狗头+1)



最近,一些后续工作,比如FreeU、SCEdit等工作也揭示了skip connection上scaling的重要性,欢迎大家试用和推广。

参考资料:

https://arxiv.org/abs/2310.13545

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴艳妮破纪录夺冠征服东京!8块腹肌抢镜,母亲全程陪伴 激动表态

吴艳妮破纪录夺冠征服东京!8块腹肌抢镜,母亲全程陪伴 激动表态

环太平洋老正太
2024-05-19 18:07:46
印度姑娘远嫁中国,婚后一年便离婚,丈夫:我受不了她的脏习惯

印度姑娘远嫁中国,婚后一年便离婚,丈夫:我受不了她的脏习惯

沫姐美食记
2024-05-18 14:37:16
A股:来不及等开市了,再次提醒散户和股民,周一留意以下几点!

A股:来不及等开市了,再次提醒散户和股民,周一留意以下几点!

静守时光落日
2024-05-19 13:24:10
5天4战!CCTV5直播中国女排澳门站,蔡斌能赢几场?朱婷会顶替谁

5天4战!CCTV5直播中国女排澳门站,蔡斌能赢几场?朱婷会顶替谁

体育大学僧
2024-05-19 12:36:27
中南海保健医生:毛主席其实不具备长寿条件,能活83岁有两个优点

中南海保健医生:毛主席其实不具备长寿条件,能活83岁有两个优点

猫眼观史
2024-05-16 18:08:33
A股:又有大戏看了,明天(5月20日)大盘,多空大对决?

A股:又有大戏看了,明天(5月20日)大盘,多空大对决?

静守时光落日
2024-05-19 17:25:19
一人毁了整个综艺!《歌手》的“鸡肋”选手,被淘汰后大快人心

一人毁了整个综艺!《歌手》的“鸡肋”选手,被淘汰后大快人心

娱乐圈笔娱君
2024-05-18 16:06:17
我在美国和北京的遭遇:对人的尊重,根源在哪?

我在美国和北京的遭遇:对人的尊重,根源在哪?

户外阿崭
2024-05-19 07:25:07
最新战报!单局25-13,加拿大连胜,日本挑战世界第3,2队不败?

最新战报!单局25-13,加拿大连胜,日本挑战世界第3,2队不败?

刘姚尧的文字城堡
2024-05-19 09:08:12
许可馨:中国没有公平可言法律只是权贵玩物。她为何对祖国不满?

许可馨:中国没有公平可言法律只是权贵玩物。她为何对祖国不满?

兰子记
2024-05-17 20:07:53
身高2米13+臂展2米30!男篮新内线被哄抢!或成中国第一NBA中锋?

身高2米13+臂展2米30!男篮新内线被哄抢!或成中国第一NBA中锋?

绯雨儿
2024-05-19 12:22:28
西部第一该出手了!未来7年33支选秀签:能换谁来帮助亚历山大?

西部第一该出手了!未来7年33支选秀签:能换谁来帮助亚历山大?

罗说NBA
2024-05-19 13:36:35
记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

记者扮男客潜入采耳店,偷拍服务全过程:女技师、柔式按摩别有洞天

古今档案
2024-05-07 13:04:58
《庆余年2》首播口碑出炉!张若昀太瘦让人出戏,配角演技惹争议

《庆余年2》首播口碑出炉!张若昀太瘦让人出戏,配角演技惹争议

萌神木木
2024-05-16 22:07:10
研究人员警告:感染过新冠的人应去检查眼睛

研究人员警告:感染过新冠的人应去检查眼睛

萍聚德国
2024-05-18 00:11:28
俄军无损攻入哈尔科夫,泽连斯基:错的不是我,是整个世界

俄军无损攻入哈尔科夫,泽连斯基:错的不是我,是整个世界

环球Talk
2024-05-17 23:33:22
美国首次拿到中国月壤数据!NASA兴奋宣布:很珍贵,超出人类认知

美国首次拿到中国月壤数据!NASA兴奋宣布:很珍贵,超出人类认知

非洲飞哥呀
2024-05-19 18:37:20
你能相信这是西汉人的手写字迹?

你能相信这是西汉人的手写字迹?

农人老寓
2024-05-18 23:54:04
湖北一男子嫖娼被抓,民警因担心牛群乱吃庄稼,劝其妻子回家养牛

湖北一男子嫖娼被抓,民警因担心牛群乱吃庄稼,劝其妻子回家养牛

王小乖
2024-05-18 16:53:01
罕见!农业部长任上落马

罕见!农业部长任上落马

燕梳楼频道
2024-05-19 12:12:16
2024-05-19 23:28:49
新智元
新智元
AI产业主平台领航智能+时代
11048文章数 65514关注度
往期回顾 全部

科技要闻

雷军直播开车2000万人围观!突然遭别车

头条要闻

俄法院下令:没收德意志银行资产

头条要闻

俄法院下令:没收德意志银行资产

体育要闻

欧文:我尽力不哭出来 我们还要走很远

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

洞庭湖区非法采砂 2000余亩洲滩被挖空

汽车要闻

智驾升级/月底上市 问界新M7 MAX焕新版

态度原创

手机
数码
教育
艺术
军事航空

手机要闻

网传苹果将推出iPhone 17 Slim:取代Plus机型

数码要闻

火影推出 A8 mini 迷你主机:8845HS + 双网口,准系统 2499 元

教育要闻

三年级,今年小明8岁,爸爸34岁,当两人年龄和72岁时,各几岁

艺术要闻

真诚度101%,35岁的诚品画廊为什么选择北京?

军事要闻

美媒公布的"蝠鲼"无人潜航器 中国早有了

无障碍浏览 进入关怀版