网易首页 > 网易号 > 正文 申请入驻

经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决

0
分享至

机器之心报道

机器之心编辑部

不用换模型、不用堆参数,靠 SUGAR 模型性能大增!

在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。

尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。

然而 ReLU 单元易陷入所谓的「死亡 ReLU 问题」, 一旦某个神经元在训练中输出恒为 0,其梯度也为 0,无法再恢复。 这一现象最终制约了其整体效能,也是 ReLU 网络的重大缺陷。

正是死亡 ReLU 问题催生了大量改进的线性单元函数,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值引入非零激活,提供了不同的权衡。

本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的方法:SUGAR(Surrogate Gradient for ReLU),在不牺牲 ReLU 优势的情况下解决了 ReLU 的局限性。即前向传播仍使用标准 ReLU(保持其稀疏性和简单性),反向传播时替换 ReLU 的导数为一个非零、连续的替代梯度函数(surrogate gradient)。

这样可以让 ReLU 在保持原始前向行为的同时,避免梯度为零的问题,从而复活死神经元。

基于此,本文还设计了两种新型替代梯度函数:B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以无缝集成到各种模型中。

本研究的进一步贡献如下:

  • 本文对 VGG-16 和 ResNet-18 进行了全面的实验,表明 SUGAR 显著增强了这两种架构的泛化能力。
  • 本文在Swin Transformer和 Conv2NeXt 等现代架构上对 SUGAR 进行了评估,展示了其适应性和有效性。
  • 对 VGG-16 层激活的深入分析表明,当应用 SUGAR 时,激活分布发生了明显的变化,为其在缓解消亡 ReLU 问题中的作用提供了直观证据,同时促进了更稀疏的表示。

SUGAR 方法易于实现,并在前向传播中始终采用 ReLU 激活函数。与所提出的 B-SiLU 替代函数结合使用时,VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率分别提升了 10 个百分点和 16 个百分点,而 ResNet-18 与未使用 SUGAR 的最佳模型相比,分别提升了 9 个百分点和 7 个百分点。



  • 论文标题: The Resurrection of the ReLU
  • 论文链接:https://arxiv.org/pdf/2505.22074

SUGAR 介绍

本文提出的方法将 FGI ( Forward gradient injection )应用于具有平滑替代函数的 ReLU 网络中。在 SUGAR 框架下, FGI 可以表示为:

该公式实现了梯度注入,并确保即使对于负激活也能进行梯度传播。具体来说,利用 [34] 中的乘法技巧,替代梯度函数的直接注入如下:



替代函数的选择具有灵活性,可兼容当前最先进的各类激活函数,例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(见图 8)。



关键区别在于,与 ReLU 不同,这些候选替代函数均具有一个共同特征:对负输入(x < 0)能产生非零梯度。虽然这些函数为负激活提供了梯度流通路径,但前向传播及后续损失计算仍严格依赖 x > 0 时的激活输出。

在初步研究中,本文意识到需要调整当前的激活函数以适应 SUGAR 的特定用途。因此,接下来本文提出了两个与这些设置良好匹配的新替代函数。

B-SiLU:引入了一种名为 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函数,它结合了自门控特性和可调下限参数。从数学上讲,该函数可以表示为:



B-SiLU 激活函数的导数为:



图 8 中可视化了 B-SiLU 及其导数。

NeLU:本文进一步引入了 NeLU(Negative slope Linear Unit),作为 ReLU 的平滑导数替代品。



最终的梯度如图 1 所示。



实验

总体而言,与 ReLU 基线相比,SUGAR 结合 ELU、SELU 以及特别是 B-SiLU 获得了最大的提升,而 LeakyReLU 和 NeLU 则始终表现不佳(见图 2)。在 CIFAR-10 数据集上使用 ResNet-18 作为骨干网络时,B-SiLU 的性能从 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也表现出类似的效果:B-SiLU 将测试精度提高了近 10 个百分点(从 78.50% 提升到 88.35%)。



在 CIFAR-100 数据集上,SUGAR 结合 B-SiLU 的优势更加明显:ResNet-18 的准确率从 48.99% 跃升至 56.51%,VGG-16 的准确率从 48.73% 提升至 64.47%(见图 3)。同样,Leaky ReLU 和 NeLU 仅显示出微小的甚至是负的提升(例如 ResNet-18 上的 43.67% → 43.41%)。

总的来说,B-SiLU 在不同架构和数据集上均优于其他替代激活函数,ELU 和 SELU 能够提供可靠的改进,而在这种设置下,SUGAR 从 Leaky ReLU 和 NeLU 中并未获得有意义的益处。



当应用于 Conv2NeXt 时,如表 1 所示,SUGAR 在前向和反向传播过程中均始终优于使用 GELU 的基础模型。



了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
想买车的再等等,五大六座SUV9月上市,款款都有杀手锏

想买车的再等等,五大六座SUV9月上市,款款都有杀手锏

火星说车
2025-09-13 17:07:39
温州皮鞋厂倒闭8年,儿子从意大利回国:爸,米兰的工厂还在吗

温州皮鞋厂倒闭8年,儿子从意大利回国:爸,米兰的工厂还在吗

故事那点事
2025-09-13 21:20:07
西贝后厨曝光!电磁炉炒菜,肉类全是冻货,鸡汤保质期10个月

西贝后厨曝光!电磁炉炒菜,肉类全是冻货,鸡汤保质期10个月

小兰聊历史
2025-09-12 17:58:00
A股涨到3892,不出意外,下周(9月15日-19日)很可能要这样走了

A股涨到3892,不出意外,下周(9月15日-19日)很可能要这样走了

虎哥闲聊
2025-09-14 10:00:39
年仅46岁!曼城官方:拳王哈顿不幸离世,曼市德比赛前将为他默哀

年仅46岁!曼城官方:拳王哈顿不幸离世,曼市德比赛前将为他默哀

直播吧
2025-09-14 21:19:04
西安事变伤亡,或比大家想象的要多!蒋家多位子侄外甥为保蒋死亡

西安事变伤亡,或比大家想象的要多!蒋家多位子侄外甥为保蒋死亡

阿光的技巧课堂
2025-09-02 11:32:15
山东省G20青银高速复线再次流标,线路长194公里,工程投资305亿

山东省G20青银高速复线再次流标,线路长194公里,工程投资305亿

交建动态
2025-09-14 10:32:17
澳门冠军赛落幕!诞生5个赢家、6个输家,孙颖莎、王楚钦位列其中

澳门冠军赛落幕!诞生5个赢家、6个输家,孙颖莎、王楚钦位列其中

知轩体育
2025-09-14 22:08:51
我帮女儿带外孙,女婿问我要房租,我果断回家,1年后派出所民警敲门

我帮女儿带外孙,女婿问我要房租,我果断回家,1年后派出所民警敲门

今天说故事
2025-07-21 18:24:37
陈赫前妻不穿内衣大胆出镜,胸和肚子快一样平,那张脸倒是很美

陈赫前妻不穿内衣大胆出镜,胸和肚子快一样平,那张脸倒是很美

涵豆说娱
2025-09-09 17:09:17
伤亡比例1比5!多布罗皮利亚被围俄军弹尽粮绝,大批士兵主动投降

伤亡比例1比5!多布罗皮利亚被围俄军弹尽粮绝,大批士兵主动投降

知兵
2025-09-14 22:02:52
顿顿已被证实无法复制董宇辉,赔钱赔到停播,主播圈第一人!

顿顿已被证实无法复制董宇辉,赔钱赔到停播,主播圈第一人!

寻墨阁
2025-09-04 10:23:37
面相真是一门玄学!无论是于朦胧还是乔任梁,面相却出奇的一致

面相真是一门玄学!无论是于朦胧还是乔任梁,面相却出奇的一致

另子维爱读史
2025-09-12 07:55:49
倒闭1.2万家!80后集体记忆轰然崩塌,50台电脑年入千万神话破灭

倒闭1.2万家!80后集体记忆轰然崩塌,50台电脑年入千万神话破灭

财经八卦
2025-07-17 23:34:18
3000亿砸出来的南水北调,12年调水数据曝光,这笔账到底用到哪了

3000亿砸出来的南水北调,12年调水数据曝光,这笔账到底用到哪了

小舟谈历史
2025-09-13 11:49:42
九三阅兵一周后,我们躲过了一场世界大战

九三阅兵一周后,我们躲过了一场世界大战

罗列思维
2025-09-10 18:44:59
为什么欧美电影喜欢露点?看欧美电影都挺喜欢露点的感觉

为什么欧美电影喜欢露点?看欧美电影都挺喜欢露点的感觉

动物奇奇怪怪
2025-08-25 08:03:46
夫妻性生活“前戏”怎么做?分享5个被低估的升温技巧,点燃全场

夫妻性生活“前戏”怎么做?分享5个被低估的升温技巧,点燃全场

精彩分享快乐
2025-09-12 12:58:00
多国宣布:出动战机!

多国宣布:出动战机!

中国基金报
2025-09-14 21:39:48
4-0双杀!澳门冠军赛男单冠军诞生,王楚钦又赢雨果,2个不可思议

4-0双杀!澳门冠军赛男单冠军诞生,王楚钦又赢雨果,2个不可思议

侃球熊弟
2025-09-14 20:30:49
2025-09-15 00:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11283文章数 142450关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

王毅表态:中国是负责任大国 中方不参与、不策划战争

头条要闻

王毅表态:中国是负责任大国 中方不参与、不策划战争

体育要闻

利物浦1-0绝杀十人伯恩利 萨拉赫95分钟点射

娱乐要闻

花泽香菜官宣离婚 结束与老公5年婚姻

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

健康
房产
旅游
数码
公开课

内分泌科专家破解身高八大谣言

房产要闻

「世界冠军×人居升阶」白鹅潭CLD封面,实力馥见人生新高度!

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

数码要闻

上市十天:Intel锐炫Pro B50火速登顶畅销榜首!16GB大显存2999元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版