网易首页 > 网易号 > 正文 申请入驻

正则化方法小结

0
分享至

大数据文摘转载自数据派THU

来源:机器学习方法那些事、极市平台

导读

本文先对正则化的相关概念进行解释作为基础,后对正则化的方法进行了总结,帮助大家更加清晰的了解正则化方法。

阅读目录

  • LP范数

  • L1范数

  • L2范数

  • L1范数和L2范数的区别

  • Dropout

  • Batch Normalization

  • 归一化、标准化 & 正则化

  • Reference

在总结正则化(Regularization)之前,我们先谈一谈正则化是什么,为什么要正则化。

个人认为正则化这个字眼有点太过抽象和宽泛,其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可能马上会想到常用的L1范数和L2范数,在汇总之前,我们先看下LP范数是什么鬼。

LP范数

范数简单可以理解为用来表征向量空间中的距离,而距离的定义很抽象,只要满足非负、自反、三角不等式就可以称之为距离。

LP范数不是一个范数,而是一组范数,其定义如下:

p的范围是 。p在(0,1)范围内定义的并不是范数,因为违反了三角不等式。

根据p的变化,范数也有着不同的变化,借用一个经典的有关P范数的变化图如下:

上图表示了p从0到正无穷变化时,单位球(unit ball)的变化情况。在P范数下定义的单位球都是凸集,但是当0

那问题来了,L0范数是啥玩意?

L0范数表示向量中非零元素的个数,用公式表示如下:

我们可以通过最小化L0范数,来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题(L0范数同样是非凸的)。因此,在实际应用中我们经常对L0进行凸松弛,理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替直接优化L0范数。

L1范数

根据LP范数的定义我们可以很轻松的得到L1范数的数学形式:

通过上式可以看到,L1范数就是向量各元素的绝对值之和,也被称为是"稀疏规则算子"(Lasso regularization)。那么问题来了,为什么我们希望稀疏化?稀疏化有很多好处,最直接的两个:

  • 特征选择;

  • 可解释性。

L2范数

L2范数是最熟悉的,它就是欧几里得距离,公式如下:

L2范数有很多名称,有人把它的回归叫“岭回归”(Ridge Regression),也有人叫它“权值衰减”(Weight Decay)。以L2范数作为正则项可以得到稠密解,即每个特征对应的参数w都很小,接近于0但是不为0;此外,L2范数作为正则化项,可以防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

L1范数和L2范数的区别

引入PRML一个经典的图来说明下L1和L2范数的区别,如下图所示:

如上图所示,蓝色的圆圈表示问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于L2范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于L1范数是菱形(顶点是凸出来的),其相切的点更可能在坐标轴上,而坐标轴上的点有一个特点,其只有一个坐标分量不为零,其他坐标分量为零,即是稀疏的。所以有如下结论,L1范数可以导致稀疏解,L2范数导致稠密解。

从贝叶斯先验的角度看,当训练一个模型时,仅依靠当前的训练数据集是不够的,为了实现更好的泛化能力,往往需要加入先验项,而加入正则项相当于加入了一种先验。

  • L1范数相当于加入了一个Laplacean先验;

  • L2范数相当于加入了一个Gaussian先验。

如下图所示:

Dropout

Dropout是深度学习中经常采用的一种正则化方法。它的做法可以简单的理解为在DNNs训练的过程中以概率p丢弃部分神经元,即使得被丢弃的神经元输出为0。Dropout可以实例化的表示为下图:

我们可以从两个方面去直观地理解Dropout的正则化效果:

  • 在Dropout每一轮训练过程中随机丢失神经元的操作相当于多个DNNs进行取平均,因此用于预测具有vote的效果。

  • 减少神经元之间复杂的共适应性。当隐藏层神经元被随机删除之后,使得全连接网络具有了一定的稀疏化,从而有效地减轻了不同特征的协同效应。也就是说,有些特征可能会依赖于固定关系的隐含节点的共同作用,而通过Dropout的话,就有效地组织了某些特征在其他特征存在下才有效果的情况,增加了神经网络的鲁棒性。

Batch Normalization

批规范化(Batch Normalization)严格意义上讲属于归一化手段,主要用于加速网络的收敛,但也具有一定程度的正则化效果。

这里借鉴下魏秀参博士的知乎回答中对covariate shift的解释。

注以下内容引自魏秀参博士的知乎回答:

大家都知道在统计机器学习中的一个经典假设是“源空间(source domain)和目标空间(target domain)的数据分布(distribution)是一致的”。如果不一致,那么就出现了新的机器学习问题,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题,它是指源空间和目标空间的条件概率是一致的,但是其边缘概率不同。

大家细想便会发现,的确,对于神经网络的各层输出,由于它们经过了层内操作作用,其分布显然与各层对应的输入信号分布不同,而且差异会随着网络深度增大而增大,可是它们所能“指示”的样本标记(label)仍然是不变的,这便符合了covariate shift的定义。

BN的基本思想其实相当直观,因为神经网络在做非线性变换前的激活输入值(X = WU + B,U是输入),随着网络深度加深,其分布逐渐发生偏移或者变动(即上述的covariate shift)。之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说,意味着激活输入值(X = WU + B)是大的负值和正值。所以这导致后向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因。而 BN 就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,避免因为激活函数导致的梯度弥散问题。所以与其说BN的作用是缓解covariate shift,倒不如说BN可缓解梯度弥散问题。

归一化、标准化 & 正则化

正则化我们以及提到过了,这里简单提一下归一化和标准化。

归一化(Normalization):归一化的目标是找到某种映射关系,将原数据映射到[a,b]区间上。一般a,b会取[-1,1],[0,1]这些组合 。

一般有两种应用场景:

  • 把数变为(0, 1)之间的小数;

  • 把有量纲的数转化为无量纲的数。

常用min-max normalization:

标准化(Standardization):用大数定理将数据转化为一个标准正态分布,标准化公式为:

归一化和标准化的区别:

我们可以这样简单地解释:归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。

值得注意:

归一化:缩放仅仅跟最大、最小值的差别有关。

标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。

为什么要标准化和归一化?

  • 提升模型精度:归一化后,不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

  • 加速模型收敛:标准化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。如下图所示:

Reference

1. Andrew Ng深度学习教程

2. Must Know Tips/Tricks in Deep Neural Networks (by Xiu-Shen Wei)

https://www.cnblogs.com/maybe2030/p/9231231.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
悲哀!42岁男子一直没找到工作,被父亲怒斥好吃懒做,哭诉怎么办

悲哀!42岁男子一直没找到工作,被父亲怒斥好吃懒做,哭诉怎么办

火山詩话
2026-03-30 07:02:48
英德同时对美展现立场,特朗普仅剩一条路可走

英德同时对美展现立场,特朗普仅剩一条路可走

史政先锋
2026-03-30 07:11:46
还记得利物浦“纹身哥”吗?梅雷莱斯退役10年,生活竟比踢球更狂

还记得利物浦“纹身哥”吗?梅雷莱斯退役10年,生活竟比踢球更狂

仰卧撑FTUer
2026-03-30 10:48:05
我们可能误判了,万斯正切割特朗普,这场采访背后的算计远超想象

我们可能误判了,万斯正切割特朗普,这场采访背后的算计远超想象

报君知史
2026-03-30 15:02:15
CBA焦点战今夜打响!CCTV5直播!辽宁拒3连败,山东北京冲前4

CBA焦点战今夜打响!CCTV5直播!辽宁拒3连败,山东北京冲前4

老吴说体育
2026-03-30 10:44:00
鸿蒙智行遭大规模围攻!享界S9动了谁的蛋糕?

鸿蒙智行遭大规模围攻!享界S9动了谁的蛋糕?

少数派报告Report
2026-03-28 14:26:39
陈妍希红毯胖出新高度!臀肥大、后背勒出两层肉,裙子被撑到崩开

陈妍希红毯胖出新高度!臀肥大、后背勒出两层肉,裙子被撑到崩开

观察鉴娱
2026-03-28 10:00:00
小马科斯又要抱中国佛脚!真怕中国不来东盟峰会,又要紧急会晤

小马科斯又要抱中国佛脚!真怕中国不来东盟峰会,又要紧急会晤

阿晪美食
2026-03-30 16:30:43
释新闻|被中方制裁的日众议员古屋圭司:高市早苗心腹,多次参拜靖国神社

释新闻|被中方制裁的日众议员古屋圭司:高市早苗心腹,多次参拜靖国神社

澎湃新闻
2026-03-30 13:50:26
【列国鉴】记者观察:伊朗战事持续一月,特朗普政府陷入四重困境

【列国鉴】记者观察:伊朗战事持续一月,特朗普政府陷入四重困境

新华社
2026-03-29 13:47:07
李梓萌,私生活传闻太荒唐

李梓萌,私生活传闻太荒唐

做一个合格的吃瓜群众
2026-03-21 19:20:55
够狠!阿联酋清空伊朗人居留权,5300亿资产说冻就冻

够狠!阿联酋清空伊朗人居留权,5300亿资产说冻就冻

老马拉车莫少装
2026-03-29 19:12:12
北京男子靠龙虾OpenClaw实现36小时买房

北京男子靠龙虾OpenClaw实现36小时买房

齐鲁壹点
2026-03-30 11:45:46
朝鲜导游对中国游客说,中国有几个方面不如朝鲜,他们说的对吗?

朝鲜导游对中国游客说,中国有几个方面不如朝鲜,他们说的对吗?

番外行
2026-03-29 00:15:03
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
韩国军事专家:这个世界上没有任何一个国家敢动中国

韩国军事专家:这个世界上没有任何一个国家敢动中国

南权先生
2026-03-12 16:14:24
南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

南京男子回家迫不及待抱住妻子,结果家中鹦鹉一开口,让他崩溃!

白云故事
2025-03-14 19:05:07
伊朗同意再放行20艘巴基斯坦籍船只通过霍尔木兹海峡,今后每天将有两艘船通过该海峡

伊朗同意再放行20艘巴基斯坦籍船只通过霍尔木兹海峡,今后每天将有两艘船通过该海峡

扬子晚报
2026-03-29 07:17:05
狂输52!31-0,创史上最拉胯零封纪录,状元啊!

狂输52!31-0,创史上最拉胯零封纪录,状元啊!

体育新角度
2026-03-30 16:14:07
44岁人艺演员于明加,红T恤穿出S曲线,这身材谁敢信是两娃妈?

44岁人艺演员于明加,红T恤穿出S曲线,这身材谁敢信是两娃妈?

娱乐领航家
2026-03-29 23:30:03
2026-03-30 17:16:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6844文章数 94536关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

单套最低5400万 北京豪宅暴雷几十户业主办不了房产证

头条要闻

单套最低5400万 北京豪宅暴雷几十户业主办不了房产证

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

家居
数码
旅游
公开课
军事航空

家居要闻

东方法式美学 现代简约

数码要闻

小米米家吸顶灯Pro超薄版上架:可选方/圆款,849元起

旅游要闻

赴泰旅游价格或上涨,泰国拟向外国游客收300泰铢

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版