网易首页 > 网易号 > 正文 申请入驻

机器学习基础:如何防止过拟合

0
分享至

作者丨Poll 来源丨炼丹笔记 编辑丨极市平台

导读

本文对几种常用的防止模型过拟合的方法进行了详细的汇总和讲解。

其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可能马上会想到常用的L1范数和L2范数,在汇总之前,我们先看下LP范数是什么?

LP范数

范数简单可以理解为用来表征向量空间中的距离,而距离的定义很抽象,只要满足非负、自反、三角不等式就可以称之为距离。

LP范数不是一个范数,而是一组范数,其定义如下:

p的范围是[1,∞)。p在(0,1)范围内定义的并不是范数,因为违反了三角不等式。

根据pp的变化,范数也有着不同的变化,借用一个经典的有关P范数的变化图如下:

上图表示了p从0到正无穷变化时,单位球(unit ball)的变化情况。在P范数下定义的单位球都是凸集,但是当0

那问题来了,L0范数是啥玩意?

L0范数表示向量中非零元素的个数,用公式表示如下:

我们可以通过最小化L0范数,来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题(L0范数同样是非凸的)。因此,在实际应用中我们经常对L0进行凸松弛,理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替直接优化L0范数。

L1范数

根据LP范数的定义我们可以很轻松的得到L1范数的数学形式:

通过上式可以看到,L1范数就是向量各元素的绝对值之和,也被称为是"稀疏规则算子"(Lasso regularization)。那么问题来了,为什么我们希望稀疏化?稀疏化有很多好处,最直接的两个:


  • 特征选择



  • 可解释性



L2范数

L2范数是最熟悉的,它就是欧几里得距离,公式如下:

L2范数有很多名称,有人把它的回归叫“岭回归”(Ridge Regression),也有人叫它“权值衰减”(Weight Decay)。以L2范数作为正则项可以得到稠密解,即每个特征对应的参数ww都很小,接近于0但是不为0;此外,L2范数作为正则化项,可以防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

L1范数和L2范数的区别

引入PRML一个经典的图来说明下L1和L2范数的区别,如下图所示:

如上图所示,蓝色的圆圈表示问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于L2范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于L1范数是菱形(顶点是凸出来的),其相切的点更可能在坐标轴上,而坐标轴上的点有一个特点,其只有一个坐标分量不为零,其他坐标分量为零,即是稀疏的。所以有如下结论,L1范数可以导致稀疏解,L2范数导致稠密解。

从贝叶斯先验的角度看,当训练一个模型时,仅依靠当前的训练数据集是不够的,为了实现更好的泛化能力,往往需要加入先验项,而加入正则项相当于加入了一种先验。


  • L1范数相当于加入了一个Laplacean先验;



  • L2范数相当于加入了一个Gaussian先验。


如下图所示:

Dropout是深度学习中经常采用的一种正则化方法。它的做法可以简单的理解为在DNNs训练的过程中以概率pp丢弃部分神经元,即使得被丢弃的神经元输出为0。Dropout可以实例化的表示为下图:

我们可以从两个方面去直观地理解Dropout的正则化效果:


  • 在Dropout每一轮训练过程中随机丢失神经元的操作相当于多个DNNs进行取平均,因此用于预测时具有vote的效果。



  • 减少神经元之间复杂的共适应性。当隐藏层神经元被随机删除之后,使得全连接网络具有了一定的稀疏化,从而有效地减轻了不同特征的协同效应。也就是说,有些特征可能会依赖于固定关系的隐含节点的共同作用,而通过Dropout的话,就有效地组织了某些特征在其他特征存在下才有效果的情况,增加了神经网络的鲁棒性。



Batch Normalization

批规范化(Batch Normalization)严格意义上讲属于归一化手段,主要用于加速网络的收敛,但也具有一定程度的正则化效果。

这里借鉴下魏秀参博士的知乎回答中对covariate shift的解释( https://www.zhihu.com/question/38102762)。

注:以下内容引自魏秀参博士的知乎回答大家都知道在统计机器学习中的一个经典假设是“源空间(source domain)和目标空间(target domain)的数据分布(distribution)是一致的”。如果不一致,那么就出现了新的机器学习问题,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题,它是指源空间和目标空间的条件概率是一致的,但是其边缘概率不同。大家细想便会发现,的确,对于神经网络的各层输出,由于它们经过了层内操作作用,其分布显然与各层对应的输入信号分布不同,而且差异会随着网络深度增大而增大,可是它们所能“指示”的样本标记(label)仍然是不变的,这便符合了covariate shift的定义。

BN的基本思想其实相当直观,因为神经网络在做非线性变换前的激活输入值(X=WU+B,U是输入)随着网络深度加深,其分布逐渐发生偏移或者变动(即上述的covariate shift)。之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说,意味着激活输入值X=WU+B是大的负值或正值),所以这导致后向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,避免因为激活函数导致的梯度弥散问题。所以与其说BN的作用是缓解covariate shift,倒不如说BN可缓解梯度弥散问题。

归一化、标准化 & 正则化

正则化我们以及提到过了,这里简单提一下归一化和标准化。归一化(Normalization):归一化的目标是找到某种映射关系,将原数据映射到[a,b]区间上。一般a,b会取[−1,1],[0,1]这些组合。

一般有两种应用场景:


  • 把数变为(0, 1)之间的小数



  • 把有量纲的数转化为无量纲的数


常用min-max normalization:

标准化(Standardization):用大数定理将数据转化为一个标准正态分布,标准化公式为:

归一化和标准化的区别:

我们可以这样简单地解释:

归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。

值得注意:


  • 归一化:缩放仅仅跟最大、最小值的差别有关。



  • 标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。


为什么要标准化和归一化?

  • 提升模型精度:归一化后,不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。



  • 加速模型收敛:标准化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。如下图所示:



声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。参考链接:http://www.cnblogs.com/maybe2030/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苦难值得歌颂吗?10年前工资3千,10年后工资还3千,物价呢?

苦难值得歌颂吗?10年前工资3千,10年后工资还3千,物价呢?

唯唯安
2024-04-22 22:30:48
井喷!双色球24068期:爆发25注一等奖,分落12省,二等奖190注

井喷!双色球24068期:爆发25注一等奖,分落12省,二等奖190注

王晓爱体彩
2024-06-17 00:12:54
感动!曝胡明轩降薪留在广东宏远,只为拿到总冠军

感动!曝胡明轩降薪留在广东宏远,只为拿到总冠军

祝晓塬
2024-06-16 23:23:04
让更多的姜萍走向展示天赋的舞台

让更多的姜萍走向展示天赋的舞台

南方都市报
2024-06-15 22:22:17
A股:刚刚,证监会发声!2亿股民:融券和转融通就不应该存在!

A股:刚刚,证监会发声!2亿股民:融券和转融通就不应该存在!

兵哥闲聊
2024-06-16 22:32:43
奔驰男甩棍敲女孩后续:上头给压力了,视频下架,男子身份被扒了

奔驰男甩棍敲女孩后续:上头给压力了,视频下架,男子身份被扒了

小鹿姐姐情感说
2024-06-17 01:18:36
动物交配六亲不认,若雄性遇上自己母亲呢?马不欺母是真的吗?

动物交配六亲不认,若雄性遇上自己母亲呢?马不欺母是真的吗?

答案在这儿
2024-06-16 00:02:21
尘埃落定!孙杨归来,禁赛4年后剑指奥运,三项目挑战布拉登预言

尘埃落定!孙杨归来,禁赛4年后剑指奥运,三项目挑战布拉登预言

九霄云者
2024-06-14 12:55:17
致命绝杀!以色列的噩梦来了!

致命绝杀!以色列的噩梦来了!

大嘴说天下
2024-06-16 20:53:01
外媒:以色列面对真主党左右为难

外媒:以色列面对真主党左右为难

参考消息
2024-06-16 09:57:07
美国选手夸张幅度破女子100蝶世界纪录 超现实水准全世界独她拥有

美国选手夸张幅度破女子100蝶世界纪录 超现实水准全世界独她拥有

威猛孟巍
2024-06-16 08:39:11
曼联悍将凌空斩+创新历史,丹麦1-1斯洛文尼亚,24年纪录诞生

曼联悍将凌空斩+创新历史,丹麦1-1斯洛文尼亚,24年纪录诞生

侧身凌空斩
2024-06-17 01:51:20
申花老本吃完,斯帅只会大脚找马莱莱 不换外援将掉队 小戴又被弃

申花老本吃完,斯帅只会大脚找马莱莱 不换外援将掉队 小戴又被弃

替补席看球
2024-06-16 22:06:11
G7背书,再用瑞士峰会推高,之后F-16进入,反攻就开始了

G7背书,再用瑞士峰会推高,之后F-16进入,反攻就开始了

邵旭峰域
2024-06-15 11:59:20
59岁港星县城酒吧捞金,下车七个保镖护送,表情冷漠被批耍大牌

59岁港星县城酒吧捞金,下车七个保镖护送,表情冷漠被批耍大牌

大双
2024-05-18 21:41:45
湖南:小伙捧鲜花表白女技师,做足疗一见钟情,网友:长得很哇塞

湖南:小伙捧鲜花表白女技师,做足疗一见钟情,网友:长得很哇塞

百晓史
2024-06-02 09:09:36
剧情反转,以色列在中东被群殴,伊拉克民兵袭击以色列海法港口

剧情反转,以色列在中东被群殴,伊拉克民兵袭击以色列海法港口

青年的背包
2024-06-16 12:02:54
浙江红色预警!入梅后最强爆发!杭州天气将大变,今天下午起影响……

浙江红色预警!入梅后最强爆发!杭州天气将大变,今天下午起影响……

杭州之声
2024-06-16 16:42:52
2018年,那个检举男友一家贪腐的女子,两年后,自己也被判刑3年

2018年,那个检举男友一家贪腐的女子,两年后,自己也被判刑3年

可乐86
2024-05-16 09:12:38
涉195名员工! 理想汽车派“大礼包”

涉195名员工! 理想汽车派“大礼包”

每日经济新闻
2024-06-16 19:37:10
2024-06-17 03:20:49
数据不吹牛
数据不吹牛
趣味+实用数据分析
411文章数 4500关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

冷藏货车违规乘人致8人窒息后遇难 河南叶县通报

头条要闻

冷藏货车违规乘人致8人窒息后遇难 河南叶县通报

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

旅游
时尚
亲子
本地
游戏

旅游要闻

@毕业生,江苏这些景区可享免票或优惠

伊姐周日热推:电影《沙漏》;动漫《眷思量2》......

亲子要闻

玩这个游戏的都是勇士

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

梦幻西游玩家炸出160愤怒水清腰带,西栅为服战连夜换“网吧”?

无障碍浏览 进入关怀版