网易首页 > 网易号 > 正文 申请入驻

为什么标准化要用均值0和方差1?

0
分享至



为什么标准化要把均值设为0、方差设为1?

先说均值。均值就是平均数,所有观测值加起来除以个数。



μ是均值,n是数据点总数,xᵢ是每个数据点,所以均值就是数据的重心位置。比如均值是20,那20就是平衡点。这不是说所有点到20的距离相等而是说两边的"重量"刚好在20这个位置抵消掉。

而方差衡量的是数据有多分散,定义是每个值与均值偏差的平方的平均值。

n是数据点总数,xᵢ是每个数据点,μ是均值。

那均值为0有什么用?

可以把数据想象成坐标系里的一团“点云”。每个值减去均值(x — μ)之后,整团云就被平移到了原点位置。数据不再飘在某个角落而是以原点为中心分布。

这对很多机器学习算法都有好处,尤其是用梯度下降的时候。数据居中之后优化过程更平衡、收敛也更快。因为特征要是一开始就偏离原点很远,训练起来会麻烦不少。

那方差为1呢?

这是为了防止某个特征"欺负"其他特征。

举个例子:年龄和薪资两个特征,年龄范围10-70,薪资范围10,000-70,000。直接喂给模型的话,模型会觉得薪资比年龄重要1000倍(数字大嘛)。但这两个特征本来是独立的,凭什么薪资就更重要?

所以标准化就是除以标准差,让所有特征的方差都变成1。这样年龄和薪资就在同一个量级上了,变化幅度差不多。年龄有个小波动,不会因为薪资数字大就被模型无视掉。

可视化效果:



标准化之前,特征1(红色,小尺度)和特征2(蓝色,大尺度)放一起,红色那条几乎看不见。标准化之后,两个特征尺度一致,都能清晰显示出来。模型终于可以公平对待它们了。

什么时候需要标准化?逻辑回归、神经网络、KNN这类用梯度下降的算法,标准化影响最大。

总结一下:

均值为0让数据居中,方差为1让特征尺度统一。两者配合,算法学得更快,也不会偏心某个特征。至于什么时候该用标准化、什么时候该用MinMaxScaler,老实说我也还在摸索。

https://avoid.overfit.cn/post/957b1b35bc1047e185dab369ae8d84ed

作者:vaishnavi

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿尔特塔:有些失误不太像我们会犯的,但也要认可曼联的表现

阿尔特塔:有些失误不太像我们会犯的,但也要认可曼联的表现

懂球帝
2026-01-26 03:52:10
电视剧《太平年》没人敢拍的五代十国,才是真正的魔鬼乱世

电视剧《太平年》没人敢拍的五代十国,才是真正的魔鬼乱世

白羽居士
2026-01-24 21:26:13
央媒痛批,沉寂七十年,从同志到戏子,资本的獠牙终于露出来了

央媒痛批,沉寂七十年,从同志到戏子,资本的獠牙终于露出来了

锋哥与八卦哥
2026-01-24 11:50:17
原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

另子维爱读史
2025-12-06 22:09:07
日媒:旅居日本大熊猫最后一天对外公开,超10万人预约争抢参观名额

日媒:旅居日本大熊猫最后一天对外公开,超10万人预约争抢参观名额

环球网资讯
2026-01-25 12:04:08
“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

“治港败类”曾荫权:治理香港7年,为何却在卸任后,获刑20个月

卷史
2025-09-15 11:50:59
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
怎么找估值低的股票?3大核心指标+4步筛选方法,简单实用!

怎么找估值低的股票?3大核心指标+4步筛选方法,简单实用!

小白鸽财经
2025-12-29 07:05:02
不管信佛与否,这3件事一定要保密!说出口,福气可能悄悄溜走

不管信佛与否,这3件事一定要保密!说出口,福气可能悄悄溜走

金沛的国学笔记
2026-01-22 16:00:40
52岁复出屠榜?这位阿姨才是真正的业界钢铁侠!

52岁复出屠榜?这位阿姨才是真正的业界钢铁侠!

素然追光
2026-01-06 05:50:03
中国股市稳定复利的笨方法:持有一只股,保留50%仓位,长期做T

中国股市稳定复利的笨方法:持有一只股,保留50%仓位,长期做T

股经纵横谈
2026-01-18 16:12:10
比亚迪土耳其建厂项目告吹,土方强要技术不成加征50%关税。

比亚迪土耳其建厂项目告吹,土方强要技术不成加征50%关税。

荆楚寰宇文枢
2026-01-25 22:56:30
网飞的变态级美剧回归,太重口味了

网飞的变态级美剧回归,太重口味了

来看美剧
2025-10-05 15:30:38
郭包肉 | 首次授衔秘闻:张宗逊为何仅获授上将军衔?

郭包肉 | 首次授衔秘闻:张宗逊为何仅获授上将军衔?

郭包肉八世
2026-01-24 18:12:56
山河四省,三亿人的悲哀

山河四省,三亿人的悲哀

银河系漫游客
2025-12-30 14:04:48
西伯利亚“入冬备战”:人均储粮500公斤,窗户至少加固到三层

西伯利亚“入冬备战”:人均储粮500公斤,窗户至少加固到三层

近史谈
2025-12-05 20:48:52
无缘冠军后国足4人获喜讯:2人留洋+1人加盟中超

无缘冠军后国足4人获喜讯:2人留洋+1人加盟中超

陈锌特色美食
2026-01-25 21:01:33
政策重磅利好:商业航天迎来重组大年!

政策重磅利好:商业航天迎来重组大年!

风风顺
2026-01-25 16:04:38
我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

我表哥娶了个外国媳妇,天天抱怨:抱着俄罗斯老婆,堪比抱个刺猬

千秋文化
2026-01-22 17:10:43
达洛特:这样的时刻必须好好享受;最大挑战是如何保持下去

达洛特:这样的时刻必须好好享受;最大挑战是如何保持下去

懂球帝
2026-01-26 04:36:49
2026-01-26 05:24:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1901文章数 1445关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

委代总统控诉遭美国威胁:不配合就杀了你们

头条要闻

委代总统控诉遭美国威胁:不配合就杀了你们

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

数码
时尚
亲子
健康
教育

数码要闻

AMD最强APU更新!锐龙AI Max+ 400详细规格曝光:5.2GHz CPU、3.0GHz GPU

看了鲁豫对章小蕙的采访,最大感触是这一点

亲子要闻

2026年宝宝面霜硬核测评:秋冬红干敏救星,这三款闭眼入!

耳石脱落为何让人天旋地转+恶心?

教育要闻

西藏考生必看!合肥工业大学招生计划揭秘

无障碍浏览 进入关怀版