网易首页 > 网易号 > 正文 申请入驻

为什么标准化要用均值0和方差1?

0
分享至



为什么标准化要把均值设为0、方差设为1?

先说均值。均值就是平均数,所有观测值加起来除以个数。



μ是均值,n是数据点总数,xᵢ是每个数据点,所以均值就是数据的重心位置。比如均值是20,那20就是平衡点。这不是说所有点到20的距离相等而是说两边的"重量"刚好在20这个位置抵消掉。

而方差衡量的是数据有多分散,定义是每个值与均值偏差的平方的平均值。

n是数据点总数,xᵢ是每个数据点,μ是均值。

那均值为0有什么用?

可以把数据想象成坐标系里的一团“点云”。每个值减去均值(x — μ)之后,整团云就被平移到了原点位置。数据不再飘在某个角落而是以原点为中心分布。

这对很多机器学习算法都有好处,尤其是用梯度下降的时候。数据居中之后优化过程更平衡、收敛也更快。因为特征要是一开始就偏离原点很远,训练起来会麻烦不少。

那方差为1呢?

这是为了防止某个特征"欺负"其他特征。

举个例子:年龄和薪资两个特征,年龄范围10-70,薪资范围10,000-70,000。直接喂给模型的话,模型会觉得薪资比年龄重要1000倍(数字大嘛)。但这两个特征本来是独立的,凭什么薪资就更重要?

所以标准化就是除以标准差,让所有特征的方差都变成1。这样年龄和薪资就在同一个量级上了,变化幅度差不多。年龄有个小波动,不会因为薪资数字大就被模型无视掉。

可视化效果:



标准化之前,特征1(红色,小尺度)和特征2(蓝色,大尺度)放一起,红色那条几乎看不见。标准化之后,两个特征尺度一致,都能清晰显示出来。模型终于可以公平对待它们了。

什么时候需要标准化?逻辑回归、神经网络、KNN这类用梯度下降的算法,标准化影响最大。

总结一下:

均值为0让数据居中,方差为1让特征尺度统一。两者配合,算法学得更快,也不会偏心某个特征。至于什么时候该用标准化、什么时候该用MinMaxScaler,老实说我也还在摸索。

https://avoid.overfit.cn/post/957b1b35bc1047e185dab369ae8d84ed

作者:vaishnavi

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无缘抢七,掘金不敌残阵森林狼,败笔曝光,头号罪人无可争议!

无缘抢七,掘金不敌残阵森林狼,败笔曝光,头号罪人无可争议!

体育见习官
2026-05-01 12:29:39
温州凶宅价格跌破底线!这样贱卖都没人要……

温州凶宅价格跌破底线!这样贱卖都没人要……

科学发掘
2026-05-01 12:48:16
程晓玥二胎产子后首曝光!气色红润状态绝佳,儿女双全人生赢家

程晓玥二胎产子后首曝光!气色红润状态绝佳,儿女双全人生赢家

笑饮孤鸿非
2026-05-01 01:34:45
5月1日起短信大调整!所有手机用户注意,全国同步执行

5月1日起短信大调整!所有手机用户注意,全国同步执行

普陀动物世界
2026-04-30 08:03:54
济南夏雨荷事件,原来文旅两任领导都是满族,公司名起得也很奇怪

济南夏雨荷事件,原来文旅两任领导都是满族,公司名起得也很奇怪

魔都姐姐杂谈
2026-04-30 13:02:58
大的要来了!穆杰塔巴撸掉伊朗革命卫队总司令,换了个不怕死的

大的要来了!穆杰塔巴撸掉伊朗革命卫队总司令,换了个不怕死的

杰丝聊古今
2026-04-11 19:07:34
麦丹32+10约基奇28+9+10 森林狼4比2淘汰掘金

麦丹32+10约基奇28+9+10 森林狼4比2淘汰掘金

北青网-北京青年报
2026-05-01 15:01:04
火烈鸟导弹公司展示最新弹道导弹!乌克兰空袭南部俄军指挥部

火烈鸟导弹公司展示最新弹道导弹!乌克兰空袭南部俄军指挥部

项鹏飞
2026-04-28 20:29:27
据乌克兰情报,随着补给减少,俄罗斯军队在前线发生食人行为

据乌克兰情报,随着补给减少,俄罗斯军队在前线发生食人行为

老王说正义
2026-04-28 14:09:47
邮报:利物浦应卖掉琼斯、埃利奥特等5人,留下阿利松、小麦

邮报:利物浦应卖掉琼斯、埃利奥特等5人,留下阿利松、小麦

懂球帝
2026-05-01 14:05:11
69岁大爷怒斥40岁女保姆不正经,大爷:我虽然年纪大了,但不糊涂

69岁大爷怒斥40岁女保姆不正经,大爷:我虽然年纪大了,但不糊涂

烙任情感
2026-04-30 10:49:42
英国千亿高铁项目陷入困境 列车测试寻求中方合作

英国千亿高铁项目陷入困境 列车测试寻求中方合作

知识TNT
2026-04-30 14:51:03
比孙杨更会宠,于家翊当年哄张豆豆的细节,至今看了都发甜

比孙杨更会宠,于家翊当年哄张豆豆的细节,至今看了都发甜

嘴角上翘的弧度
2026-05-01 01:30:36
黄一鸣自曝要起诉王思聪:我要让整个网友知道,闪闪她是有父亲的

黄一鸣自曝要起诉王思聪:我要让整个网友知道,闪闪她是有父亲的

荒野老五
2026-04-29 03:34:37
外媒:伊朗战争还决定了一件事,那就是印度永远成不了世界大国?

外媒:伊朗战争还决定了一件事,那就是印度永远成不了世界大国?

斜烟风起雨未
2026-04-30 02:06:20
女人敢陪男人去这种地方,其实就是承认“关系”,别装不懂!

女人敢陪男人去这种地方,其实就是承认“关系”,别装不懂!

三农老历
2026-05-01 14:36:06
帕萨特R-Line历史首配四驱,大众要翻身?

帕萨特R-Line历史首配四驱,大众要翻身?

小怪吃美食
2026-05-01 14:38:55
牛仔超短裙的诱惑:不是诱惑别人,是诱惑自己

牛仔超短裙的诱惑:不是诱惑别人,是诱惑自己

疾跑的小蜗牛
2026-04-30 23:15:08
济南夏雨荷事件,文旅两任领导疑似满族,公司名叫盛世乾隆

济南夏雨荷事件,文旅两任领导疑似满族,公司名叫盛世乾隆

魔都姐姐杂谈
2026-05-01 12:50:13
美国一旦霸权结束,一定会灭亡的三个国家,排第一的果然是它

美国一旦霸权结束,一定会灭亡的三个国家,排第一的果然是它

琴音缭绕回
2026-04-25 07:21:31
2026-05-01 15:56:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1986文章数 1461关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

游戏
手机
旅游
艺术
军事航空

6万块 限量500件!《巫师3》新雕像:杰洛特希里对饮

手机要闻

荣耀Magic V6领先了,OPPO Find N6加油

旅游要闻

预计暑期开园,山东首个国风机甲神话文旅项目落地德州

艺术要闻

刘明华 2026油画新作(2024-2026)

军事要闻

伊朗:持续推进海上封锁的行为不可容忍

无障碍浏览 进入关怀版