网易首页 > 网易号 > 正文 申请入驻

AI 术语通俗词典:归一化

0
分享至

归一化是统计学、数据分析、机器学习和人工智能中非常常见的一个术语。它用来描述一种数据处理方法:按照一定规则,把原本取值范围不同的数据转换到一个较统一的数值区间内。

如果说原始数据回答的是“这个值本身有多大”,那么归一化回答的就是“这个值在统一尺度下处于什么位置”。因此,归一化常用于消除不同数据尺度带来的影响,使数据更便于比较、计算和建模。

一、基本概念:什么是归一化

归一化(Normalization)是指按照一定规则,将数据映射到一个统一数值范围内的过程。

最常见的做法,是把数据缩放到 [0, 1] 区间,有时也会缩放到 [-1, 1] 区间。

例如,在同一份数据中:

年龄可能在 18 到 25 之间;

分数可能在 0 到 100 之间;

收入可能在几千到几十万元之间。

如果直接把这些数据放在一起计算,数值较大的特征往往更容易影响结果。归一化的作用,就是先把这些特征调整到相近的尺度上,使后续比较与计算更加合理。

最常见的方法是最小—最大归一化(Min-Max Normalization),其公式可写为:

其中:

• x 表示原始值

• x_min 表示该组数据中的最小值

• x_max 表示该组数据中的最大值

• x′ 表示归一化后的值

这个公式的含义可以分成三步理解:

(1)先计算当前数据与最小值相差多少;

(2)再计算整组数据的总范围,也就是最大值与最小值之差;

(3)最后用前者除以后者,得到当前数据在整体范围中的相对位置。

也就是说,归一化本质上是在回答:某个数据在这组数据的最小值和最大值之间,处于多靠前的位置。

例如,下面这组数据:

A 组:[50, 60, 80, 100]

如果要对其中的 80 做归一化处理,那么:

最大值是 100

代入公式可得:

这说明,80 在这组数据整体范围中的相对位置是 0.6。

从通俗角度看,归一化可以理解为:把不同大小、不同单位的数据,换算到同一把“尺子”上。

例如,两场考试:

甲考试满分是 100 分;

乙考试满分是 1000 分。

若一个人甲考试得了 80 分,另一个人乙考试得了 800 分,那么这两个分数原本不能直接比较;但若换算成统一比例:

800 / 1000 = 0.8

这时就可以看出,两者在各自体系中的相对表现是相同的。

归一化所做的事情,本质上就是类似的“统一尺度”处理。

二、归一化的重要性与常见应用场景

1、归一化的重要性

归一化之所以重要,是因为现实中的很多数据并不处于同一个数量级。如果不先统一尺度,某些数值较大的特征就可能在计算中占据过强影响。

首先,归一化可以帮助我们减弱不同特征在量纲和数值尺度上的差异所带来的影响。

例如,身高的单位可能是厘米,收入的单位可能是元,点击率则可能是 0 到 1 之间的小数。它们不仅取值范围不同,量纲也不同。如果直接放在一起计算,数值较大的特征往往更容易影响结果。归一化的作用,就是先把这些特征转换到相近的数值区间中。

其次,归一化有助于提高数值计算的稳定性。

很多模型,尤其是依赖梯度下降(Gradient Descent)等优化方法的模型,对输入数据的尺度比较敏感。归一化后,训练过程往往更平稳,模型也更容易收敛。

再次,归一化可以让不同指标更便于比较。

当不同数据都被映射到类似的区间后,我们更容易直观看到它们之间的相对差异,也更方便做综合评价。

2、常见应用场景

(1)在机器学习中,归一化常用于特征预处理

在机器学习中,多个特征往往同时参与建模。若这些特征的取值范围差异很大,就常常需要先进行归一化处理。

尤其是一些依赖距离或数值优化的模型,对尺度差异较为敏感。

例如,归一化常见于以下场景:

• K 近邻(K-Nearest Neighbors,KNN)

• 支持向量机(Support Vector Machine,SVM)

• 神经网络(Neural Network)

• 聚类(Clustering)中的部分方法

(2)在图像处理中,归一化常用于像素值缩放

图像本质上是由像素值组成的矩阵。以常见图像为例,像素值通常在 0 到 255 之间。

在深度学习中,常常会先把像素值缩放到 [0, 1] 区间,例如:

这样可以减小输入数值范围,使模型训练更稳定。

(3)在数据可视化和综合评价中,归一化也很常见

如果多个指标的量级差异很大,直接绘图或直接加权求和都可能不够合理。

此时通常会先进行归一化,再做图形展示、综合评分或排序分析。

(4)推荐系统与业务分析中的指标统一

在推荐系统、经营分析和评价模型中,不同指标常常单位不同,例如价格、评分、点击率、停留时长等。

这些指标通常不能直接相加,往往需要先归一化,再进行综合计算。

可以概括地说:原始数据说明“值本身有多大”;归一化结果说明“它在统一尺度上处于什么位置”。

三、使用归一化时需要注意的问题

归一化虽然常用,但在理解和使用时也要注意几个问题。

1、归一化对极端值(Outlier)比较敏感

因为最小—最大归一化直接依赖最大值和最小值,如果数据中存在特别大或特别小的异常值,就可能把整体范围拉得很开。

这样一来,大多数正常数据可能会被压缩到很窄的区间内。

2、归一化后的结果依赖于原始数据范围

归一化并不是脱离背景的绝对变换,而是依赖于当前数据集的最大值和最小值。

因此,同一个原始值放在不同数据集里,归一化结果可能不同。

3、训练集和测试集要使用同一套归一化规则

在机器学习中,通常应先在训练集上计算最大值和最小值,再用同样的参数去处理测试集。

如果训练集和测试集各自单独归一化,就会破坏两者之间的一致性。

4、不是所有模型都同样依赖归一化

归一化很重要,但也不是所有模型都强依赖它。

例如,决策树(Decision Tree)、随机森林(Random Forest)等树模型,通常不像 KNN、SVM、神经网络那样对特征尺度特别敏感。因此,在实际应用中,应根据模型特点决定是否使用归一化。

四、Python 示例

下面给出两个简单示例,用来说明归一化的基本计算过程,以及它如何帮助我们把不同范围的数据转换到统一尺度上。

示例 1:对一组成绩做最小—最大归一化

这个例子展示了归一化的基本过程:先找出最小值和最大值,再把每个数据按相对位置缩放到 0 到 1 之间。

示例 2:对图像像素值做归一化

这个例子展示了图像处理中常见的归一化方式。像素值原本在 0 到 255 之间,归一化后会被缩放到 0 到 1 之间,更适合作为模型输入。

小结

归一化是一种把不同范围的数据转换到统一尺度上的方法。它不是改变数据之间的相对关系,而是让这些数据更便于比较、计算和建模。在机器学习、图像处理、数据分析和综合评价中,归一化都非常常见。对初学者而言,可以把它理解为:原始值告诉我们“它有多大”,归一化值告诉我们“它在统一尺子上处于什么位置”。

点赞有美意,赞赏是鼓励

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个网友说:张雪峰老师曾坦言,去了一家自助餐厅,人均400块

一个网友说:张雪峰老师曾坦言,去了一家自助餐厅,人均400块

岁月有情1314
2026-03-31 12:15:27
用一次就扔,这8个智商税产品,割了多少消费者的韭菜?

用一次就扔,这8个智商税产品,割了多少消费者的韭菜?

室内设计师有料儿
2026-02-13 16:19:38
澳门世界杯最新战报:21人已提前出局!国乒首轮10胜1负输阿根廷

澳门世界杯最新战报:21人已提前出局!国乒首轮10胜1负输阿根廷

全言作品
2026-03-31 22:36:40
原来她早已离世!生前给自己定寿衣,3200万遗产一分不留,全送给姐姐

原来她早已离世!生前给自己定寿衣,3200万遗产一分不留,全送给姐姐

不八卦掌门人
2026-03-30 22:55:08
被非洲强队震撼?U23国足队长:他们补时还能跑!每分钟都是收获

被非洲强队震撼?U23国足队长:他们补时还能跑!每分钟都是收获

我爱英超
2026-03-31 17:44:00
埃尔多安开出参战条件,以军近乎崩溃27国接到通知,伊朗熬赢了?

埃尔多安开出参战条件,以军近乎崩溃27国接到通知,伊朗熬赢了?

阿芒娱乐说
2026-04-01 00:09:53
单依纯演唱会好精彩!杨千嬅噘着嘴,陈奕迅全程黑脸,陈辉阳也在

单依纯演唱会好精彩!杨千嬅噘着嘴,陈奕迅全程黑脸,陈辉阳也在

舍长阿爷谈事
2026-03-30 11:25:34
选址确定!快环边上,广西大学新校区来了!

选址确定!快环边上,广西大学新校区来了!

鬼菜生活
2026-03-30 12:59:44
40场48球封神!拜仁高层硬气表态:想挖凯恩先掏2.17亿

40场48球封神!拜仁高层硬气表态:想挖凯恩先掏2.17亿

夜白侃球
2026-03-31 16:25:18
全球最小国家,只有32个女人,人均收入53万,渴望被中国原谅

全球最小国家,只有32个女人,人均收入53万,渴望被中国原谅

壹知眠羊
2026-03-18 07:10:00
TA:热刺与德泽尔比的战术适配度存疑,这笔签约是场“豪赌”

TA:热刺与德泽尔比的战术适配度存疑,这笔签约是场“豪赌”

懂球帝
2026-04-01 00:35:07
我离婚分了200万财产,我妈问我多少,我说净身出户

我离婚分了200万财产,我妈问我多少,我说净身出户

黄小乖的日记
2026-03-31 16:12:09
海航空姐合影,各个肤白貌美大长腿

海航空姐合影,各个肤白貌美大长腿

微微热评
2026-03-29 12:34:00
张雪回应曾骑100公里追节目组:那个时候不要脸 蓄谋已久的

张雪回应曾骑100公里追节目组:那个时候不要脸 蓄谋已久的

快科技
2026-03-31 16:46:40
生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

江江食研社
2026-03-24 03:30:08
整条烟没拆封能放多久?90%的人都存错,好烟变废烟

整条烟没拆封能放多久?90%的人都存错,好烟变废烟

复转这些年
2026-03-17 10:38:39
著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

著名专家预言:试管婴儿寿命仅40年,那首例试管婴儿如今怎样了?

青梅侃史啊
2026-03-28 19:22:24
特朗普这下玩脱了,美国建筑界狂嘲:耗资4亿修台阶竟不连着门

特朗普这下玩脱了,美国建筑界狂嘲:耗资4亿修台阶竟不连着门

张鼋卤说体育
2026-03-31 16:10:01
两性秘密:异性接触,女人其实不怕你占便宜,而是怕这三点不安全

两性秘密:异性接触,女人其实不怕你占便宜,而是怕这三点不安全

伊人河畔
2026-02-26 17:10:10
当“整容脸”混进央视年代剧,碰上天然脸演员,简直是降维打击!

当“整容脸”混进央视年代剧,碰上天然脸演员,简直是降维打击!

嘴角上翘的弧度
2026-03-24 01:01:55
2026-04-01 01:44:49
MediaTea
MediaTea
专业的数字媒体、新媒体技术
1825文章数 79关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

艺术
游戏
家居
本地
公开课

艺术要闻

震撼!他笔下的美女,色彩美得让人无法自拔!

上一秒还在嘲笑瓦学弟,下一秒就去“抗癌”了

家居要闻

新婚爱巢 甜蜜情趣拉满

本地新闻

用Color Walk的方式解锁城市春日

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版