网易首页 > 网易号 > 正文 申请入驻

统计学必知必会「标准差&方差」

0
分享至

标准差(Standard deviation)

简单来说,标准差是一组数值自平均值分散程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近平均值。

例如: 两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二个集合具有较小的标准差

  • 标准差公式:

  • 公式描述:公式中数值为X1,X2,X3,……XN(皆为实数),其平均值(算数平均值)μ,标准差为σ

标准差可以当作不确定性的一种测量。在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色。如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。


标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。

例如: A,B两组各有6位学生参加同一次语文测验,A组的分数为95,85,75,65,55,45   B组的分数为73,72,71,69,68,67 这两组的平均数都是70,但A组的标准差为17.078分,B组的标准差为2.160分,说明A组学生之间的差距要比B组学生之间的差距大得多

方差(variance)

两人的5次测验成绩如下: A:50,100,100,60,50  -->Average(A) = 72 B:73,70,75,72,70   -->Average(B) = 72 平均成绩相同,但A不稳定,对平均值偏大

方差描述随机变量对于数学期望的偏离程度

  • 方差公式:

  • 公式描述:公式中x为平均数,n为这组数据个数,x1,x2,x3……xn为这组数据具体数值。

可以看到方差是标准差的平方


除了期望,方差(variance)是另一个常见的分布描述量。如果说期望表示的是分布的中心位置,那么方差就是分布的离散程度。方差越大,说明随机变量取值越离散。

比如射箭时,一个优秀的选手能保持自己的弓箭集中于目标点附近,而一个经验不足的选手,他弓箭的落点会更容易散落许多地方。

上面的靶上有两套落点。尽管两套落点的平均中心位置都在原点 (即期望相同),但两套落点的离散程度明显有区别。蓝色的点离散程度更小。


数学上,我们用方差来代表一组数据或者某个概率分布的离散程度。可见,方差是独立于期望的另一个对分布的度量。两个分布,完全可能有相同的期望,而方差不同,正如我们上面的箭靶。

对于一个随机变量XX来说,它的方差为:Var(X)=E[(X−μ)2]Var(X)=E[(X−μ)2]

其中,μμ表示XX的期望值,即μ=E(X)μ=E(X)

我们可以代入期望的数学表达形式。


比如连续随机变量:Var(X)=E[(X−μ)2]=∫+∞−∞(x−μ)2f(x)dxVar(X)=E[(X−μ)2]=∫−∞+∞(x−μ)2f(x)dx

方差概念背后的逻辑很简单:一个取值与期望值的“距离”用两者差的平方表示。该平方值表示取值与分布中心的偏差程度,平方的最小取值为0,当取值与期望值相同时,此时不离散,平方为0,即“距离”最小;当随机变量偏离期望值时,平方增大。由于取值是随机的,不同取值的概率不同,我们根据概率对该平方进行加权平均,也就获得整体的离散程度——方差。


方差的平方根称为标准差(standard deviation, 简写std)。我们常用σσ表示标准差。σ=Var(X)−−−−−−√σ=Var(X)

标准差也表示分布的离散程度。

正态分布的方差

根据上面的定义,可以算出正态分布:

E(X)=1σ2π−−√∫+∞−∞xe−(x−μ)2/2σ2dxE(X)=1σ2π∫−∞+∞xe−(x−μ)2/2σ2dx的

方差为:Var(X)=σ2Var(X)=σ2

正态分布的标准差正等于正态分布中的参数σσ。这正是我们使用字母σσ来表示标准差的原因!


可以预期到,正态分布的σσ越大,分布离散越大,正如我们从下面的分布曲线中看到的:

当方差小时,曲线下的面积更加集中于期望值0附近。当方差大时,随机变量更加离散。此时分布曲线的“尾部”很厚,即使在取值很偏离0时,比如x=4x=4时,依然有很大的概率可以取到。


代码如下:

# By Vamei

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in "scale", which is stdrv1 = norm( loc= 0, scale = 1)rv2 = norm( loc= 0, scale = 2)

x = np.linspace(- 5, 5, 200)

plt.fill_between( x, rv1.pdf( x), y2= 0.0, color= "coral")plt.fill_between( x, rv2.pdf( x), y2= 0.0, color= "green", alpha = 0.5)

plt.plot( x, rv1.pdf( x), color= "red", label= "N(0,1)")plt.plot( x, rv2.pdf( x), color= "blue", label= "N(0,2)")

plt.legend()plt.grid(True)

plt.xlim([- 5, 5])plt.ylim([- 0.0, 0.5])

plt.title( "normal distribution")plt.xlabel( "RV")plt.ylabel( "f(x)")

plt.show()

指数分布的方差

指数分布的表达式为:f(x)={λe−λx0ififx≥0x<0f(x)={λe−λxifx≥00ifx<0

它的方差为:Var(X)=1λ2Var(X)=1λ2

如下图所示:

Chebyshev不等式

我们一直在强调,标准差(和方差)表示分布的离散程度。标准差越大,随机变量取值偏离平均值的可能性越大。如何定量的说明这一点呢?我们可以计算一个随机变量与期望偏离超过某个量的可能性。比如偏离超过2个标准差的可能性。即P(|X−μ|>2σ)P(|X−μ|>2σ)


这个概率依赖于分布本身的类型。比如正态分布N(0,1)N(0,1),这一概率即为x大于2,或者x小于-2的部分对应的曲线下面积:

实际上,无论μμ和σσ如何取值,对于正态分布来说,偏离期望超过两个标准差的概率都相同,约等于0.0455 (可以根据正态分布的表达式计算)。随机变量的取值有约95.545%的可能性落在正负两个标准差的区间内,即从-2到2。如果我们放大区间,比如正负三个标准差,这一概率超过99%。我们可以相当有把握的说,随机变量会落正负三个标准差之内。上面的论述并不依赖于标准差的具体值。这里可以看到标准差所衡量的“离散”的真正含义:如果取相同概率的极端值区间,比如上面的0.0455,标准差越大,该极端值区间距离中心值越远。


然而,上面的计算和表述依赖于分布的类型(正态分布)。如何将相似的方差含义套用在其它随机变量身上呢?


Chebyshev不等式让我们摆脱了对分布类型的依赖。它的叙述如下:

  • 对于任意随机变量X,如果它的期望为μμ,方差为σ2σ2,那么对于任意t>0t>0,P(|X−μ|>t)≤σ2tP(|X−μ|>t)≤σ2t

  • 无论X是什么分布,上述不等式成立。我们让t=2σt=2σ,那么P(|X−μ|>2σ)≤0.25P(|X−μ|>2σ)≤0.25


也就是说,X的取值超过两个正负标准差的可能性最多为25%。换句话说,随机变量至少有75%的概率落在正负两个标准差的范围内。(显然这是最“坏”的情况下。正态分布显然不是”最坏“的)


绘图代码如下:

from scipy.stats import normimport numpy as npimport matplotlib.pyplot as plt

# Note the difference in "scale", which is stdrv1 = norm(loc=0, scale = 1)

x1 = np.linspace( -5, -1, 100)x2 = np.linspace( 1, 5, 100)x = np.linspace( -5, 5, 200)plt.fill_between(x1, rv1.pdf(x1), y2= 0.0, color= "coral")plt.fill_between(x2, rv1.pdf(x2), y2= 0.0, color= "coral")plt.plot(x, rv1.pdf(x), color= "black", linewidth= 2.0, label= "N(0,1)")

plt.legend()plt.grid( True)

plt.xlim([ -5, 5])plt.ylim([ -0.0, 0.5])

plt.title( "normal distribution")plt.xlabel( "RV")plt.ylabel( "f(x)")

plt.show()

MAD绝对中位值

中位数:统计学名词,是指将统计总体中的各个变量值按大小顺序排列起来形成一个数列,处于变量数列中间位置的变量值就称为中位数。

MAD:就是先求出给定数据的中位数(注意并非均值)然后原数列的每个值与这个中位数求出绝对差,然后新数列的中位值就是MAD

例如: 数据A:8,5,9,6,3,2,4,9  2,3,4,5,6,8,9 中位数 = 5 A - 5 = 3,0,4,1,2,3,1,4  0,1,1,2,3,3,4 MAD = 2

总 结

我们引入了一个新的分布描述量:方差-->它用于表示分布的离散程度:

  • 标准差为方差的平方根

  • 方差越大,“极端区间”偏离中心越远

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
连场3-0!巴西队为何突然踢疯了?3个关键原因,安切洛蒂真的神了

连场3-0!巴西队为何突然踢疯了?3个关键原因,安切洛蒂真的神了

宝哥精彩赛事
2026-06-25 18:51:17
郑钦文谈出局:出现很多失误,因为被太阳晒得没办法专注

郑钦文谈出局:出现很多失误,因为被太阳晒得没办法专注

懂球帝
2026-06-25 17:12:39
洪明甫大胆弃用孙兴慜豪赌彻底崩盘,韩国输球出线形势岌岌可危

洪明甫大胆弃用孙兴慜豪赌彻底崩盘,韩国输球出线形势岌岌可危

领创体育君
2026-06-25 12:59:14
婚内出轨?知名演员爆料baby离婚内幕,结局大快人心食恶果成定局

婚内出轨?知名演员爆料baby离婚内幕,结局大快人心食恶果成定局

喜欢历史的阿繁
2026-06-26 03:17:12
毛主席为何频繁更换贴身警卫员?越是忠心之人,越会被主动调离

毛主席为何频繁更换贴身警卫员?越是忠心之人,越会被主动调离

奇怪的鲨鱼们
2026-06-25 17:33:35
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
李盈莹吴梦洁回归倒计时,中国女排香港站迎4关键战,目标总决赛

李盈莹吴梦洁回归倒计时,中国女排香港站迎4关键战,目标总决赛

小犙拍客在北漂
2026-06-25 14:47:40
SI预测世界杯:厄瓜多尔1-1德国,突尼斯0-4荷兰,日本3-1瑞典

SI预测世界杯:厄瓜多尔1-1德国,突尼斯0-4荷兰,日本3-1瑞典

刘哥谈体育
2026-06-25 18:55:05
腰斩可能性为零?金价从年内高点跌了450元,普通人现在该抄底吗

腰斩可能性为零?金价从年内高点跌了450元,普通人现在该抄底吗

知法而形
2026-06-26 03:21:34
代价太大!纽约DEI女高管偷走冠军游行垃圾桶,丢掉高薪工作后,官方又来“补刀”

代价太大!纽约DEI女高管偷走冠军游行垃圾桶,丢掉高薪工作后,官方又来“补刀”

华人生活网
2026-06-26 02:15:18
贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

TVB的四小花
2026-06-24 17:59:14
离谱!一女子曝:不到100米的路,10年挖了填、填了挖,反复折腾

离谱!一女子曝:不到100米的路,10年挖了填、填了挖,反复折腾

川渝视觉
2026-06-24 20:01:54
美最高法院裁决支持特朗普强硬移民政策

美最高法院裁决支持特朗普强硬移民政策

澎湃新闻
2026-06-26 00:24:10
早死晚死都得死!男子患癌放弃治疗买啤酒,医生都劝不住!

早死晚死都得死!男子患癌放弃治疗买啤酒,医生都劝不住!

童童聊娱乐啊
2026-06-25 19:03:42
比尔·盖茨第三段婚外情对象曝光,系哈佛医学博士及医疗创业者,曾获评“最值得关注女性”,姓名首次公开;此前其承认出轨两名俄罗斯女性

比尔·盖茨第三段婚外情对象曝光,系哈佛医学博士及医疗创业者,曾获评“最值得关注女性”,姓名首次公开;此前其承认出轨两名俄罗斯女性

洪观新闻
2026-06-25 14:27:20
小三科满分!数学147、英语143!这是2026天津高考最意难平的成绩单…

小三科满分!数学147、英语143!这是2026天津高考最意难平的成绩单…

天津人
2026-06-25 15:27:07
玩过14位男星!人前玉女,人后“欲女”,47岁至今未婚无人敢娶

玩过14位男星!人前玉女,人后“欲女”,47岁至今未婚无人敢娶

秋姐居
2026-06-13 09:29:15
四川省2026年高考分数线公布

四川省2026年高考分数线公布

新京报
2026-06-25 17:32:13
传与久保建英恋爱,日本女星亲口辟谣,世界杯球票是自己掏钱买的

传与久保建英恋爱,日本女星亲口辟谣,世界杯球票是自己掏钱买的

橙星文娱
2026-06-25 14:21:38
中国男排1-3不敌比利时,世界男排联赛目前1胜5负

中国男排1-3不敌比利时,世界男排联赛目前1胜5负

懂球帝
2026-06-26 00:46:20
2026-06-26 05:59:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3441文章数 11167关注度
往期回顾 全部

教育要闻

这或许是你练口语最好的捷径!美国人说话时最爱用的8句短语!

头条要闻

霍尔木兹海峡再现风险:一艘货船遇袭 数艘油轮折返

头条要闻

霍尔木兹海峡再现风险:一艘货船遇袭 数艘油轮折返

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

科技要闻

存储成本压力山大!苹果罕见全球提价

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

旅游
房产
时尚
本地
军事航空

旅游要闻

淤泥里挖出铁钟,钟下还压一尊神像,这座老庙藏着春城百年秘密!

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

女人不管多大年纪,夏天都要准备一两条过膝裙,舒适又提气质

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

军事要闻

特朗普:现在到了关注朝鲜问题的时候了

无障碍浏览 进入关怀版