网易首页 > 网易号 > 正文 申请入驻

常见的8个概率分布公式和可视化

0
分享至

概率和统计知识是数据科学和机器学习的核心; 我们需要统计和概率知识来有效地收集、审查、分析数据。

现实世界中有几个现象实例被认为是统计性质的(即天气数据、销售数据、财务数据等)。 这意味着在某些情况下,我们已经能够开发出方法来帮助我们通过可以描述数据特征的数学函数来模拟自然。

“概率分布是一个数学函数,它给出了实验中不同可能结果的发生概率。”

了解数据的分布有助于更好地模拟我们周围的世界。 它可以帮助我们确定各种结果的可能性,或估计事件的可变性。 所有这些都使得了解不同的概率分布在数据科学和机器学习中非常有价值。

在本文中,我们将介绍一些常见的分布并通过Python 代码进行可视化以直观地显示它们。

均匀分布

最直接的分布是均匀分布。 均匀分布是一种概率分布,其中所有结果的可能性均等。 例如,如果我们掷一个公平的骰子,落在任何数字上的概率是 1/6。 这是一个离散的均匀分布。

但是并不是所有的均匀分布都是离散的——它们也可以是连续的。 它们可以在指定范围内取任何实际值。 a 和 b 之间连续均匀分布的概率密度函数 (PDF) 如下:

让我们看看如何在 Python 中对它们进行编码:

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
# for continuous
a = 0
b = 50
size = 5000
X_continuous = np.linspace(a, b, size)
continuous_uniform = stats.uniform(loc=a, scale=b)
continuous_uniform_pdf = continuous_uniform.pdf(X_continuous)
# for discrete
X_discrete = np.arange(1, 7)
discrete_uniform = stats.randint(1, 7)
discrete_uniform_pmf = discrete_uniform.pmf(X_discrete)
# plot both tables
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5))
# discrete plot
ax[0].bar(X_discrete, discrete_uniform_pmf)
ax[0].set_xlabel("X")
ax[0].set_ylabel("Probability")
ax[0].set_title("Discrete Uniform Distribution")
# continuous plot
ax[1].plot(X_continuous, continuous_uniform_pdf)
ax[1].set_xlabel("X")
ax[1].set_ylabel("Probability")
ax[1].set_title("Continuous Uniform Distribution")
plt.show()

高斯分布

高斯分布可能是最常听到也熟悉的分布。 它有几个名字:有人称它为钟形曲线,因为它的概率图看起来像一个钟形,有人称它为高斯分布,因为首先描述它的德国数学家卡尔·高斯命名,还有一些人称它为正态分布,因为早期的统计学家 注意到它一遍又一遍地再次发生。

正态分布的概率密度函数如下:

σ 是标准偏差,μ 是分布的平均值。 要注意的是,在正态分布中,均值、众数和中位数都是相等的。

当我们绘制正态分布的随机变量时,曲线围绕均值对称——一半的值在中心的左侧,一半在中心的右侧。 并且,曲线下的总面积为 1。

mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
plt.subplots(figsize=(8, 5))
plt.plot(x, stats.norm.pdf(x, mu, sigma))
plt.title("Normal Distribution")
plt.show()

对于正态分布来说。 经验规则告诉我们数据的百分比落在平均值的一定数量的标准偏差内。 这些百分比是:

68% 的数据落在平均值的一个标准差内。

95% 的数据落在平均值的两个标准差内。

99.7% 的数据落在平均值的三个标准差范围内。

对数正态分布

对数正态分布是对数呈正态分布的随机变量的连续概率分布。 因此,如果随机变量 X 是对数正态分布的,则 Y = ln(X) 具有正态分布。

这是对数正态分布的 PDF:

对数正态分布的随机变量只取正实数值。 因此,对数正态分布会创建右偏曲线。

让我们在 Python 中绘制它:

X = np.linspace(0, 6, 500)
std = 1
mean = 0
lognorm_distribution = stats.lognorm([std], loc=mean)
lognorm_distribution_pdf = lognorm_distribution.pdf(X)
fig, ax = plt.subplots(figsize=(8, 5))
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1")
ax.set_xticks(np.arange(min(X), max(X)))
std = 0.5
mean = 0
lognorm_distribution = stats.lognorm([std], loc=mean)
lognorm_distribution_pdf = lognorm_distribution.pdf(X)
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=0.5")
std = 1.5
mean = 1
lognorm_distribution = stats.lognorm([std], loc=mean)
lognorm_distribution_pdf = lognorm_distribution.pdf(X)
plt.plot(X, lognorm_distribution_pdf, label="μ=1, σ=1.5")
plt.title("Lognormal Distribution")
plt.legend()
plt.show()

泊松分布

泊松分布以法国数学家西蒙·丹尼斯·泊松的名字命名。 这是一个离散的概率分布,这意味着它计算具有有限结果的事件——换句话说,它是一个计数分布。 因此,泊松分布用于显示事件在指定时期内可能发生的次数。

如果一个事件在时间上以固定的速率发生,那么及时观察到事件的数量(n)的概率可以用泊松分布来描述。 例如,顾客可能以每分钟 3 次的平均速度到达咖啡馆。 我们可以使用泊松分布来计算 9 个客户在 2 分钟内到达的概率。

下面是概率质量函数公式:

λ 是一个时间单位的事件率——在我们的例子中,它是 3。k 是出现的次数——在我们的例子中,它是 9。这里可以使用 Scipy 来完成概率的计算。

from scipy import stats
print(stats.poisson.pmf(k=9, mu=3))
"""
0.002700503931560479
"""

泊松分布的曲线类似于正态分布,λ 表示峰值。

X = stats.poisson.rvs(mu=3, size=500)
plt.subplots(figsize=(8, 5))
plt.hist(X, density=True, edgecolor="black")
plt.title("Poisson Distribution")
plt.show()

指数分布

指数分布是泊松点过程中事件之间时间的概率分布。指数分布的概率密度函数如下:

λ 是速率参数,x 是随机变量。

X = np.linspace(0, 5, 5000)
exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1)
plt.subplots(figsize=(8,5))
plt.plot(X, exponetial_distribtuion)
plt.title("Exponential Distribution")
plt.show()

二项分布

可以将二项分布视为实验中成功或失败的概率。 有些人也可能将其描述为抛硬币概率。

参数为 n 和 p 的二项式分布是在 n 个独立实验序列中成功次数的离散概率分布,每个实验都问一个是 - 否问题,每个实验都有自己的布尔值结果:成功或失败。

本质上,二项分布测量两个事件的概率。 一个事件发生的概率为 p,另一事件发生的概率为 1-p。

这是二项分布的公式:

可视化代码如下:

X = np.random.binomial(n=1, p=0.5, size=1000)
plt.subplots(figsize=(8, 5))
plt.hist(X)
plt.title("Binomial Distribution")
plt.show()

学生 t 分布

学生 t 分布(或简称 t 分布)是在样本量较小且总体标准差未知的情况下估计正态分布总体的均值时出现的连续概率分布族的任何成员。 它是由英国统计学家威廉·西利·戈塞特(William Sealy Gosset)以笔名“student”开发的。

PDF如下:

n 是称为“自由度”的参数,有时可以看到它被称为“d.o.f.” 对于较高的 n 值,t 分布更接近正态分布。

import seaborn as sns
from scipy import stats
X1 = stats.t.rvs(df=1, size=4)
X2 = stats.t.rvs(df=3, size=4)
X3 = stats.t.rvs(df=9, size=4)
plt.subplots(figsize=(8,5))
sns.kdeplot(X1, label = "1 d.o.f")
sns.kdeplot(X2, label = "3 d.o.f")
sns.kdeplot(X3, label = "6 d.o.f")
plt.title("Student's t distribution")
plt.legend()
plt.show()

卡方分布

卡方分布是伽马分布的一个特例; 对于 k 个自由度,卡方分布是一些独立的标准正态随机变量的 k 的平方和。

PDF如下:

这是一种流行的概率分布,常用于假设检验和置信区间的构建。

让我们在 Python 中绘制一些示例图:

X = np.arange(0, 6, 0.25)
plt.subplots(figsize=(8, 5))
plt.plot(X, stats.chi2.pdf(X, df=1), label="1 d.o.f")
plt.plot(X, stats.chi2.pdf(X, df=2), label="2 d.o.f")
plt.plot(X, stats.chi2.pdf(X, df=3), label="3 d.o.f")
plt.title("Chi-squared Distribution")
plt.legend()
plt.show()

掌握统计学和概率对于数据科学至关重要。 在本文展示了一些常见且常用的分布,希望对你有所帮助。

https://www.overfit.cn/post/f0c0aac380524e7391ca5bbf2bad7258

作者:Kurtis Pykes

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

为讨好美国不惜得罪中国,如今遇到危机向中国求助,中国直接拒绝

星辰故事屋
2024-06-11 17:30:43
唯一在世的中共一代领导人,现107岁

唯一在世的中共一代领导人,现107岁

华人星光
2024-06-18 16:51:55
上海浦东,一对夫妇买了一套房屋,但苦于限购政策无法过户,遂跟卖方约定在条件允许时过户

上海浦东,一对夫妇买了一套房屋,但苦于限购政策无法过户,遂跟卖方约定在条件允许时过户

水泥土的搞笑
2024-06-20 07:10:08
打虎!洪礼和被查

打虎!洪礼和被查

环球时报新闻
2024-06-19 16:18:04
刘亦菲穿蓝色泳衣好辣啊!她不是壮,是正常的美,比钟楚曦更漂亮

刘亦菲穿蓝色泳衣好辣啊!她不是壮,是正常的美,比钟楚曦更漂亮

白宸侃片
2024-06-15 23:27:11
女生的那层膜,到底什么样?(高清图认识一下)

女生的那层膜,到底什么样?(高清图认识一下)

水白头
2024-06-17 00:35:02
阿森纳8折购意甲金靴,补强全队最大短板,挑战曼城英超霸主地位

阿森纳8折购意甲金靴,补强全队最大短板,挑战曼城英超霸主地位

宝哥爱足球
2024-06-20 00:45:30
杨毅炮轰姚明!篮协官宣乔帅下课仅1天,他就找到新工作了

杨毅炮轰姚明!篮协官宣乔帅下课仅1天,他就找到新工作了

十点街球体育
2024-06-19 17:05:43
胖东来救不了永辉超市

胖东来救不了永辉超市

诗与星空
2024-06-18 08:00:07
文案鬼才,爆改车标!

文案鬼才,爆改车标!

小影的娱乐
2024-06-19 13:26:15
这是疯狂祸害社会底层老百姓的血汗啊,太缺德了!

这是疯狂祸害社会底层老百姓的血汗啊,太缺德了!

雪中风车
2024-06-16 19:24:42
浙大跌出前三,武大险胜人大!2024中国综合类大学排行榜出炉

浙大跌出前三,武大险胜人大!2024中国综合类大学排行榜出炉

一口娱乐
2024-06-18 21:58:48
欧洲杯A组积分:瑞士打平即可出线,苏格兰、匈牙利末轮死磕

欧洲杯A组积分:瑞士打平即可出线,苏格兰、匈牙利末轮死磕

直播吧
2024-06-20 05:06:09
18岁黄多多性感私照曝光,评论区骂声一片:黄磊,你养的什么女儿!

18岁黄多多性感私照曝光,评论区骂声一片:黄磊,你养的什么女儿!

LULU生活家
2024-06-18 18:49:23
和青春期孩子相处,闭嘴是标配,陪伴是高配,顶配是什么?

和青春期孩子相处,闭嘴是标配,陪伴是高配,顶配是什么?

草莓啵啵奶2
2024-05-22 10:09:11
头皮发麻!达顿,可能真要当澳洲总理了!

头皮发麻!达顿,可能真要当澳洲总理了!

澳洲财经见闻
2024-06-20 05:25:03
姜萍家的厨房门被踹了,屋内家具被拍,连鸡鸭也被网友追着录像

姜萍家的厨房门被踹了,屋内家具被拍,连鸡鸭也被网友追着录像

素素娱乐
2024-06-19 16:00:38
同济大学医生评俞莉事件:若与工作冲突,应优先教学

同济大学医生评俞莉事件:若与工作冲突,应优先教学

映射生活的身影
2024-06-20 09:50:28
厉害了!安徽五所中学入选全国百强中学榜单,被誉为五虎上将

厉害了!安徽五所中学入选全国百强中学榜单,被誉为五虎上将

特特农村生活
2024-06-20 07:15:07
塔利班出现变天迹象,阿富汗的江山不好坐,中国该提前准备了?

塔利班出现变天迹象,阿富汗的江山不好坐,中国该提前准备了?

蒋福伟
2024-06-19 11:38:29
2024-06-20 11:30:44
deephub
deephub
CV NLP和数据挖掘知识
1372文章数 1416关注度
往期回顾 全部

科技要闻

苹果回应AI仅限iPhone15Pro:不是为卖新机

头条要闻

环球:《我的阿勒泰》火到国外 西方媒体破防了

头条要闻

环球:《我的阿勒泰》火到国外 西方媒体破防了

体育要闻

绿军的真老大,开始备战下赛季了

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

茅台大跌,谁的锅?

汽车要闻

售价11.79-14.39万元 新一代哈弗H6正式上市

态度原创

游戏
数码
教育
手机
时尚

高手福利散人福音,梦幻西游全民PK赛终于有“单挑组”了!

数码要闻

“全球首款可量产 RISC-V 笔记本”进迭时空 MUSE Book 国行发布

教育要闻

初三最后一课老师弹吉他为学生鼓劲:希望同学们考出优异的成绩

手机要闻

Canalys:预计今年 5G 智能手机出货量占比将增加到 67%

“T恤”作为夏季的基础款,竟然有这么多种穿法

无障碍浏览 进入关怀版