网易首页 > 网易号 > 正文 申请入驻

随机性中的秩序:6种常见数据概率分布

0
分享至

概率分布可以理解为是一个描述可能结果的“地图”,告诉你某个结果发生的可能性有多大,帮你看清楚在一堆可能性中哪些结果更常见,哪些结果比较少见。

举个例子:你平时点的外卖,通常会在30分钟左右送到,偶尔也会更快或更慢。假设我们画出你历史上点过的外卖的送达时间概率分布图。图中显示:大多数的送达时间集中在平均值附近(约30分钟),极少数时候还会远早于或远超预期时间。(比如极端天气、或是小哥在途中见义勇为…)

图中展示的就是一个典型的正态分布。概率分布告诉我们,在一系列结果的可能性中,哪些结果更常见,哪些结果更少见。

这就是概率分布的概念——展示某种事件出现的可能性大小。

理解概率分布可以帮助我们在各种随机事件中找到规律,在不确定性中做出更好的预估和决策。比如在统计分析时,根据数据分布选择适当的假设检验方法、在金融和保险市场通过了解数据的分布来评估和管理风险等等。

接下来我们一起看看几种日常生活中最常见的概率分布。

01

正态分布 (Normal Distribution)

这种对称的钟形曲线应该很眼熟了,它的特点是中间最高,两边逐渐降低。这就是我们身边最为常见的正态分布(也称高斯分布)。

正态分布代表了一种普遍的规律:大多数事物都集中在一个平均值附近,越偏离这个中心的极端事件越相对稀少。比如人群的身高、体重、智商等特征往往接近正态分布。

英国著名的统计学家高尔顿设计了钉板实验来形象地展示正态分布:

想象一个木板上有很多小钉子,从顶部放下的小球会随机向左或向右移动,最终落在底部的容器里。随着小球数量增多,大多数小球会落在中间的容器里,少数会落到两边,形成一个“钟形曲线”,即正态分布。

这表明,虽然每个小球的路径是随机的,但结果并不完全无序。因为左右移动的概率相等,大多数小球最终会集中在中间位置。正态分布展示了这种现象—— 大多数结果集中在平均值附近,极端情况较少出现。

这大概也是自然的平衡状态的一种反映:万事万物趋于中庸。

为了更好地理解各种概率分布,我们经常使用图表来直观地展示概率密度函数(PDF,通常用来展示连续数据的分布)或概率质量函数(PMF,通常展示离散数据的分布)来观察不同分布的特性,比如数据集中在什么位置以及数据的分散程度。

正态分布的概率密度函数(PDF)由以下公式给出:

其中,μ是平均值(mean), σ是标准差(standard deviation)。

曲线的形状完全由均值μ和标准差σ控制。(以下展示了不同均值和方差的分布曲线)

68-95-99.7规则

在正态分布中:

68%的数据落在平均值加减一个标准差(μ±σ)范围内;

95%的数据落在平均值加减两个标准差(μ±2σ)范围内;

99.7%的数据落在平均值加减三个标准差(μ±3σ)范围内

在生产流程中,68-95-99.7规则经常用来判断流程稳定性。

如果某个部件的目标值偏离了平均值超过三个标准差,说明生产过程出了问题。举个例子,假设我们在生产线上罐装饮料,每罐饮料的目标容量是500ml,实际生产过程中存在一定微小误差。假设这些容量的误差服从正态分布:均值为500ml,标准差为5ml。

也就是说,当我们随机抽取一罐饮料,有68%的概率这罐饮料的容量会在500±5ml(495ml到505ml)之间。

通过采样和分析,如果大部分产品的容量都落在95%范围内(490ml到510ml),说明生产过程是稳定和可控的反之如果有较多产品超出这个范围,就需要重新校准设备或调整流程。

中心极限定理(Central Limit Theorem)

中心极限定理是一条重要的统计学原则:当我们从总体中随机抽取多个独立且相同下的样本,这些样本平均值的分布会趋近于正态分布。

也就是说,不管原始数据的分布如何,随着样本数量的积累,最终都会趋向于一种有序和可预测性(听起来是不是有点像“无论过程多么混乱,最后总会归于平静”的人生哲学)

比如赌彩公司的盈利机制就利用了中心极限定理,保证即使彩票中奖分布是离散的或不规则的,累加起来的总奖金分布却是平滑的正态分布,让彩票公司能够在面对小概率事件(如头奖爆发),整体上依然能够维持盈利。

02

伯努利分布(Bernoulli Distribution)

伯努利分布(Bernoulli Distribution)描述只有两个可能结果的随机试验。

抛硬币就是一个典型的伯努利试验,它的结果服从伯努利分布:每次抛掷硬币时,结果只有两种可能——正面或反面。伯努利分布也是所有二项分布的基础。

伯努利分布的数学表达:

其中p 是成功的概率(0 ≤ p ≤ 1)。

伯努利分布在许多实际问题中都有应用,尤其是在那些可以简化为“成功-失败”的二元结果场景中:比如在生产线上检测产品质量,每个产品要么合格(成功)要么不合格(失败),每次检测就是一次伯努利试验。

03

二项分布(Binomial Distribution)

如前面所说,每次抛硬币都是独立的伯努利实验。那么二项分布就可以理解为反复抛硬币,可以看作是多次伯努利试验的结果。

二项分布(Binomial Distribution)是描述 n次独立相同的伯努利试验中成功次数的分布。

二项分布的概率质量函数(PMF)可以用来计算在n次试验中成功k次的概率,数学表达式为:

二项分布的参数包括实验次数 n和每次实验成功的概率p。

举个例子,我们可以用伯努利分布描述用户是否点击广告的情况。某业务投放了一次广告给某个用户,用户的点击行为可以看作是一个伯努利试验(要么点击,要么不点击),该用户的点击行为服从伯努利分布,那么在n次广告的投放中(或是n个用户的点击事件),这些点击次数服从二项分布。

又比如某工厂每天生产100个产品,每个产品有5%的概率是次品,二项分布可以描述每天出现次品的数量分布;篮球运动员在一次训练中进行20次投篮,每次投中的概率为0.8,二项分布可以描述他投中次数的分布情况。

04

泊松分布(Poisson Distribution)

假设你注意到每天早高峰去咖啡店的顾客数量是随机的,有时候会突然来一大群人,有时候则没人光顾。

你开始好奇,在8点到9点这一小时内有25位顾客到达的概率是多少?这时泊松分布就能很好地回答这个问题。

泊松分布用于描述“在一定时间内发生了多少次事件”,特别适用于分析那些发生时间随机且独立的事件,比如每小时有多少辆车通过某个路口。

泊松分布在现实中有广泛的应用,尤其是那些涉及随机事件发生次数的场景,比如:

电话客服中心的呼叫量:如果某个客服中心平均每小时接到5个电话,那么在某个小时内接到k个电话的概率可以用泊松分布来估算;

交通事故的发生次数:可以用泊松分布来预测下个月某路段可能发生的事故次数;

罕见事件的发生:假设一家医院每天平均接收3个急诊病例,那么也可以用泊松分布来计算某天接收到2个或4个急诊病例的概率。

泊松分布的概率质量函数(PMF)定义如下:

其中X是随机变量,表示事件发生的次数。λ 是单位时间内事件发生的平均次数(即平均到达率)

随着λ值的增加,事件发生的次数的分布会向右移动,且分布的峰值也逐渐变宽。这意味着事件发生的次数增多且有更大的分散性。例如,当λ=9时,事件发生次数从0到10都有较大的概率,并且分布曲线的尾部比较长。

泊松分布广泛应用在资源配置优化方面的问题比如呼叫中心在不同时间段接到的电话数量可能会有很大波动。管理者可以根据泊松分布的概率预测,判断在高峰期可能出现的电话需求来合理安排接线员的数量。

05

指数分布(ExponentialDistribution)

在统计学中,指数分布是一种重要的概率分布,用于描述时间间隔或事件间隔的概率。例如,假设你在某个公交车站等待公交车,公交车到达的时间间隔可以用指数分布来描述。指数分布广泛应用在生物学、工程学、物理学和金融学等领域。

回忆前面讲的泊松分布 ——

泊松分布描述的是在一个固定时间段内某个事件发生的次数。它关注的是事件的频率指数分布描述的是两个事件之间的时间间隔。它关注的是事件的间隔时间

简单来说,泊松分布是用来解决“在给定时间内,事件发生了多少次”的问题。比如在1周内接到多少次诈骗电话?在1年内,某个路段上发生了多少次交通事故?

指数分布则用来解决“两个连续事件之间的时间间隔有多长”的问题。比如两个电话呼叫之间的时间间隔是多少?两次交通事故之间的时间间隔有多长?

概率密度函数(PDF):

其中参数λ 代表着平均发生率。

指数分布经常用于运筹优化。比如通过使用排队论中的指数分布模型,银行可以分析客户到达的情况以及平均等待时长,了解系统负载情况从而调整服务资源。

06

帕累托分布(Pareto Distribution)

举个例子,我日常80%的时间都在穿衣柜中20%的那几件衣服…这其实就是我们熟知的帕累托原则!(28原则)

28原则是指在很多现象中,少数重要的因素(约20%)往往贡献了大多数的结果(约80%)。这个概念最先由意大利经济学家维尔弗雷多·帕累托(Vilfredo Pareto)提出。他发现,80%的财富掌握在20%的人手中,引出了帕累托分布。

帕累托分布28原则提供了数学基础和理论支持。

帕累托分布还具有长尾效应,也就是说虽然大多数的事件或结果集中在“头部”(比如热门商品或常见事件),但还有一个很长的“尾部”,包含了大量的低频事件或小众商品。这些小众的部分虽然单个来看不太显眼,但总覆盖面也相当可观。

帕累托分布的概率密度函数(PDF):

其中:x是随机变量,表示某一资源的大小(如财富、收入)Xm是最小可能值(通常大于0);α是形状参数,决定分布的形状。

帕累托分布的期望值和方差取决于形状参数α的值。

帕累托分布帮助我们在分析和预测不均衡分布现象时更加准确,从而优化资源分配和业务决策。

以上就是6个数据分析中常见的概率分布。

数学家皮埃尔-西蒙·拉普拉斯说过:“概率论是常识的延伸。”看似随机的现象背后都有着一定的模式。概率分布的作用正是体现现实世界的运行规律,让我们能更理性地面对不确定性。

参考文献

[1]Towards Data Science.“Waiting Line Models.” Towards Data Science, 2024, https://towardsdatascience.com/waiting-line-models-d65ac918b26c.

[2]Padilla, José. “Dice, Dragons and Getting Closer to Normal Distribution: The Centra Limit Theorem.” Minitab Blog, Minitab, 27 June 2020. https://blog.minitab.com/dice-dragons-and-getting-closer-to-normal-distribution

[3]Durrett, Richard. Probability: Theory and Examples. Cambridge University Press, 2019.

[4]Weisstein, Eric W. “Normal Distribution.” MathWorld—A Wolfram Web Resource.

[5]Wikipedia Contributors. “Binomial Distribution.” Wikipedia, The Free Encyclopedia. Available at: https://en.wikipedia.org/wiki/Binomial_distribution

(参考文献可上下滑动查看)

来源:DataCafe

编辑:潇潇雨歇

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

1.2.

3.

4.

5.

6.

7.

8.

9.

10.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
顶流巨星:已退圈,宁肯做农民

顶流巨星:已退圈,宁肯做农民

视觉志
2026-01-27 10:34:11
痛心!甘肃7岁哥哥与4岁弟弟走失18小时被找到,家属证实孩子去世:溜冰掉进冰窟窿

痛心!甘肃7岁哥哥与4岁弟弟走失18小时被找到,家属证实孩子去世:溜冰掉进冰窟窿

潇湘晨报
2026-01-27 16:02:12
专打中国近防炮,日本新导弹视频火药味浓浓,就靠两招绝活儿?

专打中国近防炮,日本新导弹视频火药味浓浓,就靠两招绝活儿?

装甲铲史官
2026-01-27 15:19:15
上海53岁男雇主病逝12分钟 36岁女保姆疯狂转账

上海53岁男雇主病逝12分钟 36岁女保姆疯狂转账

看看新闻Knews
2026-01-26 22:29:03
被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

叹为观止易
2026-01-21 10:21:06
万亿城区来了!深圳南山成为我国首个万亿GDP地市辖区

万亿城区来了!深圳南山成为我国首个万亿GDP地市辖区

新京报
2026-01-27 10:20:06
一中华老字号国企董事长,打伤要债人

一中华老字号国企董事长,打伤要债人

中国新闻周刊
2026-01-26 19:31:17
你知道咱妈为何要拍《太平年》吗?知道这是拍给谁看的吗?

你知道咱妈为何要拍《太平年》吗?知道这是拍给谁看的吗?

李健政观察
2026-01-27 09:50:28
安踏为何此时收购彪马?

安踏为何此时收购彪马?

智趣财经
2026-01-27 13:26:17
袁世凯称帝迷局:他已是大总统,为何非要拼上身家,换一件龙袍?

袁世凯称帝迷局:他已是大总统,为何非要拼上身家,换一件龙袍?

小豫讲故事
2026-01-27 06:00:04
白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

白银连环杀人凶手高承勇:为儿子前途收手,被捕后儿子被单位辞退

谈史论天地
2026-01-26 16:55:03
贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

贾家被抄家的真实原因,就是贾元春省亲,可惜他们没懂皇帝的用意

铭记历史呀
2026-01-26 19:54:28
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
黄仁勋现身北京王府井吃云南菜,店长:点了小锅米线、石屏包浆豆腐、清炒甜豌豆,还加了一壶普洱茶

黄仁勋现身北京王府井吃云南菜,店长:点了小锅米线、石屏包浆豆腐、清炒甜豌豆,还加了一壶普洱茶

极目新闻
2026-01-26 15:54:51
西部排名又乱了:湖人紧追火箭,快船双喜临门,4队排名互换

西部排名又乱了:湖人紧追火箭,快船双喜临门,4队排名互换

篮球大视野
2026-01-27 15:12:45
四川警方侦破28年前商场“花坛藏尸案”,凶手因无力偿还欠款杀害女子,作案后频繁出境韩国,整容改名潜逃多年终落网

四川警方侦破28年前商场“花坛藏尸案”,凶手因无力偿还欠款杀害女子,作案后频繁出境韩国,整容改名潜逃多年终落网

扬子晚报
2026-01-26 22:17:45
霍诺德:我爬台北101报酬不多 外媒估算50万美元 如出意外或无赔偿

霍诺德:我爬台北101报酬不多 外媒估算50万美元 如出意外或无赔偿

劲爆体坛
2026-01-26 18:18:04
陪读妈妈反对牢A观点,脖子上的“认主项链”露馅了,老公天塌了

陪读妈妈反对牢A观点,脖子上的“认主项链”露馅了,老公天塌了

泽泽先生
2026-01-26 21:36:11
张本美和夺冠后!采访哭着给父亲庆生,提到哥哥,未来规划不简单

张本美和夺冠后!采访哭着给父亲庆生,提到哥哥,未来规划不简单

生活新鲜市
2026-01-27 09:42:03
一头“野猪”的死亡,让李嘉诚的香港“豪宅”再次进入大众视野!

一头“野猪”的死亡,让李嘉诚的香港“豪宅”再次进入大众视野!

良有方
2026-01-27 11:00:18
2026-01-27 17:44:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9808文章数 136434关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

企业30年燃气特许权被单方取消 两级法院判定政府违法

头条要闻

企业30年燃气特许权被单方取消 两级法院判定政府违法

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

时尚
本地
房产
亲子
游戏

降温了!羽绒服这样穿显瘦又时髦

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

亲子要闻

宝蓝和叔叔玩过家家。宝蓝扮演成“大人”照顾扮演“小孩”的叔叔

LPL春季赛:LNG横扫UP,继续三连胜

无障碍浏览 进入关怀版