网易首页 > 网易号 > 正文 申请入驻

正态分布、单 (双) 样本 T 检验

0
分享至

本次来说说连续变量与分类变量(二分)之间的检验。

通俗的来讲,就是去发现变量间的关系。

连续变量数量为一个,分类变量数量为两个。

总体:包含所有研究个体的集合。

样本:经过抽样总体中的部分个体。

均值:变量的数值之和除以变量的个数。

极差:变量的最大值与最小值之差。

方差标准差反映数据的离散程度,其值越大,数据波动越大。

/ 01 / 正态分布

在实际情况里,总体的信息往往难以获取,所以需要抽样,通过样本来估计总体。

点估计和区间估计是通过样本来估计总体的两种方法。

那么样本是否能够代表总体就是关键点,样本需要具有代表性。

点估计:用样本统计量去估计总体参数。

区间估计:不同于点估计,能够提供待估计参数的置信区间和置信度。

区间估计用到了中心极限定理,表现为如果抽样多次,每次抽样都有一个均值,产生的多个均值服从正态分布。

就可以利用正态分布的性质,推断出样本均值出现在某区间范围的概率。

正态分布:关于均值左右对称的,呈钟形。且均值和标准差具有代表性。均值=中位数=众数。

在现实生活中,男女身高(性别有影响需区分开)、体重、考试成绩都是属于正态分布。

影响它们的变量都是独立互不影响的。

接下来对豆瓣电影TOP250里的电影评分进行分析。

首先读取数据。

import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns
import pandas as pd

# 读取文件
df = pd.read_csv('douban.csv', header=0, names=["quote", "score", "info", "title", "people"])
dom1 = []
# 清洗数据,获取国家列,1为中国,2为外国
for i in df['info']:
country = i.split('/')[1].split(' ')[0].strip()
if country in ['中国大陆', '台湾', '香港']:
dom1.append(1)
else:
dom1.append(0)
df['country'] = dom1

生成电影评分直方图,观察其是否符合正态分布。

# distplot:集合功能,kde:显示核密度估计图,fit:控制拟合的参数分布图形,本次为拟合正态分布
sns.distplot(df.score, kde=True, fit=stats.norm)
plt.show()

运行代码后得到下图,发现电影评分分布近似正态分布。

生成电影评分QQ图,观察电影评分与正态分布的接近程度。

# qqplot检验数据是否服从正态分布
sm.qqplot(df.score, fit=True, line='45')
plt.show()

运行代码后得到下图,其中样本点越靠近红色线说明变量越趋近正态分布,结论显而易见。

区间估计,计算95%保证程度下的区间估计范围。

# 标准差
se = df.score.std() / len(df) ** 0.5
# 均值下限
LB = df.score.mean() - 1.98 * se
# 均值上限
UB = df.score.mean() + 1.98 * se
print(LB, UB)
# 得到的结果
8.782710866637895 8.849289133362106

即在95%的置信度下,电影评分的总体均值位于区间「8.7827-8.8492」内。

定义函数,计算不同置信度下的置信区间。

def confint(x, alpha=0.05):
"""计算不同置信度下的置信区间"""
n = len(x)
xb = x.mean()
df = n - 1
tmp = (x.std() / n ** 0.5) * stats.t.ppf(1-alpha/2, df)
return {'Mean': xb, 'Degree of Freedom': df, 'LB': xb-tmp, 'UB': xb+tmp}

result = confint(df.score, 0.05)
print(result)
# 得到的结果
{'LB': 8.782886780076549, 'UB': 8.849113219923453, 'Degree of Freedom': 249, 'Mean': 8.816}

即在99%的置信度下,电影评分的总体均值位于区间「8.7828-8.8491」内。

/ 02 / t检验

01 假设检验

在研究变量时,对分布的性质进行一定的假设,然后通过抽样来检验假设是否成立。

这似乎与我们中学时代的反证法有点类似,假设需要证明的东西成立,然后去反推。

其中实际抽样结果与假设的差异程度可以用概率值表示,为「p-value」。

概率值越大意味着越无差异,越接近。

人为设定一个「p-value」的阈值将差异程度判断为「有差异」或「无差异」,这个阈值就是「显著性水平」。

目前接触的原假设都是设置为等值假设,本次假设电影评分均值为8.8。

显著性水平的设置根据样本容量,本次取显著性水平为0.05。

最后的结论就是「p-value」值小于显著性水平时,差异明显,有理由拒绝原假设。

「p-value」值大于显著性水平时,差异较小,那么就不能拒绝原假设。

这里书本没有对「p-value」如何查表取值详细解说,需要百度查询。

02 单样本t检验

单样本t检验是最基础的假设检验,其利用来自总体的样本数据,推断总体均值是否与假设的检验值之间存在显著差异。

P值大于显著性水平,则无法拒绝原假设。

P值小于显著性水平,则拒绝原假设。

下面在Python中进行单样本t检验,使用电影评分数据,假设均值为8.8分。

# stas:列联表
d1 = sm.stats.DescrStatsW(df.score)
print('t-statistic=%6.4f, p-value=%6.4f, df=%s' %d1.ttest_mean(8.8))
# 得到的结果
t-statistic=-2.0223, p-value=0.3422, df=249.0

P值为0.3422,如果规定显著性水平为0.05,那么就无法拒绝原假设。

即电影评分均值为8.8分的原假设成立。

03 双样本t检验

双样本t检验是检验两个样本均值的差异是否显著。

常用于检验某二分类变量区分下的某连续变量是否有显著差异。

本次使用豆瓣电影TOP250中中外国家电影评分数据。

研究电影评分受国家的影响是否显著(之前分析的结论是没什么影响)。

# 对数据分组汇总
print(df['score'].groupby(df['country']).describe())

得到结果如下,发现均值还是有一点点差异的。

接下来用双样本t检验来看这种差异是否显著。

在进行双样本t检验前,有三个基本条件需要考虑。

①观测之间独立(本次满足)

②两组均服从正态分布(本次满足)

①两组样本的方差是否相同(需检验)

上面的结果已经包含了样本评分均值的方差了,可是书里却说还需要进行方差齐性分析。

这一点不是很理解,就当多学点东西吧。

方差齐性检验的原假设为两组数据方差相同。

# levene:方差齐性检验
country0 = df[df['country'] == 0]['score']
country1 = df[df['country'] == 1]['score']
leveneTestRes = stats.levene(country0, country1, center='median')
print('w-value=%6.4f, p-value=%6.4f' %leveneTestRes)
# 得到的结果
w-value=0.5855, p-value=0.4449

P值为0.4449,若以0.05为显著性水平,则无法拒绝原假设。

即中国电影评分和外国电影评分的方差是相同的

因此进行方差齐性的双样本t检验。

# equal_var=True:两组数据方差齐性
print(stats.stats.ttest_ind(country0, country1, equal_var=True))
# 得到的结果
Ttest_indResult(statistic=0.9331710237657628, pvalue=0.3516393015610625)

P值为0.35,若以0.05为显著性水平,则无法拒绝原假设。

说明中国电影评分和外国电影评分无显著差异

/ 03 / 总结

学习这一部分内容,最大的困惑就是「p-value」的取值。

书上没讲明白如何用公式确定其值,只是通过Pyhton直接结算得出结果。

网上查取的资料也是零零散散,解释的不够全面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陪玩陪睡还不够?继注射不明物体后,再传"噩耗",多位明星被牵连

陪玩陪睡还不够?继注射不明物体后,再传"噩耗",多位明星被牵连

八斗小先生
2026-04-13 17:43:37
郎朗没想到,31岁混血老婆“性感出道”,却因德国一场彩排引热议

郎朗没想到,31岁混血老婆“性感出道”,却因德国一场彩排引热议

一娱三分地
2026-02-26 17:15:04
网约车女司机,困于难言之隐

网约车女司机,困于难言之隐

视觉志
2026-04-14 08:39:59
父母都是知名演员,她在上海读重点、挤地铁,坚决不进娱乐圈捞金

父母都是知名演员,她在上海读重点、挤地铁,坚决不进娱乐圈捞金

林轻吟
2026-04-14 15:00:19
闹大了!巴基斯坦被以色列激怒了,一旦下场,局势恐彻底失控

闹大了!巴基斯坦被以色列激怒了,一旦下场,局势恐彻底失控

掷低有声
2026-04-13 19:01:07
美记:雄鹿必须交易字母哥,小球市养不起这样的超级巨星

美记:雄鹿必须交易字母哥,小球市养不起这样的超级巨星

爱体育
2026-04-14 21:33:29
足坛历史十大后腰:坎特第9,皮尔洛无缘前3,第一至今无人能及

足坛历史十大后腰:坎特第9,皮尔洛无缘前3,第一至今无人能及

陈錈爱体育
2026-04-13 06:16:56
噩耗!广东男篮核心伤情加重,广州龙狮或买断徐昕,奎因摆脱骂名

噩耗!广东男篮核心伤情加重,广州龙狮或买断徐昕,奎因摆脱骂名

北纬的咖啡豆
2026-04-14 19:48:33
策略:明天4月15日的预判出来了,全面减仓之前,我要说两句!

策略:明天4月15日的预判出来了,全面减仓之前,我要说两句!

一担金
2026-04-14 11:51:44
广东男篮3分险胜,徐杰27+5+4关键时刻显威,奎因26+8+4杜锋缺阵

广东男篮3分险胜,徐杰27+5+4关键时刻显威,奎因26+8+4杜锋缺阵

中国篮坛快讯
2026-04-14 21:41:28
马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

智慧生活笔记
2026-04-12 16:43:48
湘南民宅翻修惊现毛主席80年前旧照,专家鉴定弥足珍贵可补史遗缺

湘南民宅翻修惊现毛主席80年前旧照,专家鉴定弥足珍贵可补史遗缺

云霄纪史观
2026-04-14 02:08:48
哇塞!五队邀请徐昕!又一中国球员冲击NBA

哇塞!五队邀请徐昕!又一中国球员冲击NBA

篮球实战宝典
2026-04-14 16:43:43
上海男篮冲击20连胜!卢伟拒绝爆冷,怀特塞德回归,央视直播

上海男篮冲击20连胜!卢伟拒绝爆冷,怀特塞德回归,央视直播

体坛瞎白话
2026-04-14 10:42:39
乔-科尔:切尔西得查清谁卖掉的格伊,他仿佛在曼城踢了20年

乔-科尔:切尔西得查清谁卖掉的格伊,他仿佛在曼城踢了20年

懂球帝
2026-04-14 19:24:37
狐狸尾巴藏不住!以为能“毁掉”全红婵,不料自己先被扒个底朝天

狐狸尾巴藏不住!以为能“毁掉”全红婵,不料自己先被扒个底朝天

让生活充满温暖
2026-04-14 16:34:45
拼多多3元一斤的猪肺,我哭着看完评论区

拼多多3元一斤的猪肺,我哭着看完评论区

风味人间
2026-04-08 12:33:00
意外吗?归化国脚艾克森迎来久违消息,喊话想重返中国,想念球迷

意外吗?归化国脚艾克森迎来久违消息,喊话想重返中国,想念球迷

罗掌柜体育
2026-04-14 11:00:06
他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

他是著名演员,从发病到去世仅20分钟,主持人儿子比他更有名

削桐作琴
2026-03-21 15:03:45
老人在北京军博摸文物被制止,他却语出惊人:我背它走完的长征

老人在北京军博摸文物被制止,他却语出惊人:我背它走完的长征

史之铭
2026-04-13 15:05:49
2026-04-14 21:51:00
数据不吹牛 incentive-icons
数据不吹牛
趣味+实用数据分析
415文章数 4499关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

亲子
房产
健康
数码
军事航空

亲子要闻

相爱十年最好的人生礼物来啦!

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

干细胞抗衰4大误区,90%的人都中招

数码要闻

OPPO Pad 5 Pro旗舰配置官曝,悬浮键盘确认配备全域压感触控板

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版