网易首页 > 网易号 > 正文 申请入驻

p值的真相:为什么假设检验只说拒绝,不提接受?

0
分享至


无论你是在学校为论文的显著性结果抓耳挠腮,还是在工作中做市场调查、AB测试、药物实验……,你一定遇到过这个神秘的数字—— p 值。

“p 值小于 0.05,说明结果显著” ,这规则就像一纸判决,仿佛跑出一个极小的p值就可以兴奋地宣布:实验结果确实有效!我可以毕业了!(bushi)

然而仔细一想,统计学家似乎从来不给出这么干脆的答案。

这不免让人疑惑:p 值到底在算 什么?为什么它只让我们拒绝原假设,却始终不肯说备择假设成立

这就要回到假设检验的框架,弄清楚p值的真正含义。

P值到底在算什么?

大多数人容易混淆的一点是:以为 p 值可以直接证明差异或效果的存在。

“p<0.05=宣告有效”,其实是对p值最大的误解。

p 值真正的含义是:在原假设 H₀ (无差异假设) 为真的情况下,观测到当前结果或更极端结果的概率

这个说法听起来还是有点抽象,我们举个例子。

假设你在研究一种新药是否能降低血压,也就是要检验:用药组患者的平均血压是否比对照组更低?

于是你设定:

原假设 H₀ :新药无效(μ实验=μ对照)

备择假设 H₁ :新药有效 (μ实验 < μ对照)

你收集到数据( 以下模拟了两组数据) ,运行t检验, 得到了p值为0.000002997,远小于0.05。

那么,这个p 值到底在告诉我们什么?


惯性思维会让人觉得:p<0.05 就说明药有效。但事实上,p值从来不宣告备择假设 的成立。它的逻辑是:先假设药无效( H₀为真 ),然后问:在这种假设下,我观测到“治疗组比对照组血压低得这么离谱”的结果,有多大概率会发生?

在这个例子中,答案是大约百万分之三。也就是说,如果药真没用,这样的结果几乎不可能出现。于是我们有理由怀疑:H₀ 难以自圆其说,从而拒绝它。

但请注意:从头到尾,p值都没有直接指向 H₁(药有效假设)的成立。这正是假设检验的本质:它更像是一种证伪机制,而非证实。

为什么说假设检验是一种证伪逻辑?

1. 有限样本的宿命:我们永远无法彻底证明


经验科学研究的是真实世界,而真实世界的“总体”往往是无限的、动态的,无法被完全观测

无论是抛硬币、药物实验还是市场调查,我们能观测到的数据都只是总体的一个切片:

你不可能抛无限次硬币,

也不可能把全人类都拉来做实验,

就算此刻拿到了上帝视角的所有数据,下一秒的“总体”也已发生了变化。

因此,经验科学的任务不是给出绝对真理,而是在有限观测中尽可能逼近总体。统计学正是这样一种工具:利用有限样本推断总体规律

但有限样本注定会受到随机波动的干扰。

哪怕一枚完全公平的硬币,你也可能连续掷出10,20次,甚至更多次正面。于是,统计学只能说:“如果这枚硬币真的公平,我看到这种极端情况的概率极小”,却无法断言:“这枚硬币一定不公平”,因为不完全观测下,小概率事件永远有可能会发生

这就是假设检验的局限:有限样本下,我们无法彻底证明某个假设为真,只能通过经验不断挑战和证伪以接近事实。

2. 有限样本就有犯错的可能

更进一步,即便我们接受有限样本的局限,去设计一套判定规则,也依然逃不开一个基本事实:有限样本永远可能因偶然波动产生假象,导致我们要么把真当假,要么把假当真。

因此,任何有限样本检验,都必须在两类错误之间权衡。这正是 Neyman 和 Pearson 提出的经典两类错误(Type I/II error)框架:


并强调优先控制 I 类错误的概率α,然后在这个前提下尽量减少 II 类错误β。

如果统计学能证真,那意味着我们可以彻底消除犯错的可能性。但现实是,无论如何设计检验,都没法让我们在有限样本下犯两类错误的概率α和β同时为零,完全不犯错是不可能的

这也就是为什么 Fisher 提出给p值设定一个阈值,将0.05作为显著性水平。既然犯错不可避免,那索性为犯错的风险划出一个界限:当 p 值小于 0.05 时,我们允许自己冒 5% 的风险去“错误地拒绝”一个本来为真的 H₀,以此来控制 I 类错误。


▲ 统计学家Fisher在1925年提出将0.05作为显著性水平

因此,假设检验的本质从不是证明某个立场成立,而是在错误不可避免的情况下权衡风险,控制犯错的比例。

3. 拒绝 H₀ ≠ 相信 H₁

3.1 不完备的假设空间

即便拒绝了 H₀,也并不自动意味着 H₁ 一定成立。

在理想化的 Neyman–Pearson 框架里,我们只设定了一对 H₀ 和 H₁,默认它们涵盖所有可能性。但在真实研究中,情况往往更复杂,H₀ 和 H₁ 未必穷尽一切可能性。我们会因为观测结果和 H₀ 极度冲突而拒绝它,但导致这个观测的原因还可能有其他解释,比如数据测量出错、研究设计有偏差、或存在其他混淆变量影响了观测。

就像你看到一群人打伞,拒绝了今天没下雨的假设,但这并不等于一定在下雨。观测很可能受到随机波动的干扰,比如人群打伞是为了拍照、怕晒等等。所以我们只能合理怀疑并拒绝没下雨的说法,却不能直接宣告:正在下雨。

3.2 Lindley 悖论:同一份数据,不同的结论

Lindley 悖论揭示了一个耐人寻味的现象:同一份数据,频率派和贝叶斯派可能得出截然相反的结论

在频率派的逻辑中,如果观测结果在 H₀ 下极不可能发生,他们就会拒绝 H₀,但贝叶斯派的判断方式不同:他们会直接比较 H₀ 和 H₁ 的后验概率。于是,即便观测数据对 H₀ 不利,如果 H₀ 本身有很强的先验支持,或者 H₁ 的先验分布过于分散,更新后的结果依然可能偏向 H₀。

这就产生了一个吊诡的局面:同样的数据,频率派会把它当作推翻 H₀ 的理由,而贝叶斯派却可能坚持 H₀ 更可信。这正好说明:拒绝 H₀ 并不自动推出 H₁ 成立。如果“拒绝 H₀ = 接受 H₁ ”是真的,那两种方法无论怎么算都该给出相同的答案,但 Lindley 悖论告诉我们现实并非如此。

这也是为什么说假设检验是一种证伪的逻辑:它所能做的,只是不断挑战原假设 H₀,而不是为备择假设 H₁ 下定论。那么,为什么统计学会走上一条“证伪”而不是“证实”的道路?这就要追溯到更深层的逻辑根源——归纳与演绎的区别。

演绎的真理 vs 归纳的证伪

在人类认知世界的方式上,演绎逻辑与归纳逻辑有着本质区别:演绎追求绝对确定,归纳在不确定中逼近事实。

数学依赖的是演绎逻辑。一旦从公理出发,推理正确,结论就必然成立,比如勾股定理,证明即正确,不会因为明天有人测量三角形时出现误差而被推翻。

但自然科学面对的是复杂的现实,只能依赖归纳逻辑。我们只能从有限的观测中提炼规律,而有限证据永远不足以保证“永远正确”。哪怕一千次实验都支持某个结果,也不能保证第一千零一次不会出乎意料。

正如哲学家波普尔(Karl Popper)所强调的:一个理论之所以科学,不在于它被多少次验证,而在于它能否被质疑和推翻。统计学的假设检验,正是这种证伪主义的数学化体现:我们不证明 H₁,只是不断挑战 H₀,在一次次证伪中无限逼近事实。


这也引出了一个耐人寻味的问题:如果科学永远不能证明,只能证伪,那么我们所追寻的“真理”,究竟是真实存在的目标,还是只是在人类有限的探索脚步下,不断接近却永远抵达不了的幻影?

end

参考资料:

[1] Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver & Boyd.

https://doi.org/10.1007/978-1-4612-4380-9

[2] Popper, K. (1959). The Logic of Scientific Discovery. Routledge.

[3] Gelman, A. (2012). Lindley’s Paradox. StatModeling Blog.https://statmodeling.stat.columbia.edu/2012/05/31/lindleys-paradox

[4] Mayo, D. G. Error and the Growth of Experimental Knowledge. University of Chicago Press.

[5] American Statistical Association. (2016). Statement on p-values: Context, Process, and Purpose.

[6] Simply Statistics Blog. (2011). What does the p-value really mean?

https://simplystatistics.org/2011/02/07/what-does-the-p-value-really-mean

来源:DataCafe

编辑:Zoey

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普改口:不出席

特朗普改口:不出席

环球时报新闻
2025-11-04 17:41:29
真正的罪犯是你们:川普痛击CBS主持人

真正的罪犯是你们:川普痛击CBS主持人

斌闻天下
2025-11-04 08:20:03
开拓者主场遭湖人逆转,杨瀚森再被弃用,球迷建议杨母去美国陪伴

开拓者主场遭湖人逆转,杨瀚森再被弃用,球迷建议杨母去美国陪伴

孤影来客
2025-11-05 00:09:42
赖清德窝点被定位,美上将警告武统将至,岛内喊话解放军放弃武力

赖清德窝点被定位,美上将警告武统将至,岛内喊话解放军放弃武力

文史旺旺旺
2025-11-04 20:10:05
弱点开始被对手不断放大,快船应该考虑让内线老将暂离轮换阵容?

弱点开始被对手不断放大,快船应该考虑让内线老将暂离轮换阵容?

稻谷与小麦
2025-11-04 23:16:23
四川A股最年轻董事长续任!29岁林晓晴连任成都路桥董事长,去年年薪92.57万元

四川A股最年轻董事长续任!29岁林晓晴连任成都路桥董事长,去年年薪92.57万元

红星资本局
2025-11-04 17:43:06
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
乘客吐槽广州白云机场T3地毯阻力拉满

乘客吐槽广州白云机场T3地毯阻力拉满

现代快报
2025-11-04 13:15:04
明天开始3生肖踩到“狗屎运”横财如雨下,大吉大利

明天开始3生肖踩到“狗屎运”横财如雨下,大吉大利

人閒情事
2025-11-04 16:31:13
42+28!还没碰到周琦胡金秋,广东内线已被打爆!杜锋你是真没招

42+28!还没碰到周琦胡金秋,广东内线已被打爆!杜锋你是真没招

多特体育说
2025-11-04 22:16:04
2009年,陈炳德将军开会时用的茶杯,竟然是一个吃完的罐头瓶子

2009年,陈炳德将军开会时用的茶杯,竟然是一个吃完的罐头瓶子

小女子不简单
2024-12-29 13:25:09
那苍白的嘴唇,一眼就认出你小子!

那苍白的嘴唇,一眼就认出你小子!

贵圈真乱
2025-11-04 12:46:50
谢谢翁青雅,贡献出25年年底内娱的最大笑话!

谢谢翁青雅,贡献出25年年底内娱的最大笑话!

八卦南风
2025-11-03 16:42:30
达成协议!皇马6500万“顶星”转投法甲!金靴射手+天才后腰来投

达成协议!皇马6500万“顶星”转投法甲!金靴射手+天才后腰来投

头狼追球
2025-11-04 14:59:51
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

混沌录
2025-11-02 17:13:10
剧情大反转!美国政府停摆34天后,两党各退一步:妥协方案出炉?

剧情大反转!美国政府停摆34天后,两党各退一步:妥协方案出炉?

王爷说图表
2025-11-04 11:22:15
南京栖霞区中小学生运动会有学生跑200米时昏倒不幸去世?多方回应:政府在牵头处理

南京栖霞区中小学生运动会有学生跑200米时昏倒不幸去世?多方回应:政府在牵头处理

极目新闻
2025-11-04 13:15:52
49+24!中国男篮最强双塔!全运会第一惨案诞生

49+24!中国男篮最强双塔!全运会第一惨案诞生

篮球实战宝典
2025-11-04 21:01:40
国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

国民党主席位置坐稳,郑丽文摊牌了:两岸不回归和平,其他是侈谈

娱乐小可爱蛙
2025-11-04 02:50:04
49岁赵薇面相变了,精心打扮参加朋友婚礼!性格变得越来越佛系

49岁赵薇面相变了,精心打扮参加朋友婚礼!性格变得越来越佛系

娱乐团长
2025-11-04 14:58:09
2025-11-05 01:48:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9538文章数 136342关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

“史上最长”春节点燃旅游热情 已有心急旅客下单

头条要闻

“史上最长”春节点燃旅游热情 已有心急旅客下单

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

马斯克"万亿薪酬"计划,突爆重大利空

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

教育
手机
旅游
数码
公开课

教育要闻

初二英语掉分背后,是思维升级的阵痛

手机要闻

iPhone17系列卖爆,折叠屏手机定价或与华为“一较高下”!

旅游要闻

这个冬天,一起奔赴黑龙江的冰雪之约!

数码要闻

苹果为Apple One品牌推出全新切片LOGO

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版