网易首页 > 网易号 > 正文 申请入驻

p值的真相:为什么假设检验只说拒绝,不提接受?

0
分享至


无论你是在学校为论文的显著性结果抓耳挠腮,还是在工作中做市场调查、AB测试、药物实验……,你一定遇到过这个神秘的数字—— p 值。

“p 值小于 0.05,说明结果显著” ,这规则就像一纸判决,仿佛跑出一个极小的p值就可以兴奋地宣布:实验结果确实有效!我可以毕业了!(bushi)

然而仔细一想,统计学家似乎从来不给出这么干脆的答案。

这不免让人疑惑:p 值到底在算 什么?为什么它只让我们拒绝原假设,却始终不肯说备择假设成立

这就要回到假设检验的框架,弄清楚p值的真正含义。

P值到底在算什么?

大多数人容易混淆的一点是:以为 p 值可以直接证明差异或效果的存在。

“p<0.05=宣告有效”,其实是对p值最大的误解。

p 值真正的含义是:在原假设 H₀ (无差异假设) 为真的情况下,观测到当前结果或更极端结果的概率

这个说法听起来还是有点抽象,我们举个例子。

假设你在研究一种新药是否能降低血压,也就是要检验:用药组患者的平均血压是否比对照组更低?

于是你设定:

原假设 H₀ :新药无效(μ实验=μ对照)

备择假设 H₁ :新药有效 (μ实验 < μ对照)

你收集到数据( 以下模拟了两组数据) ,运行t检验, 得到了p值为0.000002997,远小于0.05。

那么,这个p 值到底在告诉我们什么?


惯性思维会让人觉得:p<0.05 就说明药有效。但事实上,p值从来不宣告备择假设 的成立。它的逻辑是:先假设药无效( H₀为真 ),然后问:在这种假设下,我观测到“治疗组比对照组血压低得这么离谱”的结果,有多大概率会发生?

在这个例子中,答案是大约百万分之三。也就是说,如果药真没用,这样的结果几乎不可能出现。于是我们有理由怀疑:H₀ 难以自圆其说,从而拒绝它。

但请注意:从头到尾,p值都没有直接指向 H₁(药有效假设)的成立。这正是假设检验的本质:它更像是一种证伪机制,而非证实。

为什么说假设检验是一种证伪逻辑?

1. 有限样本的宿命:我们永远无法彻底证明


经验科学研究的是真实世界,而真实世界的“总体”往往是无限的、动态的,无法被完全观测

无论是抛硬币、药物实验还是市场调查,我们能观测到的数据都只是总体的一个切片:

你不可能抛无限次硬币,

也不可能把全人类都拉来做实验,

就算此刻拿到了上帝视角的所有数据,下一秒的“总体”也已发生了变化。

因此,经验科学的任务不是给出绝对真理,而是在有限观测中尽可能逼近总体。统计学正是这样一种工具:利用有限样本推断总体规律

但有限样本注定会受到随机波动的干扰。

哪怕一枚完全公平的硬币,你也可能连续掷出10,20次,甚至更多次正面。于是,统计学只能说:“如果这枚硬币真的公平,我看到这种极端情况的概率极小”,却无法断言:“这枚硬币一定不公平”,因为不完全观测下,小概率事件永远有可能会发生

这就是假设检验的局限:有限样本下,我们无法彻底证明某个假设为真,只能通过经验不断挑战和证伪以接近事实。

2. 有限样本就有犯错的可能

更进一步,即便我们接受有限样本的局限,去设计一套判定规则,也依然逃不开一个基本事实:有限样本永远可能因偶然波动产生假象,导致我们要么把真当假,要么把假当真。

因此,任何有限样本检验,都必须在两类错误之间权衡。这正是 Neyman 和 Pearson 提出的经典两类错误(Type I/II error)框架:


并强调优先控制 I 类错误的概率α,然后在这个前提下尽量减少 II 类错误β。

如果统计学能证真,那意味着我们可以彻底消除犯错的可能性。但现实是,无论如何设计检验,都没法让我们在有限样本下犯两类错误的概率α和β同时为零,完全不犯错是不可能的

这也就是为什么 Fisher 提出给p值设定一个阈值,将0.05作为显著性水平。既然犯错不可避免,那索性为犯错的风险划出一个界限:当 p 值小于 0.05 时,我们允许自己冒 5% 的风险去“错误地拒绝”一个本来为真的 H₀,以此来控制 I 类错误。


▲ 统计学家Fisher在1925年提出将0.05作为显著性水平

因此,假设检验的本质从不是证明某个立场成立,而是在错误不可避免的情况下权衡风险,控制犯错的比例。

3. 拒绝 H₀ ≠ 相信 H₁

3.1 不完备的假设空间

即便拒绝了 H₀,也并不自动意味着 H₁ 一定成立。

在理想化的 Neyman–Pearson 框架里,我们只设定了一对 H₀ 和 H₁,默认它们涵盖所有可能性。但在真实研究中,情况往往更复杂,H₀ 和 H₁ 未必穷尽一切可能性。我们会因为观测结果和 H₀ 极度冲突而拒绝它,但导致这个观测的原因还可能有其他解释,比如数据测量出错、研究设计有偏差、或存在其他混淆变量影响了观测。

就像你看到一群人打伞,拒绝了今天没下雨的假设,但这并不等于一定在下雨。观测很可能受到随机波动的干扰,比如人群打伞是为了拍照、怕晒等等。所以我们只能合理怀疑并拒绝没下雨的说法,却不能直接宣告:正在下雨。

3.2 Lindley 悖论:同一份数据,不同的结论

Lindley 悖论揭示了一个耐人寻味的现象:同一份数据,频率派和贝叶斯派可能得出截然相反的结论

在频率派的逻辑中,如果观测结果在 H₀ 下极不可能发生,他们就会拒绝 H₀,但贝叶斯派的判断方式不同:他们会直接比较 H₀ 和 H₁ 的后验概率。于是,即便观测数据对 H₀ 不利,如果 H₀ 本身有很强的先验支持,或者 H₁ 的先验分布过于分散,更新后的结果依然可能偏向 H₀。

这就产生了一个吊诡的局面:同样的数据,频率派会把它当作推翻 H₀ 的理由,而贝叶斯派却可能坚持 H₀ 更可信。这正好说明:拒绝 H₀ 并不自动推出 H₁ 成立。如果“拒绝 H₀ = 接受 H₁ ”是真的,那两种方法无论怎么算都该给出相同的答案,但 Lindley 悖论告诉我们现实并非如此。

这也是为什么说假设检验是一种证伪的逻辑:它所能做的,只是不断挑战原假设 H₀,而不是为备择假设 H₁ 下定论。那么,为什么统计学会走上一条“证伪”而不是“证实”的道路?这就要追溯到更深层的逻辑根源——归纳与演绎的区别。

演绎的真理 vs 归纳的证伪

在人类认知世界的方式上,演绎逻辑与归纳逻辑有着本质区别:演绎追求绝对确定,归纳在不确定中逼近事实。

数学依赖的是演绎逻辑。一旦从公理出发,推理正确,结论就必然成立,比如勾股定理,证明即正确,不会因为明天有人测量三角形时出现误差而被推翻。

但自然科学面对的是复杂的现实,只能依赖归纳逻辑。我们只能从有限的观测中提炼规律,而有限证据永远不足以保证“永远正确”。哪怕一千次实验都支持某个结果,也不能保证第一千零一次不会出乎意料。

正如哲学家波普尔(Karl Popper)所强调的:一个理论之所以科学,不在于它被多少次验证,而在于它能否被质疑和推翻。统计学的假设检验,正是这种证伪主义的数学化体现:我们不证明 H₁,只是不断挑战 H₀,在一次次证伪中无限逼近事实。


这也引出了一个耐人寻味的问题:如果科学永远不能证明,只能证伪,那么我们所追寻的“真理”,究竟是真实存在的目标,还是只是在人类有限的探索脚步下,不断接近却永远抵达不了的幻影?

end

参考资料:

[1] Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver & Boyd.

https://doi.org/10.1007/978-1-4612-4380-9

[2] Popper, K. (1959). The Logic of Scientific Discovery. Routledge.

[3] Gelman, A. (2012). Lindley’s Paradox. StatModeling Blog.https://statmodeling.stat.columbia.edu/2012/05/31/lindleys-paradox

[4] Mayo, D. G. Error and the Growth of Experimental Knowledge. University of Chicago Press.

[5] American Statistical Association. (2016). Statement on p-values: Context, Process, and Purpose.

[6] Simply Statistics Blog. (2011). What does the p-value really mean?

https://simplystatistics.org/2011/02/07/what-does-the-p-value-really-mean

来源:DataCafe

编辑:Zoey

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马来西亚今年将全面查封电子烟,卫生部长:吸电子烟会造成爆米花肺

马来西亚今年将全面查封电子烟,卫生部长:吸电子烟会造成爆米花肺

爆角追踪
2026-01-06 22:18:53
周一,委内瑞拉股市暴涨

周一,委内瑞拉股市暴涨

跟着老李看世界
2026-01-06 15:56:58
顶级后卫视野?拉拉维亚救球后直接坐在多名女球迷身边

顶级后卫视野?拉拉维亚救球后直接坐在多名女球迷身边

懂球帝
2026-01-07 12:00:09
气价补贴退坡,河北农村居民反映取暖贵

气价补贴退坡,河北农村居民反映取暖贵

第一财经资讯
2026-01-06 21:20:45
难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

诗意世界
2026-01-05 19:54:53
年薪50万遭妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

年薪50万遭妻子嫌弃后续:丈夫身份曝光,工资全上交,挨骂是日常

单手搓核弹
2026-01-06 13:44:21
14天3零封!齐达内二公子成队史第1人 非洲劲旅119分钟绝杀进8强

14天3零封!齐达内二公子成队史第1人 非洲劲旅119分钟绝杀进8强

风过乡
2026-01-07 07:55:34
杭州公安重要提醒:1960年至1980年出生的市民,请尽快查看身份证有效期限,提前准备换领

杭州公安重要提醒:1960年至1980年出生的市民,请尽快查看身份证有效期限,提前准备换领

都市快报橙柿互动
2026-01-06 22:27:49
王石与田朴珺视频流出!她没了仰慕和爱意,他的眼睛透出一股寒意

王石与田朴珺视频流出!她没了仰慕和爱意,他的眼睛透出一股寒意

火山詩话
2026-01-07 06:53:05
连续4年破万!梅毒成日本亚文化,年轻人竟追当潮流?

连续4年破万!梅毒成日本亚文化,年轻人竟追当潮流?

凑近看世界
2026-01-06 15:41:43
舆论炸锅!网传烟草连夜下发命令,严禁员工晒工资…

舆论炸锅!网传烟草连夜下发命令,严禁员工晒工资…

慧翔百科
2026-01-06 09:04:26
亚洲杯首轮就乱了:东南亚球队领跑,东道主多打一人险胜无缘榜首

亚洲杯首轮就乱了:东南亚球队领跑,东道主多打一人险胜无缘榜首

侧身凌空斩
2026-01-07 04:22:06
12胜0负!联盟第1!全联盟都说你要退役了,你却天神下凡再创神迹

12胜0负!联盟第1!全联盟都说你要退役了,你却天神下凡再创神迹

老侃侃球
2026-01-07 03:30:03
梅西:新一代阿根廷球员会集体等我吃饭;我不擅长沟通和表达

梅西:新一代阿根廷球员会集体等我吃饭;我不擅长沟通和表达

懂球帝
2026-01-07 10:24:19
伊朗抗议者完整拿下首个城市,距离成功又近了一步

伊朗抗议者完整拿下首个城市,距离成功又近了一步

金召点评
2026-01-07 08:01:29
苏A0000A号牌有主了!

苏A0000A号牌有主了!

鲁中晨报
2026-01-07 10:57:05
为什么要远离社会底层?网友的话让我陷入了沉思

为什么要远离社会底层?网友的话让我陷入了沉思

霹雳炮
2026-01-06 22:39:13
边打麻将边吸氧?长三角富豪周末新玩法,业内:有钱中年男最爱

边打麻将边吸氧?长三角富豪周末新玩法,业内:有钱中年男最爱

金错刀
2026-01-06 16:50:04
不是输给乌克兰,而是输给数学:俄罗斯战争机器的极限在哪?

不是输给乌克兰,而是输给数学:俄罗斯战争机器的极限在哪?

七分日记
2026-01-04 00:16:40
白宫直说了:拿下格陵兰岛,不惜动武

白宫直说了:拿下格陵兰岛,不惜动武

观察者网
2026-01-07 08:15:10
2026-01-07 12:20:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9749文章数 136427关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

体育要闻

全明星次轮票数:东契奇票王 詹皇超KD升西部第8

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

教育
亲子
房产
本地
公开课

教育要闻

果脯咋读?噘嘴还是撅嘴?《咬文嚼字》发布“2025年十大语文差错”;快来看看,这些你都读写正确了吗? #咬文嚼字 #语文 #读音 #错别字

亲子要闻

笑发财了!宝妈问网友:给娃买的衣服留不留,不料评论区炸了锅

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版