p值的真相：为什么假设检验只说拒绝，不提接受？|科学|实验|样本|证伪|贝叶斯|统计学

p值的真相：为什么假设检验只说拒绝，不提接受？

分享至

无论你是在学校为论文的显著性结果抓耳挠腮，还是在工作中做市场调查、AB测试、药物实验……，你一定遇到过这个神秘的数字—— p 值。

“p 值小于 0.05，说明结果显著” ，这规则就像一纸判决，仿佛跑出一个极小的p值就可以兴奋地宣布：实验结果确实有效！我可以毕业了！（bushi）

然而仔细一想，统计学家似乎从来不给出这么干脆的答案。

这不免让人疑惑：p 值到底在算什么？为什么它只让我们拒绝原假设，却始终不肯说备择假设成立？

这就要回到假设检验的框架，弄清楚p值的真正含义。

P值到底在算什么？

大多数人容易混淆的一点是：以为 p 值可以直接证明差异或效果的存在。

“p<0.05=宣告有效”，其实是对p值最大的误解。

p 值真正的含义是：在原假设 H₀ (无差异假设) 为真的情况下，观测到当前结果或更极端结果的概率。

这个说法听起来还是有点抽象，我们举个例子。

假设你在研究一种新药是否能降低血压，也就是要检验：用药组患者的平均血压是否比对照组更低？

于是你设定：

原假设 H₀ ：新药无效（μ实验=μ对照）

备择假设 H₁ ：新药有效 (μ实验 < μ对照）

你收集到数据（以下模拟了两组数据），运行t检验，得到了p值为0.000002997，远小于0.05。

那么，这个p 值到底在告诉我们什么？

惯性思维会让人觉得：p<0.05 就说明药有效。但事实上，p值从来不宣告备择假设的成立。它的逻辑是：先假设药无效（ H₀为真），然后问：在这种假设下，我观测到“治疗组比对照组血压低得这么离谱”的结果，有多大概率会发生？

在这个例子中，答案是大约百万分之三。也就是说，如果药真没用，这样的结果几乎不可能出现。于是我们有理由怀疑：H₀ 难以自圆其说，从而拒绝它。

但请注意：从头到尾，p值都没有直接指向 H₁（药有效假设）的成立。这正是假设检验的本质：它更像是一种证伪机制，而非证实。

为什么说假设检验是一种证伪逻辑？

1. 有限样本的宿命：我们永远无法彻底证明

经验科学研究的是真实世界，而真实世界的“总体”往往是无限的、动态的，无法被完全观测。

无论是抛硬币、药物实验还是市场调查，我们能观测到的数据都只是总体的一个切片：

你不可能抛无限次硬币，

也不可能把全人类都拉来做实验，

就算此刻拿到了上帝视角的所有数据，下一秒的“总体”也已发生了变化。

因此，经验科学的任务不是给出绝对真理，而是在有限观测中尽可能逼近总体。统计学正是这样一种工具：利用有限样本推断总体规律。

但有限样本注定会受到随机波动的干扰。

哪怕一枚完全公平的硬币，你也可能连续掷出10，20次，甚至更多次正面。于是，统计学只能说：“如果这枚硬币真的公平，我看到这种极端情况的概率极小”，却无法断言：“这枚硬币一定不公平”，因为不完全观测下，小概率事件永远有可能会发生。

这就是假设检验的局限：有限样本下，我们无法彻底证明某个假设为真，只能通过经验不断挑战和证伪以接近事实。

2. 有限样本就有犯错的可能

更进一步，即便我们接受有限样本的局限，去设计一套判定规则，也依然逃不开一个基本事实：有限样本永远可能因偶然波动产生假象，导致我们要么把真当假，要么把假当真。

因此，任何有限样本检验，都必须在两类错误之间权衡。这正是 Neyman 和 Pearson 提出的经典两类错误（Type I/II error)框架：

并强调优先控制 I 类错误的概率α，然后在这个前提下尽量减少 II 类错误β。

如果统计学能证真，那意味着我们可以彻底消除犯错的可能性。但现实是，无论如何设计检验，都没法让我们在有限样本下犯两类错误的概率α和β同时为零，完全不犯错是不可能的。

这也就是为什么 Fisher 提出给p值设定一个阈值，将0.05作为显著性水平。既然犯错不可避免，那索性为犯错的风险划出一个界限：当 p 值小于 0.05 时，我们允许自己冒 5% 的风险去“错误地拒绝”一个本来为真的 H₀，以此来控制 I 类错误。

▲ 统计学家Fisher在1925年提出将0.05作为显著性水平

因此，假设检验的本质从不是证明某个立场成立，而是在错误不可避免的情况下权衡风险，控制犯错的比例。

3. 拒绝 H₀ ≠ 相信 H₁

3.1 不完备的假设空间

即便拒绝了 H₀，也并不自动意味着 H₁ 一定成立。

在理想化的 Neyman–Pearson 框架里，我们只设定了一对 H₀ 和 H₁，默认它们涵盖所有可能性。但在真实研究中，情况往往更复杂，H₀ 和 H₁ 未必穷尽一切可能性。我们会因为观测结果和 H₀ 极度冲突而拒绝它，但导致这个观测的原因还可能有其他解释，比如数据测量出错、研究设计有偏差、或存在其他混淆变量影响了观测。

就像你看到一群人打伞，拒绝了今天没下雨的假设，但这并不等于一定在下雨。观测很可能受到随机波动的干扰，比如人群打伞是为了拍照、怕晒等等。所以我们只能合理怀疑并拒绝没下雨的说法，却不能直接宣告：正在下雨。

3.2 Lindley 悖论：同一份数据，不同的结论

Lindley 悖论揭示了一个耐人寻味的现象：同一份数据，频率派和贝叶斯派可能得出截然相反的结论。

在频率派的逻辑中，如果观测结果在 H₀ 下极不可能发生，他们就会拒绝 H₀，但贝叶斯派的判断方式不同：他们会直接比较 H₀ 和 H₁ 的后验概率。于是，即便观测数据对 H₀ 不利，如果 H₀ 本身有很强的先验支持，或者 H₁ 的先验分布过于分散，更新后的结果依然可能偏向 H₀。

这就产生了一个吊诡的局面：同样的数据，频率派会把它当作推翻 H₀ 的理由，而贝叶斯派却可能坚持 H₀ 更可信。这正好说明：拒绝 H₀ 并不自动推出 H₁ 成立。如果“拒绝 H₀ = 接受 H₁ ”是真的，那两种方法无论怎么算都该给出相同的答案，但 Lindley 悖论告诉我们现实并非如此。

这也是为什么说假设检验是一种证伪的逻辑：它所能做的，只是不断挑战原假设 H₀，而不是为备择假设 H₁ 下定论。那么，为什么统计学会走上一条“证伪”而不是“证实”的道路？这就要追溯到更深层的逻辑根源——归纳与演绎的区别。

演绎的真理 vs 归纳的证伪

在人类认知世界的方式上，演绎逻辑与归纳逻辑有着本质区别：演绎追求绝对确定，归纳在不确定中逼近事实。

数学依赖的是演绎逻辑。一旦从公理出发，推理正确，结论就必然成立，比如勾股定理，证明即正确，不会因为明天有人测量三角形时出现误差而被推翻。

但自然科学面对的是复杂的现实，只能依赖归纳逻辑。我们只能从有限的观测中提炼规律，而有限证据永远不足以保证“永远正确”。哪怕一千次实验都支持某个结果，也不能保证第一千零一次不会出乎意料。

正如哲学家波普尔（Karl Popper）所强调的：一个理论之所以科学，不在于它被多少次验证，而在于它能否被质疑和推翻。统计学的假设检验，正是这种证伪主义的数学化体现：我们不证明 H₁，只是不断挑战 H₀，在一次次证伪中无限逼近事实。

这也引出了一个耐人寻味的问题：如果科学永远不能证明，只能证伪，那么我们所追寻的“真理”，究竟是真实存在的目标，还是只是在人类有限的探索脚步下，不断接近却永远抵达不了的幻影？

end

参考资料：

[1] Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver & Boyd.

https://doi.org/10.1007/978-1-4612-4380-9

[2] Popper, K. (1959). The Logic of Scientific Discovery. Routledge.

[3] Gelman, A. (2012). Lindley’s Paradox. StatModeling Blog.https://statmodeling.stat.columbia.edu/2012/05/31/lindleys-paradox

[4] Mayo, D. G. Error and the Growth of Experimental Knowledge. University of Chicago Press.

[5] American Statistical Association. (2016). Statement on p-values: Context, Process, and Purpose.

[6] Simply Statistics Blog. (2011). What does the p-value really mean?

https://simplystatistics.org/2011/02/07/what-does-the-p-value-really-mean

来源：DataCafe

编辑：Zoey

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.