![]()
无论你是在学校为论文的显著性结果抓耳挠腮,还是在工作中做市场调查、AB测试、药物实验……,你一定遇到过这个神秘的数字—— p 值。
“p 值小于 0.05,说明结果显著” ,这规则就像一纸判决,仿佛跑出一个极小的p值就可以兴奋地宣布:实验结果确实有效!我可以毕业了!(bushi)
然而仔细一想,统计学家似乎从来不给出这么干脆的答案。
这不免让人疑惑:p 值到底在算 什么?为什么它只让我们拒绝原假设,却始终不肯说备择假设成立?
这就要回到假设检验的框架,弄清楚p值的真正含义。
P值到底在算什么?
大多数人容易混淆的一点是:以为 p 值可以直接证明差异或效果的存在。
“p<0.05=宣告有效”,其实是对p值最大的误解。
p 值真正的含义是:在原假设 H₀ (无差异假设) 为真的情况下,观测到当前结果或更极端结果的概率。
这个说法听起来还是有点抽象,我们举个例子。
假设你在研究一种新药是否能降低血压,也就是要检验:用药组患者的平均血压是否比对照组更低?
于是你设定:
原假设 H₀ :新药无效(μ实验=μ对照)
备择假设 H₁ :新药有效 (μ实验 < μ对照)
你收集到数据( 以下模拟了两组数据) ,运行t检验, 得到了p值为0.000002997,远小于0.05。
那么,这个p 值到底在告诉我们什么?
![]()
惯性思维会让人觉得:p<0.05 就说明药有效。但事实上,p值从来不宣告备择假设 的成立。它的逻辑是:先假设药无效( H₀为真 ),然后问:在这种假设下,我观测到“治疗组比对照组血压低得这么离谱”的结果,有多大概率会发生?
在这个例子中,答案是大约百万分之三。也就是说,如果药真没用,这样的结果几乎不可能出现。于是我们有理由怀疑:H₀ 难以自圆其说,从而拒绝它。
但请注意:从头到尾,p值都没有直接指向 H₁(药有效假设)的成立。这正是假设检验的本质:它更像是一种证伪机制,而非证实。
为什么说假设检验是一种证伪逻辑?
1. 有限样本的宿命:我们永远无法彻底证明
![]()
经验科学研究的是真实世界,而真实世界的“总体”往往是无限的、动态的,无法被完全观测。
无论是抛硬币、药物实验还是市场调查,我们能观测到的数据都只是总体的一个切片:
你不可能抛无限次硬币,
也不可能把全人类都拉来做实验,
就算此刻拿到了上帝视角的所有数据,下一秒的“总体”也已发生了变化。
因此,经验科学的任务不是给出绝对真理,而是在有限观测中尽可能逼近总体。统计学正是这样一种工具:利用有限样本推断总体规律。
但有限样本注定会受到随机波动的干扰。
哪怕一枚完全公平的硬币,你也可能连续掷出10,20次,甚至更多次正面。于是,统计学只能说:“如果这枚硬币真的公平,我看到这种极端情况的概率极小”,却无法断言:“这枚硬币一定不公平”,因为不完全观测下,小概率事件永远有可能会发生。
这就是假设检验的局限:有限样本下,我们无法彻底证明某个假设为真,只能通过经验不断挑战和证伪以接近事实。
2. 有限样本就有犯错的可能
更进一步,即便我们接受有限样本的局限,去设计一套判定规则,也依然逃不开一个基本事实:有限样本永远可能因偶然波动产生假象,导致我们要么把真当假,要么把假当真。
因此,任何有限样本检验,都必须在两类错误之间权衡。这正是 Neyman 和 Pearson 提出的经典两类错误(Type I/II error)框架:
![]()
并强调优先控制 I 类错误的概率α,然后在这个前提下尽量减少 II 类错误β。
如果统计学能证真,那意味着我们可以彻底消除犯错的可能性。但现实是,无论如何设计检验,都没法让我们在有限样本下犯两类错误的概率α和β同时为零,完全不犯错是不可能的。
这也就是为什么 Fisher 提出给p值设定一个阈值,将0.05作为显著性水平。既然犯错不可避免,那索性为犯错的风险划出一个界限:当 p 值小于 0.05 时,我们允许自己冒 5% 的风险去“错误地拒绝”一个本来为真的 H₀,以此来控制 I 类错误。
![]()
▲ 统计学家Fisher在1925年提出将0.05作为显著性水平
因此,假设检验的本质从不是证明某个立场成立,而是在错误不可避免的情况下权衡风险,控制犯错的比例。
3. 拒绝 H₀ ≠ 相信 H₁
3.1 不完备的假设空间
即便拒绝了 H₀,也并不自动意味着 H₁ 一定成立。
在理想化的 Neyman–Pearson 框架里,我们只设定了一对 H₀ 和 H₁,默认它们涵盖所有可能性。但在真实研究中,情况往往更复杂,H₀ 和 H₁ 未必穷尽一切可能性。我们会因为观测结果和 H₀ 极度冲突而拒绝它,但导致这个观测的原因还可能有其他解释,比如数据测量出错、研究设计有偏差、或存在其他混淆变量影响了观测。
就像你看到一群人打伞,拒绝了今天没下雨的假设,但这并不等于一定在下雨。观测很可能受到随机波动的干扰,比如人群打伞是为了拍照、怕晒等等。所以我们只能合理怀疑并拒绝没下雨的说法,却不能直接宣告:正在下雨。
3.2 Lindley 悖论:同一份数据,不同的结论
Lindley 悖论揭示了一个耐人寻味的现象:同一份数据,频率派和贝叶斯派可能得出截然相反的结论。
在频率派的逻辑中,如果观测结果在 H₀ 下极不可能发生,他们就会拒绝 H₀,但贝叶斯派的判断方式不同:他们会直接比较 H₀ 和 H₁ 的后验概率。于是,即便观测数据对 H₀ 不利,如果 H₀ 本身有很强的先验支持,或者 H₁ 的先验分布过于分散,更新后的结果依然可能偏向 H₀。
这就产生了一个吊诡的局面:同样的数据,频率派会把它当作推翻 H₀ 的理由,而贝叶斯派却可能坚持 H₀ 更可信。这正好说明:拒绝 H₀ 并不自动推出 H₁ 成立。如果“拒绝 H₀ = 接受 H₁ ”是真的,那两种方法无论怎么算都该给出相同的答案,但 Lindley 悖论告诉我们现实并非如此。
这也是为什么说假设检验是一种证伪的逻辑:它所能做的,只是不断挑战原假设 H₀,而不是为备择假设 H₁ 下定论。那么,为什么统计学会走上一条“证伪”而不是“证实”的道路?这就要追溯到更深层的逻辑根源——归纳与演绎的区别。
演绎的真理 vs 归纳的证伪
在人类认知世界的方式上,演绎逻辑与归纳逻辑有着本质区别:演绎追求绝对确定,归纳在不确定中逼近事实。
数学依赖的是演绎逻辑。一旦从公理出发,推理正确,结论就必然成立,比如勾股定理,证明即正确,不会因为明天有人测量三角形时出现误差而被推翻。
但自然科学面对的是复杂的现实,只能依赖归纳逻辑。我们只能从有限的观测中提炼规律,而有限证据永远不足以保证“永远正确”。哪怕一千次实验都支持某个结果,也不能保证第一千零一次不会出乎意料。
正如哲学家波普尔(Karl Popper)所强调的:一个理论之所以科学,不在于它被多少次验证,而在于它能否被质疑和推翻。统计学的假设检验,正是这种证伪主义的数学化体现:我们不证明 H₁,只是不断挑战 H₀,在一次次证伪中无限逼近事实。
![]()
这也引出了一个耐人寻味的问题:如果科学永远不能证明,只能证伪,那么我们所追寻的“真理”,究竟是真实存在的目标,还是只是在人类有限的探索脚步下,不断接近却永远抵达不了的幻影?
end
参考资料:
[1] Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver & Boyd.
https://doi.org/10.1007/978-1-4612-4380-9
[2] Popper, K. (1959). The Logic of Scientific Discovery. Routledge.
[3] Gelman, A. (2012). Lindley’s Paradox. StatModeling Blog.https://statmodeling.stat.columbia.edu/2012/05/31/lindleys-paradox
[4] Mayo, D. G. Error and the Growth of Experimental Knowledge. University of Chicago Press.
[5] American Statistical Association. (2016). Statement on p-values: Context, Process, and Purpose.
[6] Simply Statistics Blog. (2011). What does the p-value really mean?
https://simplystatistics.org/2011/02/07/what-does-the-p-value-really-mean
来源:DataCafe
编辑:Zoey
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.