为什么科学结论不再可靠？|实验|心理学|统计学|验证性|探索性

分享至

作者｜戴维·施皮格尔霍尔特 （David Spiegelhalter）

英国皇家学会院士，剑桥大学统计学荣休教授，英国皇家统计学会前会长，当代最具影响力的统计学家与风险交流专家之一。曾长期任教于剑桥大学统计实验室，并于 2016—2023 年出任剑桥大学温顿风险与证据交流中心主任，致力于提升公众对定量证据的理解、呈现与使用能力。其研究涵盖贝叶斯统计、医学统计、风险评估与不确定性分析，对医疗决策、公共卫生和政策评估产生了重要影响，其论文全球引用逾十万次，曾入选“高被引研究者”。

2011年，美国著名社会心理学家达里尔·贝姆在著名心理学期刊上发表了一篇重要论文。在论文相关的实验中，达里尔·贝姆找来了100名学生，让他们坐在电脑屏幕前。屏幕上有两块“窗帘”，达里尔·贝姆让这些学生猜测哪块窗帘后面藏有图像。之后窗帘会被“打开”，展现出正确答案。学生们需要连续猜36次。该实验最特殊的一个地方在于，受试者给出答案以后，图像出现在哪块窗帘后面完全随机，因此研究者认为，所有正确答案都来自受试者的超感官知觉，即第六感。

《统计的艺术》

[英] 戴维·施皮格尔霍尔特著

韩潇潇译周静审校

中信出版集团

2026年2月

达里尔·贝姆在论文中提到，零假设为“不存在第六感”，所以选择正确的概率预计为50%。但实验结果显示，当窗帘后面的图像为色情图像时，受试者的正确率可以达到53%，这一结果的P值为0.01。另外，该论文还包含了另外8项第六感实验的结果，受试者人数超过了1,000，研究跨度达10年以上，9项研究中一共有8项都取得了具有统计显著性的结果。难道说第六感真的存在吗？这些研究能够令人信服吗？

虽然目前为止，本书已经介绍了很多优秀的统计实验，这些实验既蕴含着研究者的卓越智慧和精心设计，又体现出了研究者对统计工具的局限性和潜在风险的清楚认知，但你要知道，现实情况不会一直那么美好。现在，我们就来看看，当统计学被滥用时会发生什么。达里尔·贝姆的故事我们稍后再讲。

如今，人们之所以格外关注统计实验的质量，是因为科学界之前曾出现过一场举世震惊的丑闻事件，该事件被认为是科学界可重复性危机（reproducibility crisis）的罪魁祸首。

可重复性危机

第10章中我们曾提到，约翰·约安尼季斯曾于2005年发表过这样一个令人瞠目的观点：大多数已发表的研究结论都是错的。之后有越来越多的研究者认为，那些已发表的科学论文的确有很多都不可靠。科学家们无法复现同行的研究实验，这意味着那些原始结论根本没有它们表现出来的那样可信。这种现象最初主要集中在医学和生物学领域，后来又逐渐蔓延到了心理学以及其他社会科学当中，尽管我们并不清楚弄虚作假的论文的真实比例。

虽然约翰·约安尼季斯做出如此判断的根据是某个理论模型，但我们也可以通过实际操作去验证这一说法，即以同样的方法去复现过往的实验，看看能否取得类似的实验结果。“可重复性计划”是一个重要的合作项目，合作者们以更大的样本规模对100项心理研究进行了重复实验，因此理论上来说，如果这些研究结论为真，那该项目能够以更高的检验效能去识别这些真实效应。最终合作者们发现，虽然有97%的原始研究取得了具有统计显著性的结果，但其中只有36%能在重复实验中得到复现。

可悲的是，各媒体在报道这一结论时，经常会认为这意味着有63%的具有“统计显著性”的科学结论实际为假——他们还会落入“严格按照统计显著性去判断实验结论是否可靠”的陷阱。美国著名统计学家、博主安德鲁·格尔曼曾指出，“具有统计显著性”与“不具有统计显著性”之间的差异本身就不具有统计显著性。事实上，只有23%的原始实验与重复实验之间的差异具有统计显著性，我们在估计弄虚作假的论文的比例时，使用这一数字似乎更为恰当一些。

与其用“统计显著性”去判断“科学发现”的可靠程度，我们还不如把注意力放在实验效应的大小上。可重复性计划发现，虽然平均来看，重复实验效应的方向和原始实验相同，但其大小却只有原始实验的一半。这反映出了科学文献中长期存在的一个重要偏差：只要某项研究的效应足够“大”，那么哪怕结果带有一定的运气成分，它也更有可能被发表在重要期刊之上。如果用均值回归现象来类比，这种现象或许可以被称为“零假设回归”——被夸大的原始实验效应，会朝着零假设的方向下滑。

可重复性危机是一个相当复杂的问题，其根源在于研究人员面临的科研压力过大——他们必须想方设法做出“科学发现”，然后将其发表在著名期刊上，但这一切都取决于他们能否获取具有统计显著性的研究结果。我们不能单独去怪罪某个机构或某个人。另外，之前在讨论假设检验时我们也曾提到，就算统计实验的每一步都完美无瑕，其结果和结论也不能保证为真，也就是说，会有相当一部分具有统计显著性的结果实际上为假阳性（见图10-5）。现在的问题在于，大多数统计实验根本和“完美”两个字沾不上边。

PPDAC分析流程中的每个阶段都有可能会出现严重的统计问题。比如在一开始的“提出问题”阶段，我们就可能会设定一个无法用现有信息解答的问题，例如，如果我们想研究“为什么过去的十年当中，英国少女怀孕率出现了大幅下降”，那当前数据就无法给出解释。

第二个阶段，即“做出规划”阶段，也可能会出现以下这些问题：

倾向于选择方便廉价的样本，而不是具有代表性的样本，比如选前民意调查中的电话调查。

调查时使用引导性问题或误导性问题，比如“您认为网络购物大约可以节省多少钱？”

没有设定恰当的对比，比如只通过志愿者的情况来评估顺势疗法的效果。

设定的样本规模过小，检验效能过低，这意味着如果备择假设为真，那我们能够正确将其检测出来的概率过低。

未能正确判断数据的干扰因素，没有进行盲法试验，等等。

正如费希尔那句名言所说的一样：“实验完成后再去咨询统计学家的意见，就相当于患者死亡后再给他们体检。此时我们唯一能做的，或许就是告诉你实验的死因。”

在“收集数据”阶段，最常见的问题包括回复率太低、有人中途退出研究项目、招募进度比预期慢很多、难以快速对所有数据编码，等等。所有这些可预见的问题都可以通过小规模试点试验的方法来提前解决。

“分析数据”阶段最容易出问题的地方，就是“不小心犯了错”。虽然我们都有可能在编码、制表过程中犯错，但这些错误的后果很难和下面这些案例“相提并论”。

著名经济学家卡门·莱因哈特与肯尼思·罗戈夫曾于2010年合作发表了一篇论文，该论文对“人们对经济紧缩政策的态度”产生了很大影响。然而后来一名博士生偶然发现，这两个人的论文不小心遗漏了五个国家的数据分析，而这仅仅是因为一个小小的电子表格错误。

全球投资公司安盛罗森堡的一名程序员曾因敲错代码，导致某个统计模型计算出来的风险系数过低，大约只有实际值的万分之一，公司客户因此损失了2.17亿美元。2011年，美国证券交易委员会以“未能及时向投资者报告模型错误”为名让安盛罗森堡进行等额赔偿，同时额外开出了2,500万美元的罚款，这导致公司一共损失了2.42亿美元。

另外，有时虽然计算结果完全正确，但使用的统计模型却存在问题。例如：

开展“整群随机对照试验”时，错误地按照个体随机对照试验分析数据。整群随机对照试验指的是将一整群人（比如某个全科诊所的所有病人）同时分配到某一组别当中。

分别在基准状态、干预状态测试两个组别的数据，如果一组人在两种状态下的差异达到了统计显著性，另一组人则没有，就得出结论认为两组人之间存在差异。正确的做法是，对两组之间的差异进行统计检验——这在统计学中又被称为“交互作用检验”。

将“不具有统计显著性”误解为“实验没有产生任何效应”。例如在第10章提到的酒精与死亡风险的研究中，年龄在50~64岁之间、每周饮酒15~20个酒精单位的男性，死亡风险会显著降低；而那些饮酒稍多或稍少一些的男性，死亡风险的降幅与0之间不存在显著差异。虽然论文声称，这些群体的饮酒结果存在重要区别，但从置信区间来看，这些区别完全可以忽略不计。再次提醒大家，“具有统计显著性的结果”与“不具有统计显著性的结果”之间的差异，不一定具有统计显著性。

在“得出结论”这一步骤，最明目张胆的做法就是对实验结果进行多次显著性检验，但只报告最具有统计显著性的那次结果，并借此强调实验结论的可靠性。我们已经在前文中看到，这种做法能够极大增加发现具有统计显著性的P值的机会，就连“死鱼复生”都不是问题。这相当于电视台在播放足球比赛时，只转播某个球队的进球镜头，但不转播失球镜头：这种选择性报道不可能让我们获得真实且全面的信息。

如此一来，我们很难分清实验设计的失误到底是因为研究人员能力有所欠缺，还是因为研究者在故意误导大家。更令人忧心的是，这种现象并不少见。在美国甚至有人因为“利用子集分析，选择性报道具有统计显著性的实验结果”而被刑事定罪。斯科特·哈科宁曾担任美国制药公司InterMune首席执行官，这家公司曾为研究“特发性肺纤维化”新药的疗效而开展了一项临床试验。试验结果表明，该药物的整体疗效并不显著，但在轻度至中度的患者（子集）中，死亡风险的降幅却很显著。斯科特·哈科宁据此向投资者发布了一份新闻稿，报道了该研究成果，并表示自己相信这项研究能够带来巨大回报。尽管他并没有说任何谎话，只是选择性报道了部分事实，但陪审团还是于2009年认定他犯有电信诈骗罪，理由是他有欺诈投资者的意图。政府原本的诉求是判处他10年监禁，以及2万美元罚款，但法庭最终判处他6个月的软禁，以及3年缓刑。后来的临床试验发现，该药物对这部分子集患者不存在任何疗效。

统计实验中的不端行为可能是有意的，也可能是无意的。为了说明科学界同行评议和审稿制度的严重缺陷，“德国饮食与健康研究所”的约翰内斯·博安农曾故意设计了一项有问题的实验。该实验中，受试者被随机分成3组，各组人员分别按照标准饮食、低碳水饮食、低碳水饮食外加巧克力的要求进餐。他们在三周的时间里接受了一系列的测试，研究结果表明，巧克力组的体重降幅比低碳水组的降幅高出10%，其P值为0.04。这份具有统计显著性的研究结果被投递给一家期刊，结果该期刊认为这篇论文是一篇“极其优秀的稿件”，并向研究者回复说，只要支付600欧元的出版费，“它就可以在我们出版社的顶级期刊上发表出来”。意料之中的是，该研究一经发表便引起了众多媒体的争相报道，甚至有媒体写出了“巧克力可以加快减肥进度”这样的标题。

令媒体没想到的是，这项研究从头到尾都是一场骗局。“约翰内斯·博安农”的真名是约翰·博安农；他本来的职业也不是科学家，而是记者；所谓的“德国饮食与健康研究所”根本不存在，该研究唯一真实的东西就是数据——这些数据未经任何篡改或捏造。但问题是，每组中的受试者只有5名；统计显著性检验进行了很多次；论文只报道了具有统计显著性的结果。

媒体报道后，论文作者立即承认了作假行为，并说出了自己的真实目的。然而，并非所有统计作假都是为了揭露同行评议制度的缺陷。

蓄意欺诈

故意作假的现象确实存在，只不过大家觉得这种现象应当相对少见。一项匿名的调查研究发现，大约有2%的科学家承认自己曾经伪造过数据，但美国国家科学基金会、美国科研诚信办公室处理过的“故意作假”案件却相当之少，完全不符合调查结果，哪怕2%已经是被低估的数值了。

用统计学方法去辨别统计作假行为，听上去好像也很合理。宾夕法尼亚大学的心理学家尤里·西蒙松曾对某些随机试验的统计量进行了深入研究，结果发现这些本应带有很强随机性的统计量，实际上却表现出了极为夸张的相似性或差异性。例如他注意到，某篇论文中引用的三个标准差都是25.11，但这三个标准差实际上来自不同的小组（每组均为15人）。尤里·西蒙松设法找到了原始数据，并利用数据模拟证明三个标准差完全一样的概率微乎其微——后来该研究项目的负责人主动辞职了。

西里尔·伯特是一名来自英国的心理学家，因对智商遗传性的研究而闻名于世。然而在其去世之后，人们开始怀疑他的研究涉嫌作假，因为人们发现，尽管研究涉及的双胞胎儿童数量在不断增加，但各双胞胎智商的相关系数却一直没有什么变化（每对双胞胎都会在不同的环境中长大）：1943年的相关系数为0.770，1955年为0.771，1966年仍然为0.771。虽然人们怀疑数据有假，但他死后所有的研究记录都被烧毁了，其数据是否经过伪造至今仍存有争议。支持他的人认为，这些数字肯定是不小心写错了，他应该不会做出如此明目张胆的作假行为。

如果统计研究只涉及无心过错、有意作假，那问题倒也好解决，尽管这些问题本质上确实很严重。比如，我们可以提高教育质量，仔细检查数据，重复多次实验，公开研究数据，等等，最后一章我们还会详细讨论该问题。但除此之外，我们还面临一个更严峻、更困难的问题，有些人认为这一问题才是可重复性危机的核心原因。

可疑学术行为

就算数据完全真实，实验分析恰当合理，统计量和P值的计算准确无误，如果我们不知道研究人员得出结论的具体过程，也很难正确理解实验结果的含义。

我们已经看到了研究人员选择性报告具有统计显著性的结果所带来的种种问题，但更重要的是，在整个研究过程当中，研究人员有时会有意识或无意识地根据数据的反馈结果做出各种细微的“改进措施”，比如对实验设计、停止收集数据的时间、排除哪些数据、对哪些因素进行分层分析、重点关注哪些组别与结果、如何对连续变量分组、如何处理缺失数据等诸多细节的改动。尤里·西蒙松将这些决策称为“研究者自由度”，而安德鲁·格尔曼则以更为诗意的方式将其称为“小径分岔的花园”。所有这些改动都有可能会提高“获得具有统计显著性的实验结果”的概率，所以都属于“可疑学术行为”的范畴。

因此，我们有必要将探索性研究（exploratory studies）和验证性研究（confirmatory studies）区分开来。顾名思义，探索性研究的调查方式较为灵活，通常以探索更多可行性、提出更多假设为目的，而后续那些为了检验假设可靠性的研究就是验证性研究。在探索性研究中，我们可以根据需要适当调整实验细节，但验证性研究应当严格按照预先规划好的、最好是公开透明的方案逐步进行。虽然这两种研究都可以用P值来衡量证据对结论的支持程度，但二者应当明确区分开来，并以完全不同的方式加以解释。

那些想方设法去获取具有统计显著性结果的行为，通常又被称为“P值操纵”。P值操纵最简单的思路就是进行多次检验，但只报告具有统计显著性的结果。不过除此之外，研究者们还可以通过很多更“巧妙”的方法来行使所谓的“研究者自由度”。

听披头士的歌曲《当我64岁时》，能让人返老还童？

大多数人都会觉得这绝无可能。但是尤里·西蒙松和他的同事一起，在一些“统计小伎俩”的帮助下，得出了一个具有统计显著性的阳性结果。

该实验找来了一群宾夕法尼亚大学的本科生，这些学生被随机分成几组，分别收听披头士乐队的《当我64岁时》、Mr. Scruff的《克林巴》，以及Wiggles的《烫手山芋》。听完之后，学生们需要回答自己的出生日期、个人感受，以及其他一些奇奇怪怪的问题。

尤里·西蒙松和他的同事一起，用他们能想到的各种技巧和方法去反复分析数据，并不断招募新的受试者，直到他们发现某个具有统计显著性的相关性结论为止。受试人数达到34之后，在受试者年龄和他们收听的音乐之间没有显著关系的情况下，仅通过《当我64岁时》和《克林巴》两首歌的对比，研究人员就得到了P值<0.05的回归分析结果（对父亲的年龄进行了分层分析）。当然，他们只报告了具有统计显著性的分析结果，而没有提到他们对实验做出的诸多调整、使用的各种技巧，以及对实验结果的选择性报道——直到论文结尾处，他们才将真相说了出来。这类学术不端行为如今被统称为“根据结果构建假设”，即在确定结果的情况下提出假设。

学术不端行为有多普遍？

2012年，一项针对2,155名美国心理学家的调查显示，只有2%的人承认自己伪造过数据。但一份包含10项可疑学术行为的调查问卷表明：

35%的人表示自己有过“虽然实验结论中提到这是一项意外发现，但其实在实验开始前我们就预料到了该结果”的行为；

58%的人表示自己有过“一边收集数据，一边进行显著性检验。当出现具有统计显著性的结果时，立即停止数据收集”的行为；

67%的人表示自己有过“没有公开全部实验结果”的行为；

94%的人承认，在列出来的10项可疑学术行为中，至少有1项符合自身情况。

令人遗憾的是，这些人普遍认为以上行为相当合理——毕竟谁都想报告一个新奇有趣的、出人意料的发现。这种现象的症结就在于，探索性研究和验证性研究的界限过于模糊。包括“根据结果构建假设”在内的诸多行为，在探索性研究中其实都不存在太大问题，毕竟探索性研究的目的就是发现更多想法，提出更多假设，以供其他人验证。但在以验证假设为目的的验证性研究当中，这些行为应该被严格禁止。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.