网易首页 > 网易号 > 正文 申请入驻

一半以上实验结果无法重复,学术界正在遭遇一场危机吗?

0
分享至

图源:Pixabay

撰文 | 詹羊

科学的大厦建立在大量可重复的研究结果之上,然而,近年来,种种迹象表示,在生物医学领域,大量的研究结果似乎不可重复。比如,Plos Biology最近发表的一篇对近2000名生物医学研究人员的调研报告中[1],在最终收回的问卷中,72%的参与调研的活跃一线科研人员认同生物医学领域存在可重复性危机,其中27%的参与者甚至认为这场危机非常严重。

但这也许不能算新闻。2021年,eLife上就发表了一篇针对癌症生物学的可重复性研究的总结[2]。结果发现,学术界至少一半以上的癌症生物学实验很有可能是不能重复的。而工业界似乎也没有好到哪里去---早在2011年,拜耳(Bayer)公司的一项内部调查显示[3],其对67个潜在的新药靶点进行重复实验时,仅有不到四分之一的结果得以重复。

由此可见,可重复性的问题在生物医学领域可谓旷日持久。解决这一问题,绝不会是朝夕之功。这方面,也许一个稍微没有那么热门的领域---心理学的故事,可以给我们带来一些启示。

扎堆的“p值曲线”

与不到一半的可重复率

心理学的可重复性故事,得从2011年讲起。

在这一年,现西班牙艾赛德商学院的尤里·西蒙松(Uri Simonsohn)、加州大学伯克利分校的莱夫·尼尔森(Leif Nelson)和宾夕法尼亚大学约瑟夫·西蒙斯(Joseph Simmons)发表了一篇具有里程碑意义的论文[4]。在这个文章中,三人直言不讳地道出了心理学领域心照不宣的事实:心理学研究者在实验设计和分析过程中拥有极大自由度,研究者往往可以通过不断的尝试,“证明”任何假说在统计上显著,可谓是“有志者,事竟成”。

作为一个例证,他们演示了如何通过选择样本量,选择控制不同的变量,以及选择不同的实验组、对照组等一系列骚操作,最终成功“证明”了“听披头士的歌使人年轻”的荒谬结论。假如这样的行为大量存在,那么大量已发表的心理学研究成果,可能都是不可重复的假阳性。

他们开出的药方是:研究者在开始实验之前就公开所有的实验选择,并严格按照公开的方案执行实验。这个药方,就是后来广为人知的“预注册”(pre-registration)。

同样在2011年,布莱恩·诺塞克经过多年努力,终于筹到了推动心理学领域大规模可重复性项目所需的第一桶金[5]。他说服了全球270多名研究者一起合作,计划对100-200项高影响力的心理学实验进行重复试验。这项雄心勃勃的计划,日后给心理学领域带来翻天覆地的变化。

西蒙松等人2011年的文章,只是在理论上指出了心理学可重复性危机的可能性,但在实证上,并没有强有力的证据表明问题已经严重成了一场“危机”。但到了2014年,情况变得更为清晰了。因为这三位研究者又发表了一篇有趣的论文[6],为实证检验心理学的可重复性危机提供了有力的工具,这就是著名的“p值曲线”。

p值是统计学中用于衡量结果显著性的重要指标,通常认为p值小于0.05就算显著。p值曲线依赖于一个简单直白的直觉:如果研究者在统计显著性上“钻空子”,一旦p值跌破那个神奇的0.05,他们就会兴高采烈地收工回家。如果这种情况普遍存在,那么我们应该会在已发表的论文中看到p值在0.05附近扎堆。果不其然,后续的研究利用p值曲线验证了这一点[7]。

而在2015年,诺塞克的大规模可重复性研究也开花结果,发表在Science上[8]。在完成的100项心理学重复实验中,只有不到一半(36%-47%)的研究结果被成功复制,约80%的重复实验中,检测到的效应强度比原先的实验要小。这一结果,彻底做实了心理学领域的可重复性危机。

想提高领域的可重复性,

应更鼓励不显著结果的发表。

现代发展经济学有“创造性破坏”(creative destruction)之说,指出创新往往首先带来旧的经济体系的崩解,然后建立更高效的新经济体系,最终推动经济发展。心理学的发展也是如此。西蒙松和诺赛克等人的工作,激起了心理学领域盛况空前的真理大讨论。自那以后,学界对可重复性根源和应对方案的理解有了长足的进展。

一方面,学科本身有其特异性[9]。在有些领域,理论和实验技术都已发展到了很高的水平(比如高能物理),其实验设计和分析的范式已经高度统一,没有太多任由实验人员自行裁量的空间,结果可重复性自然就高。然而像心理学这样的学科,目前的技术水平还无法做到这种程度的一致性,需要假以时日等待技术的自然进步,在此之前,要对可重复的实验比例有个理性的预期。

另一方面,科学家也是人,人类多样的行为也会影响科研产出的可靠性。这里面,最突出的当然是严重的学术不端,比如赤裸裸的造假。但是最广泛的,也是最难以杜绝的还是是西蒙松等人在2011年文章中指出的,通过反复尝试不同的实验设计和分析流程,直到获得显著的结果。这样的微小的“作弊”,几乎无法被确凿地证明。除此之外,即使研究者主观上没有“作弊”的动机,实验过程中也极有可能下意识地调整实验条件,直到预期结果出现---毕竟很多新的科学发现,需要的就是反常规的实验设计和分析流程,无法预先框定,尝试不可避免。

现行的发表制度,则进一步鼓励了这种微小“作弊”行为的泛滥,而“不发表,就出局”的简单粗暴的科研管理体制也为这种现状添了一把火。在前述PLOS Biology研究中,受访的研究者们纷纷表示发表不可重复性结果的主要原因是“发表压力”。

对此,现加州大学默赛德分校的保罗·司马尔蒂诺 (Paul Smaldino)和现马普所演化人类学所长理查德·麦克埃尔里思(Richard McElreath)就在2016年一篇极具影响力的论文中指出[10],只要现行的学术激励只倾向于发表新颖而显著的结果,这一现象就很难被遏止。华盛顿大学的卡尔·伯格斯特罗姆(Carl T. Bergstrom)也在2016年一篇文章中指出[11],想要提高领域的可重复性,现行的发表体制应该更加鼓励不显著结果的发表。

除了理论方面的探究,可重复性的实证研究也大有进步。这里面不乏极具趣味性的研究,在这里仅举一例,来自2015年发表在PNAS的一篇文章[12]。在这篇文章里面,作者展示了如何使用“预测市场”(prediction market)来预估实验的可重复性。预测市场通过价格机制将参与者的不同信息、观点和判断汇聚在一起。每个交易者根据自己的知识或预期买入或卖出合约,价格最终反映了集体智慧。在诺赛克的市场中,科学家和公众可以对某项研究是否可重复进行匿名的“投注”。结果发现,市场最终的价格,相比于采访领域内的专家们的意见,更能够准确预测实验的可重复性。

而可喜的是,这些探究并不仅仅停留在学术讨论上。很多的应对方案,开始慢慢变成了心理学研究的新范式。比如当年西蒙松等人提出的预注册实验方式,已经被越来越多的学者所践行,而领域内的顶级期刊,比如Nature Human Behavior,也在鼓励这类文章的投稿,并且声明无论结果符不符合预期,只要按照预注册的标准严格执行,都予以接受。

从心理学的经验看来,可重复性危机不仅仅是“危机”,更是“置信度的革命”(credibility revolution)。这让我们有理由对生物医学领域可重复性的未来保持乐观。

参考文献

[1] Cobey, K. D. et al. Biomedical researchers’ perspectives on the reproducibility of research. PLoS Biol. 22, e3002870 (2024).

[2] Errington, T. M. et al. Investigating the replicability of preclinical cancer biology. Elife 10, (2021).

[3] Prinz, F., Schlange, T. & Asadullah, K. Believe it or not: how much can we rely on published data on potential drug targets? Nat. Rev. Drug Discov. 10, 712 (2011).

[4] Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol. Sci. 22, 1359–1366 (2011).

[5] Wikipedia contributors. Reproducibility Project. Wikipedia, The Free Encyclopedia https://en.wikipedia.org/wiki/Reproducibility_Project (2024).

[6] Simonsohn, U., Nelson, L. D. & Simmons, J. P. P-curve: a key to the file-drawer. J. Exp. Psychol. Gen. 143, 534–547 (2014).

[7] Head, M. L., Holman, L., Lanfear, R., Kahn, A. T. & Jennions, M. D. The extent and consequences of p-hacking in science. PLoS Biol. 13, e1002106 (2015).

[8] Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science 349, aac4716 (2015).

[9] National Academies of Sciences, Engineering, and Medicine et al. Reproducibility and Replicability in Science. (National Academies Press, Washington, D.C., DC, 2019).

[10] Smaldino, P. E. & McElreath, R. The natural selection of bad science. R. Soc. Open Sci. 3, 160384 (2016).

[11] Nissen, S. B., Magidson, T., Gross, K. & Bergstrom, C. T. Publication bias and the canonization of false facts. Elife 5, (2016).

[12] Dreber, A. et al. Using prediction markets to estimate the reproducibility of scientific research. Proc. Natl. Acad. Sci. U. S. A. 112, 15343–15347 (2015).

本文经授权转载自知识分子ID:The-Intellectual),如需二次转载请联系原作者。欢迎转发到朋友圈。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哭笑不得!网传某985文学院毕业女生相亲市场遇冷,男方扭头就跑

哭笑不得!网传某985文学院毕业女生相亲市场遇冷,男方扭头就跑

火山詩话
2026-06-01 07:30:30
重庆强降雨即将来袭:今夜到明晨偏南地区局地大暴雨

重庆强降雨即将来袭:今夜到明晨偏南地区局地大暴雨

上游新闻
2026-06-02 09:02:07
人老以后最高级的活法:候鸟式养老,和子女保持一碗汤的距离

人老以后最高级的活法:候鸟式养老,和子女保持一碗汤的距离

枫红染山径
2026-06-02 17:08:48
有资格续签4年1.79亿!名记:哈滕大概率会留在雷霆

有资格续签4年1.79亿!名记:哈滕大概率会留在雷霆

体坛周报
2026-06-02 09:45:20
打脸了!汪宝百日宴有大人物登场,马筱梅晒汪小菲抱娃照 张兰傻眼

打脸了!汪宝百日宴有大人物登场,马筱梅晒汪小菲抱娃照 张兰傻眼

动物奇奇怪怪
2026-06-02 13:17:45
人民日报有问有答:对随身登机行李收费,有依据吗?

人民日报有问有答:对随身登机行李收费,有依据吗?

澎湃新闻
2026-06-02 07:53:14
武圣:既然裁判会吹 SGA&东契奇为何不造犯规?演技也是一种球商

武圣:既然裁判会吹 SGA&东契奇为何不造犯规?演技也是一种球商

天光破云来
2026-06-02 17:45:32
王丽娟任辽宁省广播电视局党组书记、局长

王丽娟任辽宁省广播电视局党组书记、局长

中国经济网
2026-06-02 11:16:05
女子哭诉新房被公婆住,老公不理解,网友一边倒:把90万还给公婆

女子哭诉新房被公婆住,老公不理解,网友一边倒:把90万还给公婆

小兰聊历史
2026-06-02 12:40:39
40岁魔笛第5次征战世界杯!克罗地亚像个老头军团:保留上届14人

40岁魔笛第5次征战世界杯!克罗地亚像个老头军团:保留上届14人

风过乡
2026-06-02 05:52:22
佛山一公务员被指“脚踏两条船”,引发热议!

佛山一公务员被指“脚踏两条船”,引发热议!

新动察
2026-06-02 16:51:36
古德温:球队20多年未染指总冠军,我们的饥渴度都非常饱满

古德温:球队20多年未染指总冠军,我们的饥渴度都非常饱满

懂球帝
2026-06-02 13:43:34
快来看穿山甲带崽的视频!广东象头山已形成稳定可自我维持的繁殖种群

快来看穿山甲带崽的视频!广东象头山已形成稳定可自我维持的繁殖种群

新快报新闻
2026-06-01 22:55:10
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
告诫:最伤眼睛的行为,不是玩手机!而是频繁地去做这6件事

告诫:最伤眼睛的行为,不是玩手机!而是频繁地去做这6件事

侯医生谈健康
2026-05-10 15:20:03
上海城投变了,杭迎伟没有退路

上海城投变了,杭迎伟没有退路

新浪财经
2026-06-02 16:46:12
重磅!松岛辉空离队后签约!与张本智和成队友!王楚钦林诗栋危险了!

重磅!松岛辉空离队后签约!与张本智和成队友!王楚钦林诗栋危险了!

好乒乓
2026-06-02 16:01:38
北京四环内最大商业更新体,如何从存量难题变身为城市新地标?

北京四环内最大商业更新体,如何从存量难题变身为城市新地标?

RET睿意德商业地产
2026-06-02 13:33:31
离谱!早高峰,京藏高速加油站,3分钟36辆车驶入仅1车加油,35车“借道加塞”……

离谱!早高峰,京藏高速加油站,3分钟36辆车驶入仅1车加油,35车“借道加塞”……

91.6陕西交通广播
2026-06-02 10:58:00
54岁吴越下厨被拍,单身生活细节让无数人沉默

54岁吴越下厨被拍,单身生活细节让无数人沉默

天马幸福的人生
2026-05-31 14:54:35
2026-06-02 18:27:00
果壳 incentive-icons
果壳
科技有意思
27752文章数 4149310关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

商标被宣告无效 "壹号土猪"创始人:已向法院提起诉讼

头条要闻

商标被宣告无效 "壹号土猪"创始人:已向法院提起诉讼

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
艺术
家居
房产
公开课

教育要闻

别总怪孩子学习不好!75%的原因不在孩子,而在家长、学校和教育方法

艺术要闻

周杰伦花 1.36 亿拍下这幅画

家居要闻

流线型轮廓 包容多元身形

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版