![]()
Brian Nosek 是开放科学中心的执行主任。在 2010 年代,Nosek 博士及其同事重复了 100 篇心理学论文,但只有 39% 的时间结果与原始结果相符。
卡尔·齐默
自 2011 年以来,卡尔·齐默一直在报道科学领域的可重复性问题。
2026年4月1日
开展研究很难,验证研究结果也很难。一项新的重要研究发现,人工智能目前还无法提供帮助。
科学家每年发表超过一千万篇研究论文和其他出版物。其中一些发现将丰富人类的知识宝库,但有些则是错误的。
为了评估一项研究,科学家可以重复该研究,以检验是否能得到相同的结果。但七年前,一个由数百名科学家组成的团队着手寻找一种更快捷的方法来评判新的科学文献。他们构建了人工智能系统,用于预测研究是否经得起推敲。
该项目由美国国防高级研究计划局(DARPA)资助,名为“系统化开放研究和证据的信心”(简称SCORE)。其构想源于当时DARPA的项目经理亚当·罗素。他设想为科学建立一种类似信用评分的体系。
“人们可能会说,‘嘿,这很可能是可靠的,我们可以以此为基础制定政策,’”目前在南加州大学任教的拉塞尔博士说。“‘但是这个呢?嗯,这或许能写成一本在机场里卖的书。’”
SCORE团队审查了数百项研究,并对其中许多研究进行了重复测试,以更好地了解哪些因素能够使研究结果经得起时间的考验。现在,他们正在发表一系列关于这些研究成果的论文。
研究人员表示,目前科学的信用评分仍然只是一个梦想。人工智能还无法做出可靠的预测。
“我们还没达到目标,”开放科学中心执行主任兼该项目负责人布莱恩·诺塞克说。“它确实接收到了一些信号,但要独立使用,精度还需要大幅提高。”
但外部专家表示,在此过程中,SCORE 团队对科学过程进行了非常深入的研究,发现了有助于改进该过程的线索。
“我认为以前从未有过如此大规模的尝试,”牛津大学心理学家多萝西·毕晓普说道,她并未参与这项研究。
自己看看吧
重复性研究一直是科学发展的重要支柱。1953年,加州理工学院的地球化学家克莱尔·帕特森利用一种新技术测定出地球的年龄为45亿年,比之前的估计值大了12亿年,这一结果令科学家们震惊不已。
“我遇到了一些世界上最优秀、最有能力的评论家,他们竭尽全力想推翻我的数据,”帕特森博士后来回忆道。“他们绞尽脑汁,试图证明我错了。”然而,无论他们如何努力,他的数据始终没有改变。
但有时重复实验的结果并不一致。1976年,考古学家在智利蒙特维德发现了一处古代狩猎营地,并确定其距今约14500年,比此前在美洲发现的人类活动证据要古老得多。
时隔近50年,一个独立的科学家团队重复了这项研究。上个月,他们得出了截然不同的结论:蒙特维德地区在4200至8200年前就有人居住。
原研究的作者对这一新发现提出异议;可能需要更多研究来解决这一冲突。科学就是这样自我修正的。
至少,理论上应该是这样。但重复先前的研究需要耗费时间和金钱,而研究人员可能更愿意将这些资源投入到自己的研究中。而且,期刊编辑通常对重复研究不感兴趣。
新墨西哥州圣塔菲研究所的人工智能研究员梅兰妮·米切尔最近复现了一篇人工智能论文,但未能得到与原论文相同的结果。一家期刊以缺乏创新性为由拒绝了她的论文。
“我真的很讨厌这种文化,”米切尔博士上个月在耶鲁大学的一次讲座上对听众说。
解决一个“棘手问题”
![]()
![]()
上图为克莱尔·帕特森,她在 20 世纪 50 年代计算出地球的年龄比之前估计的要大 12 亿年;下图为梅兰妮·米切尔,她是新墨西哥州圣塔菲研究所的人工智能研究员,摄于 2023 年。
信用...
加州理工学院;《纽约时报》的艾莉娅·马尔科姆
15 年来,一些科学家一直试图改变这种文化。他们首先记录了问题的严重程度。2010 年代初期,诺塞克博士及其同事重复了 100 篇心理学论文,结果只有 39%与原始结果相符。
在另一个项目中,诺塞克博士与癌症生物学家合作,在动物和人类细胞上重复了50项实验。但只有不到一半的结果经受住了他们的审查。
美国国防高级研究计划局(DARPA)的罗素博士想知道,科学家能否利用人工智能来预测一项研究的可信度。但首先,科学家们需要收集更多关于可重复性的数据。“我知道这是一个棘手的问题,”他说。
SCORE 项目始于2019 年,并发展壮大到包括 865 名研究人员。他们分析了 2009 年至 2018 年间发表的 3900 篇论文,这些论文涵盖了犯罪学、经济学、心理学和社会学等社会科学领域。
在一项研究中,SCORE团队重复了164项研究。团队成员重新进行了部分实验,并招募志愿者再次参加原始测试。对于基于政府统计数据的研究,SCORE团队成员获取了相关数据并进行了分析。
只有大约一半的重复研究得出了与原始研究相同的结果。
惠特曼学院的生物学家蒂姆·帕克(Tim Parker)并未参与这项研究,他表示,这一低比率与之前规模较小的研究结果一致。
“我认为这些结果非常有说服力,”他说。“我希望那些之前对实证研究结果不以为然的人,能够被这些结果说服。”
帕克博士和其他研究人员对科学家们使用不同方法研究同一数据的做法表示担忧。他们认为,即使这些方法都合理,也可能导致相互矛盾的结果。
SCORE团队评估了科学家使用不同方法时研究结果的可靠性。团队成员挑选了100篇论文,并为每篇论文分配了至少五个专家团队。每个团队都运用各自的方法分析原始数据。
诺塞克博士说:“很多时候,这些选择会产生重大影响。”在SCORE试验中,只有约57%的情况下,所有五个团队都得到了与原始研究大致相同的结果。他们只有三分之一的时间得到了完全相同的结果。
SCORE 团队还考虑了数据问题以及用于分析的计算机程序中的问题如何导致复制失败。
研究人员使用与原作者相同的代码分析了143篇论文中的数据。约9%的SCORE结果与原始结果完全不同;另有14%的结果仅大致相同。
图像
![]()
Andrew Tyner, a principal research scientist at the Center for Open Science. “It’s still not that impressive,” he said of A.I. efforts to replicate results. “But there might be some there there.”
信用...
Cornell Watson for The New York Times
渥太华大学的经济学家阿贝尔·布罗德尔表示,他在自己的科学测试项目——复制研究所——中也遇到过类似的问题。这些故障可能是由于科学家在格式化数据或编写程序时出错造成的。“有时候,代码错误简直匪夷所思,”他说。
实际情况可能比SCORE研究表明的还要糟糕,因为科学家们常常不愿分享数据和代码。当SCORE团队不得不自行编写代码来分析数据时,他们成功复现相同结果的次数不到一半。
罗素博士曾希望人工智能系统能够利用 SCORES 项目的研究结果进行训练,从而学习判断一篇论文能否成功复现的关键特征。但 SCORE 团队发现,复现的奥秘似乎仍然深不可测;人工智能的预测并非完全随机,但也远非完美。
“这仍然不算令人印象深刻,”开放科学中心首席研究科学家、这项新研究的作者之一安德鲁·泰纳说。“但或许其中蕴含着一些有价值的信息。”
但这并不意味着专家可以完全相信自己的直觉。SCORE项目招募了数百名专家来预测论文是否能够成功重复。在审查了132项重复实验后,SCORE团队发现专家们的预测大约有四分之三的概率是正确的。
对于诺塞克博士来说,SCORE 的主要价值在于展示了科学过程的复杂性,并突出了改进科学过程的方法。
例如,科学家可以提前公布实验计划,这可以防止他们为了适应最终获得的数据而调整假设。
布罗德尔博士表示,期刊可以通过要求作者分享原始数据和代码来提供帮助。“人们已经清理了他们留下的烂摊子,”他说。
美国国立卫生研究院院长杰伊·巴塔查里亚博士在一次采访中表示,该机构正在研究如何改进可复制性。
他说:“科学是通过重复实验来确定真理的。我觉得现在这种方法不太奏效。”
从今年开始,该机构计划推出新的数据和代码共享工具。它还将遴选不同领域的关键理念,并颁发资助金以支持这些理念的复制。此外,该机构正在筹建一份期刊,巴塔查里亚博士将其描述为“一个可以发表你的复制研究成果并获得认可的平台”。
匹兹堡大学医学院的生物化学家、美国国家普通医学科学研究所前所长杰里米·伯格(Jeremy Berg)是巴塔查里亚博士的批评者,他将巴塔查里亚博士的计划描述为“极其天真”。
伯格博士警告说,像集中式数据平台和关键理念复制这样的项目,只有政府做出昂贵的长期投入才能奏效。仅仅提供更多发表复制研究的机会,本身并不能使大学在决定招聘和终身教职时重视这些研究。
“我认为还没有人破解了这个密码,”他说。
诺塞克博士告诫说,无论研究人员在工作中投入多少精力,他们有时仍然会犯错。
“探索知识前沿总是充满挑战,无论你研究的是什么问题都一样,”诺塞克博士说。“你会经历很多次失败,也会遇到很多不合逻辑的事情。”
Can Science Predict When a Study Won’t Hold Up?
Conducting research is hard; confirming the results is, too. And artificial intelligence isn’t yet ready to help, a major new study finds.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.