![]()
人们通常认为,科学之所以值得信赖,在于它追求客观、强调“让数据说话”。但在真实的科研实践中,科学同样难以完全摆脱人类固有的偏见。无论是对数据的解读,还是同行评议的过程,心理学所称的“确认偏误”都可能悄然渗入其中。科学家并非圣贤,要抵御这种偏见,或许需要主动寻找数据中的矛盾、不断追问,打破先入为主的观念。正是在拥抱矛盾的过程中,新概念与新预言才有可能浮现——而这,往往发生在更自由、更少约束的“夜间科学”时刻。
撰文 | Itai Yanai、Martin Lercher
翻译 | Kestrel
“在形式逻辑中,矛盾是失败的信号,但在真实的知识演化中,它代表了迈向胜利的第一步。”
——阿尔弗雷德·诺思·怀特海(Alfred North Whitehead)
表面看来,科学似乎是秩序的典范:严谨的逻辑过程、洁净的白大褂、条理分明的数据分析,以及其核心环节——对假设的规范验证。虽然这种印象可能捕捉到了“日间科学”的一面,但它忽略了创造性的“夜间科学”部分,后者产生了最初的假设。对于知识的现状,我们掌握着清晰且精准的认知,而当我们处在夜间科学模式下,则会识别出与之不完全相符的事实。尽管这样的矛盾源于日间科学所产生的数据,为之陶醉的却是夜间科学,因为这些是新的概念初现的第一缕微光。
矛盾可能看起来是恼人的事情,但这取决于我们的心态,若拥抱它们,则有助于我们抵抗人类自然的确认偏误(confirmation bias)[1]倾向——一种心理学中已被广泛研究的现象。为了探究确认偏误与数据集中出现矛盾的相互作用,我们设计了一个简单的实验:让持有不同预期的人检查同一张数据图,图中叠加了两种互为矛盾的趋势。我们发现,预期图中的两个变量之间是正相关的参与者,报告发现正相关的可能性,比预期负相关的参与者高出两倍以上。我们假定夜间科学的探索模式能抵抗这样的认知偏差,打开新洞察和预言的大门,甚至深刻地改变研究课题的走向。所以,尽管科学的实践者本身可能是带有偏见的,但日间科学和夜间科学的循环往复,却能让我们能够螺旋递进,逼近真理。
数据并非是透明的
科学常自诩不受“种族假象和洞穴假象”[2]的影响,不为未经证实的假说和理论所滋扰。毕竟数据是客观的,而科学家致力于“让数据来说话”。当然,数据不会自己说话。它必须背靠广泛的概念、理论和方法学的背景来解释——而这些背景不太可能是不包含偏见的。因此,若断言一个数据集说明了某个特定的结论,便掩盖了潜在偏见可能对该结论的影响。
为了研究我们的偏见如何影响数据解读,我们对计算机科学专业的大学生进行了一项实验。我们向他们展示了图1a中的数据图,并声称该数据是收集来用以研究个人财富(x轴)和他们生活满意度(“幸福值”,y轴)之间关系的。一个数据点代表一个人,根据年龄组标了颜色。然后我们问每一位参与者:“这些数据是否表明财富会带来幸福?”
这幅图总体上呈现出财富和幸福值之间有负相关(图1b),而在每一个年龄组内,又显然有正相关(图1c)。这正是一个辛普森悖论(Simpson’s paradox)的例子,即当控制另一个变量时,两个变量之间的相关性发生了变化。对该数据图所表现的模式最简约的解释是,其他条件都相同时,钱越多越幸福(所以在每个年龄组内的相关性是正的)。但在年龄组间,这种效应被另一个更强的效应所淹没,即潜在的年龄与幸福值之间有负相关。[需要说明的是,这些数据是人工生成出来的,不应据此关联现实世界。]总而言之,尽管初看可能会认为更富有的人更不幸福,但这些数据实际上表明财富会带来幸福。我们的参与者中大概有1/3通过回答“是”承认了这一点(49/171)。
![]()
图1 “这些数据是否显示了财富会带来幸福?”a给参与者展示的数据图(人工生成),关于个人财富与生活满意度(“幸福值”)之间的关系,每个点代表一个人,根据年龄组标色(1最年长,4最年轻)。b,c与a一致,突出总体的负相关(b)和每个年龄组内部的正相关(c)。
不管某位特定参与者得出了什么样的结论,我们都假定该结论是出自对数据图的分析,而不是先前形成的观念。为了验证这一点,在展示这张数据图之前,我们通过以下问题调查了他们的倾向:“想象一下,你要收集数据去研究个人财富和生活满意度(‘幸福值’)之间的关系。你预期会得到什么样的总体相关性?”70%的学生(119/171)预期会有正相关,而其余学生预期会有负相关。令人惊讶的是,这两组学生看同样数据的方式是不同的:那些带有正相关预期的学生得到正相关结论的可能性,是那些带有负相关预期的学生的两倍以上(表1;42/119 对7/52,比值比3.48,P = 0.0024通过单侧Fisher精确检验)。
![]()
表1两组学生的列联表(对财富与幸福值的关系要么预期正相关,要么预期负相关)和他们所观察到的结果。
所以,该结果提示,当参与者看数据图的时候,他们带着先入为主的偏见,而这些偏见框定了他们的感知。这可能反映了科学中的一个普遍现象。有一段著名的故事,主角是亚瑟·斯坦利·爱丁顿(Arthur Stanley Eddington),他在1919年出征验证爱因斯坦相对论的一个预言。爱丁顿发表的数据既可以被解释为支持爱因斯坦的引力理论,也可以被解释为支持牛顿的引力理论(也许最恰当的说法是,没有办法下结论)。但在他的论文中,爱丁顿——他相信爱因斯坦的理论会胜出——呈现的数据显然是支持爱因斯坦的。
近期多项研究都在探究:相同数据在多大程度上可能导致不同的结论?这些研究通常将同一组数据集和一组待检验的假设交给不同的科学专家。其中一项研究要求70个独立团队分析功能磁共振图像,检验9项具体假设。令人震惊的是,没有任何两个团队采用相同的工作流程来分析数据集,且多个团队基于相同数据集报告了相互矛盾,却都呈统计显著性的结果。在另一项研究中,73个团队用了相同的数据去验证单一假设;研究结果之间存在巨大差异,以至于研究者得出这样的判断:“研究设计的可变性构成了一个庞大的宇宙,而其通常隐匿于视野之外”(a vast universe of research design variability normally hidden from view)。这两项研究以及其他研究都证明,数据并非透明,并且在通过统计分析将数据转化为信息的过程中,存在相当程度的主观成分。我们自己的实验显示,即使研究同一张数据图,先前形成的偏见可能会导致不同的解读。
科学家是有偏见的——特别是你
心理学家把人们将新证据视为支持自身信念的倾向称为“确认偏误”。早在公元前五世纪,历史学家修昔底德(Thucydides)就曾如此描述:“人类惯于将渴求之事托付给轻率的希望,却用至高无上的理性来排斥不称心之事”。更近现代的实验显示,对于人们不能认同的观点,相比于那些他们自己持有的观念,他们会要求更高标准的证据来佐证。因为不同的人有不同的信念和经历,一个群体中的每个人感知现实的方式可能都是不一样的,每个人都是透过自身偏见的棱镜在看事情。确认偏误或许可以解释为何那些有害的中世纪医疗方法可以延续数世纪——因为只有那些康复的患者会被记住(尽管可能不是因为该治疗手段)。同样的现象可能也是当今“替代医学”(alternative medicine)被广泛接受的原因。
尽管现代科学看起来要求一种凌驾于此类偏见之上的客观性,然而确认偏误同样在科学事业中得到了很好的证明。它在学术论文的同行评议过程中展现得淋漓尽致。当研究结果与评审者自身的假定不符时,这篇文章会遭受到更严苛的评审。确认偏误还会导致科学家不去理会或错误地解释那些与他们先入之见矛盾的文章,甚至将对立论文当作支持己方观点的论据来引用。
除了发表论文之外,应用科学方法本身的过程会不会也遭受确认偏误的俘虏呢?理论上,答案应该是否定的,就像卡尔·波普尔(Karl Popper)描述科学过程所强调的那样:对于任何新思想,科学家应该用他们所有的实验能力去尝试证伪它,证明它是错的。但是,正如哲学家迈克尔·斯特雷文斯(Michael Strevens)所指出的,在日常工作中,人类并没有足够的纪律性去严格遵守这一方法。诚然,尽管我们十分推崇证伪哲学,但它并不实用。首先,不太有谁真的会在初见证伪结果的时候,就排除掉一个优美且证据充分的假说。举个例子,假如一个实验结果与能量守恒矛盾,我们绝不会简单推翻热力学第一定律,而是会寻找实验设计或实验解释的漏洞。更重要的是,正如下文要阐述的,科学家和所有人一样,都持有自身的观念,因此更倾向找到那些能够证实而非反驳自己观点的证据。如果我们做出的预测能被表面上的数据证实,那么我们也不会去深究。
不要因为你喜欢结果就停下来
许多科学家乃至公众都关注科学的“可重复性危机”:大量已发表的结果无法被复现。虽然可以轻松地将问题归咎于部分行为失范的研究者,但所观察到的大范围的不可重复性暗示,这可能是一个科学进程本身的痼疾。
作为参照,了解一个避开了可重复性危机的科学体系很有意义——临床试验。对潜在偏见的承认和修正机制,已被纳入临床试验极其严格的过程之中:研究方案必须预先注册,具体流程必须按方案严格执行;事先要明确界定可产生混淆的变量,数据设盲以排除操作者的潜在偏见,并且仅当预先规定好的数据收集完成之后才进行显著性检验。临床试验被精心设计为专门验证假设的形式;如果执行的样本量足够大,它们应该不仅对确认偏误免疫,也能抵御其他导致不可重复的系统性问题。
与临床试验的单纯假设检验模式形成强烈对比的是,基础研究项目通常在分析数据之前,我们并不完全知道应该从中得到什么结果——毕竟,“如果我们知道我们正在做的是什么,就不叫做研究了,对吧?”高通量数据集尤其典型,它们往往包含在产生它们的时候未曾预料的信息,以及无法预测的观察结果;出于这个原因,如果我们处理数据之前尚未提出具体假说,那反而可能是迎接新发现的更好姿态。对于几乎所有数据集来说,它们最自然的位置就是处在数据—假说对话当中,它既可以被用来进行假设检验,也可以被用于探索意料之外的模式——这恰恰是未来新假说的种子。
可以说,科学方法的核心就在于挑战假说——通过用其预测与真实数据对比来实现。但实际操作中,我们往往渴望证伪会失败:除非我们是在验证其他人的竞争性假说,我们希望(常常是预期)我们的预测终将应验。如果结果一开始不符合预期,我们会思考实验的问题或者辅助假设的问题(例如我们预估某种遗传操纵手段会如何扰动细胞系统)。有时候,我们会找到多个此类问题,修改之后,结果可能会指向我们原本的预测。原则上讲,这种通用方法没什么问题:科学探索本来就是反复试错的过程,我们不能指望一个初步的实验或者第一次分析就毫无差错。当然,我们必须小心谨慎,避免因为某些数据存在矛盾而进行选择,同时还要确保类似的错误不会影响其他数据。不过,这里还有一个更微妙的问题——确认偏误可能会以更隐蔽的方式溜进我们的科学研究中。一旦预期的模式终于出现,人类的本能会让我们获得一种成就感。虽然此刻是享受咖啡的最佳时间,但我们不能就此停止对数据的分析。我们应该继续思考实验、分析和解释中可能存在的偏误,否则,我们可能过早地放弃了朝向证伪的努力。
在一个极端的例子中,确认偏误被提升到了指导原则的高度,这就是所谓的p值操纵(p-hacking):研究者不断调整分析的细节,直到出现预期的结果,随后只报道最终方案。在这个例子中,很重要的是要意识到,导致可重复性危机的原因在于带有偏见的报告方式,而非探索性分析本身。反过来,如果可以公开探讨研究结果会如何随着分析具体条件的变化而变化,这些信息将成为研究可靠性的保障。
对抗自我验证式假说的一种优雅方式是,不要只验证一个假设,而是验证多个替代假说,即约翰·普拉特(John Platt[3])所说的“强推断”(strong inference)方法的核心思想。普拉特认为,提出一套互相矛盾的假说,然后设计可以区分它们的验证性实验,是促成科学进展最快的方式。尽管这确实是一个强大的方法,然而我们往往最初并不知道哪些要素能构成最佳的竞争性假说。迫使自己将视线从一个喜欢的假说上移开,找到这样的竞争性假说是一件严肃且枯燥的夜间科学任务,需要缜密的思考并付出艰辛的努力。
拥抱矛盾
回看上述的财富—幸福值实验,其重点是参与者面临一个矛盾。数据可以通过两种方式解释:用一种方式(年龄组内)看是正相关,用另一种方式(总体上)看则是负相关。可以推测,如果给他们足够的时间去分析数据,每个参与者都会得出同样的结论,即最佳概括根本关系的是正相关。正如我们上面所主张的,问题在于矛盾往往并不被探索,也许是因为它们让人困惑,或是与先前的观念不相符,抑或仅仅因为承认它们意味着要做更多单调乏味的工作。但是,出现矛盾应该成为欣喜的理由:它暗示现有知识与真实情况之间有显在出入——我们有可能意外发现新奇而有趣的事情。
在科研中,我们常常发现,为了使矛盾的数据有意义,我们必须找到其中隐藏的错误假设。就像我们在之前文章中所强调的(《科学可以被计划吗?》),爱因斯坦的狭义相对论之路,始于他注意到麦克斯韦方程组与光速旅行思想实验的矛盾。尽管如此,他仍努力工作多年,才找到背后的错误隐藏假设:即时间是绝对的,且独立于参考系。
以我们自己近期的一项研究为例,我们比较了十个物种发育时期的基因表达,每个物种来自一个不同的门(果蝇、斑马鱼、线虫,等等)。先前我们已经比较了同一个门中的不同物种,因此我们期望在所有胚胎发育中期能再次发现一个共有的表达模式(“沙漏模型”)。这个期望激动人心:它将证明所有动物都共有一个信号转导和转录因子表达的特定模式。然而,当比较不同门的动物的基因表达时,我们发现情况完全相反:门与门之间基因表达的相似性主要出现在胚胎早期和晚期的转录组,而中间是一个不那么保守[4]的过渡状态(一个“反沙漏”形状,如图2右所示)。对于这个矛盾信号我们感到十分困惑,于是我们撤退回夜间科学,尝试找到解决办法。最后我们意识到,将门内部和不同门之间矛盾的模式结合起来时,一个动物“门”分类阶元的分子定义出现了:早期和晚期发育是广泛保守的,而过渡状态是特异性的——门内部保守,而门之间高度可变,由此可以区分不同的门类。我们必须学习将两种模式,即沙漏和反沙漏,应用到不同的演化时间尺度上。
![]()
图2 沙漏模型显示门内部的演化,而反沙漏模型反映门的起源。图源:Nature 531, 637–641 (2016)
在任何研究课题的过程中,我们可能都会遇到或多或少明显的矛盾。我们选择的处理方式将决定课题的命运。拥抱矛盾要求我们坦然面对不确定性,并且不可避免地会拖长研究时间。但这种方式为我们提供了解开矛盾的空间,正如前文怀特海的那句格言——遇到矛盾不是失败的信号,而是进步的最初标志。若不存在矛盾,常见的夜间科学方式是特意去找一个,故意唱唱反调。采取一种相反的视角去“为辩论而辩论”,可以帮助我们对抗确认偏误。在与学生或合作者的讨论中,我们中大多数人大概不止一次会以这句话开口,“好吧,评审可能会说……”如果这种方式还不够劲儿,那我们可以采用一种更严肃的方法:想象在未来的某个时间节点,有一个竞争的实验室写了一篇文章批评当前的课题,这篇“反对论文”的内容是什么?通过刻意挑战我们的假设和预期,我们或许能避免与科学发现失之交臂。
译者注
[1] 确认偏误(confirmation bias), 通俗来说就是“人们只相信愿意相信的”。
[2] 种族假象和洞穴假象(idols of the tribe and the cave),该说法来自弗朗西斯·培根于1620年在《新工具》中提出的“四假象”学说。“种族假象”指人类共有的天性使其在认知世界时,本能地将主观强加给自然的现象;“洞穴假象”指个人因教育、习惯和经历形成的偏见,犹如独居洞穴,只能看见外界事物在自己洞壁上的投影的现象。另外还有“市场假象”,指人们在社会交往中因语言和词汇的误用或空洞定义而引发的思想混乱与无谓争论的现象;以及“剧场假象”,指人们盲目遵从各种哲学教条、思想体系和论证规则而产生的谬误,就像在舞台上看戏,误将人造的理论布景当作真实世界。
[3] 约翰·普拉特(John Platt),谷歌杰出科学家。
[4] 保守的(conserved)指基因表达模式变化较少。
本文基于知识共享许可协议(CC BY 4.0)译自 Yanai, I., Lercher, M. Novel predictions arise from contradictions. Genome Biol 22, 153 (2021).
https://doi.org/10.1186/s13059-021-02371-6
注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。
![]()
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.