数据本身就只是数据而已。 它们所蕴含的意义全是人类赋予的。 —纳特 · 西尔弗,《信号与噪声》
![]()
作者:戴维·施皮格尔霍尔特(David Spiegelhalter)
哈罗德·希普曼是整个英国犯罪史上杀人数量最多的凶杀犯,尽管从表面上看他根本不符合连环杀手的典型特征。事实上,他是一位待人和善的家庭医生,在曼彻斯特的城郊工作。1975—1998 年,他至少为 215 名患者注射了过量的阿片类药物,其中大部分是老年人。希普曼的恶行之所以会败露,是因为他试图伪造某名患者的遗嘱并从中受益:这名患者的女儿是一名律师,变更后的遗嘱引起了她的怀疑。经刑侦分析后发现,哈罗德·希普曼的电脑里留下了大量篡改病例的痕迹,这使得那些患者的病情看起来比实际情况严重得多。不过,虽然他很早以前就开始学习电脑知识,他的技术却不甚高明,以至于他完全不知道每次篡改病例都会在系统里留下记录(这些带有时间戳的记录是一个很好的例子,它可以说明有些时候数据能够揭示背后的真相)。
办案人员挖出了 15 位土葬逝者的遗体,发现他们体内均含有致命剂量的二乙酰吗啡(海洛因的学名)。随后在 1999 年,哈罗德·希普曼因 15 起谋杀案被司法机关起诉,但他选择不为自己做任何辩护,整个审判过程中他一言不发。最终法庭认定他有罪,判处他终身监禁,并成立了一个公开调查小组,以查明除了目前认定的这些罪行,他还有哪些未被发觉的罪行,并调查警方是否本可更早将其抓捕。这个公开调查小组请来了多位统计学家,我也是其中之一。我们最终得出的结论是,有充分的证据表明他至少谋杀了 215 名患者,另外还有45 名受害者很可能也是被他杀害的。
本书的重点在于“以统计科学(statistical science)的视角,回答当人们想更好地了解这个世界时所遇到的种种问题”—这些重要问题会以深灰色矩形框的形式在书中标示出来。为了进一步弄清哈罗德·希普曼事件的来龙去脉,我们会很自然地想到这样一个问题:哈罗德·希普曼谋害的都是些什么样的人?他们是在什么时候遇害的?
这次公开调查查明了每名受害者的年龄、性别、死亡日期等详细信息,如图 0-1 所示。该图看上去有些复杂,它是一张基于受害者年龄与死亡年份的散点图,黑色的数据点代表女性,灰色的数据点代表男性。叠加在上方和右侧的条形图表示各年龄段(以 5 年为间距)、各年份死亡人数的分布。
![]()
图 0-1 哈罗德·希普曼的患者遇害时的年龄及遇害年份
该图为哈罗德· 希普曼事件中,基于 215 名受害者年龄、死亡年份的散点图。上方和右侧的条形图可以体现出各年龄段、各年份死亡人数的分布状况,即哈罗德· 希普曼的作案规律。
通过观察图 0-1,我们可以得出一些初步结论。比如黑点数量多于灰点,这说明受害者主要是女性。另外从右侧的条形图可以看出,受害者大多是七八十岁的人;再仔细看看数据点的分布,我们又会发现,随着时间的推移,受害者中逐渐多了一些年轻人。此外,上方的条形图清楚地表明,1992 年前后的某段时间,哈罗德·希普曼停止了作案。调查后,我们发现了原因:在此之前,哈罗德·希普曼一直都是和其他医生协同工作,或许是因为同事对他产生了怀疑,他离开了团队,独自开了一家全科诊所。之后他的犯罪活动变得愈加频繁,正如条形图所示。
对调查发现的这些受害者进行数据分析之后,我们对他的作案方式产生了更多疑问。根据死亡证明上的信息,我们整理了死在哈罗德·希普曼手中的患者的具体死亡时间,如图 0-2 所示。这是一张折线图,黑线是哈罗德·希普曼的患者的死亡时间,灰线是当地其他家庭医生的患者的死亡时间(来自抽样数据)。其中的规律实在太“显眼”了,完全不需要任何细致分析就能看出来:哈罗德·希普曼的患者大多死于午后到傍晚这段时间。
虽然数据本身无法解释背后的原因,但进一步调查后我们发现,他总是在午饭之后对患者进行家访,这段时间内他经常可以与患者独处。他会以缓解病痛为借口给患者打上一针,但注射器中放置的实际上是致命剂量的二乙酰吗啡:患者安然离世之后,他就会篡改他们的病历,好让大家觉得这些都是正常死亡。身为调查小组负责人的珍妮特·史密斯爵士后来发出了如此感慨:“直到现在我都感到一阵阵害怕,那种感觉简直难以言表。他居然可以每天背着致命武器去见患者,然后装成一副温柔体贴的模样……他怎么能如此淡然地杀人呢!”
虽然他的作案手法风险很高,只需要一次验尸就会暴露,但由于他的患者大多年事已高,且尸体很符合自然死亡的特征,案发前竟没有任何一具尸体被检验过。而且他从未解释自己的作案动机:审判时他一言不发,被抓之前也从来没有向任何人透露过自己的恶行,哪怕是自己的家人。被关押后没多久,他就在监狱中自杀了,死亡时的年龄刚好可以让他的妻子领取一笔抚恤金
![]()
图 0-2 哈罗德·希普曼的患者的死亡时间与当地其他家庭医生的患者的死亡时间对比,其中的规律不需要任何细致分析便可以看出。
我们可以把这种迭代性的、探索性的工作看作刑侦领域特有的一种统计学,这种统计学不涉及数学公式,也不涉及复杂理论,我们唯一的目的就是找出规律,然后利用这些规律发现更多的问题。虽然我们只能根据每起案件的确凿证据去给哈罗德·希普曼定罪,但这种数据分析可以帮助我们理解他的犯罪模式。
在第 10 章中,我会向大家说明,正式的统计分析是否可以帮助我们更早地发现哈罗德·希普曼的罪行。另一方面,哈罗德·希普曼的故事可以充分地说明,数据分析是一种强有力的工具,它可以帮助我们理解这个世界,做出更准确的判断,而这正是统计学的意义所在。
将世界数据化
对哈罗德·希普曼的犯罪行为进行数据统计时,我们需要放下这一连串的悲剧所带来的情感冲击,所有人的生死、特征都必须简化为一组可以计算、可以用图表展现的数字或事实。虽然这看上去有些不近人情,但我们只要想用统计学来阐释世界,就必须严肃起来,将日常的种种体验和感受转化为数据,这意味着我们需要对事件进行分类和标记、记录观测结果、分析结果、给出结论。
虽然分类和标记听上去很简单,但在实际过程中我们可能会遇到很大的挑战。下面这个问题就是一个很好的例子,每个关心环境的人应该都会对这个问题产生兴趣:地球上一共有多少棵树?
在思索该如何回答这一问题之前,我们首先要解决一个更基本的问题:什么是“树”?你可能会觉得,只要看到一棵树就能认出它是一棵树,但你有没有想过,你的判断可能会和别人大相径庭。你认为是树的东西,在他人看来有可能只是一个灌木丛。因此,为了将个人体验转化为数据,我们首先要给出严格的定义。
根据官方给出的定义,“树”是一种胸径足够大、具有木质茎干的植物。美国林务局认为,一株胸径大于 5 英寸的植物才能被称为“树”,但其他大多数权威机构给出的标准却只有 4 英寸。
还有一个问题是,我们不可能踏遍整个地球,逐一测量每一株具有木质茎干的植物的胸径,然后统计出符合标准的数量。因此,研究人员采用了一个更具可行性的办法:他们按照地貌类型区分出了一系列地区,即“生物群系”,然后统计了每平方千米的树木均量。之后他们利用卫星图像估算出了每种生物群系的总面积,并建立了复杂的统计模型,最终算出地球上一共大约有 3.04 万亿棵树。虽然这一数值听上去非常大,但你要知道,他们之前的估算值几乎是这一数值的两倍。
就连“树”的定义也存在分歧,那么更模糊的概念变得更难以定义,这也就不足为奇了。举个极端的例子:英国对“失业”的官方定义,在 1979—1996 年至少变更过 31 次。另外 GDP(国内生产总值)的定义也在不断修订,比如在 2014 年,英国将非法毒品交易和卖淫的产值也算到了 GDP 当中,对这些领域的产值估算用到了一些不同寻常的数据源,比如 Punternet 网站,该网站主要提供卖淫服务价目表,以及嫖客点评功能。
就连个人感受这种东西也可以被数据化,然后进行统计分析。2017 年 9 月,即财政年度末尾,15 万英国民众接受了一项调查:“以满分 10 分来算,你认为自己昨天过得有多幸福?”6 大家的平均分为 7.5 分,比 2012 年的 7.3 分有所提高,具体原因可能和 2008 年金融危机之后经济逐渐复苏有关。另外,50~54 岁年龄段的人评分最低,70~74 岁年龄段的人评分最高,这一结果简直“太英国了”。
幸福感很难衡量,不过判断一个人是生是死应该要简单得多:正如本书中的一些例子所展示的,生和死是统计学中相当常见的问题。然而在美国,每个州对死亡都有着单独的法律定义,尽管 1981年曾出台了《统一死亡认定法案》,旨在建立一个统一的死亡认定标准,但各州之间仍存在着细微差异。原则上来讲,一位在亚拉巴马州被宣布死亡的逝者,穿过佛罗里达州的边界之后就不再是法律意义上的逝者了,因为根据佛罗里达州的规定,死亡登记必须由两名经过认定的医生执行。
这些例子表明,统计数据总是建立在主观判断之上,想要把复杂的个人体验完完全全并十分准确地转换为数据编码,放进电子表格或统计软件,根本就是一件不可能的事。虽然对个体特征和我们周围世界的特征进行定义、计算、测量是一件很困难的事,但我们得到的也只有信息而已,这只是我们认知世界的第一步。
这种情况下,我们需要注意数据有两大局限性。首先,数据几乎总是无法完美衡量我们的喜好程度:询问大家在满分为 10 分的情况下,上周过得有多幸福,实际上很难概括出国民的幸福水平。其次,任何一个我们试图将其数据化的事物,都会因地点、人物、时间产生差异,核心问题就在于,我们该如何从这些看上去有些随机的变异性(variability)中提炼出有价值的结论。
几个世纪以来,统计学一直都是我们认知世界的最重要的工具之一,但统计学家们总是避不开这两大难题。不过另一方面,统计学也为我们“该如何阐释这些不完美的数据”提供了坚实的理论基础,让我们可以将有意义的相关性和因个体差异而产生的噪声区分开来。不过世界总是在不断变化,我们会不断面临新的问题,不断发现新的数据来源,所以统计学也会随着时代的发展而不断更新。
虽然人类每时每刻都在计算、测量,但直到 17 世纪 50 年代左右,现代统计学才真正开始逐渐发展成一门独立学科,正如我们将在第 8章中看到的,布莱瑟·帕斯卡和皮埃尔·费马在这一时期首次正确理解了概率论。由于有了处理变异性的坚实数学基础,统计学也得以迅速发展。结合人死亡年龄的数据,概率论为计算养老金和年金提供了坚实的基础。当科学家们掌握了如何利用概率理论处理测量中的变异性时,天文学也经历了革命性的变革。维多利亚时代,很多数学爱好者痴迷于收集人体数据(以及其他各种数据),这使得统计分析和遗传学、生物学、医学之间建立了紧密的联系。到了 20 世纪,统计学变得更加数学化,然而遗憾的是,对许多学生和从业者来说,统计学似乎仅仅是对一套统计工具机械应用的代名词,而其中很多工具都是以统计学家的名字命名的,关于这些统计学家,之后的章节会有详细介绍。
这种将统计学视为一种“工具”并机械地应用于各种情境,而没有更深入理解或思考的观点,目前正面临着重大挑战。首先,我们正处于一个数据科学(data science)的时代,企业和机构正在从交通监控、社交媒体、网购货物等日常信息中统计出庞大且复杂的数据集,并据此进行旅行路线优化、个性化广告推荐、购物商品推荐等技术创新—第 6 章中,我们会介绍建立在大数据(big data)之上的各种算法(algorithm)。统计知识、数据管理、编程技巧、算法研发等知识或能力,逐渐成为数据科学家必备的技能。
随着大规模数据集和方便快捷的分析软件的普及,有不少人觉得统计方法的专业培训似乎变成了一件可有可无的事,这种观点实在过于天真。事实上,数据处理量正在变得越来越大,科学研究的数量和复杂度也在不断攀升,我们越来越难以归纳出合理的结论,这使得我们对统计知识的需求不降反增。面对愈加庞杂的数据,我们必须更深入了解数据的价值所在。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.