环球科学2月刊 在美国很多城市,警方只须对一大堆数据进行计算机分析,就能知道哪些地方将有案件发生。随着犯罪率的下降,这种技术也因此广为传播。但是,它真的管用吗?
在美国孟菲斯市街头,我和巡警约瑟夫 · 坎宁安(Joseph Cunningham)正在搜寻犯罪分子。我们要搜寻的不仅仅是街头恶棍,还有那些入室盗窃的人。当然,我们不必搜遍所有地方:尽管孟菲斯市幅员800多平方千米, 但我们要搜寻的仅仅是几个方形街区,这里主要是一些低矮的砖式公寓建筑,是这座城市犯罪最猖獗的地区。搜 索时间也有严格限制——周四,下午4点到晚上10点。现在,搜索工作开始了。“今晚我估计不用飙着车去追捕谁, 不过真要那样,你可记得系好安全带,”坎宁安说。
预测犯罪地点
“预测警务”,听起来就像是菲利普· K · 迪克(Philip K. Dick)构想的那些未来世界才有的词汇。在1956年写就的短篇科幻小说《少数派报告》[The Minority Report ,这本小说后来被史 蒂文· 斯皮尔伯格(Steven Spielberg)搬上了电影银幕]中,迪克确实给我们描述了这样一个未来世界:在罪犯实施犯罪之前,警察就能提前将他们阻截。只是,在现实生活中,这种预测不 是依赖于坐在黑屋子里的变种人的幻觉,而是基于犯罪分析与 计算机软件。而且,现实的预测也不会告诉你谁最有可能实施犯罪,而是对犯罪事件所有相关情况作出最好的推测:犯罪类 型是什么,这种犯罪会在何时何地发生。“有些人说,你们不可 能预测出未来会发生什么,”孟菲斯警察局的犯罪分析主管约翰· 威廉姆斯(John Williams)说,“我们的回答是,‘一切皆有 可能’”。
尽管有人认为这是反面乌托邦(Dystopian),但实际上,这只是预测分析领域的一个引人瞩目的实例而已。这种技术在今天已经稀松平常,而不像是上世纪五六十年代,只能存在于人们想象中的喷气背包或者火箭车。
亚马逊商城在向你推荐图书时,用到了“偏好推测算法”, 换句话说,这就是预测分析。发放信用卡的公司也会用预测类程序来找出忠诚度不高的客户,并为他们提供更多优惠,以防他们投入别家公司的门下,而蓝十字公司(Blue Cross)则希望, 能预测个人投保人在未来数年内都需要哪些医疗服务。
从传统上说,人类一直依靠知识和直觉来预测未来。人的 确也很擅长这类直觉预测,马尔科姆· 格拉德威尔(Malcolm Gladwell)在他2007年出版的畅销书《眨眼之间》(Blink )中如此写道。但是,预测分析学的倡导者认为,我们如今每天都 在通过相机、电脑、手机产生各种信息,数量之多,已达到不 可思议的程度。“商业机构和政府部门的数据量早已超过了兆 (MB)或者吉(GB,1GB=1 000MB)的量级,现在需要TB (1TB=1 000GB)甚至PB(1PB=1 000TB)才能存储,”伊恩·艾 尔斯(Ian Ayres)在他2008年出版的《超级数字天才》(Super Crunchers )中写道。这是一部颇有影响力的分析学书籍,书中提出的假说与《眨眼之间》的观点恰恰相反:我们正航行在信 息的海洋中,这片海洋之大,单靠智力,我们根本找不到方向。 在警务工作中,每一个求助电话,每一次停车检查,每一 番街头问询和抓捕,都会产生大量数据,要从中厘清犯罪线索, 无疑会让分析人员焦头烂额——如果能从一大堆信息碎片中, 直接把有价值的线索挖掘出来,该有多好。长期以来,调查人员要分析数据,寻找有用信息时,都得从档案柜中翻出满是灰 尘的陈旧档案,一页一页地查阅,或者直接通过感觉来判断, 哪些事可能正在发生。“电脑数据统计”项目开展以后,为警务工作引入了一种常规的、半自动数据分析方法,自从这一技术 应用以后,发生变化的不仅仅有记录下的信息数量,还有因计 算机辅助分析带来的快捷。“以前,我们都是每年看一次犯罪统计,然后说,‘喔,你看都发生了什么’,”洛杉矶警察局负责分 析工作的肖恩· 马里诺斯基(Sean Malinowski)队长说:“现在, 我们每个月、每周、每天都在看,甚至实时查看统计。”
犯罪活动实时监测中心(Real Time Crime Center)是孟菲 斯“预测警务”的“司令部”,这个对于打击犯罪来说有点时尚的新事物,就藏在该市市中心那座不起眼的警察局大楼的四楼。威廉姆斯带着我从里面走过,十多名分析员分成几排坐着, 时不时地敲击着电脑键盘。投影屏幕上显示着用图标标记过的 城市地图,这些标记点都安装有监控摄像头,能实时传回图像。 一个屏幕的上方出现了一个滚动新闻条,内容是最新上报的案 件,比如“机动车盗窃,中午12时30分46秒”。
在会议室,威廉姆斯把W· 理查德· 詹尼柯斯基(W. Richard Janikowski)介绍给我,詹尼柯斯基是孟菲斯大学的一位犯罪学家, 同时也是“蓝色粉碎”项目最早的发起者之一。当警方向他寻求帮助,希望能够降低城市里的性侵犯率(在过去20年里,性侵 犯在美国的各种犯罪排行中不是第一就是第二)时,“蓝色粉碎” 的种子就在各地播种开来。詹尼柯斯基召集了受害者进行集体讨论,并亲自前往案发地进行调查。但是,最重要的信息还是大量 来自警方的报告数据——案发时间、地点、侵犯过程描述,这些 数据大概来自5 000起性侵犯案件。分析显示,许多受害者都是 在相似的情况下遭到性侵犯的:当她们在晚上离开家,使用便利 店附近的投币电话亭的时候。于是,警方告诉便利店老板,让他 们把投币电话移至室内。果然不出所料,孟菲斯的性侵犯案件数 量迅速下降了。
实际上,这还只是“预测警务”的1.0版本。利用分析软件, 对最近发生的事件进行分析,詹尼柯斯基和合作伙伴准确推测 出了类似案件将在近期再度发生。从那以后,预测技术越来越 强大,警方可以从几十万条记录中挖掘出犯罪模式,数据处理 量比以前大得多。这就好比从吵闹的环境中找出一条有用的声音信息,这是人工方式难以实现的。 预测方法也开始变得越来越复杂。
未来不会总是过去的重复,所以犯罪学 家必须识别出个体因素,并从个体到整 体分析这些因素的影响。P · 杰弗里· 布 兰廷汉姆(P. Jeffrey Brantingham)是美 国加利福尼亚大学洛杉矶分校的“预测 警务”专家,在他看来,“预测警务”要 解决的最根本的问题是:“如果我们获悉 今天发生的一系列犯罪的情况,我们能 够打造一种数学模型,并以概率的方式, 预测出明天的犯罪情况吗?”
因此,里士满(美国弗吉尼亚州首府) 现在采取的措施,大概可以看做“预测 警务”的2.0版本。和孟菲斯一样,里士满也用到了分析软件(由IBM开发)。警 察局的计算机一周7天、一天24小时不间 断地分析每一个案件。犯罪地点的街道 名称及周边事物,例如自动取款机、公园、 酒吧等都属于分析对象。此外,当地主要企业[例如菲利普· 莫里斯公司(Phillip Morris,一家大型综合类跨国公司)]发放薪酬的日子,还有当 地音乐会、体育比赛的时间表也都被输入这些计算机中。所有的 一切,从枪击的时间选择到天气,再到月亮的阴晴圆缺,都会被 看作是潜在的重要信息。
要评估所有这些因素如何影响未来的犯罪,需要人与机器 通力合作,都把绝活拿出来。计算机更擅长标记出统计学趋势, 但人类警察仍然需要对这些趋势进行解释,孟菲斯警察局的豪 威尔· 斯塔恩斯中校(Lt. Col. Howell Starnes)说。“如果没有熟 悉辖区的警员的协助,你永远弄不清出到底是什么因素引起了 犯罪,”斯塔恩斯说:“这一点是你必须注意的。你不仅要知道 问题是什么,还得知道是什么引起了这些问题。”
“预测警务”的过程往往始于警察的经验判断,比如在发工 资那天,自动取款机附近就特别容易发生抢劫案。计算机分析 可以确定这些经验是否正确,还可以对它们进行补充完善。例如, 计算机也许会分析出,在发工资那天,在哪些自动取款机附近, 抢劫案的发生概率将会达到最高,因此警员应该优先考虑在那 些地方巡逻。在里士满,警察都有一种感觉,就是在一次枪械 展览后,暴力案件的发生率就会上升。计算机分析也证明他们 的感觉大致正确,但还不够精准——暴力案件发生率的峰值将 在枪械展览结束两周后到来,而不是他们认为的展览刚结束的 那个周末。
不过,比起人类警察,计算机的优势还是非常明显,因为 它们不仅具备惊人的处理能力,而且它们不像人类,在判断时 常受到偏见的影响。在2007年出版的一部叫做《数据挖掘和预 测分析》(Data Mining and Predictive Analysis )的书中,作者考林·麦 库(Colleen McCue,他曾经当过警察)描述了一种违背直觉的 现象,该现象是弗吉尼亚州一位研究哪类人更容易成为抢劫犯的犯罪学家发现的。“一般来说,要预测未来的犯罪事件,以前 的犯罪史是最可靠的参考资料,这是很正常的,”麦库写道,“但 让人吃惊的是,在预测时,以往的财产犯罪往往能比性犯罪更 好地预测强奸案。”特别是那种进入别人室内却没有偷到什么东 西的人,尤其容易成为强奸犯。他们的目标也许不是盗窃,而 是寻找一名受害者。所以,在未来,当计算机标记出一场突如 其来的入室盗窃,却又没有什么东西被盗时,住户就必须提高 警惕了,一起强奸案或许就在酝酿之中。
预测软件甚至不需要人类警察提供预测理论,尽管这些理 论可能有用。通过梳理大量数据,计算机可以自动设计出预测 算法,这个过程叫做规则归纳(rule induction)。向计算机输入 一系列数据,预测软件就能分析出,是哪些因素的共同作用导 致了犯罪事件,这些因素重新组合后,又会如何影响未来的犯 罪风险。比如,当某个地方会在周末举办一场枪械展览,而天 气预报说该地周末会有高温天气,那将会发生什么?又或者, 如果发工资那天,晚上会有一轮满月,又会发生些什么?
尽管有些疯狂,但里士满还是开始实施“预测警务”,然后 考察预测效果。每当他们引入一种新的候选因素,例如家长教 师协会(PTA)会议的时间表,他们都会对比实际情况与预测 结果,对预测模型进行重新评估。那么,这些模型的预测效果 到底如何?“最后,预测模型也许只需要使用一小部分候选因 素,”IBM的软件工程师比尔· 哈菲(Bill Hafey)说:“但这一 小部分因素却可以构建起最准确的模型。”
