网易首页 > 网易号 > 正文 申请入驻

江晓原:“数据挖掘”:天使还是魔鬼?

0
分享至


比特币收益与制造业和金属采矿业的股票收益呈负相关……

特朗普在推特文章中使用“with”这个单词四天后,中国茶叶分销商Urban Tea的股价会下跌……

特朗普在推特文章中使用“president”这个单词与两天后股价的标准普尔500指数之间存在0.43的相关性……

看到这些新发现的“规律”或“模式”,你震不震撼?惊不惊喜?如你所料,这样的发现离不开“大数据”和“AI算法”,特别是近年一个非常时髦的方法“数据挖掘”。


《不被信任的科学——大数据、人工智能与信息欺骗》,[美]加里·史密斯 著,孙 强 译,上海科技教育出版社2025年出版

一个经济学家眼中的“数据挖掘”

“数据挖掘”又被称为“机器学习”或“知识发现”——这些名词在中文语境中都是“好词”,充满了高科技和创新意味,肯定不具有任何批判色彩。所谓“数据挖掘”,用大白话来说,就是在海量的“大数据”中,借助各种“AI算法”,尝试“发现”或获取各种各样的数据关系。

加里·史密斯(Gary Smith)是美国经济学家、统计学家,耶鲁大学经济学博士,在波莫纳学院当经济学教授。面对如今的“大数据”和“AI算法”浪潮,史密斯看来是一个明显的保守派。2023年他出版了《不被信任的科学——大数据、人工智能与信息欺骗》一书,基本论点是:“虚假信息”“数据歪曲”“数据挖掘”这三件事情,正在极大地损害科学的信誉,使得科学不再被公众所信任。其中尤以“数据挖掘”让他深恶痛绝,在书中花了很大的篇幅进行抨击(主要集中在第三部分,即第8—10章)。

史密斯在书中所举的各种“数据挖掘”的例子,看上去当然是非常荒谬的。他将这些“数据挖掘”的发现称为“愚人金”(一种有着黄金色泽的铜),认为这些数据关系不仅很可能是毫无意义的,甚至还会具有欺骗性。但问题在于,“荒谬”和“不荒谬”的界限在哪里呢?或者说,在被“挖掘”出来的各种关系中,如何判断一种数据关系是“荒谬”的,而另一种是“不荒谬”的呢?

史密斯在对“数据挖掘”的定义中,似乎也接触到了这个问题:“在不受理论影响的数据中寻找潜在的模式,这被称为数据挖掘,即研究人员在数据中深入挖掘,并且无法预知他们会发现什么。”他又表示:“传统的数据库查询需要一定程度的假设,但挖掘大数据会揭示出我们甚至不知道要去寻找的关系和模式。”他还引用《连线》杂志上题为“大数据与理论家的消亡”的文章说:“算法寻找模式,而假设从数据中得出。分析师甚至不必再费心提出假设。”

总而言之,史密斯的意思归纳起来就是:传统的数据处理有理论指导和预期,而“数据挖掘”则是信马由缰,乱挖一气,希望能挖出点意想不到的东西来(比如本文开头所举的那些例子就很典型)。而史密斯在书中毫不犹豫地断言:“由数据挖掘所发现的大多数模式都是胡说八道。”

从传统的数据处理到“数据挖掘”

史密斯是一个经济学家,我猜想他可能并未接受过理工科的学术训练。其实“数据挖掘”到底是天使还是魔鬼,也未必像史密斯所想象的那样,因为它和传统的数据处理之间并无不可逾越的鸿沟,很多情况下它就是正常的科学研究手段。

我本科学天体物理专业出身,曾在中国科学院上海天文台工作过15年。天文学界有一种工具称为“星历表”,就是用现代天体力学方法,计算出太阳系中各大行星、矮行星等天体每隔一段时间(这个间隔称为“步长”)的天球坐标(黄经和黄纬)。用今天的眼光来看,我们完全可以将星历表看成一种“大数据”,我们可以使用适当的计算机语言(就是“AI算法”),在其中“挖掘”出各种各样的结果。例如,我们可以求出牧野之战那天(公元前1044年1月9日)清晨时木星在天球上的位置,也可以找出其他各种各样的数据关系——如果我们觉得这种关系有意义的话。

换句话说,从正常合理的数据分析处理,到史密斯所抨击的“数据挖掘”,中间有着类似“连续谱”的过度区域。数据处理技术在互联网和人工智能出现之前很早就存在了。史密斯所深恶痛绝的,其实应该是当下对“数据挖掘”的滥用。

至于“数据挖掘”为何会在当下被滥用,那确实与大数据和AI有关。我进天文台工作是20世纪80年代,那时的星历表还是一种非常厚的纸质大书,里面用极小的字密密麻麻印着数据,如果要在里面“挖掘”,只能用肉眼耐心搜寻数据,找出数据后还要用内插法处理过,才能够使用,在这种情况下,滥用是不可能发生的。而进入1990年代,我们开始使用NASA喷气推进实验室的星历表数字光盘,这时采用“AI算法”从星历表中“挖掘”数据已经成为可能,不过我们当然从未起过“滥用”的念头。

这是一幅荒诞的图景吗?

仅看《不被信任的科学》这样的书名,很容易让人误以为是“科学知识社会学”(SSK)方面的著作,其实却并非如此。史密斯虽然没有从科学哲学的角度去讨论问题(也许他不具备这方面的背景),但他对“大数据”和“AI算法”各种弊端的强烈批判,至少在客观效果上还是很有启发意义的。

比如书中第一部分讨论“虚假信息”,这就是我们通常意义上的所指:给出一些富有“科学”色彩的概念和说法,目的是对公众进行欺骗。作者举的例子是当下炙手可热的区块链和比特币。史密斯认为许多人根本不知道区块链是什么,只觉得它非常“科学”,非常高大上,那和它绑在一起的比特币必定前程远大。而他认为“比特币的内在价值为零”,他将比特币和金融史上的郁金香炒作和南海股票骗局视为同类——注意这是本书作者的看法,他被视为经济学家。不过我们当然不在这里讨论比特币的成败,如果比特币真的前程远大,那就是史密斯举例不当,但并不影响他对“虚假信息”的批判。

书中第二部分揭露“数据歪曲”,这也是中国读者所熟悉的,指对数据进行错误解读,看起来很“科学”,而且“用数据说话”,显得更加“有理有据”,因而更具欺骗性。史密斯举的例子还是比特币——看来他是真的和比特币有仇了。当然他对“数据歪曲”的批判,从学理上说仍然成立。

在本书的最后两个部分,史密斯发起了对人工智能和当代某些社会学研究的密集批判。他对人工智能业界迄今为止所宣称的各种进展,普遍评价很低。他还举出了各种他认为是荒诞离奇的“学术研究”例证,比如女性向男性求助时是披着头发还是扎着马尾更容易成功之类(其实这个例子未必荒诞)。

史密斯用一种相对来说比较朴素的思路,指出了一个有点魔幻的现象——科学技术的最新成果(互联网、大数据、人工智能等等),正在损害科学技术之前积累起来的声誉,使得公众失去对科学的信任:“科学家创造了大数据和分析大数据的工具,但两者都为科学家制造了更多让他们尴尬和损害他们信誉的机会。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普京开会亲口承认了残酷现实,俄罗斯已遭到了战争的反噬

普京开会亲口承认了残酷现实,俄罗斯已遭到了战争的反噬

泠泠说史
2026-03-25 19:57:28
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
孩子送的礼物戴了幼稚不戴又怕伤孩子心!网友:这孩子真孝顺

孩子送的礼物戴了幼稚不戴又怕伤孩子心!网友:这孩子真孝顺

夜深爱杂谈
2026-03-25 21:14:22
马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

马英九亲自下场后,蓝营大佬集体回应,台媒体人:罪在马英九

DS北风
2026-03-25 18:50:17
清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

历史小破站
2026-03-19 04:05:03
当医生看病遇到同行,网友:基本一句劝都听不到了!

当医生看病遇到同行,网友:基本一句劝都听不到了!

夜深爱杂谈
2026-03-25 21:05:25
国家机密,洲际导弹的制造方法

国家机密,洲际导弹的制造方法

远方青木
2026-03-25 23:55:16
吴柳芳彻底告别擦边!粉丝90万 网友:骂是她挨了 钱是父母弟弟拿走了

吴柳芳彻底告别擦边!粉丝90万 网友:骂是她挨了 钱是父母弟弟拿走了

情感大头说说
2026-03-26 12:46:10
马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

马英九接受《联合报》专访,谈萧旭岑违规,称: 决不私了!

混沌录
2026-03-25 16:22:07
一舞封神后,被东莞首富收入囊中,如今她已是7岁孩子妈妈

一舞封神后,被东莞首富收入囊中,如今她已是7岁孩子妈妈

白面书誏
2026-03-06 16:34:31
医生解剖5516例猝死者,发现猝死规律:易猝死的人,有4个共同点

医生解剖5516例猝死者,发现猝死规律:易猝死的人,有4个共同点

牛锅巴小钒
2026-03-25 22:05:21
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
滞留中国巴拿马船暴涨3倍,每天要交几十万,船东想换船籍保平安

滞留中国巴拿马船暴涨3倍,每天要交几十万,船东想换船籍保平安

卷史
2026-03-26 01:05:08
周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

周杰伦新专辑引吐槽声一片,还牵扯两段绯闻,歌不行只剩炒作?

乐天闲聊
2026-03-26 10:48:17
钱学森家族基因密码:一项择偶标准,可保家族后代不失天之骄子

钱学森家族基因密码:一项择偶标准,可保家族后代不失天之骄子

云霄纪史观
2026-03-23 19:57:36
张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

别人都叫我阿螫
2026-03-25 17:35:23
杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

杨振宁猝然离世5个月后,翁帆突传新消息,怀孕传闻早就真相大白

今墨缘
2026-03-26 10:09:32
惊天逆转!伊朗,吹响进攻号角!

惊天逆转!伊朗,吹响进攻号角!

大嘴说天下
2026-03-23 21:32:12
西方集体撤退!中国死磕,为什么全世界,就中国在拼命搞核聚变?

西方集体撤退!中国死磕,为什么全世界,就中国在拼命搞核聚变?

混沌录
2026-03-25 16:53:19
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
2026-03-26 13:39:00
文汇报 incentive-icons
文汇报
华语世界高品质人文阅读平台
273581文章数 309984关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
手机
时尚
健康
房产

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

2026年了,最好看的还是“这件针织”!

转头就晕的耳石症,能开车上班吗?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

无障碍浏览 进入关怀版