网易首页 > 网易号 > 正文 申请入驻

江晓原:“数据挖掘”:天使还是魔鬼?

0
分享至


比特币收益与制造业和金属采矿业的股票收益呈负相关……

特朗普在推特文章中使用“with”这个单词四天后,中国茶叶分销商Urban Tea的股价会下跌……

特朗普在推特文章中使用“president”这个单词与两天后股价的标准普尔500指数之间存在0.43的相关性……

看到这些新发现的“规律”或“模式”,你震不震撼?惊不惊喜?如你所料,这样的发现离不开“大数据”和“AI算法”,特别是近年一个非常时髦的方法“数据挖掘”。


《不被信任的科学——大数据、人工智能与信息欺骗》,[美]加里·史密斯 著,孙 强 译,上海科技教育出版社2025年出版

一个经济学家眼中的“数据挖掘”

“数据挖掘”又被称为“机器学习”或“知识发现”——这些名词在中文语境中都是“好词”,充满了高科技和创新意味,肯定不具有任何批判色彩。所谓“数据挖掘”,用大白话来说,就是在海量的“大数据”中,借助各种“AI算法”,尝试“发现”或获取各种各样的数据关系。

加里·史密斯(Gary Smith)是美国经济学家、统计学家,耶鲁大学经济学博士,在波莫纳学院当经济学教授。面对如今的“大数据”和“AI算法”浪潮,史密斯看来是一个明显的保守派。2023年他出版了《不被信任的科学——大数据、人工智能与信息欺骗》一书,基本论点是:“虚假信息”“数据歪曲”“数据挖掘”这三件事情,正在极大地损害科学的信誉,使得科学不再被公众所信任。其中尤以“数据挖掘”让他深恶痛绝,在书中花了很大的篇幅进行抨击(主要集中在第三部分,即第8—10章)。

史密斯在书中所举的各种“数据挖掘”的例子,看上去当然是非常荒谬的。他将这些“数据挖掘”的发现称为“愚人金”(一种有着黄金色泽的铜),认为这些数据关系不仅很可能是毫无意义的,甚至还会具有欺骗性。但问题在于,“荒谬”和“不荒谬”的界限在哪里呢?或者说,在被“挖掘”出来的各种关系中,如何判断一种数据关系是“荒谬”的,而另一种是“不荒谬”的呢?

史密斯在对“数据挖掘”的定义中,似乎也接触到了这个问题:“在不受理论影响的数据中寻找潜在的模式,这被称为数据挖掘,即研究人员在数据中深入挖掘,并且无法预知他们会发现什么。”他又表示:“传统的数据库查询需要一定程度的假设,但挖掘大数据会揭示出我们甚至不知道要去寻找的关系和模式。”他还引用《连线》杂志上题为“大数据与理论家的消亡”的文章说:“算法寻找模式,而假设从数据中得出。分析师甚至不必再费心提出假设。”

总而言之,史密斯的意思归纳起来就是:传统的数据处理有理论指导和预期,而“数据挖掘”则是信马由缰,乱挖一气,希望能挖出点意想不到的东西来(比如本文开头所举的那些例子就很典型)。而史密斯在书中毫不犹豫地断言:“由数据挖掘所发现的大多数模式都是胡说八道。”

从传统的数据处理到“数据挖掘”

史密斯是一个经济学家,我猜想他可能并未接受过理工科的学术训练。其实“数据挖掘”到底是天使还是魔鬼,也未必像史密斯所想象的那样,因为它和传统的数据处理之间并无不可逾越的鸿沟,很多情况下它就是正常的科学研究手段。

我本科学天体物理专业出身,曾在中国科学院上海天文台工作过15年。天文学界有一种工具称为“星历表”,就是用现代天体力学方法,计算出太阳系中各大行星、矮行星等天体每隔一段时间(这个间隔称为“步长”)的天球坐标(黄经和黄纬)。用今天的眼光来看,我们完全可以将星历表看成一种“大数据”,我们可以使用适当的计算机语言(就是“AI算法”),在其中“挖掘”出各种各样的结果。例如,我们可以求出牧野之战那天(公元前1044年1月9日)清晨时木星在天球上的位置,也可以找出其他各种各样的数据关系——如果我们觉得这种关系有意义的话。

换句话说,从正常合理的数据分析处理,到史密斯所抨击的“数据挖掘”,中间有着类似“连续谱”的过度区域。数据处理技术在互联网和人工智能出现之前很早就存在了。史密斯所深恶痛绝的,其实应该是当下对“数据挖掘”的滥用。

至于“数据挖掘”为何会在当下被滥用,那确实与大数据和AI有关。我进天文台工作是20世纪80年代,那时的星历表还是一种非常厚的纸质大书,里面用极小的字密密麻麻印着数据,如果要在里面“挖掘”,只能用肉眼耐心搜寻数据,找出数据后还要用内插法处理过,才能够使用,在这种情况下,滥用是不可能发生的。而进入1990年代,我们开始使用NASA喷气推进实验室的星历表数字光盘,这时采用“AI算法”从星历表中“挖掘”数据已经成为可能,不过我们当然从未起过“滥用”的念头。

这是一幅荒诞的图景吗?

仅看《不被信任的科学》这样的书名,很容易让人误以为是“科学知识社会学”(SSK)方面的著作,其实却并非如此。史密斯虽然没有从科学哲学的角度去讨论问题(也许他不具备这方面的背景),但他对“大数据”和“AI算法”各种弊端的强烈批判,至少在客观效果上还是很有启发意义的。

比如书中第一部分讨论“虚假信息”,这就是我们通常意义上的所指:给出一些富有“科学”色彩的概念和说法,目的是对公众进行欺骗。作者举的例子是当下炙手可热的区块链和比特币。史密斯认为许多人根本不知道区块链是什么,只觉得它非常“科学”,非常高大上,那和它绑在一起的比特币必定前程远大。而他认为“比特币的内在价值为零”,他将比特币和金融史上的郁金香炒作和南海股票骗局视为同类——注意这是本书作者的看法,他被视为经济学家。不过我们当然不在这里讨论比特币的成败,如果比特币真的前程远大,那就是史密斯举例不当,但并不影响他对“虚假信息”的批判。

书中第二部分揭露“数据歪曲”,这也是中国读者所熟悉的,指对数据进行错误解读,看起来很“科学”,而且“用数据说话”,显得更加“有理有据”,因而更具欺骗性。史密斯举的例子还是比特币——看来他是真的和比特币有仇了。当然他对“数据歪曲”的批判,从学理上说仍然成立。

在本书的最后两个部分,史密斯发起了对人工智能和当代某些社会学研究的密集批判。他对人工智能业界迄今为止所宣称的各种进展,普遍评价很低。他还举出了各种他认为是荒诞离奇的“学术研究”例证,比如女性向男性求助时是披着头发还是扎着马尾更容易成功之类(其实这个例子未必荒诞)。

史密斯用一种相对来说比较朴素的思路,指出了一个有点魔幻的现象——科学技术的最新成果(互联网、大数据、人工智能等等),正在损害科学技术之前积累起来的声誉,使得公众失去对科学的信任:“科学家创造了大数据和分析大数据的工具,但两者都为科学家制造了更多让他们尴尬和损害他们信誉的机会。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
左派叙事持续崩塌:爱泼斯坦文件公开,左派精英集体塌方

左派叙事持续崩塌:爱泼斯坦文件公开,左派精英集体塌方

斌闻天下
2026-02-01 06:15:03
从丰田车看中国制造的底色:后工业时代的断层

从丰田车看中国制造的底色:后工业时代的断层

生命可以承受之轻
2026-01-29 09:27:20
春节前理发有讲究——这2天千万别理发 ,看看是哪2天?

春节前理发有讲究——这2天千万别理发 ,看看是哪2天?

一口娱乐
2026-02-01 11:27:55
女子8万卖掉俩儿子,打赏男主播,与多人交往竟不知孩子生父是谁

女子8万卖掉俩儿子,打赏男主播,与多人交往竟不知孩子生父是谁

云中浮生
2026-01-31 18:20:53
俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

俄为何要缺席判处击沉“莫斯科号”乌指挥官无期徒刑和巨额罚款?

高博新视野
2026-01-30 17:15:24
金价暴跌,深圳水贝挤满了人,扎堆买金;演员自曝4元/克买的白银,13年前存在银行保险箱忘了,逾期需补交7000多元

金价暴跌,深圳水贝挤满了人,扎堆买金;演员自曝4元/克买的白银,13年前存在银行保险箱忘了,逾期需补交7000多元

每日经济新闻
2026-02-01 16:10:05
70岁后想多活30年,记住这5句话,活好余生每一日

70岁后想多活30年,记住这5句话,活好余生每一日

青苹果sht
2026-01-31 05:27:33
中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

中国正加速抛售美债,美专家:中国用了新抛售方式,完全无法干预

似水流年忘我
2026-01-29 01:24:08
1984年,陈惠敏带孕妻参加宴会,苏龙一脚把陈惠敏妻子踢出3米远

1984年,陈惠敏带孕妻参加宴会,苏龙一脚把陈惠敏妻子踢出3米远

南权先生
2026-01-31 15:42:15
陈虹 :90 年代写真封神!把东方美刻进了胶片里

陈虹 :90 年代写真封神!把东方美刻进了胶片里

飛娱日记
2026-02-01 15:35:53
后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

后生可畏啊!一家长吐槽女儿为省下1800元,坐了17个小时大巴回家

火山诗话
2026-01-30 15:13:24
捐助乌克兰的榜单,中国人感动了全世界……

捐助乌克兰的榜单,中国人感动了全世界……

家传编辑部
2026-02-01 14:00:34
卷入爱泼斯坦案,马斯克回应:与爱泼斯坦几乎没有往来,多次拒绝其邀请

卷入爱泼斯坦案,马斯克回应:与爱泼斯坦几乎没有往来,多次拒绝其邀请

界面新闻
2026-02-01 07:41:30
下周一2月2日,持有这些个股的要小心了(附个股点评)

下周一2月2日,持有这些个股的要小心了(附个股点评)

股市皆大事
2026-02-01 13:18:39
日本山林发现的中国籍女性推测已死亡数周:外裤掉落附近,多处外伤,警方初步认定系遭谋杀

日本山林发现的中国籍女性推测已死亡数周:外裤掉落附近,多处外伤,警方初步认定系遭谋杀

红星新闻
2026-01-31 16:23:50
Clawdbot进化速度离谱:突然开口说话,给自己捏脸,还能炒股砍价

Clawdbot进化速度离谱:突然开口说话,给自己捏脸,还能炒股砍价

DeepTech深科技
2026-01-29 18:14:10
“走走真是怕!”食品一店、新雅……上海老字号门前道道槛,老人“步步惊心”

“走走真是怕!”食品一店、新雅……上海老字号门前道道槛,老人“步步惊心”

上观新闻
2026-02-01 07:40:06
牛逼!重磅3方交易!完了,湖人彻底麻了...

牛逼!重磅3方交易!完了,湖人彻底麻了...

技巧君侃球
2026-02-01 16:40:17
王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

娱乐团长
2025-11-16 15:45:42
李诞被“骗”20万的南极行,刷爆全网,所有人竟然都感谢他!

李诞被“骗”20万的南极行,刷爆全网,所有人竟然都感谢他!

背包旅行
2026-01-30 10:33:26
2026-02-01 17:43:00
文汇报 incentive-icons
文汇报
华语世界高品质人文阅读平台
269628文章数 309868关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

艺术
时尚
数码
手机
本地

艺术要闻

明代隐藏的“草书高手”,他的字无人能模仿

伊姐周六热推:电视剧《年少有为》;电视剧《有罪之身》......

数码要闻

REDMI Turbo 5 Max媒体评价汇总,大家认为客观吗?

手机要闻

别急着换机,只因下半年各大厂商都有大升级,这次等等党要赢了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版