网易首页 > 网易号 > 正文 申请入驻

大数据时代因果分析不再重要了吗

0
分享至

随着计算社会科学研究方法的快速发展,数字化技术和大模型在学术研究和商业领域的应用日益增多。一种观点认为,基于大数据的分析方法主要使用相关关系,因此在大数据时代应该抛下对因果关系的执着,转而去关注更加简单易得的相关关系。这种观点看似有一定道理,实则是片面和错误的。无论在哪个时代,探索相关关系和因果关系都是科学研究不可偏废的两个目标。大数据时代不仅对因果分析提出了新的诉求,而且为完善因果分析提供了新的机遇。

技术变革对社会科学研究方法带来挑战与机遇。本报 Al 制图

大数据研究也需要因果解释

从研究目的的角度看,社会科学研究可分为描述研究、解释研究和预测研究三类。描述性研究主要回答“是什么”的问题,这类研究通常借助有代表性的调查数据或大数据,描摹现象的特征和趋势,分析变量间的关联模式及其时空差异;解释性研究主要回答“为什么”的问题,这类研究通常借助统计方法和因果推理,揭示变量间的因果关系,解释推动事物发展的过程和机制;预测性研究主要回答“未来会怎样”的问题,这类研究通常基于历史数据总结规律和模式,据此推测事物的未来趋势或事件发生的概率。根据上述分类框架,当前大数据研究的主要目的是描述和预测,但这不代表大数据研究不需要因果解释。

首先,对那些描述性的大数据研究来说,通过大数据确实可以挖掘出很多关联和模式,但这些关联和模式有可能是虚假的,缺乏实际意义,而因果解释可以帮助区分真实的关系和虚假的关联。例如,对健康大数据进行分析可能发现“冰淇淋销量与中暑人数呈正相关”。如果仅停留在描述层面,可能会得出“吃冰淇淋导致中暑”的错误结论。实际上,两者都是高温天气的结果。因果解释可以揭示真正的驱动因素是气温,从而避免误导性结论。此外,描述性的大数据研究只能呈现现象的表面特征,而因果解释能够揭示现象背后的机制,帮助研究者更深入地理解问题。例如,对教育大数据进行分析可能发现“学生使用电子设备的时间与学业成绩呈负相关”。如果仅描述这一现象,可能会得出“减少电子设备使用能提高成绩”的结论。但因果解释可能揭示出家庭经济条件、学习习惯等混杂因素的影响,从而提供更准确的建议。

其次,对那些预测性的大数据研究来说,仅依赖相关性构建的预测模型可能在实际情况发生变化时失效,而因果解释可以帮助识别稳定的因果关系,提高模型的通用性。以大数据研究中一度引以为傲的谷歌流感趋势预测为例,该预测基于谷歌搜索引擎大数据和机器学习算法成功预测出了美国2009年前后流感的发展趋势,其结果在准确性上与美国疾控中心的调查结果相当。但是,在2011年以后,该预测开始系统性地高估美国的流感发生率,部分时期的预测结果甚至是美国疾控中心调查结果的两倍。一些学者就此对谷歌流感发展趋势预测的准确性提出质疑。但面对质疑,谷歌公司的技术人员却有些束手无策,因为他们使用的预测模型完全是一个“黑箱”,这导致模型的开发者也不清楚预测模型为何出错、什么时候会出错,以及如何纠正这些错误。

最后,在法律、金融、医疗等许多应用领域,基于大数据的预测模型不仅需要高精度,还需要可解释性。因果解释则可以帮助理解模型的决策逻辑,增强用户信任。以人工智能技术在医疗领域的应用为例,研究发现,很多医生拒绝采纳基于医疗大数据的预测模型给出的诊断结果。其中一个重要原因是这些预测模型的诊断机制不明,而如果预测模型在给出诊断结果的同时提供诊断依据和机制,医生采纳的可能性会大幅提高。

由上可见,缺乏可解释性和透明度是大模型在应用推广过程中不可忽视的一大阻碍。虽然预测可能只需使用相关关系,但要让预测结果更科学、合理及可接受,必须给出因果解释。基于大数据的社会预测在突出相关性的同时,不应排斥因果性。实际上这类应用对因果性提出了更高的要求,而当下主流的大数据研究方法尚不能很好地回应这些要求。

大数据研究可以助力因果推断

大数据研究不仅需要因果分析,而且可以通过提供丰富的数据来源、支持精细的变量控制、拓展因果推断工具和方法、支持动态因果分析等途径,显著提高因果推断的可信度和可靠性。

第一,大数据涵盖多种数据类型(如结构化数据、文本、图像、传感器数据等),而且通常具有更高的时间分辨率和空间覆盖率,这些数据可以帮助研究者更全面地捕捉因果关系中的复杂因素。例如,淘宝、京东等电商平台通过融合用户的购买历史、浏览记录、搜索关键词等文本数据,以及用户的点击行为、购买行为等传感数据,借助因果推断模型优化用户推荐算法。

第二,大数据通常包含更多的变量和更细粒度的信息,这使得研究者能够更好地控制混杂变量,从而更准确地识别因果关系。例如,在教育领域,有研究者利用学生的学习行为数据(如在线学习平台的点击流数据、作业完成情况、考试分数等),分析不同教学策略对学生成绩的影响。通过控制学生的背景特征(如家庭经济状况、学习习惯等),可以更准确地推断出教学策略的因果效应。

第三,大数据研究为因果推断提供了更多的工具和方法,如因果森林、双重机器学习等,这些方法可以更好地处理高维数据和非线性的因果关系。例如,有研究者利用电商平台的交易数据,分析促销活动对销售额的影响。通过使用双重机器学习方法,可以在控制其他影响因素(如季节性、市场竞争等)的同时,准确估计促销活动的因果效应。

第四,大数据通常具有时间序列特性,因而能够天然地捕捉变量间的动态关系,这对分析因果关系的时效性和滞后效应非常重要。例如,在环境科学领域,有研究者利用气象传感器数据和空气质量监测数据,分析空气污染与气象条件之间的动态因果关系。通过分析风速、湿度和污染物浓度的时序数据,可以推断出气象条件对空气污染的因果影响。

大数据研究推动因果分析范式转型

在提升因果推断的可靠性之外,大数据研究也对当前主流的因果分析范式提出了挑战,有可能在多个方面推动未来因果分析范式的转型。

首先,从“理论驱动”到“理论和数据双重驱动”。传统因果分析通常是理论驱动的,即先提出假设,再通过数据验证。而大数据推动了数据驱动的研究范式,即通过数据挖掘发现潜在的因果关系,再结合理论进行解释。近年来,有学者提出了“计算扎根”的概念,认为在大数据时代,社会科学研究者要善于从纷繁芜杂的数据中发现因果关系,提出因果理论。计算扎根或数据驱动的因果分析方法很可能会成为未来因果分析的一个重要方向,值得进一步关注。

其次,从侧重“因果识别”到更关注“机制解释”。传统因果分析主要致力于使用实验或统计方法识别自变量对因变量的影响大小,缺乏对因果机制的深入解释。但在大数据时代,机制解释的重要性可能会大幅提高。例如在很多基于大数据的预测研究中,研究者已经可以找到一个预测效果不错的模型,但无法对模型的预测机理给出合理解释。因此,如何打开预测模型背后的“黑箱”,提高模型的透明度和可解释性势必会成为未来因果分析的一个重要研究方向。

最后,从“由因溯果”到“由果溯因”。传统因果分析主要关注某个原因变量对结果变量的平均影响,较少分析某个特定结果是如何由众多原因变量共同导致的。在大数据时代,预测研究得到空前发展,从提高预测准确性的角度看,仅关注单一原因变量是不够的,因此未来的因果分析势必要研究更加复杂的因果网络,以求更加全面地揭示对结果有影响的所有原因。

综上所述,大数据时代的到来并没有否定因果分析的价值,而是为拓展传统的因果分析方法提供了很多机遇。因果思维是人类认识世界的核心要求,认为相关关系重于因果关系是对大数据分析技术的夸大和误解,绝非大数据自身的诉求。在大数据时代,人们一方面需要依靠数据和算法提供更有预测性的结论,为决策提供依据;但另一方面也要避免数据的傲慢和算法的操控,为个体自由提供空间。这两方面的要求都需要我们重拾因果分析的重要性。在大数据时代,因果分析不仅依然重要,而且比以往任何一个时代都更加重要。

作者系南京大学社会学院教授

来源:中国社会科学报

责任编辑:李文珍

新媒体编辑:张雨楠

如需交流可联系我们

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子坐月子期间发现丈夫不对劲,跟他出门发现被背叛,便晕倒在地

女子坐月子期间发现丈夫不对劲,跟他出门发现被背叛,便晕倒在地

雪雪趣闻专栏
2026-04-10 18:16:16
八零后晒存款540w每天很焦虑!网友热议:中年危机原来只是我自己

八零后晒存款540w每天很焦虑!网友热议:中年危机原来只是我自己

另子维爱读史
2026-04-10 09:46:26
停火两周的生存挑战:革命卫队如何保障伊朗九千万人的吃喝?

停火两周的生存挑战:革命卫队如何保障伊朗九千万人的吃喝?

高博新视野
2026-04-10 06:30:09
中东停火不到24小时,美国就调转枪口对准中国,F-35密集“压境”

中东停火不到24小时,美国就调转枪口对准中国,F-35密集“压境”

有范又有料
2026-04-09 15:55:08
突发!实控人巨额减持!

突发!实控人巨额减持!

新浪财经
2026-04-10 02:11:33
越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

岐黄传人孙大夫
2026-03-17 23:25:03
太意外!李国旭能想到?大连3:0大胜,浙江球迷愤怒:4词讽刺球队

太意外!李国旭能想到?大连3:0大胜,浙江球迷愤怒:4词讽刺球队

话体坛
2026-04-10 22:18:47
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
郑丽文想要的,大陆给得很干脆,随行人员有惊喜,蓝营一姐发话了

郑丽文想要的,大陆给得很干脆,随行人员有惊喜,蓝营一姐发话了

奇思妙想生活家
2026-04-10 18:07:58
福建车辆坠河5死后续,亲戚澄清3条真相,尤其痛心是车外男子身份

福建车辆坠河5死后续,亲戚澄清3条真相,尤其痛心是车外男子身份

观察鉴娱
2026-04-10 09:35:57
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2026-04-10 17:28:37
绿营将“追杀”郑丽文,爆料称高层交代不放过一人,直到达成目的

绿营将“追杀”郑丽文,爆料称高层交代不放过一人,直到达成目的

谛听骨语本尊
2026-04-10 18:30:15
“中国速度,英国算是见识到了”

“中国速度,英国算是见识到了”

观察者网
2026-04-10 20:07:16
发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

二胡的岁月如歌
2026-04-09 15:09:50
辽宁双加时输2分!广东狂胜33分,北京赢19分上海赢3分,排名大变

辽宁双加时输2分!广东狂胜33分,北京赢19分上海赢3分,排名大变

老吴说体育
2026-04-10 22:10:55
放弃1490万,追求2.4亿顶薪!里夫斯新下家公布,湖人恐沦为陪跑

放弃1490万,追求2.4亿顶薪!里夫斯新下家公布,湖人恐沦为陪跑

林子说事
2026-04-10 17:35:51
张伦硕吐槽钟丽缇买50万水晶裙,得知是老婆自己钱后依旧不依不饶

张伦硕吐槽钟丽缇买50万水晶裙,得知是老婆自己钱后依旧不依不饶

观鱼听雨
2026-04-08 19:35:53
A股:刚刚,证监会发布,创业板迎重大变革,下周一将有新的变化

A股:刚刚,证监会发布,创业板迎重大变革,下周一将有新的变化

丁丁鲤史纪
2026-04-10 19:01:02
中国通用技术(集团)原总经理助理李克全接受监察调查

中国通用技术(集团)原总经理助理李克全接受监察调查

界面新闻
2026-04-10 10:01:37
形势大变!以德为首的西方国家齐发声:中国已在换电关键领域崛起

形势大变!以德为首的西方国家齐发声:中国已在换电关键领域崛起

古史青云啊
2026-04-10 09:54:42
2026-04-10 22:56:50
中国社会科学网 incentive-icons
中国社会科学网
中国社会科学院官方网站
19163文章数 25606关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

与内塔尼亚胡通话后 特朗普改口了

头条要闻

与内塔尼亚胡通话后 特朗普改口了

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

家居
游戏
数码
教育
公开课

家居要闻

复古风格 自然简约

数毛社点评批评XSS!《红色沙漠》画面糊成渣

数码要闻

山灵SM1.3R流媒体数播解码一体机开售预约,售价8998

教育要闻

快快快!建邺区头部公办初中家长开放日来了……

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版