网易首页 > 网易号 > 正文 申请入驻

大语言模型助力因果推断三路径

0
分享至

随着计算社会科学这一新研究范式的出现,研究者可以依托大数据以及机器学习等新方法对人类行为和社会现象进行全景式描述,甚至对未来的走势进行预测。但反观用于“解释”世界的因果推断技术,却因其固有的局限受到质疑,在学界出现了一种低估甚至否定因果推断价值的观点倾向。从方法论层面看,针对因果推断的批评有其合理性,传统的因果推断方法在反事实框架构建、遗漏变量偏差、测量偏差三方面存在明显缺陷,因而在对现象之间的联系作出准确估计时会存在问题。不过,随着人工智能(AI)时代的来临,大语言模型这一突破性的AI技术可以通过三种路径来弥补传统因果推断方法的既有缺陷,从而为研究者解释世界提供强大助力。

路径一:通过构建虚拟实验对象完善反事实框架

因果推断建立在反事实框架之上。在反事实框架中,个体具有一个反事实结果,即发生/不发生某个干预或处理产生的潜在结果。研究者通过对比个体在干预和未干预状态下的结果来作出因果推断。但在真实世界中,研究者无法同时观测到上述两种结果,这使得反事实框架难以建立,从而降低因果推断的效力。为了解决这一难题,研究者通常将控制组的观测结果近似等同于处理组的反事实结果。显然,这需要假定控制组的观测结果与处理组的反事实结果之间的差异可被忽略,即满足可忽略性假设。在实际研究中,实验法能通过随机分配满足可忽略性假设,但在研究伦理和实验成本的约束下,实验的干预和边界均会受到限制。

大语言模型相比于传统因果推断方法的最大优势是可以构建虚拟实验对象,这使得研究者可以完善反事实框架,进而作出更加精准的因果推断。相关研究表明,大语言模型所构建的虚拟实验对象不仅可以复现行为经济学和心理学的经典研究,而且能够通过任意设定实验对象的特征进行拓展研究。这不仅节省了开展实验所需的经济和时间成本,而且避免了以真实个体为对象开展实验所涉及的伦理规范问题。更为重要的是,针对敏感群体开展的研究通常面临着接触难度大、社会期望偏差等难题。而大语言模型则可以通过海量文本数据训练来模拟敏感群体的认知、情感和行为,进而拓展实验边界。

路径二:通过丰富研究变量来纠正遗漏变量偏差

传统研究方法对观察数据满足可忽略性假设的要求,通常也意味着研究潜藏着遗漏变量偏差、选择偏差、联立性偏差以及测量偏差四种内生性问题。其中,遗漏变量偏差可以被划分为遗漏可观测变量偏差和遗漏不可观测变量偏差。大语言模型可以从以下两个方面纠正遗漏可观测变量带来的偏差,进而提高因果推断效力。

一方面,大语言模型可以从文本数据中精确提取传统文本分析方法难以获取的变量。传统文本分析方法通常被划分为词典法和机器学习法。具体而言,词典法利用预先设定的词典计算文本中目标词频,进而对比目标词频差异完成分类。机器学习法则借助人工标注的数据集训练模型,以使模型完成分类。然而,上述两种方法均存在一定局限:前者过于依赖预先设定的词典,后者则难以完全排除数据标注员的主观偏见。这使得传统文本分析方法难以精准提取深层次的文本信息,尤其在提取观念、态度等主观变量时,局限更加明显。与之相比,大语言模型能够直接分析文本全文、考虑文本情境以及推理文本意图,进而精确提取出潜在变量。此外,大语言模型从长文本数据中提取变量的表现同样优秀。例如,有学者运用ChatGPT大语言模型来分析社交媒体用户的发言以及更新状态,并从中提取关于人格特质的信息,由此可以准确推断用户的心理倾向。

另一方面,大语言模型可以从语言、图片以及视频等非文本的多模态数据中提取变量。其中,图片数据得到医学领域的重点关注。国外学者发现,大语言模型在通过病理报告预训练后能够解读病理学图像,进而提取肿瘤位置、等级以及发展阶段等信息,并且解读的正确率超过87%。当然,也有研究发现,不同类型的大语言模型在提取病征时的准确率存在差异,需要研究者有所甄别。

路径三:通过优化数据处理过程来降低测量偏差

测量偏差是造成因果推断失效的另一个原因。测量偏差是指变量的观测值与真实值之间的偏差。当因变量存在测量偏差时,系数估计值可能会不显著,从而降低因果推断的有效性。而当自变量存在测量偏差时,因果推断的无偏性会受到影响,即系数估计值偏离真实值。优化数据处理是大语言模型的重要功能,它可以从三个方面来降低测量偏差。

首先,大语言模型能够提高分词的正确率。传统的分词工具依赖人工编制的词典,难以识别所有的专业术语。而大语言模型依托庞大的训练数据构建了覆盖全领域知识库,能够正确提取出不同领域的专业术语,进而降低测量偏差。

其次,大语言模型可以提高实体匹配的准确率。文本数据普遍存在多国语言混杂等对同一实体的多样化表述。这种多样化表述可能会产生偏差,进而影响主题分类的准确性。研究表明,大语言模型能够捕捉到相关的多国语言信息,统一这些表述,从而降低测量偏差。

最后,大语言模型能够通过上下文分析和概率预测,准确纠正拼写错误,确保文本分类的准确性。

需要说明的是,现阶段的大语言模型仍然无法在根本上克服因果推断的内在局限。这是因为大语言模型存在可重复性差和知识截止两方面的技术缺陷:前者是指大语言模型采用的随机采样机制可能导致新的输出结果与原有结果不一致;后者是指大语言模型的训练数据存在截止日期,这意味其可能无法精准识别新兴领域的专业术语。不过,上述缺陷也为改进大语言模型提供了明确指引。而且,随着算力的不断增强以及算法的不断更新,大语言模型将以指数级速度进行迭代,其既有的技术缺陷有望得到弥补,从而可以为因果推断提供更强大的助力。

作者系哈尔滨工程大学人文社会科学学院教授

来源:中国社会科学报

责任编辑:李文珍

新媒体编辑:张雨楠

如需交流可联系我们

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙颖莎还是被点名了!人民日报亲自下场点破真相,评论一针见血

孙颖莎还是被点名了!人民日报亲自下场点破真相,评论一针见血

冷紫葉
2025-12-16 19:46:13
俄外长:美已向俄承诺乌将放弃部分领土

俄外长:美已向俄承诺乌将放弃部分领土

参考消息
2025-12-17 18:32:07
黎智英遭裁决,美国大鱼被供出,30国势力同时冒头,逼中方放人?

黎智英遭裁决,美国大鱼被供出,30国势力同时冒头,逼中方放人?

博览历史
2025-12-16 18:19:52
警方凌晨通报:张某军(男,43岁)投案

警方凌晨通报:张某军(男,43岁)投案

南方都市报
2025-12-17 09:25:24
向太直播豪送郭碧婷12亿财产 坚守1原则:公司不留2儿子、留给她

向太直播豪送郭碧婷12亿财产 坚守1原则:公司不留2儿子、留给她

达达哥
2025-12-16 18:57:28
冤不冤?杨鸣为何连吃2T被驱逐,成赛季第一人,恐遭篮协追加处罚

冤不冤?杨鸣为何连吃2T被驱逐,成赛季第一人,恐遭篮协追加处罚

萌兰聊个球
2025-12-17 22:30:53
净亏4000万!西媒:利物浦愿以1.1亿欧元将维尔茨卖给皇马

净亏4000万!西媒:利物浦愿以1.1亿欧元将维尔茨卖给皇马

球事百科吖
2025-12-17 05:43:03
笑了!柬泰冲突后,泰国驻华大使馆微博下面,全是一样的评论

笑了!柬泰冲突后,泰国驻华大使馆微博下面,全是一样的评论

消失的电波
2025-12-15 14:10:23
黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

黄有龙做梦也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

查尔菲的笔记
2025-12-16 15:14:06
1992年,28岁的何晴与同学合影留念,站在C位太显眼了

1992年,28岁的何晴与同学合影留念,站在C位太显眼了

振华观史
2025-12-16 17:15:01
毛衣意外粘走3000元翡翠耳环,广东一女子逐家询问找到失主,店主:如释重负,感谢!

毛衣意外粘走3000元翡翠耳环,广东一女子逐家询问找到失主,店主:如释重负,感谢!

扬子晚报
2025-12-16 17:49:22
A股突然亢奋起来

A股突然亢奋起来

隔壁老投
2025-12-17 14:51:31
辣眼“知情人”曝料已婚知名大导演追求北电女学生,聊天记录脸红

辣眼“知情人”曝料已婚知名大导演追求北电女学生,聊天记录脸红

天天热点见闻
2025-12-16 16:57:46
《阿凡达3》预售票房杀疯了,把刘德华这部耗资2亿的大片吓跑了

《阿凡达3》预售票房杀疯了,把刘德华这部耗资2亿的大片吓跑了

糊咖娱乐
2025-12-15 19:16:46
刘德华撤档,《内幕》亏损近2亿,我感慨:卖情怀救不了港片

刘德华撤档,《内幕》亏损近2亿,我感慨:卖情怀救不了港片

糊咖娱乐
2025-12-17 18:46:48
邱毅:流传的屠杀中国人的日本军官照片是高市早苗祖父高市利彦!

邱毅:流传的屠杀中国人的日本军官照片是高市早苗祖父高市利彦!

南权先生
2025-12-16 16:22:32
破防了!小时候觉得身高没有那么重要,长大了才知道身高是硬伤!

破防了!小时候觉得身高没有那么重要,长大了才知道身高是硬伤!

夜深爱杂谈
2025-12-17 22:32:45
何晴主治医师爆料,许亚军为何晴付多年医药费,出钱出力很重情义

何晴主治医师爆料,许亚军为何晴付多年医药费,出钱出力很重情义

晓肂爱八卦
2025-12-17 14:26:39
张水华被医院处分不到一周,恶心事接连发生,遭殃的何止是白岩松

张水华被医院处分不到一周,恶心事接连发生,遭殃的何止是白岩松

阿纂看事
2025-12-16 11:17:04
中国股市大佬罕见发声:如果散户长期捂股不斩仓,庄家会怎么办?

中国股市大佬罕见发声:如果散户长期捂股不斩仓,庄家会怎么办?

股经纵横谈
2025-12-17 20:54:54
2025-12-17 23:20:49
中国社会科学网 incentive-icons
中国社会科学网
中国社会科学院官方网站
18676文章数 25576关注度
往期回顾 全部

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

旅游
艺术
教育
本地
家居

旅游要闻

大理洱源县境内的G214国道擅长蛇形走位,堪称经典的天险路段

艺术要闻

毛主席书写林则徐诗词,字迹超凡,引发关注。

教育要闻

明早9点,“三尺之外”城市教育谈正式开讲!点这里预约直播

本地新闻

云游安徽|踏过战壕与石板,读一部活的淮北史

家居要闻

温馨独栋 驼色与浅色碰撞

无障碍浏览 进入关怀版