网易首页 > 网易号 > 正文 申请入驻

因果潜在因子模型中的双重稳健推断

0
分享至

Doubly Robust Inference in Causal Latent Factor Models

因果潜在因子模型中的双重稳健推断

https://arxiv.org/pdf/2402.11652



摘要

本文介绍了一种在存在未观测混杂因素情形下估计平均处理效应的新估计量,适用于现代数据丰富环境,该环境具有大量观测单元与结果变量。所提出的估计量具有双重稳健性,融合了结果填补(outcome imputation)、逆概率加权(inverse probability weighting)以及一种用于矩阵补全(matrix completion)的新型交叉拟合(cross-fitting)程序。我们推导了有限样本与渐近性质的理论保证,并证明该新估计量的误差以参数速率收敛至均值为零的高斯分布。模拟结果验证了本文所分析估计量的形式性质的实际相关性。

  1. 引言

本文提出了一种在存在未观测混杂因素情形下、针对现代数据丰富环境的平均处理效应估计新框架。我们将现代数据丰富环境定义为在大量观测单元上收集了广泛结果测量值的环境。我们对数据丰富环境的关注源于数字平台(例如互联网零售商、社交媒体公司和共享出行公司)、电子病历系统、物联网设备以及其他实时数字化数据系统的兴起,这些系统以前所未有的广度与细粒度收集经济与社会行为数据。

以互联网零售商为例。该平台不仅收集众多客户在众多产品或产品类别上的购买信息,还记录浏览次数、曝光量、转化率、参与度指标、导航路径、配送选择、支付方式、退货记录、用户评价等数据。尽管某些变量(如地理位置、设备或浏览器类型)可被安全地视为相对于平台处理行为(如广告投放、折扣发放、网页设计等)预先确定的变量,但大多数变量均为受处理干预、潜在客户偏好及未观测产品特征共同影响的结果变量。我们利用现代数据丰富环境中大量结果测量值的可得性,在存在未观测混杂因素的情况下估计平均处理效应。核心识别思想在于:若高维结果向量的每个元素均受同一低维未观测混杂因素向量的影响,则有可能消除混杂因素的影响并识别出处理效应。

处理效应估计主要有两种方法:基于结果的方法(outcome-based methods)与基于分配的方法(assignment-based methods)。仍以互联网零售平台为例,客户与不同产品类别发生交互,平台针对每个消费者-类别配对决定是否提供折扣,并记录消费者是否在该类别中购买了产品。基于结果的方法通过填补每个消费者-产品类别配对缺失的潜在结果进行操作:该过程包括预测接受折扣的消费者若未获得折扣是否会购买(即无折扣下的潜在结果),反之亦然,预测未获折扣的消费者若获得折扣是否会购买(即有折扣下的潜在结果)。相比之下,基于分配的方法则估计消费者在各产品类别中获得折扣的概率,并通过对观测结果进行与缺失概率成反比的加权来调整缺失的潜在结果。

大量文献探讨了基于结果的方法,尤其在所有混杂因素均被观测的设定下(参见如Cochran, 1968;Rosenbaum与Rubin, 1983;Angrist, 1998;Abadie与Imbens, 2006等众多研究)。在存在未观测混杂因素情形下进行潜在结果填补则构成更为复杂的挑战。在此背景下,常用框架包括合成控制法及其变体(参见如Abadie与Gardeazabal, 2003;Abadie等, 2010;Cattaneo等, 2021;Arkhangelsky等, 2021)。另一种相关但不同的方法是潜在因子框架(latent factor framework)(Bai与Ng, 2002;Bai, 2009;Xiong与Pelger, 2023),其中高维结果向量的每个元素均受同一低维未观测混杂因素向量影响。矩阵补全方法(参见如Chatterjee, 2015;Athey等, 2021;Bai与Ng, 2021;Dwivedi等, 2022a;Agarwal等, 2023a)在推荐系统与面板数据模型中得到广泛应用,与潜在因子模型密切相关。类似地,现有的基于分配的平均处理效应估计程序通常依赖于无未测量混杂假设(参见如Robins等, 2000;Hirano等, 2003;Wooldridge, 2007)、共同趋势限制(Abadie, 2005)或工具变量的可得性(Abadie, 2003;Sloczynski等, 2024)。

本文提出了一种在存在未观测混杂因素情形下的平均处理效应双重稳健估计量(参见Robins等, 1994;Bang与Robins, 2005;Chernozhukov等, 2018)。该估计量在潜在因子框架下同时利用结果过程与处理分配机制的信息,将结果填补与逆概率加权相结合,并引入一种用于矩阵补全的新型交叉拟合方法。我们证明,相较于其他基于结果或基于分配的估计量,所提出的双重稳健估计量具有更优的有限样本保证。此外,在矩阵补全误差率可被证明有效的条件下,无论所用矩阵补全算法的其他性质如何,该双重稳健估计量均渐近无偏、近似服从高斯分布,并以参数速率收敛。

据我们所知,本文是首篇同时利用分配过程与结果过程中的潜在结构,以获得存在未观测混杂因素时平均处理效应双重稳健估计量的研究。Arkhangelsky与Imbens(2022)在纵向数据下研究了双重稳健识别,其假设是对处理分配随时间变化的某一函数(例如个体暴露于处理的次数比例)进行条件化足以消除混杂。Athey等(2021)、Bai与Ng(2021)、Dwivedi等(2022a)、Agarwal等(2023a)以及Xiong与Pelger(2023)提出了应用矩阵补全技术填补潜在结果的估计量。尽管这些研究利用了结果过程中的低秩限制,但并未探究处理分配过程中可能存在类似潜在结构的可能性。本文对此问题进行了探讨,并证明纳入分配机制结构知识可带来实质性收益。



  1. 设定






  1. 估计

在本节中,我们提出一种利用处理分配矩阵A和观测结果矩阵Y来估计的程序,其中


本节所提出的估计量将矩阵补全作为关键子程序加以利用。我们以矩阵补全方法的简要概述开启本节。



3.2. 关键构建模块






3.3. 双重稳健(DR)估计量


4. 主要结果



4.1. 假设
关于数据生成过程的要求。我们对数据的生成方式作出两项假设。首先,我们对分配概率施加一个正值性条件。






公式(14)要求,在每个单元的两个分区内,对于每次测量,估计的潜在结果均值和估计的分配概率与分配概率中的误差联合独立。类似地,公式(15)要求,在每个单元的两个分区内,对于每次测量,估计的分配概率与分配概率和潜在结果中的噪声联合独立。像公式(14)和公式(15)这样的条件在双稳健估计文献中是常见的。Chernozhukov等人(2018)采用交叉拟合装置,在没有未测量混杂因素的背景下,强制执行类似于假设4的条件。第5节为矩阵估计提供了一种新颖的交叉拟合流程,在该流程下,假设4对任何MC算法都成立(在对噪声变量的额外假设下)。






4.3.渐近保证





该模型中滞后处理效应的存在使得为整个处理序列定义因果估计量变得至关重要。附录I描述了如何将所提出的双稳健估计扩展到处理序列,并推导了定理1的推广形式。


5. 带有交叉拟合的矩阵补全


5.1. 交叉拟合-MC:一种用于矩阵补全的元交叉拟合算法







许多MC算法旨在对随机缺失模式下的矩阵进行去噪和缺失值插补;研究最常见的缺失模式是每个条目有相同的缺失概率,且独立于其他所有因素。相比之下,交叉拟合-MC生成的模式中,一个区块内的所有条目都是确定性缺失的,如图3(b)所示。最近关于矩阵补全方法与因果推断模型之间相互作用的研究——特别是在合成控制框架内——已经贡献了允许块状缺失的矩阵补全算法(参见,例如,Athey等人,2021;Agarwal等人,2021;Bai和Ng,2021;Agarwal等人,2023b;Arkhangelsky等人,2021;Agarwal等人,2023a;Dwivedi等人,2022a,b)。然而,将这些方法已知的理论保证应用于本文的设定存在挑战,原因在于:(i) 使用了交叉拟合——这创建了所有观测都缺失的区块——以及 (ii) 在完全缺失的区块之外,仍然可能存在具有异质缺失概率的缺失观测。在下一节中,我们将展示如何修改为块状缺失模式设计的MC算法,使其能够应用于我们的带有交叉拟合和折叠外异质缺失概率的设定。为具体起见,我们采用Bai和Ng(2021)的Tall-Wide矩阵补全算法进行说明。


5.2. 交叉拟合-SVD算法

交叉拟合-SVD是一个端到端的MC算法,通过将交叉拟合-MC元算法与Bai和Ng(2021)的Tall-Wide算法(我们称之为TW)实例化而获得。为完整起见,我们在第5.2.1节详细描述TW算法,然后在第5.2.2节中使用它来描述交叉拟合-SVD。








原文链接:https://arxiv.org/pdf/2402.11652

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中兴通讯前总经理:中国用无选择的穷举法跟美国打科技战,把所有技术一起发展,整个产业链全干了

中兴通讯前总经理:中国用无选择的穷举法跟美国打科技战,把所有技术一起发展,整个产业链全干了

芯火相承
2026-02-12 20:54:30
年底提醒:赶紧把金手镯,金项链,金戒指,都放家里,别再戴了!

年底提醒:赶紧把金手镯,金项链,金戒指,都放家里,别再戴了!

娱乐的硬糖吖
2026-02-12 12:20:36
放心吧,我们不是日本,也不会有“失去的三十年”

放心吧,我们不是日本,也不会有“失去的三十年”

六爷阿旦
2026-01-19 17:10:26
新 “穆里尼奥”!热刺新帅已在路上,4-2-3-1 大师能救白鹿巷?

新 “穆里尼奥”!热刺新帅已在路上,4-2-3-1 大师能救白鹿巷?

澜归序
2026-02-13 06:38:10
不炫富、不炒作,最强富二代接手3000亿烂摊子,6年挣1809亿身家

不炫富、不炒作,最强富二代接手3000亿烂摊子,6年挣1809亿身家

花小猫的美食日常
2026-02-13 04:01:37
怎么突然出现这么多性早熟的孩子?医生:曾经一天接诊30多例性早熟患者,女孩早熟是男孩的5倍

怎么突然出现这么多性早熟的孩子?医生:曾经一天接诊30多例性早熟患者,女孩早熟是男孩的5倍

观威海
2026-02-13 09:50:06
2艘055入列,东海舰队独当一面,第七舰队加日韩,都不是对手?

2艘055入列,东海舰队独当一面,第七舰队加日韩,都不是对手?

东方点兵
2026-02-10 17:14:28
当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

当年举报毕福剑的那位告密者竟然变成这样了!谁能想到啊?

霹雳炮
2026-02-06 13:48:54
广铁今天打破多项春运历史纪录!广东省铁路到、发客流双双刷新历史纪录,网友:把高铁开成了地铁

广铁今天打破多项春运历史纪录!广东省铁路到、发客流双双刷新历史纪录,网友:把高铁开成了地铁

环球网资讯
2026-02-13 16:45:09
民间“疯婆婆”的预言全部应验,人类将遭大劫!

民间“疯婆婆”的预言全部应验,人类将遭大劫!

神奇故事
2026-02-12 04:56:40
3天已过,中方公布黄金储备,美财长紧急踩刹车:不希望中美脱钩

3天已过,中方公布黄金储备,美财长紧急踩刹车:不希望中美脱钩

爱看剧的阿峰
2026-02-13 14:58:45
“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

蝴蝶花雨话教育
2026-02-08 12:47:42
近代日本为什么能反超中国?是日本人更优秀?不,重点在这2项

近代日本为什么能反超中国?是日本人更优秀?不,重点在这2项

老范谈史
2026-01-21 21:24:58
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
李在明手段果然狠辣,当着5000万韩国人的面,宣告尹锡悦最终结局

李在明手段果然狠辣,当着5000万韩国人的面,宣告尹锡悦最终结局

东极妙严
2026-02-12 17:45:44
珍宝岛冲突后中国过度战备后遗症

珍宝岛冲突后中国过度战备后遗症

河山历史
2025-12-25 11:27:27
金融战已经打响

金融战已经打响

白浅娱乐聊
2026-02-12 19:39:55
闫学晶风波再升级!不到24小时,中戏2大领导自首,牵扯众多明星

闫学晶风波再升级!不到24小时,中戏2大领导自首,牵扯众多明星

秋姐居
2026-02-13 19:45:18
《太平年》里的沙陀族,到底是哪来的?结局又去了哪里?

《太平年》里的沙陀族,到底是哪来的?结局又去了哪里?

晓张说
2026-02-13 10:07:26
谈判桌掀翻!前总统遭软禁,二号狠人赴俄,下放开火权:随时开战

谈判桌掀翻!前总统遭软禁,二号狠人赴俄,下放开火权:随时开战

风干迷茫人
2026-02-12 15:06:10
2026-02-13 21:03:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1219文章数 18关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

艺术
旅游
数码
亲子
公开课

艺术要闻

于右任又一真迹出土!这才是当代“真草圣”

旅游要闻

“来我们这里过大年……”,上海16个区拼了!

数码要闻

消息称小米Tag将推出国行版本,欧洲单个售17.99欧元

亲子要闻

抽宝为什么长得慢

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版