网易首页 > 网易号 > 正文 申请入驻

一个统一框架:让非结构化数据推理又稳又快

0
分享至

一个统一框架:让非结构化数据推理又稳又快

A Unifying Framework for Robust and Efficient Inference with Unstructured Data

https://arxiv.org/pdf/2505.00282

本文《用于非结构化数据的稳健且高效推断的统一框架》的核心重点可以概括为以下几点:

  1. 核心问题与动机

    • 许多实证研究(尤其在经济学中)需要利用文本、图像等 非结构化数据 来估计一个 缺失的结构化变量 (例如,经济政策不确定性指数、地缘政治风险指数)。

    • 现有方法(如基线 MAR-S 框架)通常假设可以直接观测到该结构化变量的真实值,但这在实践中往往不成立。真实值通常仅存在于细粒度层面(如单篇文章),而研究者关心的是更高层面的聚合值(如月度均值),这些聚合值本身无法被直接观测。

  2. 提出解决方案:MAR-S 框架的扩展应用

    • 作者提出并系统阐述了如何将 MAR-S (Missing at Random - Structural) 框架应用于更广泛、更现实的场景。

    • 核心思想是:首先使用标注数据训练一个“填补函数”(imputation function)来预测缺失的结构化数据;然后,通过 MAR-S 的去偏机制,对这个填补结果进行校正,得到无偏的估计量。

    • 该框架特别适用于处理 非线性变换 (如取对数)和 高度聚合的数据 ,并通过简单的 delta 方法或标准回归技术来解决由此产生的测量误差问题。

  3. 关键贡献与创新点

    • 理论严谨性

      :提供了严格的统计推断方法,能够生成 渐近有效的置信区间 ,并明确考虑了因填补和聚合带来的系统性测量误差。

    • 实用性与普适性

      :方法概念上直观,易于实施,可自然扩展到聚类数据和面板数据,并能适应多种实际场景(如结果变量也需填补、测量误差非正态等)。

    • 性能提升

      :证明了使用更精确的填补模型(如深度神经网络分类器)相比传统方法(如关键词分类器)能产生更窄的置信区间,体现了“更准确填补带来更高效率”的回报。

    • 揭示偏差

      :通过实证案例(EPU 和 GPR 指数)清晰地展示了,忽略测量误差会导致严重的衰减偏差和置信区间被低估,从而得出错误的统计推断。

  4. 实证验证

    • 通过三个实证案例(两个经典文献的再分析 + 一个作者自建数据集的示例)验证了该框架的有效性。

    • 在 EPU 和 GPR 指数的应用中,展示了如何用深度学习模型替代传统关键词方法,并量化了其在估计精度和置信区间宽度上的优势。

    • 在回归分析中,对比了使用经 MAR-S 校正的变量与未经校正变量的结果,突显了校正的重要性。

总而言之,本文提供了一个强大、灵活且实用的统一框架,旨在解决从非结构化数据中提取结构化信息时所面临的普遍性挑战——即如何在存在缺失、聚合和非线性变换的情况下,进行稳健且高效的统计推断。它不仅完善了现有理论,也为实证研究者提供了一套可操作的工具。


摘要

本文提出了一种通用框架,用于对源自非结构化数据(包括文本、图像、音频和视频)的参数进行高效推断。经济学家长期以来使用非结构化数据的做法是:首先从中提取低维的结构化特征(例如文本的主题或情感),因为原始数据维度太高、难以解释,无法直接纳入实证分析。深度神经网络的兴起极大降低了大规模提取结构化数据的成本,从而加速了这一实践;但神经网络并不保证在一般意义上产生无偏预测。这可能导致偏差传播到下游估计量中——当这些估计量纳入了由神经网络推算(imputed)出的结构化数据时;此外,市面上存在多种具有不同偏差的现成神经网络,这进一步引发了“p值操纵”(p-hacking)的担忧。

为应对上述挑战,我们将使用非结构化数据进行推断的问题,重新刻画为结构化数据缺失问题:即,结构化变量由高维非结构化输入推断(填补)而来。这一视角使我们得以应用半参数推断中的经典结果,从而得到有效、稳健且具统计效度的估计量。我们以 MAR-S(Missing At Random Structured Data,结构化数据随机缺失)框架对该方法进行形式化。MAR-S 统一并拓展了现有利用机器学习预测进行去偏推断的方法,并将其与因果推断等人们熟悉的问题联系起来。在该框架下,我们为描述性与因果性估计目标均构建了稳健且高效的估计量,并解决了现有文献尚未涵盖的现实挑战——例如,当缺失的结构化数据被聚合或变换后如何进行推断。这些方法及其配套的实现软件包,为经济学家提供了便捷工具,使其能在广泛的应用中,利用非结构化数据构建无偏估计量——我们在重分析若干具有影响力的研究案例中对此加以验证。

1 引言

经济学家在实证研究中频繁使用非结构化数据,其中包括图像(像素数据)、文本(来自高维词表的词元序列)、音频(波形或频谱图)以及视频(图像序列)。然而,由于非结构化数据维度极高、计算负担重且原始形式难以解释,研究者极少将其直接用于计量经济学分析。取而代之的是,研究者从中提取有意义的低维特征,并将其用于统计分析。依据既有文献,我们将这些低维表征称为结构化数据

从非结构化数据中提取的低维特征数据集,已成为诸多经济学领域实证研究的基石。例如,常用数据集通过新闻报道及其他文本资料,提取关于治理、制度、政治稳定性、政策不确定性、冲突与暴力等方面的结构化信息1;研究者从政府会议记录、企业申报文件、财报电话会议、专利文本与网络文本中推断情感、主题及其他多种结构化变量2;夜间灯光卫星图像被用于度量经济活动、发展水平与城市化进程3;遥感数据推断结果常被用于补充地面观测的气温、降水、污染、农业产出、土地利用、非法活动、森林砍伐等现象的测量4。

传统上,从非结构化数据中提取结构化信息成本高昂,需依赖完全人工标注,或依赖复杂的人工设计规则,因而常需大规模专项投入。近年来,计算能力提升与深度学习进步显著降低了从文本、图像、音频与视频中提取低维结构化数据的成本。大量机器学习文献已表明,深度神经网络是当前对非结构化数据进行大规模特征提取的最先进技术(Goodfellow 等,2016)。

然而,神经网络在有限样本中一般无法保证无偏预测。网络架构的选择、训练数据的分布,以及各类实现细节(如训练中的正则化)均可能引入系统性偏差。此外,即使在最简单的神经网络中,各层的非线性变换,加之神经网络常被用于二分类或多分类任务,均会违反经典测量误差模型的基本假设。

此类“第一步”预测器(first-step predictor,即用于预测后续分析中所用测度的模型)所产生的偏差,会进一步传播至依赖它们的估计量中,影响点估计与不确定性量化。尽管在大数据集中抽样变异可能很小,但一个性能不佳的第一步预测器一旦以统计上合理的方式被纳入不确定性核算,仍可能引入显著误差。对第一步预测器偏差的担忧,又因现成神经网络的广泛可用而加剧:这些模型实现成本相对低廉,却可能存在偏差;不同模型可能引入不同偏差,从而引发“选择性使用不同第一步推断以获得合意结果”的p-hacking疑虑。诚然,研究者常需自主构建来自非结构化数据的测度,这一事实虽为此类操纵提供了空间,却也为应对测量误差的努力提供了便利。

为确保无偏估计,并判断是否值得投入高昂成本以改进第一步预测(例如训练更大模型,或收集更多、更高质量的训练数据),研究者亟需一种框架:在利用神经网络预测时,显式考虑第一步推断误差。为此,本文提出 MAR-S(Missing At Random Structured Data)框架——一种对通过低维特征纳入非结构化数据的估计目标进行有效、稳健且具统计效度推断的通用方法。

MAR-S 将非结构化数据下的推断问题重新表述为缺失数据问题,因为原始非结构化数据集通常缺乏经济分析所关注的低维汇总变量。该框架植根于缺失数据理论的基本工作,特别是 Rubin(1976)提出的“随机缺失”(Missing At Random, MAR)机制(参见 Little & Rubin, 2019;Robins 等, 1994, 1995;Robins & Rotnitzky, 1995;Bang & Robins, 2005)。MAR-S 借鉴了缺失数据下半参数推断的经典成果,该方法具有理论基础坚实、适用范围广、假设条件弱等优点,为去偏估计提供了成熟路径。

其核心思想是:利用一个包含真实值(ground truth)的验证样本(validation sample)来估计推断数据中的偏差,并据此校正估计结果——这一做法在计量经济学的测量误差文献中早已被认可(Schennach, 2016)。

MAR-S 要求研究者获取验证数据——这一过程成本高昂,通常需依赖高技能、高动机的人类专家对文本或图像进行标注,或在遥感背景下收集地面观测站数据。获取验证数据本身即要求研究者对其所要提取的内容给出精确且可操作的定义。换言之,尽管深度神经网络常被视为“黑箱”,MAR-S 却要求其输出能通过标注过程获得可解释性

在 MAR-S 框架下——顾名思义——验证样本必须满足 Rubin(1976)提出的“随机缺失”(MAR)假设:即,在控制可观测变量后,已标注与未标注样本的真实结构化变量值应具有可比性。这与因果推断中的“可观测变量选择性”(selection on observables)假设相平行——后者是另一类缺失数据问题:处理组缺失对照结果,对照组缺失处理结果。在非结构化数据背景下,观测被“选择”进入验证样本(而非被施加“处理”)。

利用真实值样本进行去偏,已成为近期若干有影响力的、关于黑箱AI模型预测下有效统计推断框架的核心(例如:Angelopoulos 等, 2023;Egami 等, 2023;Ludwig 等, 2024)。MAR-S 对该文献的贡献有三方面:1)构建一个统一的理论框架,将上述新近工作与一系列更早、更熟悉的计量问题相联系;2)借由该框架,对如何构造无偏且高效的估计量提供新见解;3)通过推导适用于超出既有文献范围的常见实证情境的估计量,使去偏方法得以广泛应用于各类场景。

首先,MAR-S 提供了一个统一的理论框架,将跨学科独立发展、交流有限的黑箱AI推断新近工作,与计量经济学中关于测量误差与验证数据的长期文献(例如 Schennach, 2016;Chen 等, 2005, 2008)、广泛使用的包含机器学习“第一步”的推断方法(例如 Chernozhukov 等, 2018, 2022b,c),以及缺失数据与因果推断的经典文献(例如 Rubin, 1978;Imbens & Rubin, 2015;Robins 等, 1994 等)有机整合。MAR-S 通过将非结构化数据推断与因果推断等熟悉问题同构为更一般的缺失数据问题,深化了我们对非结构化数据推断的理解。例如,半参数推断中的诸多洞见由此变得相关且可用。

我们与当前大多数黑箱AI推断工作的一个关键区别在于:强调半参数方法,从而对估计量效率获得新认识。例如,为达到渐近效率,缺失结构化数据的填补不仅应依赖非结构化数据(如文本或图像),还应依赖有助于目标参数估计的情境特定结构化变量(如回归模型中的其他协变量)。部分新近黑箱AI推断文献认为半参数方法过于复杂、难以广泛应用(Angelopoulos 等, 2024);但在经济学中,情况可能恰恰相反:半参数方法有着悠久而广泛的应用传统(例如 Chen 等, 2008;MaCurdy 等, 2011;Ackerberg 等, 2014),并有助于将非结构化数据推断与更熟悉的问题建立联系。

2 文献综述
本研究依托计量经济学、统计学与生物统计学中大量既有文献,既提供了一个统一的理论框架,也贡献了实用工具,以应对实证经济学中由非结构化数据引发的常见推断挑战。其贡献可从以下三方面定位:
第一,本研究拓展了近期关于黑箱人工智能(AI)预测推断的文献,将其覆盖范围延伸至经济学中常见的、但超出既有方法适用范围的实证情境,并同时提供了关于估计效率的新见解;
第二,本研究构建了一个通用理论框架,将上述新兴文献与半参数推断的经典文献相统一,并将经典的测量误差模型拓展至高维非结构化数据领域;
第三,本研究揭示了非结构化数据推断与经济学家熟悉的经典计量问题(如因果推断)之间的根本联系,展示了计量经济学中的基础工具如何可被运用于人工智能时代的新挑战。

本研究旨在应对若干常见实证经济学情境——这些情境超出了近期关于渐近有效推断的研究范围,后者聚焦于灵活的黑箱函数逼近器(如大语言模型,LLMs)。该方向的代表性贡献包括:“预测赋能推断”(prediction-powered inference, PPI)(Angelopoulos 等,2023, 2024;Zrnic & Candès,2024b,a;Ji 等,2025;Kluger 等,2025)、“基于设计的监督学习”(design-based supervised learning)(Egami 等,2023, 2024),以及 Ludwig 等(2024)的实证计量框架。此类文献通常假设:真实值(ground truth)在所关注参数的同一层级上可得。相比之下,在实证经济学中,我们往往仅在细粒度层级(如单条文本或单张图像)拥有真实值,而所关注参数却反映的是记录层级预测的(可能为非线性的)聚合结果,或某个总体层级量(例如1999年美国的经济政策不确定性)。在更粗粒度层级收集真实值通常不可行。MAR-S 直接应对了这一挑战。此外,MAR-S 还考虑了经济学中广泛使用的实证情境下高效且稳健的推断问题,并就这些情境中实现效率所需的数据条件提供了新见解。为便于应用,MAR-S 配套提供了实现软件包。5

MAR-S 同时提供了一个通用理论框架,将新兴黑箱AI文献中(其中多数源自经济学以外学科)的多项分散贡献,与半参数统计学及计量经济学中重要且长期积累的成果统一起来。在黑箱AI文献中,最突出的脉络之一便是系列关于“预测赋能推断”(PPI)的论文。初期PPI论文(Angelopoulos 等,2023, 2024)引入了一个简明的基准框架;为清晰起见,该框架刻意排除了实证应用中的若干常见特征——例如:它假设预测值是预训练黑箱模型的固定输出(不考虑模型训练与交叉拟合问题),标注数据是简单随机样本(不处理非均匀或未知的标注流程),且未采用半参数方法,亦未涉及半参数效率问题;Angelopoulos 等(2024)仅简要提及与半参数理论的联系。上述局限性随后在后续研究中被逐一改进:Zrnic & Candès(2024b)纳入了模型训练与交叉拟合;Zrnic & Candès(2024a)允许非均匀标注,但仍假设预测值固定;Ji 等(2025)采用了包含训练与交叉拟合的半参数方法,但假设标注概率已知且均匀;6 Kluger 等(2025)虽未考虑半参数效率,但允许非均匀(但已知)的标注概率。此外,除 Kluger 等(2025)外,上述方法仅适用于那些为“良好”(例如凸、光滑)总体损失函数极小值点的估计目标;Kluger 等(2025)的明确动机之一,正是要突破这一范式限制。

相比之下,MAR-S 采取了一种更普适的方法,在一个单一框架内兼容了上述全部复杂性。附录第8.1节进一步比较了 MAR-S 与现有理论文献的异同。MAR-S 同时也将其他更具应用导向的近期贡献纳入统一框架,例如 List 等(2024)与 Ludwig 等(2024)。诚然,提供尽可能简化的框架具有优势——尤其当目标读者横跨多学科时(如 Angelopoulos 等,2023);而 MAR-S 则凭借援引计量经济学文献中通用且广为人知的方法,在保持对应用经济学家可读性的同时,提供了更具一般性的统一框架。

MAR-S 最直接地建立于计量经济学中关于利用辅助验证数据校正测量误差的文献之上,并将 Chen 等(2008)的半参数框架拓展至高维非结构化数据。借此,MAR-S 架起了经典计量理论当代机器学习应用之间的桥梁。关于计量经济学中测量误差文献的综述,参见 Chen 等(2011)、Schennach(2016, 2022)。该文献的一项关键洞见是:包含真实值的验证样本,为校正非经典测量误差(尤其在非线性模型中)提供了一种通用的、与模型无关的方法(Chen 等,2005, 2008)。Ludwig 等(2024)在其针对大语言模型预测的实证计量框架中,亦将测量误差置于核心地位。

更根本地,MAR-S 扎根于众多经济学家所熟知的基础方法,强调即便面对新技术(如大语言模型),长期积累的统计学框架依然具有根本重要性。“MAR-S”这一名称本身即反映了其对(生物)统计学中缺失数据经典文献的继承(例如 Rubin,1976;Little & Rubin,2019;Robins 等,1994, 1995;Robins & Rotnitzky,1995;Bang & Robins,2005)。具体而言,我们采纳 Rubin(1976)所提出的经典“随机缺失”(Missing At Random, MAR)机制,作为本框架的核心组织原则。

Rubin 的“随机缺失”机制与Rubin 因果模型(Neyman,1923;Rubin,1974, 1978;Imbens & Rubin,2015)紧密相关:因果推断可被视为缺失数据问题的一个特例——其中对照组的处理结果缺失,处理组的对照结果缺失(Little & Rubin,2019;Ding & Li,2018;Hirano 等,2003)。因此,缺失数据框架被广泛应用于因果推断(Imbens & Rubin,2015)与计量经济学(Chen 等,2008;Athey 等,2019)。MAR-S 框架正建立于这一联系之上,其符号体系与结构设计均映射因果推断中的关键要素。我们展示了因果推断中的洞见如何有助于阐明非结构化数据推断中的核心挑战,从而使 MAR-S 框架对已熟悉因果推断的经济学家而言易于理解。

正如 Tsiatis(2006)所讨论,半参数与非参数框架特别适用于缺失数据问题。相应地,MAR-S 依托于广泛的半参数与非参数推断文献(例如 Pfanzagl,1982;Bickel 等,1998;Newey,1994;van der Vaart,1998;Ackerberg 等,2014;Kennedy,2016, 2018;Chernozhukov 等,2022a)。这些框架之所以具有吸引力,是因为其对数据生成过程仅作相对较弱的假设,从而尽可能让数据本身主导估计过程;其理论基础亦植根于成熟的极小极大型效率(minimax-style efficiency)理论,为比较不同估计量的性能提供了原则性基准(Newey,1994;van der Vaart,1998)。

半参数高效估计量的一个突出范例是增广逆概率加权(augmented inverse propensity weighted, AIPW)估计量,广泛用于处理效应估计(Robins 等,1994;Robins & Rotnitzky,1995;Scharfstein 等,1999)。AIPW 估计量属于更广泛的“双重稳健”(doubly robust)估计量类别:此类估计量通过放松对干扰参数(nuisance parameters)估计的收敛速率要求,为模型误设提供保护。干扰参数估计量本身并不直接用于估计主要关注参数(例如因果效应或泛函),但对构造最终估计量至关重要(例如通过填补结构化数据)。此类稳健性正是本文所构建估计量的核心特征——它们遵循 AIPW 估计量的结构。这使我们得以避免对深度神经网络的第一阶段估计施加强正则性条件或收敛速率要求。

MAR-S 同样与近期关于高维干扰参数下泛函的半参数去偏推断的重要文献密切相关。该文献聚焦于:当目标为低维参数、而干扰参数由机器学习模型以非参数方式“第一步”估计时,如何实现有效推断——尤其在因果推断或经济模型结构参数估计背景下(例如 Chernozhukov 等,2018, 2022b,c;Ichimura & Newey,2022)。本文承继这一传统,针对缺失数据泛函,开发了高效且稳健的估计量,其假设条件专门适配非结构化数据与深度神经网络所带来的挑战。

3 随机缺失的结构化数据

本节介绍 MAR-S 框架,该框架建立在 Rubin(1976)提出的经典缺失数据机制之上。我们首先在非结构化数据背景下,确立关于数据缺失性的术语体系与模型;随后概述 MAR-S 的关键假设,并描述稳健性与效率的基本原则;最后简述 MAR-S 算法。

3.1 对缺失结构化数据的建模

为实现对非结构化数据的稳健且高效推断,我们将问题重新表述为对缺失结构化数据的推断。结构化数据记为 M∈M,是可直接用于估计方程的低维数据。它们与非结构化数据(记为 U∈U)形成对比——后者维度高,不适合直接用于估计(例如:像素的原始 RGB 值、音频波形或稀疏词向量)。

在 MAR-S 框架下,结构化数据通过一个称为“标注”(annotation)的过程被观测到。标注者(人类专家或其他昂贵的测量技术)依据对缺失结构化数据的明确定义,记录与给定 U 相对应的 M 。标注过程由“标注得分函数”(annotation score function)描述:

由于标注成本过高,难以规模化,研究者会学习一个填补函数 μ^以对缺失的结构化数据进行填补。这使得研究者能够利用完整的非结构化数据集,实现更精确的估计。深度神经网络通常被用作填补函数,因为它们是当前将非结构化数据映射为低维输出的最先进方法。然而,其预测精度可能因任务复杂度、模型架构以及输入数据与训练数据的分布差异而显著波动。

MAR-S 框架——以及其所依托的 Rubin(1976)框架——与 Rubin 因果模型(Neyman, 1923;Rubin, 1974, 1978;Imbens & Rubin, 2015)紧密关联,因为因果推断本质上即是一个缺失数据问题。因此,我们引入潜在结果(potential outcomes)记号。该记号为讨论缺失结构化数据(以及其他常见形式的数据缺失,例如因果推断中出现的缺失)提供了一个统一的表达体系。

假设结构化数据 M∈M存在某种数据缺失,其缺失模式由一个标注指示变量 A∈{0,1}所刻画。在此基础上,潜在结果一致性(consistency of potential outcomes)假设使我们得以写出如下表达式:




3.2 假设

本节概述 MAR-S 框架所依赖的基本假设。

在 MAR-S 中,用于预测缺失结构化数据的第一步填补函数,在较弱的假设下运作,因为对标注信息的了解可用于使估计量对填补误差更具稳健性。

假设 1(潜在结果一致性)。对于真实值潜在结果 M∗∈M,结构化数据 M∈M×{0},以及标注指示变量 A∈{0,1},我们有

在因果推断中,潜在结果的一致性要求处理变量定义明确,且每个观测值的结果仅依赖于其自身的处理状态(非干扰性)。在单侧数据缺失的情境下,该概念依赖于类似的原理:标注状态必须定义明确——每个观测值要么被标注,要么未被标注——且任何给定观测值的真实值标签应仅依赖于其自身的标注状态,而不依赖于其他观测值的标注状态。这一点通过在整个标注过程中使用一个保持不变的标注标准(rubric)来确保。

第二个假设是 MAR-S 框架的基石。它指出:在给定研究者可获取的可观测变量条件下,Rubin 的“随机缺失”(MAR)假设适用于真实值潜在结果(Rubin, 1976;Little and Rubin, 2019)。

假设 2(结构化数据随机缺失)。对于真实值潜在结果 M∗∈M、标注指示变量 A∈{0,1}、可观测协变量 X∈X以及非结构化数据 U∈U:


这类似于因果推断中的“可观测变量选择”假设(Hirano 等,2003);沿用该术语体系,假设 2 也可被标记为“基于可观测变量的标注”(annotation on observables)。在控制可观测变量 X后,已标注与未标注的结构化数据(及其关联的非结构化数据)在其真实值上具有可比性。不存在未被控制的混杂因素决定某一非结构化数据实例是否被标注。

在深度学习时代,研究者常自行构建其结构化数据集,并可在这种情况下设计标注流程以满足假设 2。

第三个假设是:标注机制是已知的,且可以被限定,从而确保没有任何非结构化数据实例被保证标注或不被标注。


“标注得分函数”(annotation score function)这一命名惯例,模仿了倾向得分函数(propensity score function)的术语体系——后者在因果推断中扮演类似角色。

假设标注得分函数有界,等价于观测性因果推断中常用的“严格重叠”(strict overlap)假设。在此类设定下,随着确保无混杂性的变量维度升高,严格重叠的合理性将下降(D’Amour 等,2021)。而在大多数涉及非结构化数据的经济学应用中,X是低维的,与高维的 U形成鲜明对比。值得注意的是,机器学习文献有时将 X设定为 U的低维表征;这一视角我们将在讨论实际标注问题时(第5.1节)再次涉及。

在社会科学中,现有的标注实践常常违反这一假设。研究者在处理文本数据时,频繁采用基于关键词的筛选:仅对包含特定关键词的文本赋予非零标注概率。当数据存在类别不平衡时——例如,所关注类别的文本相对于整个语料库而言较为稀少——这一做法尤为普遍。由于语言模型的预测误差可能依赖于文本中出现的词项,标注样本中观测到的偏差未必能代表全部未标注数据中的偏差。当估计目标参数时使用的是完整文本而非仅筛选后子集时,这一问题尤为严重。类似问题亦出现在如下情形:标注数据仅针对某一特定时段收集,而所关注量却是利用填补后的结构化数据在更长时段上估计所得。例如,遥感文献表明:为某一特定时段训练的作物类型识别模型,在时段外年份的表现可能更差——原因包括耕作方式或气候的分布偏移(Wang 等,2020)。

应对该问题的一种方式是:重新定义目标总体,使其仅包含标注样本所抽取自的那些非结构化数据实例。尽管该方法在某些情形下是恰当的,但它改变了所得估计目标与估计量的解释含义。第5.1节将讨论其他替代策略:在确保对所有非结构化数据实例赋予正抽样概率的前提下,选择最具信息量的标注样本。

当研究者并非自行标注其数据时,标注函数可能需要被估计。在此情形下,“标注函数已知”这一假设可被放松,前提是研究者愿意对填补函数与(估计所得的)标注函数施加一定的收敛速率要求。我们将在讨论最后一个 MAR-S 假设时,详细阐明这些要求——现在我们转向该假设。

最后一个核心假设,涉及本文所考虑泛函中用于填补缺失结构化数据的理想函数,其一般形式为:



直观上,该条件表明:随着我们用于训练估计量的数据量趋于无穷大,该估计量的期望平方误差需趋近于零;换句话说,该估计量是正确设定的。假设4有时被称为“普遍一致性”(universal consistency)(Wager, 2024),在深度神经网络背景下,这一假设非常温和。近期理论工作已表明,某些通过梯度下降法训练的深度神经网络——正如将在MAR-S中部署的那些——具有普遍一致性(Drews & Kohler, 2024)。


3.3 利用非结构化数据进行高效且稳健的推理



直觉上,影响函数(influence function)刻画了数据分布的微小变动如何影响某一泛函(例如均值,或其他数据泛函)的取值,或某一估计量的概率极限。估计量通过其概率极限与影响函数相联系(Newey, 1994;Ichimura & Newey, 2022);泛函本身也与影响函数相关联,后者有时被称为“影响曲线”(influence curves)(Kennedy, 2023;Hines 等, 2022)。

完全非参数统计模型中——即对分布 P未施加任何限制——任何正则、渐近线性(RAL)估计量必然是高效的,因为所有 RAL 估计量仅对应唯一一个有效的影响函数,即高效影响函数(EIF)(Chen & Santos, 2018;Kennedy, 2023;Schuler & van der Laan, 2024)。然而,在半参数模型中,一个 RAL 估计量可能存在多个影响函数,但仅有一个能达到半参数效率下界,即对应于 EIF。由于在 MAR-S 框架中,标注得分函数 π是已知的,故其统计模型为半参数模型,记为 Pπ。因此,并非所有 RAL 估计量都自动高效:可能存在多个影响函数,而高效影响函数是其中方差最小者。

当我们放松假设3、需对标注函数进行估计时,推断所依据的统计模型变为完全非参数的:P∈P,而非 P∈Pπ。然而,对于某一类泛函,我们将证明:无论在 Pπ还是 P下,其 EIF 均保持不变;因此,本文应用部分所推导的所有 EIF,在将假设3放松为“标注得分函数未知但可估计”时依然成立(见引理1)。相应地,高效估计量的构造方式亦保持不变。


在 MAR-S 中,假设3与假设4共同刻画了稳健性。第一步估计量 μ^(例如用于填补结构化数据的深度神经网络)仅需满足较弱条件,原因在于:对于标注函数 π,我们可获取其最准确的第一步估计量——即 π本身。直觉上,已知标注得分函数极大增强了 MAR-S 中半参数估计的稳健性——这恰如在半参数因果推断中,已知倾向得分函数将显著增强估计稳健性一般。

在 MAR-S 框架内构造稳健且高效估计量的基本直觉,与缺失数据(包括因果推断)半参数推断文献中的思路大体相似:利用足够精确的第一步填补函数对缺失数据进行填补,并借助通过标注收集的真实值对其进行去偏。然而,非结构化数据情境下存在若干区别性因素:


为应对这一问题,可对标注得分函数 π进行优化,通过引入重要性抽样(importance sampling)的要素以降低估计方差(Sigman, 2010;Zrnic & Candès, 2024a),详见第5.1节。这也与观测性因果推断中的“弱重叠”(weak overlap)概念(D’Amour 等, 2021;Ma 等, 2023)及半监督推断中的“衰减重叠”(decaying overlap)(Zhang 等, 2023)相联系。在 MAR-S 框架中,我们并未假设 P(A=1)→0的渐近情形。未来研究可拓展 MAR-S 框架,以纳入这一替代性渐近视角。

3.4 MAR-S 算法

我们现在概述如何在一般设定下实施 MAR-S 框架。从高层次来看,MAR-S 遵循一种标准程序,用于实现高效且稳健的半参数推断(Pfanzagl, 1982)——该程序在生物统计学与计量经济学中已获得广泛采用,尤其在因果推断领域(例如:Bang & Robins (2005);van der Laan & Rubin (2006);Chernozhukov 等 (2018))。我们建立在 Hines 等 (2022) 与 Kennedy (2023) 所提出的框架之上,用于推导高效且稳健的半参数估计量。MAR-S 采用这一经典程序处理缺失结构化数据,具体步骤如下:

  1. 识别(Identification):研究者从一个目标泛函 θ:P→R出发,例如某一分布的均值、线性回归模型中的系数,或平均因果效应。MAR-S 框架要求:若非结构化数据未缺失,该参数应为点识别(point identified)。潜在结果一致性与结构化数据随机缺失(假设1与假设2)将使研究者能够在结构化数据缺失的情形下,恢复其目标泛函的点识别。

  2. 推导高效影响函数(Deriving the efficient influence function):若该点识别的目标泛函是路径可微的8,则它具有唯一的高效影响函数(EIF)。存在多种方法与算法可用于计算某一泛函的 EIF。本文所讨论示例中,我们采用 Kennedy (2023) 中概述的一种特别直接的方法,以构建 EIF 候选。

  3. 构造稳健且高效的估计量(Constructing the robust and efficient estimator):在获得 EIF 后,研究者可遵循至少三种不同程序之一,以形成稳健且高效的估计量:① 在基于 EIF 的“插件估计量”(plug-in estimator)上添加一个“一步校正”(one-step correction);② 基于 EIF 解一个“估计方程”(estimating equation)(该方法最贴近 Chernozhukov 等 (2018, 2022a) 的框架);或③ 追求“靶向最大似然估计”(targeted maximum likelihood estimation, TMLE)程序(van der Laan & Rubin, 2006)。在本文中,我们使用一步校正法,尽管上述任何方法均可互换使用,仅在有限样本性质或推导难易程度等方面略有差异。

  4. 用于估计的样本分割(Sample splitting for estimation):研究者通过数据分割(或交叉拟合,cross-fitting)程序实施估计。尽管在对第一步估计量类别施加某些假设时(例如 Chen 等 (2024a)),样本分割并非必需,但它是一种“无假设”(agnostic)的方式,用以确保在大样本极限下实现渐近有效估计。在样本分割及本框架其他假设成立的前提下,渐近方差的一致估计量可简单地通过插件方法形成——即,估计所得 EIF 的经验方差(Schuler & van der Laan, 2024)。

更多直觉可通过下节所发展的各种示例提供。

4 MAR-S 的应用

我们在五个对经济学家具有特别兴趣的实证情境中,展示 MAR-S 框架的应用:描述性矩(descriptive moments)、线性回归、线性工具变量(IV)模型、双重差分(DiD)设计,以及在局部随机化假设下的断点回归(RDD)设计。我们还展示 MAR-S 如何统一近期关于黑箱人工智能模型推断的研究——这些研究独立发展于不同学科,彼此间互动有限——并将此工作与半参数推断的经典成果及广泛使用的、包含机器学习第一步的推断方法相连接(Chernozhukov 等, 2018, 2022a,b,c)。

回顾前文,我们将缺失的结构化数据记为 M,非结构化数据记为 U。我们通过将单一变量指定为 M(例如,一个结果变量或处理变量)来构建每个示例,尽管 MAR-S 同样可应用于从非结构化数据中填补替代变量或多变量的情形。如前所述,MAR-S 仅限于路径可微泛函——因为对于非路径可微泛函,-一致估计量的存在性无法保证,效率概念亦将无明确定义。我们将 MAR-S 对非路径可微泛函的拓展留待未来研究。

我们现在定义一类核心的关注泛函:

定义 1。我们将“MAR-S 均值泛函”(MAR-S mean functional)定义为任何可写作如下形式的泛函:


许多缺失结构化数据的泛函——包括本文考虑的所有缺失结构化数据的泛函——都可以写成MAR-S均值泛函。对于此类泛函,我们有以下识别结果。


在MAR-S框架下,当标注评分函数π已知时,统计模型是半参数的。推导半参数统计模型下路径可微泛函的有效影响函数通常比在完全非参数统计模型下更具挑战性,因为后者只有一个影响函数,即有效影响函数。引理1通过证明非参数统计模型下MAR-S均值泛函θ的EIF同样适用于半参数统计模型下的θ,从而简化了我们的任务。直观上,扰动由MAR-S均值泛函的标注评分给出的分布不会改变泛函的值:如果我们以不同(但有效)的方式标注数据,被估计参数的(总体内)值将保持不变。这与Chen等人(2008)中的若干相关结论一致,例如,使用"样本内验证"辅助数据集识别的参数的渐近方差下界不受"倾向评分"(在MAR-S框架中为1-π(x))认知的影响。

基于引理1,我们可以直接计算通用MAR-S均值泛函的有效影响函数,这将在下一个命题中介绍。


假设2与MAR-S均值泛函的定义共同保证:标注得分函数仅是低维变量 X的函数,而非高维变量 X~的函数,从而防范了在估计过程中可能产生的“弱重叠”(weak overlap)问题。

4.1 描述性矩

我们首先将 MAR-S 应用于描述性矩。除了其本身对众多经济分析的重要性外,这些泛函亦为分析更复杂的估计目标奠定了基础。






MAR-S 还与双/去偏机器学习(DML)框架密切相关(Chernozhukov 等, 2018)。例如,在因果推断背景下,于“可观测变量选择”假设下估计潜在均值时,DML 框架提出了一种通过 Neyman 正交得分导出的估计量,该估计量与 AIPW 估计量(Robins 等, 1994)本质上相同。

这种等价关系并非偶然。第3节表明:缺失结构化数据的期望值可被解释为平均潜在结果,且在“基于可观测变量的标注”假设下可实现点识别。此外,推导 Neyman 正交得分可被视为一种“估计方程”方法,用于构造半参数高效估计量(Kennedy, 2023;Schuler & van der Laan, 2024),这与 MAR-S 中使用的基于一步影响函数校正的方法形成对比(Chernozhukov 等, 2022a),后者推广了原始 DML 结果,并进一步明确指出:Neyman 正交矩可被视为基于影响函数的对矩条件的校正。

由于 MAR-S 基于与 DML 相同的基础半参数分析,很可能存在多种方式可将 DML 框架中的洞见应用于 MAR-S。考虑 DML 文献中最近的一个分支,其聚焦于“自动”或数据驱动的方式实现去偏校正(Chernozhukov 等, 2022a,b,c)。尽管在 MAR-S 下考虑的许多泛函最终可导出具有简单通用解析表达式的 Riesz 表示子,但也存在其他缺失结构化数据情境,可能诱导更复杂的泛函,此时自动去偏技术可能证明相当有用。

4.2 线性回归
我们现在将 MAR-S 应用于线性回归。为便于说明,我们考虑因变量由非结构化数据填补的情形;尽管 MAR-S 框架同样可直接处理一个或多个自变量(以及因变量)的填补。





4.3 线性工具变量

MAR-S 框架可直接拓展至线性工具变量(IV)。我们沿用 Blandhol 等(2022)的术语与设定。




4.4 双重差分法

在本应用中,我们聚焦于 Callaway 和 Sant’Anna(2021)所提出的非参数双重差分(DiD)估计量。




4.5 局部随机化假设下的断点回归设计
最后,我们在 MAR-S 框架下考虑断点回归设计(RDD)。我们聚焦于 局部随机化框架 下的清晰断点回归(sharp RDD),而非连续性框架(Cattaneo & Titiunik, 2022)。



5 扩展

我们现在考虑对MAR-S的扩展,以应对经济应用中经常出现的场景。

5.1 批量主动推理

与观察性因果推断设置中倾向得分函数未知不同,在非结构化数据设置中,研究人员通常可以选择注释得分函数 π。当处理非常大的非结构化数据集时,有时会遇到缺失的结构化数据构成“罕见事件”的情况。例如,如果数据集是某个主要平台上所有社交媒体帖子的集合,那么几乎任何给定主题的内容占比都会很小,因为内容种类繁多。在罕见事件估计中,通常的担忧是“变异系数”(事件指示器的方差与事件概率的比率)很大,使得置信区间不具信息性。正如罕见事件估计的文献所建议的那样,我们可能对包含某种重要性抽样元素的注释感兴趣,以进一步减少我们估计的方差(Sigman, 2010)。这种方法是在“批量主动推断”(Zrnic 和 Candès, 2024a)的工作中发展的,我们现在将其与MAR-S框架联系起来。

在描述性矩估计的设置中,回顾一下估计器 的渐近方差由以下给出



这个标注函数是不可行的,因为它依赖于我们标注前无法观测到的 M*,但它提供了一个有用的直觉:标注得分函数应更重视那些在均方误差(MSE)意义上更难填补的数据点。然而,正如 Zrnic 和 Candès (2024a) 所提倡的,我们可以考虑实现一个可行的标注得分函数来捕捉这一直觉,例如


其中,err(x) 是某个代理函数,用于捕捉一个固定填补函数的不确定性。 例如,深度神经编码器输出的 softmax 分数的分布特征,或来自大语言模型(LLM)的口头化置信度分数,均可作为此类代理函数(Yang 等,2024)。 尽管所引用的工作提供了有价值的指导,但在高度类别不平衡数据集的背景下选择标注得分函数,仍然是一个有待持续研究的重要领域。

5.2 聚合与转换后的缺失数据

基线 MAR-S 框架——以及其他用于消除黑箱 AI 估计偏差的方法——在概念上是直接明了的。然而,它们未能解决常见的实证应用场景。特别是,现有文献假设用于估计方程中的填补变量存在真实值数据。在实践中,这通常行不通,因为所关注的缺失变量是细粒度缺失结构化数据的一个(可能是非线性的)函数,而真实值数据仅在该细粒度层面可得,例如,所关注的缺失变量是成千上万甚至数百万个从单个文本或图像中提取的缺失结构化数据实例的平均值。这种情形在实证经济学中普遍存在,其中非结构化数据通常在单个文本或图像层面被观测到,而分析中的其他变量则通常按地理、时间、企业或其他维度进行聚合。在其他情况下,所关注的缺失变量本身最好被表示为细粒度缺失结构化数据的一个函数,例如一个总体层面的均值,对于该均值,在任何有限样本中都无法观测到其真实值。






不幸的是,这种方法忽略了许多实证场景,因为插补的结构化数据通常被聚合,然后进行非线性转换(例如,通过对数)。虽然有时合理地近似转换为线性是合理的——例如,使用泰勒展开(见附录第8.3节)——这种方法很快就会变得繁琐。它也没有解决感兴趣的变量被概念化为总体水平均值的场景。

然而,在一个非常常见的情形下,即研究者希望对一个作为细粒度缺失结构化数据的函数(或聚合)的回归变量进行回归分析时,我们开发了一种更广泛适用的方法来使用 MAR-S,该方法通过简单应用 delta 方法即可轻松处理非线性变换。

这种简化的流程利用 MAR-S 来创建所关注回归变量的无偏第一步估计量。例如,MAR-S 可用于在相关聚合层面(例如,从报纸文章层面填补结果中估算的年度经济政策不确定性均值)估算缺失数据的无偏均值。尽管这些预测仍包含噪声,但有效的去偏确保了剩余的噪声是经典型的。在回归中使用这些去偏后的测度所产生的衰减偏差,可以通过标准且直接的方法予以解决,这些方法能轻松适应常见的实证场景。从概念上讲,这种方法类似于在线性模型中使用随机抽样调查数据估算出的回归变量来估计系数(参见,例如,Deaton (1985);Fuller (1987))。然而,当数据由神经网络而非随机调查生成时,我们需要第一步的偏差校正,因为在未去偏的情况下,不能假设由此产生的测量误差是经典型的。





因此,我们能够生成具有所需覆盖率的渐近有效置信区间。

该方法在概念上直观明了,并使 MAR-S 能够应用于现有框架之外的常见实证场景。通过引用适当的聚类中心极限定理,该方法可自然地扩展到聚类数据;它也能轻松适应面板数据——这正是 Deaton (1985) 最初考虑的情境。此外,还有若干其他扩展也很直接,例如:适应因变量也通过 MAR-S 第一步进行估计的情形;放宽测量误差服从正态分布的假设;或处理 Σ 需要被估计而非假定为已知的情况(Fuller, 1987)。¹⁸

6 实证案例

本节通过三个实证案例来说明 MAR-S 方法。前两个案例将 MAR-S 应用于经济学文献中使用非结构化数据的两篇重要论文——Baker 等人(2016)和 Caldara 与 Iacoviello(2022);最后一个案例则通过一个均值估计示例,利用作者先前收集的已标注数据(Dell 等,2023),探讨了 MAR-S 的设计选择。

为被纳入研究,一篇论文必须满足以下条件:发表在高质量期刊上、提供填补缺失数据所用的公开验证集,并且我们能够获取所有用于复现所需的原始数据。这些标准大幅缩小了候选研究的范围,因为大多数以文本或图像数据为核心的研究要么缺乏验证样本,要么未完全公开复现所需的数据。因此,我们纳入了那些使用关键词分类器(而非神经网络分类器)进行填补的研究,因为直到近年以前,关键词方法一直是主流。我们还利用原始作者提供的标注数据,训练基于 Transformer 大语言模型(LLM)的分类器,作为对原始关键词分类器的补充。

6.1 经济政策不确定性指数(Baker 等,2016)

Baker 等人(2016)提出了一种定量指数,用于衡量经济政策不确定性(EPU)。该 EPU 指数计算在主要报纸上于每个时间点发表的、讨论经济政策不确定性的文章所占比例,其测量方式采用了一个简单的、基于关键词的二元分类器¹⁹。这些比例经过缩放和标准化后,最终形成指数值。

直观上,EPU 指数中的每一项都可以被视为对“在特定时间点,给定一组报纸的文章反映经济政策不确定性(按 Baker 等人(2016)的定义)的概率”的估计。这是一个推断问题,其中利用非结构化数据(报纸文本)来估计缺失结构化数据的一个函数(即在特定时间点,经济政策不确定性二元指示符的期望值)。









由于标注得分函数是已知的,因此为两种版本的 MARS-EPU 指数报告的置信区间在渐近意义上是有效的。然而,填补函数越优——即越接近真实值 μ——对于给定样本量 n,其置信区间就会越窄。因此,基于深度神经网络分类器的 MARS-EPU 指数比基于 Baker 等人(2016)关键词分类器的 MARS-EPU 指数具有更短的置信区间。

在 Baker 等人(2016)的研究中,EPU 指数的大部分社会科学价值体现在将其作为回归变量用于后续的回归分析中。下面我们简要回顾该论文中一个代表性的回归分析。

具体而言,我们重新分析 Baker 等人(2016)论文表 IV 第 (5) 列所报告的以下基准回归:





在图 2 中,我们使用 MARS-EPU 指数,并结合适当的测量误差校正最小二乘估计量(ME-LS)来估计 β,并根据 Baker 等人(2016)的做法,绘制以企业层面聚类的标准误为基础的置信区间。我们还计算了基于普通最小二乘法(OLS)估计量的 β 的点估计值和置信区间,分别对应两种情形:一是将 MARS-EPU 指数作为第一步估计量使用,二是将未经调整的 EPU 指数作为第一步估计量使用。


鉴于此方法忽略了去偏 EPU 指数中存在的经典测量误差,我们预期会出现一定程度的衰减偏差。

的确,当比较通过测量误差校正最小二乘法(ME-LS)估计的回归系数与使用 MAR-S 生成变量的普通最小二乘法(OLS)估计值时,忽略经典测量误差所导致的衰减偏差是显而易见的。在此情境下,使用 MARS-EPU 指数的 ME-LS 估计值在数值大小上与使用未经调整 EPU 指数的标准 OLS 回归所得结果非常接近。未经调整的 EPU 指数中的测量误差包含两部分:随机噪声(即使在去偏后仍存在的部分,会导致衰减偏差)和系统性成分(通过去偏被消除的部分)。在本案例中,这两部分似乎相互抵消了,尽管这并非普遍情况。

通过深度神经网络填补构建的、估计更精确的 MARS-EPU 指数,相较于噪声更大的关键词方法构建的 MARS-EPU 指数,为所关注的系数提供了更窄的置信区间,这体现了更准确填补所带来的回报。重要的是,与考虑了填补过程中测量误差的估计相比,未校正估计的标准误被低估了。

6.2 地缘政治风险指数(Caldara 和 Iacoviello,2022)

作为 Baker 等人(2016)研究的学术继承者,Caldara 和 Iacoviello(2022)构建了一个用于衡量地缘政治风险(GPR)的定量指数。与 EPU 指数类似,GPR 指数在每个时间点的数值是根据一个详细的关键词文本查询,计算出主要报纸中讨论日益加剧的地缘政治风险的文章所占比例(经标准化处理)而得出的。

从根本上讲,GPR 指数估计的是在特定时间点、针对一组给定报纸,某篇报纸文章讨论地缘政治风险上升的概率。这涉及利用报纸文本去估计缺失结构化数据的一个函数(即讨论地缘政治风险的文章的二元指示符的期望值)。

我们沿用上一节所述的相同形式化设定,并生成应用与未应用 MAR-S 框架的 GPR 指数(时间范围 T = {1900, 1901, ..., 2015})。我们再次基于两种不同的填补函数构建多个指数:原始的 GPR 关键词查询,以及基于 Sentence-BERT 最小“通用”模型 DistilRoBERTa 的深度神经网络分类器(Reimers 和 Gurevych,2019)²³。与 EPU 指数一样,我们严格遵循 Caldara 和 Iacoviello(2022)对地缘政治风险的定义,仅使用为其人工审计样本创建的真实标注数据。该人工审计样本中的标注数据是从 Caldara 和 Iacoviello(2022)指定的大量 ProQuest 文章库中独立同分布随机抽样获得的,我们将整个文章库作为无标签数据用于填补指数²⁴。我们采用与 MARS-EPU 指数相同的资料分割程序。在估计样本中,轻量级深度神经网络分类器的准确率为 80.6%,而关键词查询的准确率为 66.2%(以人工审计标注为真实值)。

图 3 绘制了基于关键词和神经网络的 MARS-GPR 指数以及未经调整的 GPR 指数,并附带置信区间。基于原始关键词查询的未经校正的 GPR 指数相对于真实值样本系统性且显著地低估了地缘政治风险,因为审计样本中的许多文章虽然讨论了地缘政治风险的上升,但并未包含必需的关键词。尽管如此,校正与未校正指数的变化主要由第一次和第二次世界大战驱动,9·11 事件之后以及冷战初期也出现了地缘政治风险升高的情况。


非 MAR-S 指数的置信区间(错误地)比 MAR-S 指数的置信区间窄得多。此外,更精确的深度神经网络分类器生成的 MAR-S 置信区间略窄于精度较低的关键词分类器所生成的置信区间。

接下来,我们回顾 Caldara 和 Iacoviello(2022)论文中一个使用 GPR 指数作为回归变量的代表性回归分析。具体而言,Caldara 和 Iacoviello(2022)设定了一个简单的基准回归模型,用于估计 GPR 对经济灾难概率的影响:



图4显示了(标准化的)MARS和非MARS第一步指数推导出的估计值之间存在一些差异——尽管这些差异在统计上并不显著。世界大战的冲击是如此巨大,以至于即使在地缘政治风险测量中存在实质性的系统性偏差(图3),也会在(标准化的)地缘政治风险和经济灾难之间留下一个正的估计关系。显然,许多经济学家研究的关系依赖于不太显著的变化。正如预期的那样,基于MARS第一步插补的OLS系数过于精确——相对于ME-LS估计,点估计略有减弱。在这种设置中,使用深度神经插补并没有带来下游精度的提高。鉴于地缘政治风险数据是单一年度系列,精度对GPRt第一步中的时间变化程度高度敏感。由于(标准化的)系列中变化的微小差异导致的精度的适度差异似乎抵消了神经分类器的适度精度优势所带来的精度增益。


6.3 MAR-S 设计选择

为了探索MAR-S框架内的设计选择——使用熟悉的均值估计设置——我们开发了第三个示例,专注于估计美国地方报纸中关于政治文章的比例。由于经济学文献中注释文本审计样本通常较小,我们标记数据以生成足够大的注释集,以研究其大小如何影响MAR-S下的推断。文章是从Dell等人(2023)描述的大规模历史美国报纸数据集中随机选择进行注释的。我们选择政治话题,因为它是少数几个足够常见的话题之一,可以通过随机抽样产生相对平衡的注释样本。




在经济学中使用深度学习来插补缺失数据的文献中,一个常见的问题是:精度有多高才算足够高?答案取决于研究人员对依赖插补数据的下游估计器所需的精度水平。如果估计器未能达到所需的精度,通常可以通过增加训练集的大小、设计对模型更信息丰富的训练样本(例如,通过包括更难的样本或更高质量的注释)、调整更大的模型或应用这些策略的某种组合来提高神经网络的准确性。

7 结论

非结构化数据在丰富社会科学研究方面具有相当大的潜力。然而,尽管神经网络功能强大,但它们并不能普遍产生无偏预测。通过收集更多或更高质量的训练数据以及增加模型大小,通常可以提高其准确性,但这些努力成本高昂。为了评估预测何时足够准确——并使用它们得出可信的结论——研究人员必须认真对待预测误差。

MAR-S框架通过将非结构化数据的分析框架为缺失结构化数据问题来解决这些挑战。这种方法能够恢复具有有效不确定性量化的√n-一致估计量,并为构建既高效又稳健的估计量提供了基础。通过优先考虑效率,MAR-S表明,最优插补函数可以采取非明显的形式,因为它们不仅必须捕捉非结构化和缺失结构化数据的变化,还必须捕捉特定情境的协变量的变化。

我们进一步将此框架扩展到感兴趣的参数是缺失结构化数据的(潜在非线性)函数或泛函,并且仅在细粒度级别观察到真实值的场景。这种在现有文献中被忽视的场景在实证经济学中很常见,因为插补的结构化数据(及相应的真实注释)通常位于单个文本或图像的级别,而其他感兴趣的变量仅在更粗的聚合级别可用。

至关重要的是,通过缺失数据的视角来看待非结构化数据的推断要求研究人员定义他们希望预测的低维摘要,并确保黑盒模型(如神经网络)的输出在与估计量的关系上是可解释的。尽管无监督数据分析在MAR-S的范围之外,但明确测量目标通常能带来科学效益。

MAR-S提供了一个简单而通用的框架,用于量化第一步模型中的预测误差如何影响下游估计。在弱假设下,它允许使用插补的结构化数据进行有效、稳健和高效的推断,即使插补是由复杂、易出错的模型执行的。随着非结构化数据在实证工作中变得越来越重要,MAR-S提供了一条实用路径,朝着可信和可解释的推断发展,适用于广泛的常见实证场景。

原文链接:https://arxiv.org/pdf/2505.00282

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
研制成功!我国燃气轮机领域实现关键突破

研制成功!我国燃气轮机领域实现关键突破

环球网资讯
2026-01-17 14:37:06
不得了,这个新技术把视频压缩到了0.02%!

不得了,这个新技术把视频压缩到了0.02%!

量子位
2026-01-15 14:21:34
已确认!时隔7年著名笑星2026春晚回归!

已确认!时隔7年著名笑星2026春晚回归!

家在栖霞
2026-01-15 09:10:46
1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

1000架歼-20和900架歼-16?英国智库:难以战胜2030年的中国空军

军机Talk
2026-01-17 14:25:03
场均34分9助攻,却引起全联盟声讨!你要这么打,真有可能被抛弃

场均34分9助攻,却引起全联盟声讨!你要这么打,真有可能被抛弃

老梁体育漫谈
2026-01-17 00:04:15
人民币,大消息!刚刚宣布

人民币,大消息!刚刚宣布

中国基金报
2026-01-16 19:39:14
太突然!东莞一老牌大酒楼关闭了!很多人都去过!

太突然!东莞一老牌大酒楼关闭了!很多人都去过!

东莞好生活
2026-01-17 12:47:47
瞅瞅伦敦普通人的午饭,你就知道为什么他们都带便当了,挺扎心的

瞅瞅伦敦普通人的午饭,你就知道为什么他们都带便当了,挺扎心的

天下霸奇
2026-01-15 10:00:15
随着威尔逊6-5绝杀罗伯逊,大师赛4强诞生!大概率以下2人进决赛

随着威尔逊6-5绝杀罗伯逊,大师赛4强诞生!大概率以下2人进决赛

小火箭爱体育
2026-01-17 07:41:32
G40沪陕高速往江苏方向发生一起多车相撞事故,1人抢救无效死亡

G40沪陕高速往江苏方向发生一起多车相撞事故,1人抢救无效死亡

环球网资讯
2026-01-17 16:13:32
卡尼在北京强硬表态,中国就是比美国可靠,特朗普的回应出人意料

卡尼在北京强硬表态,中国就是比美国可靠,特朗普的回应出人意料

爱史纪
2026-01-17 15:16:34
哇塞,恭喜湖人,历史级三分射手来了!

哇塞,恭喜湖人,历史级三分射手来了!

体育新角度
2026-01-17 15:33:06
尹锡悦被判处有期徒刑 5年

尹锡悦被判处有期徒刑 5年

每日经济新闻
2026-01-16 14:37:36
携程该思考后路了

携程该思考后路了

虎嗅APP
2026-01-17 02:13:07
3连败+落后7分 曝40岁C罗崩溃:怀疑自己是万恶之源 申请休假30天

3连败+落后7分 曝40岁C罗崩溃:怀疑自己是万恶之源 申请休假30天

风过乡
2026-01-17 12:31:03
52犯58罚!周琦伤退鬼才许利民瞎换人,张宁致胜中投山西复仇北京

52犯58罚!周琦伤退鬼才许利民瞎换人,张宁致胜中投山西复仇北京

后仰大风车
2026-01-16 22:00:20
俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

百科密码
2026-01-16 15:53:58
全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

全世界都被普京耍了!打击乌克兰只是个幌子,真正目标已布局4年

李橑在北漂
2026-01-17 12:38:29
中国被公认为世界上最安全的大国

中国被公认为世界上最安全的大国

中国日报网
2026-01-16 17:53:07
活久见!约旦门将扑点后激动握拳 不料球仍入网瞬间傻眼 日本狂喜

活久见!约旦门将扑点后激动握拳 不料球仍入网瞬间傻眼 日本狂喜

我爱英超
2026-01-16 22:45:27
2026-01-17 16:40:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1156文章数 18关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

区民政局副局长"靠老欺老":8年侵吞公共财物1257万

头条要闻

区民政局副局长"靠老欺老":8年侵吞公共财物1257万

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

艺术
游戏
教育
本地
健康

艺术要闻

砸10亿!仅18个月!顺德建成“亚洲最大坚果超级工厂”

《古墓丽影》演员谈新时代劳拉:跳脱游戏成为文化偶像

教育要闻

1335 万!高考人数 8 年首降,这些省份反而逆势增长

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

血常规3项异常,是身体警报!

无障碍浏览 进入关怀版