因果规范化流：从理论到实践2306|定理|实证|因果关系

分享至

Causal normalizing flows: from theory to practice

因果规范化流：从理论到实践

https://arxiv.org/abs/2306.05415

摘要

在这项工作中，我们深入探讨了归一化流在因果推断中的应用。具体来说，我们首先利用非线性独立成分分析（ICA）的最新结果，证明在给定因果顺序的情况下，因果模型可以从观测数据中识别出来，因此可以使用自回归归一化流（NFs）进行恢复。其次，我们分析了因果归一化流的不同设计和学习选择，以捕捉潜在的因果数据生成过程。第三，我们描述了如何在因果归一化流中实现 do-操作符，从而回答介入性和反事实问题。最后，在我们的实验中，我们通过全面的消融研究验证了我们的设计和训练选择；比较了因果归一化流与其他近似因果模型的方法；并实证证明了因果归一化流可以用于解决现实世界的问题——在这些情况下，混合离散-连续数据和因果图的部分知识是常态。这项工作的代码可以在 https://github.com/psanch21/causal-flows 找到。

1引言

深度学习越来越多地被用于因果推理，即寻找观察变量之间的潜在因果关系（因果发现），并回答基于现有数据的假设问题（因果推断）[30]。在本文中，我们的重点是使用仅基于观察数据和（可能部分的）潜在结构因果模型（SCM）因果图的知识来解决因果推断问题。这在图1中得到了说明，我们提出的框架能够估计（未观察到的）对敏感属性进行外部干预的因果效应（红色和黄色分布），仅使用观察到的数据（蓝色分布）和关于特征之间因果关系的局部信息。

在这种情况下，以前的工作大多依赖于不同的深度神经网络（DNN）——例如，归一化流（NFs）[1, 25, 28, 29]、生成对抗网络（GANs）[22, 41]、变分自编码器（VAEs）[17, 42]、高斯过程（GPs）[17]，或去噪扩散概率模型（DDPMs）[3]——来迭代估计在给定其因果父节点的情况下每个观察变量的条件分布，因此对每个观察变量使用独立的DNN。因此，为了预测因果数据生成过程中的干预效应，这些方法在计算其子节点的新值时固定了被干预变量的值。然而，它们也可能受到误差传播的影响——随着因果路径的延长而恶化——以及参数数量众多，这在实践中通过特定的参数摊销技术[29]来解决。此外，一些方法还依赖于隐式分布[3, 22, 29, 34]，因此不允许评估学到的分布。

相反，我们的目标与[18, 34, 36, 43]类似，我们在这里旨在使用单个DNN学习完整的因果生成过程，特别是使用因果归一化流。为此，我们首先在理论上证明因果NF是近似广泛类别因果数据生成过程的自然选择（§3）。然后，我们设计了因果NF，它们固有地满足捕获潜在因果依赖的必要条件（§4），并引入了do运算符的实现，使我们能够高效地解决因果推断任务（§5）。重要的是，我们的因果NF框架允许我们处理混合连续-离散数据和对因果图的部分知识，这对于现实世界的应用至关重要。最后，我们通过实验验证了我们的发现，并表明因果NF在性能上优于竞争方法，这些方法也使用单个DNN来近似因果数据生成过程（§6）。

相关工作 据我们所知，最接近我们工作的研究是 [18, 36, 43]，因为它们都使用单一的深度神经网络（DNN）捕捉整个因果数据生成过程。我们的方法推广了 Khemakhem 等人 [18] 的结果，该结果也依赖于自回归归一化流（ANF），但仅考虑了具有加性噪声的仿射 ANF 和数据。相比之下，我们的工作在 ANF 和结构因果模型（SCM）之间建立了更紧密的联系（无论是仿射的还是非仿射的），提供了更一般的可识别性结果，并且提供了在 ANF 中嵌入因果知识以及应用 do-操作符的合理方法。另一类相关的工作将 SCM 与图神经网络（GNN）联系起来 [34, 43]，尽管对底层 SCM 的假设很少，但它们缺乏可识别性保证，并且在 GNN 上的介入是通过切断图来进行的，我们在附录 C 中展示了这在一般情况下可能不起作用。尽管如此，值得注意的是，我们在网络设计中使用 A 的方式（§4）受到了这些工作的启发。最后，当代工作也提出了使用 A 来屏蔽 ANF 的连接 [1, 12, 28]，尽管没有提供本文中提供的通用理论结果和设计特征。

2 预备知识和背景

2.1 结构因果模型、介入和反事实

3因果正常化流

3.1 因果归一化流用于现实世界问题

为了将理论更接近实践，我们需要扩展因果归一化流以处理混合离散-连续数据和因果图的部分知识，这些是现实世界问题的常见属性。由于篇幅限制，我们在这里提供简要解释，并在附录 A.2 中正式化这些想法。

离散数据为了扩展我们的结果以也考虑离散数据，我们利用了 Xi 和 Bloem-Reddy [40] 考虑的通用模型，该模型包括观测噪声（与外生变量独立），并通过向离散变量添加独立噪声 ε ∈ [0, 1]（例如，来自标准均匀分布）来考虑观测离散变量的连续版本，使得实际分布仍然是可恢复的。直观地说，我们的方法假设离散变量对应于（有噪声的）连续变量的整数部分，这些变量是根据满足我们假设的 SCM 生成的，因此我们的理论和实践见解仍然适用。

部分知识虽然我们很少知道整个因果图 A，但我们通常对观测变量之间的一部分因果关系有很好的把握——例如，性别和年龄之间没有因果关系——而其余部分则不清楚。当只有图的部分知识可用时——即，我们只知道观测变量之间的一部分因果关系，我们可以改为使用修改后的有向无环图 A˜，通过找到强连通分量来获得，其中具有未知因果关系的变量子集被视为一个块（参见 §7 的示例）。

这使我们能够为图的已知部分重用我们的理论结果，从而推广 von Kugelgen 等人 [38] 的块可识别性结果。

4 因果归一化流的有效设计

我们在 §3 中展示了因果归一化流是学习生成数据的基础 SCM 的自然选择。重要的是，定理 1 假设我们可以找到一个因果归一化流，其观测分布与真实数据分布（根据基础 SCM）完全匹配。然而，在实践中，达到最优参数可能很棘手，因为：i) 我们只能访问有限数量的训练数据；ii) 因果归一化流（像任何神经网络一样）的优化过程可能收敛到局部最优。在本节中，我们分析了因果归一化流的不同设计选择，以指导优化朝着不仅提供观测分布的准确拟合，而且允许我们准确回答介入性和反事实查询的解决方案。

让我们从一个说明性示例开始。假设我们得到了图 4a 中的线性 SCM，并且我们希望将 SCM 方程写成 TMI 映射，以用因果归一化流近似它们。如 §3 中所讨论的，我们可以展开因果方程（图 4b）——导致函数的组合在结构上与 I + A 一样稀疏。这些函数可以压缩成单个变换（图 4c），使得每个 xi 依赖于其祖先 uani。然而，请注意，在此步骤中会出现快捷方式，使得直接和间接因果路径在此表示中无法区分——在我们的示例中，图 4a 和图 4b 中存在的从 u1 到 x3 的间接因果路径不再通过生成 x2 的路径，而是通过直接连接 u1 到 x3 的快捷方式。或者，我们可以反转方程以将 u 写成 x 的函数（图 4d），这在结构上等价于 I − A。

值得注意的是，这种架构能够捕捉 u 对 x 的所有间接依赖关系，即使只有一层。这是由于用于构建因果归一化流的 ANF 的自回归性质，因为它们按顺序计算逆。在图 4 的示例中，u1 通过 x2 对 x3 的间接影响必须首先生成 x2（图 4a）。与前一种架构类似，在没有因果图的情况下（即，只知道因果顺序），因果归一化流将需要依赖优化来丢弃所有虚假相关性。

4.1 必要条件

接下来，我们分析设计因果归一化流以准确近似和操作 SCM 的必要条件。分析的总结可以在表 1 中找到。

表达能力最不严格的条件是因果归一化流应该能够达到最优，如 §3 中所述，单层 ANF（公式 3）是一个通用 TMI 近似器 [27]。

可识别性为了在我们稍后在 §5 中描述的介入操作，我们需要因果归一化流隔离外生变量，以便我们可以将它们与各自的内生变量关联起来。正如我们在 §3 中看到的，如果因果归一化流具有足够的表达能力，并且如果它遵循关于真实因果图 A 的有效因果顺序，那么定理 1 确保我们可以将外生变量隔离到逐元素变换的程度。

5 Do-operator:实现干预和反事实

6 实证评估

在本节中，我们实证验证了 §4 中的见解，并将因果归一化流与之前的工作进行了比较。更多结果和深入描述可以在附录 D 中找到。

6.1消融研究

6.2 非线性 SCM

**实验设置** 我们将我们的因果归一化流（因果、溯因，且 L = 1）与两个相关工作进行比较：i) CAREFL [18]，一个具有因果顺序知识的溯因归一化流，使用仿射层；ii) VACA [36]，一个具有图知识的变分自编码 GNN。为了公平比较，每个模型使用相同的预算进行超参数调优，我们的因果归一化流使用仿射层，并且 CAREFL 已修改为使用 §5 中提出的 do-操作符（因为原始实现仅适用于根节点）。我们增加了 SCM 的复杂性，并考虑：i) TRIANGLE，一个具有密集因果图的 3 节点 SCM；ii) LARGEBD [13]，一个 9 节点 SCM，具有非高斯 Pu，由两个具有共同初始和最终节点的链组成；iii) SIMPSON [13]，一个 4 节点 SCM，模拟 Simpson 悖论 [35]，其中两个变量之间的关系在 SCM 未正确近似时发生变化。

**结果** 结果总结在表 2 中。简而言之：提出的因果归一化流在性能和计算效率方面均优于 CAREFL 和 VACA。VACA 表现不佳，并且由于 GNN 的复杂性而显著较慢。我们的因果归一化流在反事实估计任务中优于 CAREFL，且观测拟合相同，再次显示了因果一致性的重要性。更重要的是，我们的因果归一化流也比 CAREFL 更快，因为表现最佳的 CAREFL 架构通常具有不止一层。

7 用例：公平审计和分类

为了展示我们工作的潜在实际影响，我们遵循 Sanchez-Martin 等人 [36] 在德国信用数据集 [9] 上的公平用例——这是一个来自 UCI 仓库的数据集，其中根据一小部分特征（包括敏感属性，如性别）预测个人偿还贷款的可能性。更多细节和结果见附录 E。

**实验设置** 如 Chiappa [4] 所建议的，我们使用一个部分图，将数据集的 7 个离散特征分组为 4 个具有已知因果关系的不同块，实践了 §3.1 的结果。对于因果归一化流，我们使用具有单个非仿射神经样条层的溯因模型 [10]。我们的最终目标是训练一个能够很好地捕捉基础 SCM 的因果归一化流，并使用它来训练和评估预测（附加的）二元特征信用风险的分类器，同时相对于二元变量性别 xS 保持反事实公平。

**结果** 表 3 总结了使用逻辑回归 [7] 和 SVM [6] 的分类器的性能和不公平性。在这里，我们观察到，通过从因果归一化流中获取非敏感外生变量，获得的分类器在保持反事实公平的同时，实现了与其它分类器相当或更好的准确性。此外，使用因果归一化流获得的不公平性估计与我们的预期 [23] 相符，其中 full 是最不公平的，其次是 aware 和两个公平模型。通过这个用例，我们证明了因果归一化流确实可以成为解决现实世界因果推断问题的宝贵工具。

8 结论

在这项工作中，我们通过理论和实证证明了因果归一化流是学习广泛类别的因果数据生成过程的自然选择。具体来说，我们已经证明了因果归一化流可以匹配基础 SCM 的观测分布，并且在这样做时，ANF 需要是因果一致的。然而，由于数据可用性有限和局部最优可能阻碍在实践中达到这些解决方案，我们探索了不同的网络设计，利用了关于因果图的可用知识。此外，我们为因果归一化流提供了 do-操作符，以高效解决因果推断任务。最后，我们实证验证了我们的发现，并证明了我们的因果归一化流框架：i) 优于竞争方法；ii) 可以处理混合数据和因果图的部分知识。

**实际局限性** 尽管考虑了广泛的 SCM 类别，但我们做出了几个假设，虽然这些假设是标准的，但在某些应用场景中可能不成立。关于我们的因果假设，未测量的隐藏混杂因素可能破坏我们的因果充分性假设；真实因果图（例如，可能包含循环）与假设的图/顺序之间的不匹配可能导致介入性和反事实查询的估计不佳；非双射的真实因果依赖关系可能使我们的理论和实践发现无效。此外，我们专注于使用最大似然估计（MLE）来学习因果归一化流。然而，MLE 在训练期间不测试外生变量的独立性，这也可能破坏我们的因果充分性假设。

**未来工作** 我们坚信我们的工作开辟了许多有趣的方向。自然地，我们希望通过使用介入数据来解决隐藏混杂因素的存在 [16, 25]，探索 MLE 以外的其他损失（例如，流匹配 [24]）来解决当前的局限性。此外，看到因果归一化流应用于其他问题，如因果发现 [13]、公平决策 [23] 或神经影像学 [14] 等，将会非常令人兴奋。然而，我们想强调的是，在上述背景下，验证我们框架的适用性（例如，使用实验数据）以防止潜在的危害将是至关重要的。

附录略‍

原文链接：https://arxiv.org/abs/2306.05415

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.