神经符号语义增强|算法|范数|方差|神经网络

分享至

Semantic Strengthening of Neuro-Symbolic Learning

神经符号学习的语义增强

https://arxiv.org/pdf/2302.14207

摘要

最近提出了许多神经符号方法，通常目标是将符号知识添加到神经网络的输出层。理想情况下，这些方法会最大化神经网络预测满足底层领域规则的概率。不幸的是，这种概率推理通常是计算上不可行的。因此，神经符号方法通常采用模糊近似来替代概率目标，牺牲了概率语义的合理性，或者采用抽样方法，但在指数级大小的输出空间中很少可行。我们通过假设约束在神经网络学习到的特征上是可分解的来解决这一问题，并迭代地加强我们的近似，恢复对近似质量影响最大的约束之间的依赖关系。这对应于计算约束对在神经网络学习到的特征条件下的互信息，可以被视为衡量两个分布梯度对齐程度的指标。我们展示了如何高效地为可处理的电路计算这一指标。我们在三个任务上测试了我们的方法：在《魔兽争霸》地图上预测最低成本路径、预测最低成本完美匹配以及解决数独谜题，观察到它在避免计算不可行性的同时显著优于基线。

1 引言

神经网络已被证明是优秀的特征提取器，能够从大型数据集中学习复杂的统计特征。然而，如果没有对给定问题领域底层符号规则的理解，神经网络通常只能实现不错的标签级准确率，而完全忽略了由各个标签共同编码的结构。这些结构可能编码了图中的路径、用户与其偏好的匹配，甚至是数独谜题的解。神经符号方法（De Raedt等人，2020）希望通过将关于底层问题领域的知识注入训练过程来解决这一问题，例如数独谜题的每一行、每一列和每个3×3方块的元素的唯一性。这是通过最大化神经网络分配给满足底层领域规则的输出的概率来实现的。一般来说，计算这一概率是一个#P难问题（Valiant，1979），尽管对于一系列实际问题（Xu等人，2018；Ahmed等人，2022c）是可处理的，但许多有趣的问题仍然被排除在外。

一种常见的方法是通过用模糊t-范数替换逻辑运算符，用简单不等式替换逻辑蕴含（Medina Grespan等人，2021；van Krieken等人，2020），来绕开精确计算概率的困难。然而，这并没有保留底层逻辑语句的概率语义：等价的逻辑语句不再对应于相同的满足赋值集合，不同的概率分布，以及因此，截然不同的约束概率。另一方面，在有效输出仅占分布支持的一小部分的指数级大小输出空间中，通过蒙特卡洛方法估计概率（Ahmed等人，2022a）是不可行的。

在本文中，我们从第一性原理出发，推导出一种概率方法，用于扩展神经符号学习的概率推理，同时保留底层逻辑的合理语义。具体来说，我们首先假设约束的概率在神经网络学习到的特征条件下是可分解的。也就是说，我们假设逻辑公式编码的事件在给定学习到的特征时是相互独立的，因此联合概率可以分解为概率的乘积。这将（通常是不可行的）满足约束的概率问题（例如数独谜题的有效性）简化为（可行的）满足各个局部约束的概率问题，例如一行、一列或一个方块的元素的唯一性。然而，这引入了不一致性：满足一个约束的赋值可能违反另一个约束，导致梯度不一致。更准确地说，对于每一对约束，我们感兴趣的是在假设约束独立时（实际上它们是依赖的，条件是神经网络学习到的特征）所付出的建模误差代价。这正好对应于条件互信息，这是一个臭名昭著的难以计算的量。我们给出了一种算法，用于在约束被表示为满足某些结构属性的电路时，可行地计算条件互信息。然后进行训练，我们将学习神经网络的过程与语义加强的过程交替进行，我们迭代地收紧我们的近似，利用神经网络指导我们哪些约束需要被设为依赖。

我们在三个不同的任务上测试了我们的方法：在《魔兽争霸》地形上预测最低成本路径、预测最低成本完美匹配以及解决数独谜题，观察到我们的方法在计算时间仅略有增加（我们的实验分别限制在2-3秒和7秒每轮迭代，用于《魔兽争霸》最低成本路径、MNIST完美匹配和数独）的情况下，显著优于基线，从而绕开了问题的不可行性。我们的代码已在 [github.com/UCLAStarAI/Semantic-Strengthening](https://github.com/UCLAStarAI/Semantic-Strengthening) 上公开。

2 问题陈述与动机

我们首先介绍本文余下部分使用的符号选择，随后阐述问题的动机。

我们用大写字母（X, Y）表示布尔变量，用小写字母（x, y）表示它们的实例化（Y = 0 或 Y = 1）。变量集合用加粗大写字母（X, Y）表示，它们的联合实例化用加粗小写字母（x, y）表示。文字是一个变量（Y）或其否定（¬Y）。逻辑语句（α或β）由变量和逻辑连接词（∧, ∨, 等）构成，也被称为（逻辑）公式或约束。状态或世界 y 是对所有变量 Y 的实例化。如果语句在该世界中评估为真，则状态 y 满足语句 α，记为 y |= α。满足语句 α 的状态 y 也被称为 α 的模型。我们用 m(α) 表示 α 的所有模型的集合。状态 y 的符号用于指代赋值、强制赋值的逻辑语句或捕捉赋值的二进制输出向量，因为这些是等价的概念。如果所有满足 α 的世界也都满足 β，则语句 α 蕴含另一个语句 β，记为 α |= β。

可能结构上的概率分布 设 α 是定义在布尔变量 Y = {Y1, ..., Yn} 上的逻辑语句。设 p 是与这些变量 Y 相同的概率向量，其中 pi 表示变量 Yi 的预测概率，并对应于神经网络的一个单独输出。神经网络的输出诱导了 Y 的可能状态 y 上的概率分布 P(·)：

语义损失 语义损失（Xu等人，2018）是逻辑约束α和概率向量p的函数。它通过计算在p诱导的概率分布P(·)下，约束α的满足概率，来衡量神经网络在多大程度上满足约束。它将概率计算问题简化为加权模型计数（WMC）：对α的所有模型进行求和，每个模型根据其在P(·)下的似然性进行加权。因此，它最大化了网络分配给α模型的概率质量。

取负对数可以恢复语义损失。计算上述期望通常是#P难的（Valiant, 1979）：α的模型数量可能呈指数级增长。例如，有效的9×9数独数量为6.67×10²¹个（Felgenhauer和Jarvis, 2005），而n×n网格中有效匹配或路径的数量随网格大小呈双重指数增长（Strehl, 2001）。一种常见的方法是放松逻辑语句，用它们的模糊t-范数替换逻辑运算符，用简单不等式替换蕴含，具体形式包括：乘积（Product）（Rocktaschel等人，2015；Li和Srikumar, 2019；Asai和Hajishirzi, 2020）、哥德尔（Gödel）（Minervini等人，2017）和卢卡斯维茨（Łukasiewicz）（Bach等人，2017），它们仅在逻辑运算符的解释上有所不同。Medina Grespan等人（2021）对这一主题进行了全面的理论和实证研究。

尽管由于其可处理性而具有吸引力，但t-范数存在一些主要缺点。首先，它们失去了逻辑语句的精确含义，即放松后的逻辑公式的满足和不满足赋值与原始逻辑公式不同。其次，逻辑不再具有一致性，即原本等价的逻辑语句对应于不同的真值，因为放松是基于它们的语法而非语义。最后，放松牺牲了合理的概率语义，与其他方法（Xu等人，2018；Manhaeve等人，2018）不同，输出概率对应于逻辑语句真值赋值的概率质量，而这里的输出概率没有合理的概率解释（Medina Grespan等人，2021）。

上述放松将满足全局约束的不可行问题简化为满足局部约束的可行问题，因此通常会导致梯度不一致。考虑图1中数独的单元格（1,1）。考虑两个约束，分别断言第2行和第2列的元素是唯一的，并假设网络对行和列赋值诱导的概率分布如图1右侧所示。这导致了单元格（1,1）的对立梯度：一方面，最大化列约束概率的梯度将其推向2，而最大化行约束概率的梯度则将其推向4。问题的根源在于将两个强耦合的约束建模为独立的，以至于一个的值决定了另一个的值。

最近，Ahmed等人（2022a）提出使用采样来获得约束被满足的概率的蒙特卡洛估计。这提供了将约束指定为PyTorch函数的便利性，同时也适应了约束训练流程中的非可微元素，尤其是在训练流程包含非可微元素的情况下。然而，当问题不可行时，这通常伴随着组合大小的状态空间，这意味着随着状态空间大小的增加，采样有效结构的概率急剧下降，使得几乎不可能获得任何学习信号，因为几乎所有采样的状态必然违反我们的约束。同样，当约束几乎被满足时，我们永远不会采样到违反约束的低概率赋值。

更不用说梯度估计器的缺点了：Ahmed等人（2022a）使用的梯度估计器是REINFORCE梯度估计器，尽管在样本数量众多时是无偏的，但其方差使得学习变得非常困难。即使不具有这种方差问题的梯度估计器，也会在方差和偏差之间进行权衡，使得获得真实梯度的可能性降低。

3 语义加强

我们感兴趣的方法类似于第2节中讨论的方法，是可处理的，但保留了合理的概率语义，并且在约束局部或全局被违反时能够产生非零梯度。

3.1 推导准则

问题在于，我们需要放松哪些独立性假设。当然，我们希望放松那些对近似质量有最大积极影响的独立性假设。换句话说，我们关注于放松那些如果假设原本相互依赖的约束是独立的，会导致最大惩罚的独立性假设。对于每一对约束 βi 和 βj（对于所有 i ≠ j），这对应于它们的边际分布乘积与联合分布之间的 Kullback-Leibler 散度，它是我们在假设两个约束独立时所引入的建模误差的度量，以位（bits）为单位

在随机变量 X 和 Y 之间，或者它们之间的依赖性度量。直观上，互信息捕捉了 X 和 Y 之间共享的信息：它衡量了知道其中一个变量后，另一个变量的不确定性减少了多少。当它们相互独立时，知道其中一个不会提供关于另一个的任何信息，因此互信息为 0。在另一个极端情况下，一个变量是另一个变量的确定性函数，因此互信息达到最大值，等于它们的熵。注意，公式 (3) 和公式 (4) 中的期望值是基于联合分布 P(X,Y) 计算的。

然而，如果我们忽视网络学习到的特征，那就太疏忽了，因为这些特征已经编码了约束之间的一些依赖关系，使我们能够做出更强的近似。也就是说，我们关注的是在神经网络特征条件下的所有约束对 βi 和 βj 之间的互信息。设 D 为我们的数据分布，Z 是一个根据 D 分布的随机变量，我们希望计算：

正如通常的做法一样，我们通过从数据分布中进行蒙特卡洛采样来估计外层期望。

或许令人惊讶的是，尽管考虑到了数据分布的期望，公式（5）中的量仍然难以计算。这不仅仅是因为概率的不可解性，正如我们已经提到的，在一般情况下这是 #P-难的，还因为一般情况下合取的难度。粗略地说，可能存在约束 βi 和 βj，对于它们各自的概率计算 P(βi) 和 P(βj) 是可解的，但计算 P(α)，其中 α = βi ∧ βj，却是困难的（Shen 等人，2016；Khosravi 等人，2019）。直观上，合取的难度来自于在不枚举的情况下找到满足赋值的交集。我们将在第 3.3 节中对此进行形式化。

3.2 语义增强算法

在本节中，我们将假设可以有效地计算公式（5）中的条件互信息，并继续介绍我们的语义增强算法。简单来说，其思路是利用神经网络来指导放宽约束之间引入的独立性假设的过程。具体而言，我们被给定了以下参数：一个间隔 η、一个约束预算 κ 和一个计算预算 τ。我们开始训练神经网络，每隔 η 个周期中断训练，计算约束对之间的条件互信息，仅考虑那些至少共享一个变量的约束对（例如，分别断言第一行和最后一行唯一性的两个约束不共享变量，因此是独立的，根据定义它们的互信息为 0，所以我们无需考虑将它们合并）。随后，我们找出条件互信息最高的 κ 个约束对，这些约束对对我们近似质量的负面影响最大。我们检测约束的强连通分量，并将它们进行合取：如果 β1 和 β2 应当建立依赖关系，而 β2 和 β3 也应当建立依赖关系，那么 β1、β2 和 β3 都被设为相互依赖。我们从约束集中删除旧的约束，添加新的约束，然后继续训练。这一过程每隔 η 个周期重复进行，直到耗尽计算预算 τ。我们的完整算法如算法 2 所示。

3.3 可解计算准则

与之前的方法（Chen 等人，2018；Mesner 和 Shalizi，2019；Tezuka 和 Namekawa，2021）不同，我们无需诉诸变分近似或神经估计来计算互信息，而是借助于可解电路的语言。也就是说，我们采用了知识编译技术——一类方法，将逻辑理论转化为目标形式，即可解电路，这些电路将函数表示为参数化的计算图。通过对这些计算图施加特定的结构属性，我们能够对编码函数上的某些类别的概率查询进行可解计算。因此，电路为我们提供了一种构建和推理可解表示的语言。

逻辑电路 更正式地，逻辑电路是一个有向无环计算图，表示一个逻辑公式。图中的每个节点 n 编码一个逻辑子公式，记为 [n]。图中的每个内部节点要么是 AND 门，要么是 OR 门，每个叶节点编码一个布尔字面量（Y 或 ¬Y）。我们用 in(n) 表示 n 的子节点集合，即其逻辑门的操作数。

结构属性 正如之前所暗示的，电路能够在满足一组结构属性的情况下，对编码函数上的某些查询类别进行可解计算。我们在下文详细说明这些属性。

一个电路是可分解的，如果每个 AND 门的输入依赖于不相交的变量集，即对于 α = β ∧ γ，vars(β) ∩ vars(γ) = ∅。直观上，可分解的 AND 节点编码了函数变量的局部因子分解。为简单起见，我们假设可分解的 AND 门始终有两个输入，这一条件可以通过以多项式增加电路规模为代价在任何电路上强制执行（Vergari 等人，2015；Peharz 等人，2020）。

第二个有用的属性是**平滑性**。一个电路是平滑的，如果每个 OR 门的子节点依赖于相同的变量集，即对于，我们有。可分解性和平滑性是对任意变量集进行单次可解积分的充分必要条件，因为它们允许将较大的积分分解为较小的积分（Choi 等人，2020）。

此外，一个电路被称为确定性的，如果对于任何输入，每个 OR 节点的子节点中至多有一个输出非零，即对于，我们有对于所有的 i ≠ j。与可分解性类似，确定性诱导了函数的递归分区，但这是针对函数的支持集（即满足赋值）进行的，而不是针对变量。确定性与平滑性和可分解性一起，使我们能够可解地计算约束的概率（Darwiche 和 Marquis，2002）。

剩下的问题是证明我们能够可解地合取两个约束。将两个可分解且确定性的电路合取，如果我们希望结果仍然是可分解且确定性的，则是 NP 难的，而正如我们提到的，这是可解概率计算的要求（Darwiche 和 Marquis，2002；Shen 等人，2016；Khosravi 等人，2019）。为了保证合取约束的概率计算的可解性，我们因此需要引入最后一个结构属性，即两个电路之间的**兼容性**概念（Vergari 等人，2021）。两个分别基于变量 Y 的电路 c1 和 c2 被认为兼容，如果 (1) 它们是平滑且可分解的，并且 (2) 在 c1 中的任意 AND 节点 n 和 c2 中的任意 AND 节点 m，若它们在 Y 上具有相同的作用域，则可以通过重新排列使其相互兼容并以相同方式分解，即 vars(n) = vars(m) ⇒ vars(n_i) = vars(m_i)，且 n 和 m 的输入 n_i 和 m_i 在某种排列下是兼容的。兼容性的充分条件是 c1 和 c2 共享完全相同的层级作用域分区（Vergari 等人，2021），有时被称为 vtree 或变量排序（Choi 等人，2020；Pipatsrisawat 和 Darwiche，2008）。直观上，两个电路应该共享它们对函数在其变量上的分解顺序。图 2 展示了一个平滑、可分解、确定性且兼容的电路示例。

从高层次来看，存在现成的编译器利用 SAT 求解器（本质上通过案例分析），将逻辑公式编译成可解逻辑电路。我们对于电路的具体形式持不可知态度，只要本文中概述的属性得到遵守即可。在我们的实验中，我们使用了 PySDD1——一个 Python SDD 编译器（Darwiche，2011；Choi 和 Darwiche，2013）。

现在我们已经证明可以可解地计算概率 P(β1)、P(β2) 和 P(α)，我们可以使用全概率法则（参见图 2）来计算剩余的概率，从而计算互信息。我们的算法如算法 1 所示。

4 相关工作

近年来，将神经学习与符号推理相结合的研究逐渐增多，这类方法被称为神经符号方法，旨在通过结合两种范式的优势来弥补各自的不足。许多方法专注于通过一阶近似使概率推理变得可行，并通过将逻辑公式转化为算术目标、用模糊t-范数替换逻辑运算符以及用不等式替换蕴含来实现可微性。

Diligenti等人（2017）和Donadello等人（2017）使用一阶逻辑来规范神经网络输出的约束，并采用模糊逻辑将逻辑公式转化为可微的算术目标，从而支持在约束下的端到端学习。Xu等人（2018）引入了语义损失，避免了模糊方法的不足，同时支持在约束下的端到端学习。具体来说，模糊推理被精确的概率推理所取代，通过将逻辑公式编译成支持高效概率查询的结构。

Liu等人（2023）使用语义损失同时学习神经网络并提取泛化的逻辑规则，与需要背景知识和候选逻辑规则的其他神经符号方法不同，他们旨在以最小的先验诱导任务语义。

另一类神经符号方法起源于逻辑编程。DeepProbLog（Manhaeve等人，2018）扩展了ProbLog，这是一种概率逻辑编程语言，通过引入处理神经谓词的能力，将神经网络的输出视为对应谓词的概率。Manhaeve等人（2021）尝试通过仅考虑前k条证明路径来扩展DeepProbLog。Dai等人（2018）将纯逻辑Prolog规则指定的领域知识与神经网络的输出相结合，通过迭代替换神经网络的输出为匿名变量，直到形成一致的假设，从而处理网络的不确定性。Bosnjak等人（2017）提出了一个框架，将先验过程知识（以Forth程序的形式）与通过数据学习的神经函数相结合。得到的神经程序与指定的先验知识一致，并针对数据进行优化。

最近，许多方法通过将约束嵌入为预测层来确保一致性，包括语义概率层（SPLs）（Ahmed等人，2022b）、MultiplexNet（Hoernle等人，2022）和HMCCN（Giunchiglia和Lukasiewicz，2020）。与语义损失（Xu等人，2018）类似，SPLs保持了合理的概率语义，并在现实问题中展现出令人印象深刻的可扩展性，但在编码更复杂的约束时可能面临挑战。SIMPLE（Ahmed等人，2023）为k子集分布提出了一个SPL，用作诱导特征分布的潜在空间，并为此推导出一个低偏差、低方差的梯度估计器。MultiplexNet只能编码析取范式中的约束，这在通用性和效率方面存在问题，因为神经符号任务通常涉及大量子句。HMCCN将标签依赖性编码为模糊放松，是当前层次多标签分类的最新模型（Giunchiglia和Lukasiewicz，2020），但类似于其最近的扩展（Giunchiglia和Lukasiewicz，2021），它仅限于某一类约束。Daniele等人（2022）讨论了如何使用一般公式强制执行模糊放松的一致性。

5 实验评估

我们评估了我们的方法——语义增强，在几个神经符号任务上的表现，包括 Warcraft 最小成本路径寻找、MNIST 数字的最小成本完美匹配，以及训练神经网络解决数独难题的任务。通过神经符号视角看待上述所有任务的挑战在于状态空间的巨大性：正如之前提到的，存在 6.6 × 10²¹ 个有效的 9 × 9 数独，而有效匹配或网格中的路径数量随着网格大小呈双指数增长——简单枚举是不可行的。即使是像语义损失这样的方法，依赖电路方法来利用问题中的局部结构（本质上通过缓存重复子问题的解），也无法扩展到这些任务的大型实例。

正如之前研究（Xu 等人，2018；Ahmed 等人，2022c,b）所确立的，标签级准确率，或预测单个标签的准确率，往往是神经网络性能的较差指标，在神经符号环境中通常也不够有趣。在这些环境中，我们更关心预测结构对象与真实情况完全匹配的准确率，例如，预测是否是最短路径？我们在实验中将这一指标称为“Exact”；以及预测与约束一致的对象的准确率，例如，预测是否是有效路径？我们在实验中将这一指标称为“Consistent”。需要注意的是，与其他两个任务不同，对于数独的情况，这两个指标是相同的：一个有效的数独只有唯一解。

在所有实验中，我们与两个基线进行比较：一个神经网络（其架构在相应实验部分中指定），以及同一个神经网络增强了乘积 t-范数，其中我们在整个训练过程中假设约束的独立性。

Warcraft 最短路径 我们评估了我们的方法——语义增强，在预测 Warcraft 地形图上加权网格中最小成本路径这一具有挑战性的任务上。遵循 Poganciˇc 等人（2020）的方法，我们的训练集包含 10,000 张使用 Warcraft II 瓦片集整理的地形图。每张地图编码了一个 12 × 12 的底层网格，其中每个顶点根据其代表的地形类型被分配一个成本（例如，土地的成本低于水）。从左上角到右下角顶点之间的最短（最小成本）路径被编码为一个指示矩阵，并作为标签。图 3 展示了一个呈现给网络的输入示例，以及带有标注最短路径作为真实值的输入。给定一张地形图图像，一个卷积神经网络——类似于 Poganciˇc 等人（2020），我们使用 ResNet18（He 等人，2016）——输出一个 12 × 12 的二进制矩阵，表示一组顶点。需要注意的是，最小成本路径并非唯一的：可能存在多个共享相同最小成本的路径，根据我们的指标，这些都被认为是正确的。表 1 显示了我们的结果。

我们观察到，将约束纳入学习过程后，预测最优路径的准确率从 44.80% 提高到 50.40%，预测有效路径的准确率从 56.90% 提高到 63.20%，分别由“Exact”和“Consistent”指标表示。此外，或许更有趣的是，我们看到我们的方法——语义增强，大幅改进了基线以及乘积 t-范数的结果，将预测最优路径的准确率从 44.80% 和 50.40% 提高到 61.20%，同时将预测有效路径的准确率从 56.90% 和 63.20% 大幅提高到 72.70%。

MNIST 完美匹配 我们的下一个任务是预测一个由 k² 个 MNIST 数字组成的 k × k 网格的最小成本完美匹配，其中不允许对角线匹配。我们考虑 k = 10 的情况。类似于 Poganciˇc 等人（2020），我们通过考虑底层的 k × k 网格图生成真实值，并使用 Blossom V（Kolmogorov，2009）解决最小成本完美匹配问题，其中边权重简单地通过将两个顶点数字视为两位数来给定，垂直边向下读取，水平边从左到右读取。最小成本完美匹配标签随后被编码为所选边子集的指示向量。与 Warcraft 实验类似，网格图像被输入到一个（预训练的）ResNet-18 中，该网络简单地输出一组预测的边。表 2 显示了我们的结果。

与 Warcraft 实验类似，我们观察到，将约束纳入学习过程后，预测最优完美匹配的准确率从 9.30% 提高到 12.70%，预测有效完美匹配的准确率从 10.00% 提高到 12.90%，分别由“Exact”和“Consistent”指标表示。此外，我们看到我们的方法——语义增强，大幅改进了基线以及乘积 t-范数的结果，将预测最优完美匹配的准确率从 9.30% 和 12.70% 提高到 15.50%，同时将预测有效完美匹配的准确率从 10.00% 和 12.90% 大幅提高到 18.40%。

数独最后，我们考虑预测给定数独谜题解的任务。此任务的目标是，给定一个 9 × 9 的部分填充数字网格，填充网格中的剩余单元格，使得每行、每列和每个 3 × 3 子网格中的条目都是唯一的，即数字 1 到 9 每个恰好出现一次。

我们使用了 Wang 等人（2019）提供的数据集，包括 10,000 个数独谜题，分为 9,000 个训练样本和 1,000 个测试样本，所有谜题均有 10 个缺失条目。作为基线，我们遵循 Wang 等人（2019）的方法，使用基于 Park（2018）的卷积神经网络。神经网络的输入是初始数独棋盘的位表示，以及表示需要学习的位的掩码，即数独空单元格中的位。网络将位输入解释为 9 个输入图像通道（棋盘上的每个方格对应一个通道），并使用一系列 10 个卷积层（每个层有 512 个 3×3 滤波器）来输出解，掩码输入作为与棋盘相同格式的附加图像通道集。表 3 显示了我们的结果。

与我们之前的实验一致，我们观察到，将约束纳入学习过程后，预测正确数独解的准确率，即“Exact”指标，从 16.80% 提高到 22.10%。此外，我们看到我们的方法——语义增强，大幅改进了基线以及乘积 t-范数的结果，将准确率从 16.80% 和 22.10% 提高到 28.00%。

6 结论

总之，我们提出了语义增强，一种可解的神经符号学习方法，该方法忠实于神经网络在给定约束上定义的分布的概率语义。语义增强从假设给定约束中的子句独立开始，从而将通常不可解的满足全局约束的问题简化为满足各个局部约束的可解问题。它使用一个原则性准则——条件互信息，来确定并放宽那些对我们近似质量最具破坏性的不合理独立性假设。我们已经证明，在三个具有挑战性的任务上，我们能够大幅改进基线，其中语义增强提高了模型预测的准确性和一致性。

原文链接：https://arxiv.org/pdf/2302.14207

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.