神经符号人工智能：迈向提升大语言模型的推理能力|算法|翻译|逻辑推理|神经网络

分享至

Neuro-Symbolic Artificial Intelligence: Towards Improving the Reasoning Abilities of Large Language Models

神经符号人工智能：迈向提升大语言模型的推理能力

https://www.arxiv.org/pdf/2508.13678

摘要

大型语言模型（LLMs）在各类任务中已展现出令人瞩目的成果，但其推理能力仍面临根本性挑战。开发具备强大推理能力的人工智能系统被视为实现通用人工智能（AGI）的关键里程碑，已引起学术界和工业界的广泛关注。为提升LLMs的推理能力，研究者们探索了多种技术路径，其中神经符号（Neuro-Symbolic, NeSy）方法尤为前景广阔。本文全面综述了近期利用神经符号方法增强LLMs推理能力的研究进展。我们首先对推理任务进行了形式化定义，并简要介绍了神经符号学习范式。随后，从三个视角系统阐述了神经符号方法如何提升LLMs的推理能力：符号→LLM（Symbolic→LLM）、LLM→符号（LLM→Symbolic）以及LLM+符号（LLM+Symbolic）。最后，我们讨论了该领域当前面临的关键挑战与未来有前景的研究方向。我们还发布了一个GitHub资源库，汇总了与本综述相关的论文与资源：https://github.com/LAMDASZML/Awesome-LLM-Reasoning-with-NeSy。

1 引言

人工智能（AI）的发展经历了多个阶段，每个阶段均由不同的范式所塑造。在1990年代之前，符号主义AI（Symbolic AI）主导了AI研究，其核心在于通过操作符号、逻辑、规则和知识来模拟人类的问题求解能力。然而，符号主义AI在面对真实世界中带有噪声的原始感知输入时，在可扩展性和灵活性方面遇到了显著瓶颈。另一方面，联结主义AI（Connectionist AI）以神经网络为核心，在数据驱动的机器学习领域取得了巨大成功。近年来，基于Transformer架构的成功，大型语言模型（LLMs）在多种任务中展现出卓越性能。然而，许多研究者指出，LLMs在处理复杂推理问题时仍显不足——它们往往只是复现训练数据中的推理步骤，而并未真正具备推理能力。因此，必须投入更多努力以突破这些瓶颈，从而构建具备强大推理能力的模型。

构建具备强大推理能力的AI模型是迈向AGI的关键一步。为此，众多研究者聚焦于提升LLMs的推理能力。现有研究可根据推理模型构建的不同阶段分为三类：（1）数据构建（Data Construction），包括如何自动生成、增强、标注或选择包含推理路径的数据；（2）微调（Fine-Tuning），包括在专门的推理数据集上进行监督微调或强化微调；（3）推理阶段（Inference），包括从思维链（Chain-of-Thought, CoT）到测试时扩展（test-time scaling）等各类推理技术。此外，多个大型推理模型也相继发布，例如OpenAI O1、Qwen-QwQ、DeepSeek-R1等。

在这些探索中，神经符号（NeSy）方法展现出卓越性能。NeSy旨在融合符号主义AI（擅长复杂推理）与神经网络（擅长从大规模数据中学习）各自的优势[De Raedt et al., 2020]。通过这种融合，我们有望构建出既能从海量数据中学习，又能以类人方式处理复杂推理任务的AI系统。NeSy方法与认知科学中的双过程理论（Dual Process Theory）高度契合：该理论认为人类认知包含两个系统——系统1快速、直觉且无意识（对应神经网络），系统2则较慢、深思熟虑且有意识，专注于逻辑推理与问题求解（对应符号推理）。因此，NeSy自然成为提升LLMs推理能力的一条极具前景的路径。

本文旨在简要介绍如何利用NeSy方法提升LLMs的推理能力。我们首先对LLMs中的推理任务进行形式化定义（第2节），接着介绍NeSy的基本范式（第3节）。随后，从三个视角探讨NeSy方法如何增强LLMs的推理能力：Symbolic→LLM、LLM→Symbolic 和 LLM+Symbolic（第4节）。最后，通过审视这些进展，我们讨论该领域尚存的开放性挑战，并展望潜在的未来研究方向（第7节）。

2 什么是推理？

一般的推理任务可以被描述为一个递归过程，其中每一步都建立在前序的推理步骤之上。形式化地，该任务定义如下：给定一个输入问题 Q 和背景知识 K，目标是得到答案 A，满足 A = f(Q, K)，其中 f 表示将问题和背景知识映射到答案的函数。Q 和 K 可以用不同形式表示，例如自然语言或符号形式。对于推理任务，我们还有一个推理路径 Z，它由一系列中间推理步骤组成，Z = {z₁, z₂, ..., zₙ}，其中 zᵢ 表示第 i 步，并满足 zᵢ = gᵢ(Q, K, z₁, z₂, ..., zᵢ₋₁)。这里，gᵢ 是第 i 步的推理函数，它整合了输入问题、背景知识以及先前的步骤。最终答案 A 对应于推理路径中最后一步的结果，即 A = zₙ。

推理函数 g(·) 在各种推理场景中扮演着核心角色，它决定了如何基于背景知识和先前的推理步骤生成新的推理步骤或结论。推理函数 g(·) 的具体解释因三种主要推理类型而异：演绎推理、归纳推理和溯因推理。

演绎推理（Deductive Reasoning）：在演绎推理中，推理函数 g(·) 将知识库 K 中的规则应用于中间步骤，以生成新的推理步骤或结论。形式化地， zᵢ = ApplyLogicRules(Q, K, z₁, z₂, ..., zᵢ₋₁) 其中 ApplyLogicRules(·) 是一个基于形式逻辑的操作。
归纳推理（Inductive Reasoning）：归纳推理涉及从特定实例中概括出模式或规则。推理函数 g(·) 从中间步骤中提取更广泛的模式。形式化地， zᵢ = InducePattern(Q, K, z₁, z₂, ..., zᵢ₋₁) 其中 InducePattern(·) 是一个模式发现函数，通常依赖统计学、机器学习或人类专业知识。
溯因推理（Abductive Reasoning）：溯因推理生成假设以解释所观察到的现象。推理函数 g(·) 为先前的推理步骤识别最可能的假设。形式化地， zᵢ = GenerateHypothesis(Q, K, z₁, z₂, ..., zᵢ₋₁) 其中 GenerateHypothesis(·) 是一个假设生成函数，旨在识别最合理的假设来解释 zᵢ₋₁。

3 什么是神经符号人工智能（Neuro-Symbolic AI）？

神经符号人工智能旨在将神经网络的学习能力与符号人工智能的推理能力相结合。这种融合使得所构建的人工智能系统既能从大规模数据集中学习，又能运用知识、规则和逻辑推理，从而处理那些既需要直觉思维又需要深思熟虑的任务。具体而言，我们将神经符号人工智能分为三类：神经助力符号（Neuro helps Symbolic）、符号助力神经（Symbolic helps Neuro）以及混合神经符号架构（Hybrid Neuro-Symbolic Architecture）。如需更细粒度的分类，请参见 Henry A. Kautz 在 AAAI 2020 上的讲座 [Kautz, 2022]。

3.1 神经助力符号（Neuro helps Symbolic）

这一分支主要依赖符号处理，但引入神经网络以克服纯符号系统的局限性。纯符号人工智能面临若干关键限制，例如：1）搜索空间庞大，阻碍高效的问题求解；2）依赖精确定义的符号，难以表达抽象的现实世界概念；3）推理过程僵化且确定性过强，难以应对模糊性和不确定性。这些问题可通过整合神经组件加以缓解，由此催生了多种神经符号（NeSy）方法。

利用神经网络加速符号系统中的推理是一种经典技术，典型代表是 AlphaGo [Silver et al., 2016]。AlphaGo 将神经网络整合进蒙特卡洛树搜索（MCTS），通过在大规模数据集上进行强化学习来训练策略网络和价值网络。这种整合为符号搜索提供了启发式加速，显著克服了纯符号系统的局限性。

为解决符号系统在将抽象符号概念“落地”（grounding）到亚符号（sub-symbolic）现实世界表征方面的不足，可利用神经网络直接从原始数据中提取符号概念。这是一个历史悠久且持续活跃的研究方向 [Taddeo and Floridi, 2005]。近期代表性工作之一是 NS-CL [Mao et al., 2019]，它使用卷积神经网络解析图像并提取特征，而符号推理模块则对这些特征进行解释，以回答关于图像的复杂问题。

为应对符号系统在处理模糊性和不确定性推理方面的局限，多项研究聚焦于使符号推理过程可微分。一个典型例子是 ∂ILP [Evans and Grefenstette, 2018]，它将神经网络的可微特性引入归纳逻辑程序设计（Inductive Logic Programming, ILP）。这类方法在保留符号逻辑推理能力的同时，利用神经网络处理不确定和概率性信息，从而识别复杂模式。

3.2 符号助力神经（Symbolic helps Neuro）

这一分支主要依赖神经网络，但引入符号组件以实现特定功能，例如逻辑推理，或提升模型的可解释性与可信度。目前主要有两种实现该融合的方法。

第一种是符号正则化方法（symbolic regularization approaches），将符号知识和规则作为优化约束引入神经网络的学习目标中，以引导训练过程，确保模型预测更符合领域知识。代表性方法包括语义损失（Semantic Loss）[Xu et al., 2018]，它将逻辑约束直接作为惩罚项嵌入训练过程；以及逻辑张量网络（Logic Tensor Networks, LTNs）[Badreddine et al., 2022]，它将一阶逻辑与基于张量的计算相结合，使神经网络能够学习满足逻辑规则的表征。

第二种是基于模型的方法（model-based approaches），通过将符号知识直接注入神经网络的结构中来修改模型，而非仅在训练过程中以外部约束的方式引导。这可以通过设计受符号规则启发的特定层或模块来实现 [Marra et al., 2020]。与正则化技术相比，基于模型的方法将符号知识直接嵌入模型结构中，确保在训练和推理两个阶段始终考虑这些知识。

3.3 混合神经符号架构（Hybrid Neuro-Symbolic Architecture）

不同于前述以符号为主（“symbolic-heavy”）或以神经网络为主（“neural-heavy”）的类别，许多研究致力于设计新型的混合神经符号架构，使符号系统与神经网络能在同一框架内协同工作，从而更充分地发挥各自的优势。

DeepProbLog [Manhaeve et al., 2019] 和溯因学习（Abductive Learning, ABL）[Zhou, 2019] 是两类代表性方法。DeepProbLog 将深度学习与概率逻辑相结合，聚焦于学习与推理之间的交互。它通过引入“神经谓词”（neural predicates）扩展了概率编程，这些神经谓词充当神经网络与符号推理之间的桥梁。这使得系统能够同时利用两种范式的优点：深度学习的模式识别能力与逻辑编程的结构化推理能力。通过支持端到端训练，DeepProbLog 在需要感知与逻辑推理相结合的任务中展现出强大性能。

溯因学习（ABL）[Zhou, 2019] 则提供了一个通过“不一致性最小化”（inconsistency minimization）来连接机器学习与逻辑推理的框架，能够为中间符号概念生成伪标签（pseudo-labels）。与 DeepProbLog 不同，ABL 并不试图使符号系统可微分；相反，它通过溯因推理为中间符号采样伪标签，从而充分利用符号知识本身所蕴含的推理能力。这两种方法均能同时更新神经网络和符号系统。

本文遵循上述分类方式，并以类似的框架讨论用于提升大型语言模型（LLMs）推理能力的神经符号方法，即：Symbolic→LLM、LLM→Symbolic 和 LLM+Symbolic。鉴于该领域研究范围广泛，我们谨此说明，本文的讨论仅涵盖部分最具代表性的研究成果，旨在最有效地传达核心概念。

4 Symbolic → LLM：应对推理数据稀缺问题

构建包含高质量推理路径的大规模推理数据集，对于提升大型语言模型（LLMs）的推理能力至关重要。然而，此类数据集的构建面临重大挑战：确保逐步推理过程在逻辑上的严谨性与连贯性本身就极为困难。此外，数据标注——尤其是逐步骤的标注——高度依赖人力与资源，进一步加剧了数据集开发的复杂性。相比之下，符号方法以其严谨的推理能力为特征，为解决推理数据不足的问题提供了有前景的思路。

本节将阐述如何利用符号方法来缓解推理数据稀缺的问题。具体而言，我们从两个视角探讨这一方向：符号生成、LLM 模仿（Symbolic Generation, LLM Imitation）与LLM 形式化、符号增强（LLM Formalize, Symbolic Augment）。这些范式的核心思想如图 1 所示。

4.1 符号生成，LLM 模仿（Symbolic Generation, LLM Imitation）

对于能够通过符号方法求解的问题，我们可以利用这些方法生成逻辑严谨的推理路径。在此类数据集上对 LLM 进行微调，可使其学习并潜在地模仿符号方法的推理能力。这一思路与知识蒸馏（knowledge distillation）颇为相似，但不同之处在于：它并非从一个更强的模型中蒸馏数据，而是从符号方法中“蒸馏”推理轨迹。

可用于生成推理数据的代表性符号方法包括但不限于：逻辑推理算法、逻辑求解器（logic solvers）、约束优化、搜索算法等。

已有大量研究致力于利用各类符号方法生成推理数据，并通过微调 LLM 将其应用于不同任务。例如：

AlphaGeometry
[Trinh et al., 2024] 开发了一个符号演绎引擎，用于生成几何问题的推理解答，在欧几里得平面几何定理证明任务上的表现超越了国际数学奥林匹克（IMO）参赛者的平均水平。
LOGIPT
[Feng et al., 2024] 提出通过逻辑求解器生成逻辑推理过程，并微调 LLM 以模仿这些求解器的推理方式，从而使 LLM 获得处理演绎推理任务的类似能力。
Procedure Cloning
[Yang et al., 2022]、 DualFormer [Su et al., 2025] 和 SOS [Gandhi et al., 2024] 利用深度优先搜索（DFS）、广度优先搜索（BFS）、A*、蒙特卡洛树搜索（MCTS）等搜索算法生成搜索轨迹，并对 LLM 进行微调，使其学会在推理过程中进行搜索与回溯。
Planformer
[Pallagani et al., 2022] 使用 FastDownward 规划器为经典规划任务生成计划，并构建基于 PDDL（Planning Domain Definition Language）的数据集，用于微调 LLM 以执行规划任务。

这些方法的核心目标是：通过构建由符号求解器生成的数据集来微调 LLM，从而将符号求解器的能力内化到模型之中，最终提升 LLM 的推理能力。

4.2 LLM 形式化，符号增强（LLM Formalize, Symbolic Augment）

与前述聚焦于利用符号方法生成推理数据并微调 LLM 以模仿其能力的研究不同，这一研究方向采取了另一种思路：旨在通过符号方法对现有数据进行增强。

该流程通常可概括为三个步骤：
首先，将非形式化的自然语言数据转换到一个形式化的表示空间；
其次，利用符号规则或求解器在该形式化空间中对数据进行增强；
最后，将经符号处理后的数据再转换回自然语言形式。

相较于仅依赖 LLM 进行数据增强的方法，借助符号规则或求解器能够自动生成既语言多样又逻辑严谨的推理数据。

该方向已有诸多研究。例如：

NSDG
[Li et al., 2024] 将自然语言表述的数学问题形式化为其符号版本（使用 SMT-LIB 语言表示），然后对符号问题进行变异以生成新的变体用于数据增强，随后再将符号形式转换回自然语言。在此过程中，LLM 充当了符号空间与自然语言空间之间的桥梁。
AMR-DA
[Shou et al., 2022] 将原始语言数据转换为抽象语义表示图（Abstract Meaning Representation, AMR）——一种结构化的语义表示，能够封装句子的逻辑结构；在此基础上执行操作以生成逻辑上经过修改的 AMR 图，再将这些修改后的 AMR 图转换回文本，从而创建增强数据。

类似思路也已被应用于法律推理 [Zhou et al., 2025]、逻辑推理 [Qi et al., 2025]、定理证明 [Ünsal et al., 2024] 等领域。这类方法的优势在于：通过符号推理确保生成数据的逻辑正确性，并释放近乎无限的数据生成潜力——因为符号空间本身的复杂性提供了近乎无穷的组合可能性，从而极大地拓展了可用推理数据集的多样性与规模。

5 LLM → 符号：应对推理函数错误（Addressing the Reasoning Function Error）

从推理任务的形式化定义可以看出，推理函数 g(⋅)是整个推理过程的核心组件。LLM 通常采用自回归（auto-regressive）技术来近似该推理函数。然而，这种方法本质上会引入误差。即使每一步仅有微小的不准确，也会在后续推理步骤中不断传播并放大，最终导致推理结果严重偏离正确答案。

为解决推理函数中的错误，一个有前景的策略是用外部符号方法替代自回归式的推理函数，以增强中间推理步骤的严谨性。其基本直觉在于：LLM 本身并不擅长精确的长链推理；因此，让它们学会调用外部模块，是解决复杂推理问题更有效的方式。

5.1 符号求解器辅助方法（Symbolic Solver Aided Methods）

符号求解器辅助方法的核心思想是利用外部符号求解器（如逻辑编程系统、SMT 求解器、定理证明器、PDDL 规划器、约束优化工具等）来替代模型内部执行的多个推理函数。这类方法的流程十分直接：首先将自然语言问题翻译为符号求解器可处理的形式化表示，然后调用求解器推导出解答。

LogicLM [Pan et al., 2023] 和 LINC [Olausson et al., 2023] 是该方向较早的尝试。这些方法将自然语言问题转化为可执行的逻辑表达式，并借助逻辑求解器获得结果。另有一类研究聚焦于利用经典规划方法处理规划类任务（如经典规划或机器人任务）。例如，LLM+P [Liu et al., 2023] 提出引入基于 PDDL 的符号规划器：它利用 LLM 的语义理解能力将非形式化语言翻译为形式化的 PDDL 语言，再调用 FastDownward 求解器执行规划过程。

与这些方法密切相关的一个重要研究方向是如何自动将自然语言表示的数据转换为形式化的符号表示，这一过程也被称为自动形式化（AutoFormalization）。代表性研究包括一阶逻辑、数学命题、数学证明、PDDL 以及符号世界模型的自动形式化。该方向的关键挑战在于如何提升自动形式化过程的一致性与效率。

5.2 程序辅助方法（Program-Aided Methods）

除了使用符号求解器，还有大量研究尝试利用程序解释器（program interpreter）来提升推理函数的准确性。其整体流程与符号求解器辅助方法类似，关键区别在于：这类方法将自然语言问题转化为编程语言，并借助程序执行器（executor）推导出答案。

PAL（Program-Aided Language Model）[Gao et al., 2023] 和 PoT（Program of Thought）[Chen et al., 2023] 是两类代表性的程序辅助方法。具体而言，它们利用 LLM 将推理过程表达为 Python 程序，而实际计算则交由外部程序执行器完成。除 Python 程序外，Binder [Cheng et al., 2023] 将输入问题转换为 SQL，并通过程序解释器执行以获得答案。CoC（Chain of Code）[Li et al., 2023] 则进一步扩展了这一思路：它生成代码或伪代码，并在可能时通过代码解释器执行；若不可行，则使用“LMulator”（即用语言模型模拟代码执行）进行替代。

这些方法已成功应用于数学推理、代码生成、机器人控制等领域。本质上，它们可被视为通过引入外部程序解释器对思维链（Chain-of-Thought）进行增强，从而实现更准确、更鲁棒的推理。

5.3 工具辅助方法（Tool-Aided Methods）

除了符号求解器和程序解释器之外，大量为特定任务开发的其他工具、API 和现成模型（off-the-shelf models）也可用于提升推理函数的准确性。例如：计算器用于数值计算，网络搜索引擎用于常识推理，预训练视觉模型用于视觉推理等。

与符号求解器或程序辅助方法不同——后者将自然语言问题转化为形式化语言后直接调用求解器或执行器获得答案——工具辅助方法通常更为复杂，因为它们往往需要在不同的推理步骤中调用不同的工具。因此，其流程通常可分为四个阶段：任务规划（task planning）、工具选择（tool selection）、工具调用（tool calling）和响应生成（response generation）。

例如，在视觉推理任务中，VisProg [Gupta and Kembhavi, 2023] 利用 LLM 生成类似 Python 的 API 调用程序，集成多种工具（如 OpenCV 中的图像处理子程序和现成的视觉模型），以根据自然语言指令执行复杂的视觉推理任务。这一思路启发了后续多项研究，如 ViperGPT [Surís et al., 2023]、Chameleon [Lu et al., 2024]、VisualSketchpad [Hu et al., 2024b] 等。

在数学推理方面，Tora [Gou et al., 2024] 探索了将 LLM 与外部工具（如计算库和符号求解器）相结合的方法。这些方法之间的主要差异在于：针对特定任务所选择的工具库不同，以及赋予 LLM 准确使用工具能力的策略不同。这些策略包括提示工程（prompt techniques）以及在大量收集的工具使用轨迹上对模型进行微调（如监督微调 SFT 或强化学习微调 RLFT）。

5.4 搜索增强方法（Search Augmented Methods）

传统符号求解器（如 SMT 求解器或 PDDL 规划器）的核心过程可抽象建模为一个搜索问题：在潜在巨大甚至无限的解空间中寻找满足给定约束条件的解，并采用各种剪枝策略与优化技术以加速搜索过程。为了使大型语言模型（LLMs）获得与这些符号方法类似的能力，多种方法旨在将搜索算法直接与 LLM 的解码过程相结合，从而增强其推理能力。

形式化地，在第 i 步推理时，会扩展 T 个推理函数，生成 T 个候选推理结果：zᵢ⁽ᵗ⁾ = gᵢ⁽ᵗ⁾(Q, K, z₁, z₂, ..., zᵢ₋₁), t = 1, 2, ..., T其中，gᵢ⁽ᵗ⁾ 表示第 t 个推理函数，这可通过利用语言模型的采样机制实现。因此，推理过程可被转化为一个搜索问题，从而允许引入各类搜索算法。

例如：

DBS [Zhu et al., 2024] 提出一种解码算法，通过束搜索（beam search）整合自我评估指导。
SPaR [Cheng et al., 2025] 提出一种自博弈框架，集成广度优先搜索（BFS）与深度优先搜索（DFS），用于优化响应并提升 LLM 的指令跟随能力。
ChinaTravel [Shao et al., 2024] 利用 BFS 和 DFS 来提升 LLM 的旅行规划能力。
NeurologicA* [Lu et al., 2022] 在解码过程中融入对未来成本的启发式估计，类似于 A* 搜索算法。

此外，基于 AlphaGo 和 AlphaZero 中蒙特卡洛树搜索（MCTS）的优势，大量研究致力于探索将 MCTS 整合进 LLM 的推理阶段，以延长推理链并提高推理准确性。这一研究方向的主要差异在于所选择的搜索算法及其预期作用——是用于引导推理过程中的更有效探索，还是通过模拟来优化奖励估计。然而，这些方法存在明显局限性，因为更多的探索会导致推理阶段的巨大计算开销。

6 Symbolic + LLMs：端到端推理（End-to-End Reasoning）

在前述两个研究分支中，大型语言模型（LLMs）与符号方法是分离运行的。例如，在 Symbolic→LLMs 范式中，符号 AI 方法负责生成或增强数据，随后 LLM 在这些数据集上进行微调；而在 LLMs→Symbolic 范式中，LLM 调用符号求解器，由后者推导出答案。

神经符号 AI 的一个“圣杯”级问题，是设计一种机制，使符号方法与神经网络能够以更混合（hybrid）或端到端（end-to-end）的方式协同工作。具体而言，本文从三个视角综述该方向上关于 Symbolic+LLMs 的探索：符号格式化推理（symbolic formatted reasoning）、可微分符号模块（differential symbolic module）和符号反馈（symbolic feedback）。其核心思想如图 3 所示。

6.1 符号格式化推理（Symbolic Formatted Reasoning）

在 LLM 的推理过程中，推理路径 Z可以采用多种形式表示，例如自然语言或潜在嵌入（latent embedding）。然而，在某些推理任务中，这些表示方式容易引入不准确性。随着推理链的延长，此类表征误差会逐步累积，最终导致结果严重偏离正确的推理解。

为缓解推理链中潜在的表征误差，我们可以采用形式化的符号表示来描述中间推理状态，而非仅依赖自然语言描述或潜在嵌入。这种符号表示具有显著优势：它提供更明确、更精确的语义表达，从而避免因自然语言的歧义性或潜在嵌入的模糊性所引发的错误。

形式化地，对于所有 i=1,2,...,n，有 zi∈L，其中 L表示在一个预定义字母表上定义的符号语言。最终答案 A由这一系列中间符号表示推导得出。

符号格式化推理特别适用于可被精确符号化的任务，例如数学推理。例如：

NaturalPrompt
[Ling et al., 2023] 使 LLM 能够使用一种提出的“自然程序格式”生成演绎推理链。
Chain-of-Symbol prompting
[Hu et al., 2024a] 引导 LLM 将自然语言转换为简洁的符号表示，在提升空间任务性能的同时显著减少 token 消耗。
LogicGuide
[Poesia et al., 2024] 引入一个通用逻辑推理系统来辅助 LLM，将推理过程在 LogicGuide 内部形式化，确保逐步推理的正确性与可靠性。

还有一些方法使用编程语言（如 Python）作为中间表示的符号语言 [Weir et al., 2024]。与程序辅助方法不同，此处的 Python 代码并不执行，而仅作为结构化提示（structured prompt）引导模型走向最终答案。

这些方法利用符号表示来缓解自然语言表征在推理过程中固有的误差累积问题。与自然语言推理和潜在嵌入推理一起，它们构成了当前三大主要的推理表征范式。

6.2 可微分符号模块（Differential Symbolic Module）

与依赖连续数值优化的机器学习不同，符号 AI 方法通常基于离散的符号归约（discrete symbolic reduction）。因此，设计一个统一的优化框架，使机器学习与符号推理能够联合优化，仍是一个根本性挑战。

一个有前景的方向是开发可微分符号模块（differentiable symbolic modules），使符号推理系统能与机器学习模型协同工作。

在经典神经符号（NeSy）研究中，已有大量工作致力于此方向。近期，一些研究进一步提出可与 LLM 无缝集成的可微分符号模块。例如：

DiLA
[Zhang et al., 2024] 利用 LLM 将自然语言表述的问题解析为 SAT 问题（即一组逻辑公式），然后 LLM 基于其自然语言理解生成初始解；接着，松弛变量和提取出的约束被卸载到一个 可微逻辑层 （differential logic layer）中，用于检查约束满足性并迭代更新解，直至所有约束均被满足。
Oreoml
[Hu et al., 2022] 提出将符号逻辑的知识图谱推理与神经网络相结合，通过嵌入在 LLM 中的 知识交互层 ，使 LLM 能与一个可微分的知识图谱推理模块协同工作。
NSVQA
[Amizadeh et al., 2020] 使用谓词作为符号表示，并将其与处理视觉元素的神经模块关联，将视觉表征学习与推理机制解耦，并基于模糊逻辑提出一种 可微分的一阶逻辑形式体系 ，用于组合式视觉推理。
AutoCoNN
[Weng et al., 2024] 提出一个框架，将 编译神经网络 （Compiled Neural Networks, CoNNs）协同集成到标准 Transformer 架构中。CoNN 是专门设计的神经模块，通过人工生成的注意力权重显式编码规则。通过引入 CoNN 模块，该神经理解框架使 LLM 能够执行规则密集型的符号任务。

这些方法代表了实现逻辑推理与 LLM 微调联合优化的初步尝试。然而，它们仍面临显著挑战，例如开放概念建模、优化效率、泛化能力等。未来需要更多努力以提升这些方法的效率、可扩展性与鲁棒性。

6.3 符号反馈（Symbolic Feedback）

监督微调（Supervised Fine-Tuning, SFT）和强化微调（Reinforcement Fine-Tuning, RFT）是提升预训练大型语言模型（LLMs）推理能力的两种主要学习范式。二者均依赖监督信号（如监督损失函数或奖励函数）来引导学习过程。符号方法具备更精确且可解释的验证能力，因此，探索如何将其作为监督微调中损失函数的正则化项，或作为强化微调中的奖励信号，是一个极具前景且重要的研究方向。

在监督微调方面，[Premsri and Kordjamshidi, 2025] 提出利用空间逻辑规则作为约束条件对 LLM 进行微调，通过提供额外的监督信号来提升模型的空间推理能力。

在强化微调方面：

SyreLM [Dutta et al., 2024] 采用一个小型冻结的语言模型（LM），并为其配备一个适配器（adapter），将自然语言问题翻译为形式化语言表达；随后，利用强化学习训练该适配后的 LM，其学习过程由不可微分的符号求解器提供指导

信号。

RBR [Mu et al., 2024] 提出基于规则的奖励机制，以提升 LLM 的安全性。
RLSF [Jha et al., 2024] 利用各类推理或领域知识工具（如符号求解器、定理证明器或知识库）为 LLM 提供反馈信号。

类似思路也被应用于其他任务：例如，LLM-Modulo [Kambhampati et al., 2024] 将其用于规划任务，Cotran [Jana et al., 2024] 将其用于代码生成任务等。

这一研究方向与神经符号强化学习（neuro-symbolic reinforcement learning）密切相关。此类方法的优势在于：不要求符号方法本身是可微分的，从而能够灵活利用现有成熟的符号系统作为外部监督或奖励来源。

7 挑战与开放性研究方向

尽管神经符号（NeSy）方法在提升大型语言模型（LLMs）推理能力方面已取得令人鼓舞的进展，但仍存在若干关键挑战。本节将讨论这些核心挑战，并提出相应的开放性研究方向。

多模态推理（Multi-Modal Reasoning）
现有研究主要聚焦于语言模态内的推理。然而，许多现实世界的应用（如视觉问答 VQA、具身人工智能、空间智能等）需要多模态推理能力。如何有效利用与多模态语言模型深度融合的符号系统，仍是一个开放性问题。此外，当前的多模态推理主要仍以语言模态为中心进行；相比之下，人类推理通常涉及对多种模态信息的同步处理。例如，在解决几何问题时，人类常会在图示上添加辅助线以支持推理过程。这凸显了当前方法与人类式多模态推理方式之间存在的显著差距。

先进混合架构（Advanced Hybrid Architectures）
尽管 LLMs 在各类任务中表现优异，但其本质上仍是依赖统计模式识别的数据驱动型机器学习模型，而非基于形式逻辑推理的系统。为构建既能充分利用大数据又能执行严谨推理的 AI 系统，亟需开发更先进的混合神经符号架构，以实现 LLM 与符号推理组件的无缝集成。同时，也需要更先进的优化技术，以提升此类架构的可扩展性与计算效率。

理论理解（Theoretical Understanding）
深入理解符号方法如何增强 LLM 推理能力的理论机制，对于设计更有效的算法至关重要。然而，目前在此方向上的研究仍十分有限。例如：

引入符号方法后的泛化性能分析；
基于符号反馈进行 LLM 微调的优化理论；
对“推理捷径”（reasoning shortcuts）现象的剖析；
模型缩放律（scaling laws）与符号方法集成之间的关系等。

未来亟需更多工作，为 LLM 的推理能力奠定坚实的理论基础。

8 结论

提升人工智能模型的推理能力是通向通用人工智能（AGI）的关键里程碑。本文探讨了神经符号方法在增强大型语言模型（LLMs）推理能力方面所发挥的作用。我们对推理任务进行了形式化定义，并从三个视角——Symbolic → LLM、LLM → Symbolic 和 LLM + Symbolic——系统阐述了如何利用符号方法应对 LLM 推理中的关键挑战，包括推理数据稀缺、推理函数错误、表征误差等问题。同时，我们也讨论了当前面临的开放性挑战与未来机遇。

鉴于该领域发展迅速且相关文献数量庞大，本文无法全面涵盖所有研究成果。因此，我们聚焦于呈现核心思想与关键技术路径。本文旨在为近期进展提供一份及时的综述，并激发关于如何将符号人工智能方法与 LLM 有效融合以构建强大推理模型的新见解。

原文链接：https://www.arxiv.org/pdf/2508.13678

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.