高效神经符号AI之路：从任务特性到硬件设计|向量|算法|张量|高维|卷积|ai之路|正式版模型

分享至

Towards Efficient Neuro-Symbolic AI: FromWorkload Characterization to Hardware Architecture

高效神经符号AI之路：从任务特性到硬件设计

https://arxiv.org/pdf/2409.13153

摘要

人工智能（AI）近年来取得了显著进展，主要得益于深度神经网络的推动，但其发展正面临计算开销不可持续、鲁棒性有限以及可解释性不足等挑战。为构建下一代认知型人工智能系统，神经符号人工智能（Neuro-Symbolic AI）作为一种有前景的新范式应运而生：它融合神经与符号方法，以提升模型的可解释性、鲁棒性与可信度，并支持在极少数据条件下进行学习。近期的神经符号系统已在需推理与认知能力的人机协作场景中展现出巨大潜力。本文旨在深入理解神经符号AI的工作负载特性并探索其潜在硬件架构。我们首先对神经符号AI算法进行系统性分类，继而基于CPU、GPU及边缘端SoC平台，从运行时长、内存占用、计算算子类型、稀疏性及系统行为等多个维度对其开展实验评估与分析。研究发现，现有通用硬件在运行神经符号模型时存在显著低效问题，根源在于：向量-符号运算与逻辑操作具有强内存依赖性；控制流复杂；数据依赖性强；稀疏性模式多变；以及可扩展性受限。基于上述性能剖析结果，我们提出跨层次优化策略，并以向量-符号架构（Vector-Symbolic Architecture）为例，展示一种硬件加速设计方案，以提升神经符号计算的性能、能效与可扩展性。最后，我们从系统与架构两个层面，探讨神经符号AI当前面临的挑战与未来可能的发展方向。

关键词：认知型人工智能，神经符号人工智能，工作负载特征分析，性能评估，领域专用架构

I. 引言
人工智能（AI）所取得的显著进展已对社会产生了深远影响。这些进展主要由深度神经网络推动，并依托于一个良性循环：即大规模网络、海量数据集与不断增强的计算能力三者相互促进。然而，在享受其成功红利的同时，越来越多的证据表明，若继续沿当前路径发展，可能难以充分释放AI的全部潜力。首先，AI日益增长的计算需求与能耗正步入不可持续的轨道［1］，其规模恐将限制创新仅能由少数机构主导，从而阻碍整体进步；其次，当前AI系统在鲁棒性与可解释性方面仍面临严峻挑战，这很可能源于现有学习方法的固有局限［2］［3］；第三，当代AI系统往往孤立运行，人与人、人与AI、AI与AI之间的协作极为有限。因此，亟需发展新一代AI范式，以应对社会对更高效率、更强可解释性及更高可信度的迫切需求。

神经符号人工智能（Neuro-symbolic AI）［4］是一种新兴范式，它将神经方法、符号方法与概率表征相融合，旨在提升AI系统的可解释性与鲁棒性，并支持在极少量数据下实现有效学习（见图1）。其中，神经方法擅长从数据中提取复杂特征，尤其适用于视觉与语言任务；符号方法则通过整合对物理世界已有建模的知识，显著增强系统可解释性，并降低对大规模标注数据的依赖；而概率表征则使认知系统能更有效地处理不确定性，从而在非结构化环境下表现出更强的鲁棒性。神经与符号方法的协同融合，使神经符号AI有望成为引领“第三代AI浪潮”［5］［6］的关键范式。

神经符号AI有望催生具备类人沟通与推理能力的系统——它们可自主识别、分类并适应新情境。例如，神经-向量符号架构（Neuro-Vector-Symbolic Architecture）［7］在时空推理任务上达到了98.8%的准确率，显著超越人类表现（84.4%）、纯神经网络ResNet（53.4%）及GPT-4（89.0%）。除在视觉与语言任务中展现出卓越性能［8］外，神经符号AI在提升人机协同应用的可解释性与可信度方面亦具有重大潜力［9］。此类应用涵盖协同机器人、混合现实系统及各类人机交互场景：机器人可在真实环境中与人类自然互动；智能体能以可解释的方式进行推理与决策；智能系统可泛在部署，摆脱对云端的依赖，实现边缘端自主运行。

尽管算法层面成果喜人，神经符号计算却因更高的内存强度、更复杂的算子异构性以及更不规则的数据访问模式，与当前以矩阵乘法（MatMul）和卷积（Conv）优化为主导的硬件演进路线［10］–［14］日益脱节，导致严重低效与硬件资源利用率低下。因此，深入理解其计算与内存需求，对于在通用及定制硬件上实现高效执行至关重要。

本文旨在量化神经符号AI的工作负载特性，并探索其潜在系统架构。基于我们前期工作［4］［15］，我们首先对前沿神经符号AI工作负载进行系统性梳理与结构化分类（第二节）；继而，在通用计算平台与边缘端SoC上，对七种代表性神经符号负载开展详尽特征分析，涵盖运行时延、内存行为、计算算子构成、算子图结构、硬件资源利用率及稀疏性特征（第三节至第五节）。我们的工作负载分析揭示了若干关键观察与洞见，包括：

相较于纯神经模型，神经符号AI模型通常延迟较高，难以满足实时性应用需求；
神经组件以矩阵乘法（MatMul）与卷积（Conv）为主，而符号组件则以向量/逐元素运算及逻辑操作为主导；后者ALU利用率低、缓存命中率低、数据搬运量大，导致其在CPU/GPU上效率低下，易成为系统性能瓶颈；
神经部分通常为计算密集型（compute-bound），而符号部分则多为内存密集型（memory-bound），并面临可扩展性挑战；
符号操作常依赖神经模块的输出结果，或需被编译嵌入神经结构之中，因而往往处于端到端神经符号系统的临界路径上；
部分神经与向量-符号组件呈现出高度非结构化稀疏性，且其稀疏模式随任务场景与输入属性动态变化。

受上述工作负载剖析的启发，我们提出一系列跨层次软硬件协同优化方案，以提升神经符号系统的效率与可扩展性（第五节）。具体地，我们以向量-符号架构（Vector-Symbolic Architecture）为案例，展示一套硬件加速设计方法论，涵盖算子建模、微架构设计、数据流组织与控制机制（第六节）。最后，我们探讨神经符号计算领域的研究机遇，并对未来发展方向提出展望（第七节）。

据我们所知，本文是首批从系统与架构双重视角对神经符号计算开展全面特征建模的工作之一，旨在为其高效、可扩展执行奠定基础。我们期望通过神经符号算法、系统、架构及算法-硬件协同设计的协同突破，推动下一代认知计算系统的创新设计。

II. 神经符号人工智能算法

本节对神经符号人工智能（Neuro-Symbolic AI）算法的近期研究进展进行系统性综述与分类。

概述。神经符号AI是一种跨学科方法，通过协同融合符号推理与神经网络（NN）学习，构建智能系统，充分发挥二者互补优势，以提升模型的准确性与可解释性。

鉴于神经符号算法同时包含符号与神经组件，其不同范式可依据这两类组件如何整合为统一系统进行划分。受Henry Kautz分类体系［31］的启发，我们将其系统性地归纳为五类范式（见表I）。下文将逐一详述各范式；此外，表II基于表I的分类，列举了若干底层典型运算的实例。

Symbolic[Neuro]：指一类以符号推理为主干、并借助神经网络统计学习能力加以增强的智能系统。这类系统通常包含一个完整的符号问题求解器，其中嵌入若干松耦合的神经子模块，用于执行统计学习任务。典型案例包括DeepMind的AlphaGo［16］与AlphaZero［32］：它们以蒙特卡洛树搜索（MCTS）作为符号求解器，辅以神经网络状态估计器，用于学习统计模式。
Neuro|Symbolic：指神经与符号组件以流水线方式组合的混合系统，其中各组件通常分别承担互补性任务。据我们所知，绝大多数现有神经符号算法属于此范式。例如，IBM的神经-向量符号架构（NVSA）［7］采用神经网络作为前端感知模块进行语义解析，并以符号推理器作为后端，在RAVEN［33］与I-RAVEN［34］数据集上执行概率性溯因推理（abductive reasoning）。概率溯因与执行（PrAE）学习器［22］采用类似架构，其区别在于：NVSA先将特征映射至高维向量空间，而PrAE直接将原始特征作为神经网络输入。其他实例还包括：基于向量符号架构的图像到图像翻译（VSAIT）［21］、神经概率软逻辑（NeuPSL）［17］、神经概率逻辑编程（DeepProbLog）［35］、神经答案集编程（NeurASP）［18］、神经符号动态推理［36］、神经符号概念学习器（NSCL）［8］、溯因学习（ABL）［19］，以及在CLEVRER数据集［36］上的神经符号视觉问答（NSVQA）［20］。
Neuro:Symbolic→Neuro：指将符号规则嵌入神经网络，以引导其学习过程；其中符号知识被编译进神经模型的结构中，从而增强模型的可解释性。例如，逻辑神经网络（LNNs）［23］将领域知识或专家经验编码为符号规则（如一阶逻辑或模糊逻辑），并将其作为对神经网络输出的约束条件。其他案例包括：符号数学的深度学习应用［24］，以及可微分的归纳逻辑编程（ILP）［25］。
NeuroSymbolic：指将符号逻辑规则与神经网络相融合的一种混合方法，其核心在于将符号逻辑规则映射为嵌入向量，并作为软约束或正则项施加于神经网络的损失函数之上。例如，逻辑张量网络（LTNs）［26］利用逻辑公式对张量表征施加约束，在知识图谱补全任务（即预测实体间缺失的事实或关系）中表现优异。该范式的其他实例包括深度本体网络（DONs）［27］与张量化（tensorization）方法［37］。值得注意的是，此类方法的推理过程仍由神经网络主导，因此其是否（以及在何种程度上）会牺牲可解释性，仍是待深入研究的问题。
Neuro[Symbolic]：指一类以神经网络为主体、但通过引入符号推理以增强其可解释性与鲁棒性的系统。与Symbolic[Neuro]（符号推理引导神经学习）不同，在Neuro[Symbolic]中，神经模型在特定条件下主动调用或关注特定符号信息，从而内化符号推理能力。例如，配备注意力机制的图神经网络（GNNs）可用于表征符号表达式［28］：该注意力机制可进一步用于将符号规则融入GNN模型，使其能动态聚焦于图中相关的符号信息。其他实例包括神经逻辑机（NLM）［30］，以及零样本概念识别与获取（ZeroC）［29］——后者采用图结构表征，其中组成性概念模型作为节点，概念间关系作为边。

不同神经符号范式对应各异的底层算子类型与数据依赖模式。因此，本文迈出理解其计算特性的初步关键一步，旨在为未来神经符号系统的架构设计与实际部署奠定基础。

III. 代表性神经符号模型

本节选取若干广泛使用的神经符号AI工作负载作为代表性案例，用于后续分析。我们认定其具有代表性，是因其在应用场景、模型结构及计算模式等方面呈现高度多样性。

A. 模型概览
我们选取七种神经符号AI模型开展性能剖析（见表III）：

在逻辑程序任务上的逻辑神经网络（LNN）［23］；
在查询与推理任务上的逻辑张量网络（LTN）［26］；
在瑞文渐进矩阵（Raven’s Progressive Matrices, RPM）任务上的神经-向量符号架构（NVSA）［7］；
在关系推理与决策任务上的神经逻辑机（NLM）［30］；
在非配对图像到图像翻译任务上的基于向量符号架构的图像翻译（VSAIT）［21］；
在跨域分类与检测任务上的零样本概念识别与获取（ZeroC）［29］；
在时空推理任务上的概率溯因与执行学习器（PrAE）［22］。

上述工作负载分别对应第二章所述的 Neuro:Symbolic→Neuro、NeuroSymbolic、Neuro|Symbolic 以及 Neuro[Symbolic] 四类系统范式。感兴趣的读者可进一步参阅相关原始文献以获取详细信息。

B. 逻辑神经网络（LNN）
LNN是一种将神经学习与符号逻辑相融合的神经符号框架，具备直接可解释性、领域知识可嵌入性及强健的问题求解能力［23］。其核心思想是将神经元映射为逻辑公式中的元素，并采用带参数的函数表示逻辑联结词（如∧、∨），同时施加约束以保持逻辑行为的正确性。LNN在一个统一的神经框架内整合事实与规则，借助Łukasiewicz逻辑实现加权实值逻辑推理［26］。相较于纯神经模型，LNN在逻辑表达能力、对不完备知识的容错性及任务普适性方面更具优势，尤其在具备组合性与模块化结构的定理证明任务中表现突出。

C. 逻辑张量网络（LTN）
LTN是一种面向数据与抽象知识的查询、学习与推理的神经符号框架，基于模糊一阶逻辑（Fuzzy First-Order Logic, FOL）［26］。LTN通过神经图结构将FOL元素“落地”（grounding）于具体数据，并借助模糊逻辑将逻辑联结词转换为实值运算，再通过近似聚合操作解释量词（如∀、∃）。该网络利用嵌入的张量表征计算命题的“真值度”（truth degree）。相较于纯神经模型，LTN通过在数据之上升华逻辑公理来表达知识，显著提升了模型的可解释性、数据效率及分布外泛化能力。

D. 神经-向量符号架构（NVSA）
NVSA是一种面向抽象推理的神经符号架构，通过融合神经视觉感知与向量-符号概率推理，提升溯因推理效率［7］。该架构采用全息分布式表征（holographic distributed representations），协同设计感知与推理模块，使视觉表征与符号规则处理得以统一，从而在瑞文渐进矩阵（RPM）测试中实现高准确率［50］［51］。相较于纯神经模型，NVSA有效克服了“绑定问题”（binding problem）与“叠加灾难”（superposition catastrophe），在RPM任务中不仅性能超越传统神经网络，甚至超过人类平均水平。

E. 神经逻辑机（NLM）
NLM是一种面向归纳学习与逻辑推理的神经符号架构，将神经网络作为函数逼近器，结合逻辑编程实现符号处理［30］。NLM利用神经网络近似实现逻辑运算，并通过神经模块的连接方式实现逻辑量词；其多层结构可逐层推导对象间关系，形成更高阶抽象。相较于纯神经模型，NLM在关系推理与决策任务中表现优异，能从小规模任务良好泛化至大规模场景，性能优于传统神经网络及纯符号逻辑编程系统。

F. 基于向量符号架构的图像到图像翻译（VSAIT）
VSAIT旨在解决跨域分布差异显著时图像翻译中的“语义翻转”（semantic flipping）问题，借助向量符号架构提升生成图像的逼真性与鲁棒性［21］。该方法在超向量（hypervector）空间中学习可逆映射，确保源图像与翻译结果间的一致性，并将特征编码至随机生成的向量-符号高维空间（hyperspace）。相较于纯神经模型，VSAIT能有效抑制语义翻转现象，并显著减少在大域间距非配对图像翻译任务中常见的图像“幻觉”（hallucination）。

G. 零样本概念识别与获取（ZeroC）
ZeroC是一种神经符号架构，通过符号图结构实现新颖概念的零样本识别与习得［29］。它采用图结构与基于能量的模型（energy-based models）表征概念及其关系，支持层级化概念模型在推理阶段跨域泛化。相较于纯神经模型，ZeroC在零样本概念识别任务中表现卓越，尤其在缺乏大量标注样本的新概念学习场景下，显著超越纯神经方法。

H. 概率溯因与执行学习器（PrAE）
PrAE是一种面向时空认知推理的神经符号学习器，核心在于对场景表征进行概率溯因与执行［22］。它融合神经视觉感知与符号推理，可预测对象属性并生成概率性场景表征，进而推断隐藏规则以实现系统性泛化。相较于纯神经模型，PrAE在时空推理任务中性能更优，同时具备透明性、可解释性及接近人类水平的泛化能力。

IV. 工作负载特征分析方法

本节介绍我们所采用的神经符号AI工作负载剖析方法（第IV-A节）及算子特征分类体系（第IV-B节），这些方法与分类体系将在第V节中加以运用。

A. 工作负载剖析方法我们首先开展函数级剖析（function-level profiling），利用PyTorch内置的Profiler工具，采集各模型的运行时长、内存占用、函数调用次数、张量尺寸及稀疏性等统计信息。随后，我们通过后处理步骤，将剖析结果按不同操作类别进行划分。实验平台包括：配备Intel Xeon Silver 4114 CPU与NVIDIA RTX 2080 Ti GPU（功耗250 W）的服务器系统，以及边缘端SoC平台如Jetson Xavier NX（20 W）和Jetson TX2（15 W）。

B. 工作负载特征分类体系在函数级剖析基础上，我们进一步开展计算算子级剖析（compute operator-level profiling）以支持更细粒度分析。我们将LNN、LTN、NVSA、NLM、VSAIT、ZeroC与PrAE等七种神经符号模型中的神经与符号组件，归类为以下六类算子［52］：卷积（Convolution）、矩阵乘法（Matrix Multiplication, MatMul）、向量/逐元素张量运算（Vector/Element-wise Tensor Operation）、数据变换（Data Transformation）、数据移动（Data Movement）及其他（Others）。

卷积（Convolution）：指将一个矩阵（即卷积核）叠放在另一矩阵（输入）之上，逐位置计算对应元素乘积之和，并滑动遍历整个输入矩阵以完成数据变换的操作。该操作广泛用于神经网络中，通常具有较高的运算强度（operational intensity）。
矩阵乘法（Matrix Multiplication）：泛指两个矩阵（稠密或稀疏）之间的一般矩阵乘法（GEMM）。神经网络中的全连接层主要依赖GEMM作为其核心数学运算。大规模稠密矩阵乘法通常计算密集且高度可并行；而稀疏矩阵乘法则需在稀疏模式通用性与硬件优化开销之间权衡——其高效执行依赖于对非零元素索引表的快速查找机制。
向量/逐元素张量运算（Vector/Element-wise Tensor Operation）：指在张量（广义的矩阵、向量及高维数组）上逐元素执行的操作，包括两张量间对应元素的加、减、乘、除；也涵盖神经元模型中的激活函数、归一化操作及关系运算（如比较）。
数据变换（Data Transformation）：指对数据进行形状重构或子采样类操作，包括矩阵转置、张量重排序、掩码选择（masked selection），以及“合并”（coalescing）——后者特指在稀疏矩阵中，对同一坐标位置的重复条目通过求和其对应值予以合并的过程。
数据移动（Data Movement）：指各类数据传输操作，包括内存与计算单元之间、主机与设备之间（如CPU↔GPU）、设备与主机之间的数据搬运，以及张量复制、赋值等操作。
其他（Others）：涵盖部分符号AI工作负载中使用的特殊操作，例如模糊一阶逻辑（fuzzy first-order logic）运算及各类逻辑规则推理操作。

V. 工作负载特征分析结果

本节对代表性神经符号工作负载的性能特征展开分析，涵盖其运行时与可扩展性（第V-A节）、计算算子构成（第V-B节）、内存使用（第V-C节）、操作图结构（第V-D节）、硬件利用率（第V-E节）及稀疏性（第V-F节）。

A. 计算延迟分析

端到端延迟分解我们首先刻画代表性神经符号AI工作负载的端到端延迟（见图2）。可观察到以下现象：（1）符号部分的计算延迟不可忽视，甚至可能成为系统瓶颈。相较于纯神经负载，神经与符号部分在各模型中的运行时占比分别为：LNN（54.6% 神经 / 45.4% 符号）、LTN（48.0% / 52.0%）、NVSA（7.9% / 92.1%）、NLM（39.4% / 60.6%）、VSAIT（16.3% / 83.7%）、ZeroC（73.2% / 26.8%）、PrAE（19.5% / 80.5%）（图2a）。尤为突出的是，NVSA的运行时几乎全由符号部分主导（92.1%），其主因在于推理过程中规则检测步骤具有强序列性且计算密集。

（2）实时性需求难以满足。例如，NVSA在瑞文矩阵（RPM）任务上，RTX 2080 Ti GPU需耗时380秒，而Jetson TX2则高达7507秒（图2b）。即便投入更多算力缩短神经推理时间，基于向量-符号的推理所引入的巨大开销仍使其无法实现实时执行。

（3）符号操作在GPU上难以有效加速。以NVSA为例，其符号部分占总推理时间的92.1%，但仅贡献19%的浮点运算量（FLOPS），表明计算效率极低。

→ 关键结论1：相较纯神经模型，神经符号AI模型普遍具有更高延迟，难以满足实时应用需求；符号操作在CPU/GPU上执行效率低下，易形成系统瓶颈。

端到端延迟可扩展性分析我们进一步评估不同任务规模与复杂度下的端到端运行时（以NVSA在RPM任务为例，见图2c）：（1）神经与符号部分的运行时占比在不同任务规模下相对稳定。例如，当任务尺寸从2×2增至3×3时，符号部分占比仅从91.59%微降至87.35%；（2）总运行时随任务规模呈近似平方级增长——上述案例中总延迟增长达5.02倍，凸显神经符号模型潜在的可扩展性瓶颈。

→ 关键结论2：神经与符号组件的运行时比例基本稳定，但总延迟随任务复杂度急剧上升；其可扩展性瓶颈亟需高可扩展、高能效的新型架构支持。

→ 建议1：为构建实时、高效、可扩展的认知系统，亟需从算法–系统–硬件跨层次协同优化神经符号工作负载。

B. 计算算子分析

图3a依据第IV-B节的六类算子分类，对LNN、LTN、NVSA、NLM、VSAIT、ZeroC与PrAE中神经与符号部分的运行时进行分解，得出以下观察：

神经组件分析神经部分主要由矩阵乘法（MatMul）主导：

LTN（神经）因采用重型多层感知机（MLP），MatMul占比极高；
NVSA、VSAIT与PrAE（神经）以MatMul和卷积为主，因其采用神经网络作为感知主干进行特征提取；
相比之下，LNN与NLM（神经）因分别基于稀疏命题逻辑语法树与多组架构上的序列逻辑演绎，大量运行时消耗于向量/逐元素张量运算
值得注意的是，LNN（神经）中数据移动开销显著，源于其推理过程中独特的双向数据流。

符号组件分析符号部分主要由低运算强度、高控制流复杂度的向量与标量操作主导：

LNN、LTN与NLM（符号）均含大量逻辑运算，其数据库查询与算术操作存在并行优化潜力，尤其在更大规模符号模型中；
LNN（符号）严重受限于数据移动，根源在于其稀疏且不规则的访存模式及双向推理机制——采用模型感知的数据流架构有望缓解该瓶颈；
NVSA、VSAIT与PrAE（符号）主要涉及向量-符号操作，其典型操作（如绑定binding、捆绑bundling）依赖高维分布式向量计算以实现符号表征，此类操作在GPU上难以高效执行；
随着任务与特征复杂度提升，加速此类计算的挑战将愈发严峻。→ 我们以向量符号架构（VSA）算子为案例，在第VI节提出一套跨层优化方案以提升系统效率。

→ 关键结论3：神经组件以MatMul与卷积为主，符号组件则以向量/逐元素张量运算及逻辑操作为主；神经与符号模块在CPU/GPU上分离执行所引发的数据传输开销，为高效硬件设计带来严峻挑战。

→ 建议2：

架构层面：可为高效执行符号操作（如高维分布式向量运算、逻辑运算、图处理等）定制专用处理单元；
对于神经与符号部分无重叠的场景，建议采用支持双模态计算的可重构处理单元

C. 内存与系统分析

内存占用分析（图3b）（1）中间结果与搜索开销导致高内存需求：

PrAE（符号）因依赖大量中间结果的向量运算及穷尽式符号搜索，内存占比极高；
NVSA（符号）通过概率溯因推理略微缓解了向量-符号操作的内存压力；
ZeroC（神经）因其含基于能量的模型（energy-based models）且以大规模集成方式处理图像，亦占用大量内存。

（2）存储足迹方面：神经网络权重与符号码本（codebook）通常占据主导。例如，NVSA中神经网络与全息向量启发的码本合计占内存占用超90%——因其神经前端需表达的对象组合数远超向量空间维度，要求码本足够大以涵盖所有对象组合并保证近似正交性。

系统 Roofline 模型分析（图3c）我们采用 Roofline 模型量化 RTX 2080 Ti GPU 上各工作负载的内存受限程度，发现：

符号组件处于内存受限区域，而神经组件处于计算受限区域
例如，NVSA 与 PrAE 的符号操作需持续向循环卷积计算单元流式输入向量元素，显著增加内存带宽压力；
优化计算数据流，并采用可扩展、可重构的处理单元，有助于提供所需带宽。

→ 关键结论4：

符号操作因需流式处理大量向量元素而内存受限
神经操作则因MatMul/卷积密集而计算受限
存储方面，神经权重与向量码本主导总占用，且符号推理过程需大量中间缓存。

→ 建议3（算法层）：可采用模型压缩技术（如量化、剪枝）及神经/符号组件的高效因子分解，在不损认知推理精度的前提下，降低内存与数据移动开销。

→ 建议4（技术层）：新型存储器（如高带宽存储、存算一体/近存计算）可有效缓解符号操作的内存瓶颈，从而提升神经符号系统的可扩展性、性能与能效。

D. 操作依赖与数据流

图4分析了代表性神经符号工作负载中的操作依赖关系。我们观察到：

NVSA、VSAIT与PrAE的推理计算依赖于前端神经模块的输出结果，因而处于端到端推理的关键路径上；
LNN、LTN、NLM与ZeroC需将符号知识编译为神经表征或输入嵌入
复杂的控制流导致其在CPU与GPU上执行效率低下，而向量-符号计算阶段则导致硬件资源利用率偏低

→ 存在若干优化机会：如数据预处理、规则查询并行化，以及采用异构/可重构硬件架构设计，以缓解该瓶颈。

→ 关键结论5：
符号操作或依赖神经模块结果，或需被编译进神经结构之中，因而普遍处于神经符号系统端到端推理的关键路径上；其向量-符号计算阶段与复杂的控制流，导致CPU/GPU上的硬件资源利用率低、执行效率差。

→ 建议5（系统层）：
可采用自适应工作负载调度策略，对神经与符号组件进行并行化处理，以缓解资源闲置问题，提升运行时效率。

E. 硬件低效性分析

执行神经符号工作负载时的硬件低效性主要源于：ALU利用率不足、缓存命中率低、以及大量数据传输。我们利用Nsight Systems/Compute工具进一步刻画所选神经符号负载在GPU上的行为。以NVSA为例，表IV列出了其典型神经与符号内核的计算、内存及数据移动特征。我们观察到：

符号操作中，ALU利用率通常＜10%L1缓存命中率约20%L2缓存命中率约40%，而DRAM带宽利用率高达≈90%，明显处于内存受限状态；
数据传输类内存操作约占总延迟的50%，其中**＞80%来自主机CPU至GPU的数据搬运**；
此外，同步开销及等待GPU操作完成的过程，也导致CPU利用率不足

→ 关键结论6：
尽管神经内核在GPU上展现出高计算利用率与内存效率，符号操作却普遍存在ALU利用率低、L1缓存命中率低、内存事务频繁等问题，导致整体执行效率低下。

→ 建议6（架构层）：
可设计异构或可重构的神经/符号融合架构，集成高效的向量-符号计算单元与高带宽片上网络（NoC），以提升ALU利用率、减少数据移动，从而改善系统性能。

F. 稀疏性分析

神经符号工作负载亦呈现出显著的稀疏性特征。例如，图5刻画了NVSA符号模块（包括：概率质量函数→VSA变换、概率计算、VSA→概率质量函数变换）在不同推理规则属性下的稀疏性。我们观察到：

NVSA具有极高稀疏比（＞95%），且其稀疏模式随具体属性变化，呈现非结构化分布
类似地，ZeroC与LNN也表现出＞90%的稀疏比，而LTN则以稠密计算为主。

→ 关键结论7：
部分神经与向量-符号组件展现出高度非结构化稀疏性，且其稀疏程度与模式随任务场景及属性动态变化。

→ 建议7（算法与架构层）：
采用稀疏性感知的神经与符号算法及架构设计，可有效降低内存占用、通信开销与计算FLOPS需求。

G. 神经符号工作负载相较于纯神经网络的独特性总结

综上所述，神经符号AI工作负载与纯神经网络的差异主要体现在以下三方面：

计算内核（Compute kernels）神经符号负载由异构的神经与符号内核构成；其中符号算子（如向量、图、逻辑运算）在通用CPU/GPU上执行效率低下——表现为硬件利用率低、缓存命中率差，易成为运行时延迟瓶颈。
内存特性（Memory）符号操作因需流式处理大量向量元素而内存受限；符号码本通常占据巨大内存空间，且推理过程需大量中间缓存。
数据流与可扩展性（Dataflow and scalability）神经符号负载的控制流比纯神经网络更复杂；符号操作或严格依赖神经内核输出，或需被编译嵌入其中；其不规则数据流、强数据依赖性及序列化处理特性，导致并行可扩展性低，在CPU/GPU上效率不佳。

VI. 案例研究：向量符号架构的硬件加速

本节以向量符号架构（Vector-Symbolic Architecture, VSA）为对象，开展一项跨层次加速设计案例研究。VSA是众多神经符号任务中一种强大且核心的模型［7］［21］［53］［54］。我们提出一套完整的设计方法，涵盖：

加速型向量符号计算内核建模（第VI-A、VI-B节），
架构与数据流设计（第VI-C节），
编程方法（第VI-D节），

该方法旨在克服在CPU与GPU上执行VSA组件时存在的计算低效问题（第VI-E节）。

我们所提出的硬件设计方案，直接受第V节工作负载特征分析所得洞见的启发。如表V所示，该设计具备以下关键特性：

（1）采用高能效数据流，集成异构算术单元，可灵活执行各类核心向量-符号运算；
（2）采用分布式存储系统，结合近存计算（near-memory computing）技术，以提升可扩展性与内存性能；
（3）对符号算子进行压缩存储，显著减小向量码本（vector codebooks）的内存占用；
（4）采用向量符号单元的瓦片化（tiled）设计，最大限度减少数据移动，并优化计算效率。

上述特性协同作用，共同构建出一款高能效、高可扩展的向量符号专用硬件加速器，其性能显著超越传统通用计算平台。

A. 向量符号运算

在向量符号内核中，标量与对象等计算元素以超向量（hypervectors）表示，并可通过一组代数运算进行操作［15］［55］，具体包括：
（1）绑定（binding），即逐元素乘法，用于生成一个与其构成元素近似正交（即不相似）的新超向量；
（2）捆绑（bundling），即逐元素加法，通过逐元素多数投票机制组合多个超向量；
（3）置换（permutation），即重排超向量中的元素顺序，以保持序列内部的相对位置关系；
（4）标量乘法（scalar multiplication），即使用标量权重对超向量元素进行缩放。

向量间的相似性可通过多种距离度量来衡量，例如点积、汉明距离、L1距离和L2距离［56］［57］。这些运算共同构成了一个数学框架，专门用于实现面向VSA运算的各种认知功能［58］。

B. 向量符号内核建模

我们采用形式化表示——即“内核函数”——描述所提出的硬件加速器的操作特性与可编程能力。我们将该内核函数表达为：O := F(y, s)，其中F(·)整合了一组内核子函数fi，共同覆盖加速器所有操作域；y = {y₁, y₂, …} 表示参与计算的所有项目向量与原型向量组成的数组；参数s定义为一组条件变量s = (s₁, s₂, …)，用于共同确定各子函数fi所对应的子域。

该内核功能整合了编码与解码、内存访问及推理所需的各类计算。接下来，我们对子函数fi进行形式化建模，以描述这些计算过程。

编码与解码内核。为便于编码与解码操作，内核函数需支持对超向量运算（绑定、捆绑、置换）的灵活配置。我们考虑到绑定运算可分布于捆绑运算之上［59］，并据此提出如下内核函数：

紧凑型内核形式化描述。基于上述信息，我们提出以下简洁且形式化的描述，用以刻画VSA硬件加速器的内核功能：

在该定义中，控制变量（ s 1 , s 2 , s 3）用于在运行时动态调整内核行为。
图6展示了该内核如何被配置以执行各类VSA工作负载；基于这些工作负载及其他负载映射所得的性能结果见第VI-E节。

C. 硬件架构与数据流

我们提出一种依据前述VSA内核推导出的架构数据流构建方法。
图7展示了整体架构，包含三个子系统：

（1）内存与码本生成子系统（Memory and Codebook-Generation subsystem, MCG）；
（2）向量-符号运算子系统（Vector-Symbolic Operations subsystem, VOP）；
（3）距离计算子系统（Distance Computation subsystem, DC）。

另设一个控制单元，用于指令译码并确定各子系统的控制配置。下文将逐一介绍这些子系统的功能及其内部操作。

MCG 子系统（Memory and Codebook-Generation Subsystem）该子系统分布于多个瓦片（tile）上，每个瓦片包含四个功能模块：

本地存储单元（SRAM）；
实现元胞自动机规则90（Cellular Automata Rule 90, CA-90）［60］的逻辑单元；
寄存器文件（CA-90 RF）；
查询寄存器（QRY）。

从本地SRAM加载的向量仅在本瓦片内部逻辑中处理，以充分发挥近存计算（near-memory computing）优势。SRAM初始化时载入随机生成的原子向量（即符号码本），用于符号编码。由于向量维度受限于物理数据通路宽度，我们采用折叠机制（folding mechanism）以支持扩展维度；其中，CA-90是核心组件，通过XOR与移位操作动态生成新的随机向量［60］。此设计大幅降低内存占用——本地SRAM仅需存储种子折叠（seed folds）即可。CA-90 RF用于暂存新生成的折叠，以减少CA-90的冗余激活；QRY寄存器则保存相似性计算所需的查询数据，是VSA中的关键组件。

VOP 子系统（Vector-Symbolic Operations Subsystem）该子系统实现VSA核心运算，用于构建分布式感知表征并执行符号推理。其包含五个逻辑单元：

绑定单元（BIND）；
乘法单元（MULT）；
捆绑单元（BND）；
寄存器文件（BND RF）；
符号单元（SGN）。

BIND连接本地向量缓存，用于执行向量间的绑定操作（binding）；多个绑定结果的叠加（即超向量的生成）通过BND中的逐元素加法（即捆绑，bundling）实现。BIND与BND采用不同数据表示：BIND使用二进制格式，BND使用整数格式；MULT负责格式转换（二进制→整数）并执行逐元素标量乘法——该操作对神经符号编码至关重要。BND输出的整数折叠可暂存于BND RF中以支持连续叠加，或经SGN转为二进制格式，以便通过全局向量-符号数据通路传输。

DC 子系统（Distance Computation Subsystem）该子系统负责距离计算与最近邻搜索，包含三个关键逻辑单元：

POPCNT：计算两向量差值的“1的个数”（popcount），具体通过逐元素XOR后累加，得到差值向量中1与0数量之差，即汉明距离的代理值；
由于向量折叠机制，POPCNT仅作用于局部向量片段，其输出为局部距离分量
DSUM RF：用于跨多个局部向量累积距离分量，其由多个可独立控制的寄存器构成，实现分布式距离累加；
ARGMAX：接收累加后的距离数据，并据此执行最近邻向量搜索。

参数化多瓦片架构（Parameterized Multi-Tile Architecture）上述模块组合构成“单瓦片（single-tile）”基础架构，包含一个MCG与一个DC实例。我们进一步提出“多瓦片（multi-tile）”架构：将内存受限的向量加载与相似性计算任务分配至多个瓦片，并利用SIMD并行机制加速执行。该设计实现了符号计算的并行化近存处理，显著提升计算单元利用率；同时扩展了存储容量，以支持更大规模模型。各瓦片配备配置寄存器，允许在指令发射前选择性激活（或休眠）特定瓦片，实现灵活能效管理。

D. 加速器控制方法

如前所述，各模块的配置构成一种七级流水线架构，每级对应特定类型的操作（见图8）。这种流水线结构促进了数据流与控制流原语的顺畅集成，使得不同控制方法可在无冒险（hazard-free）的前提下灵活应用。为开展本研究，我们重点考察该加速器的两种控制方法：单操作每周期（Single-Operation-Per-Cycle, SOPC）与多操作每周期（Multiple-Operations-Per-Cycle, MOPC）。

SOPC 与 MOPC：

SOPC 在每个周期仅激活一个流水级，因此编程更简单、功耗更低；但其运行时间较长，不适用于高吞吐场景；
MOPC 允许多个流水级同时执行操作，从而提升每周期操作数；但其功耗更高，且需复杂的映射框架以分析程序依赖关系并优化控制活动。MOPC 更适用于需在运行时与功耗间取得平衡的高吞吐应用。

控制方法对比：
我们以谐振器网络（resonator network）内核实现的因子分解任务为例，对比SOPC与MOPC（见图9）。结果表明：

MOPC 相较 SOPC 可显著降低运行时延，加速比从1.8×提升至2.3×；
但随任务复杂度（因子数量）上升，MOPC 的功耗亦增加44%–57%。

我们在设计中选用 MOPC，因其更强的加速能力在需并发执行多个异构任务时尤为关键；此外，MOPC 的加速比可根据低功耗需求灵活配置，实现性能与能效的动态权衡。

加速器指令格式：
为支持 MOPC 控制方法，我们设计了一种采用宽字宏格式（称为Instruction Word）的指令集架构。其类似超长指令字（VLIW），但关键区别在于：

单条 Word 包含多个操作，这些操作在流水线数据流中是顺序执行的各阶段任务，而非VLIW中真正并行的多发射操作。

如图10所示，该 Word 格式包含：

7个 Type 字段：分别指定7级流水线中需执行的操作；
1个 OP_PARAM 字段：用于配置各 Type 操作的具体参数。

该设计具备高度灵活性，是领域专用处理器的常见实践。受限于篇幅，指令字段细节与编译器优化策略从略。

E. 评估结果

实验设置：
设计采用 SystemVerilog 实现，使用 Synopsys Design Compiler 与 28 nm 工艺库进行综合；功耗通过 Synopsys PrimeTime PX 测量。
以 NVIDIA V100 GPU 作为基线平台运行 VSA 工作负载，其功耗由nvidia-smi工具实测获得。
表VII所列算法用于评估，以全面检验多层认知系统的性能表现。

延迟分析：
我们首先评估不同规模 VSA 加速器（Acc）对延迟的影响。图11a显示：

Acc4 相较 Acc2 可实现1.3–1.8× 加速，表明 Acc2 存在资源供给不足问题；
然而，从 Acc4 扩展至 Acc8 时，并非所有算法均等受益：
- MULT仅获得 1.16× 加速——因其主要执行序列编码中密集的 VOP 计算，对硬件规模扩展不敏感；
- REACT则达1.69× 加速——因其大量执行“清理式内存”操作（clean-up memory operations），可高效分布至所有瓦片并行处理。

VII. 展望与研究机遇

本节将从系统与架构视角出发，探讨神经符号系统面临的挑战与机遇，并勾勒我们对未来的构想。

构建类ImageNet的神经符号数据集
神经符号系统在实现类人性能方面展现出巨大潜力［63］，但当前应用仍局限于基础决策与推理任务，远未实现人类认知能力的完整图景——例如演绎推理、组合泛化（compositionality）与反事实思维（counterfactual thinking）。一个关键开放问题是：如何将从其他领域习得的感知能力迁移至抽象推理任务？为显著提升神经符号系统的元认知能力（metacognitive capabilities），亟需构建更具挑战性、更契合其特性的新型数据集，以充分释放其潜能。

统一神经符号模型
融合神经、符号与概率方法有望显著提升AI模型的可解释性与鲁棒性。然而，目前对这些互补范式的整合仍处于初步阶段——如何以原理性、系统性方式实现三者融合，仍是重大开放挑战。特别地，符号组件可与大语言模型（LLMs）结合，以增强其规划与推理能力［64］。我们展望未来能构建一个统一框架：支持算法设计者灵活融合神经与符号方法，并结合概率表征；同时，可对“神经符号推理”与“纯大规模神经模型”之间的扩展律（scaling laws）进行量化比较与建模。

开发高效软件框架
神经符号AI系统通常依赖底层逻辑（如模糊逻辑、参数化机制、可微结构）以支撑学习与推理能力。然而，当前多数系统实现均针对特定逻辑定制专用推理软件，严重制约了模块化与可扩展性。因此，亟需开发新型软件框架：

能覆盖广泛的推理逻辑能力；
支持实用的语法与语义扩展；
同时兼顾运行速度与内存效率。此外，亟需设计新型编程模型与编译器，以简化并高效实现神经符号模型，从而真正兑现该范式的全部潜力。

构建多样化的神经符号工作负载基准测试
面对神经符号算法的快速涌现与硬件技术的迅猛发展，亟需建立可比、可验证的基准测试体系：

系统层面：需构建代表性基准集，准确捕获神经与符号模型的核心工作负载特征（如计算内核、访存模式、稀疏性），并支持在人机协同应用场景中开展量化评估；
架构与硬件层面：需发展建模-仿真框架，支持针对此类负载的新型架构探索，并基于工作负载特征构建可复用的优化模块库。系统性的基准测试将引导机器学习研究者与系统架构师深入权衡各类神经符号算法在精度、性能与能效间的取舍，并推动性能可移植（performance-portable）系统的设计与实现。

设计认知导向的硬件架构
融合神经、符号与概率方法的神经符号工作负载，在计算内核异构性、稀疏模式、访存不规则性及内存强度等方面，均远超深度神经网络（DNNs）。这使其与当前以矩阵乘法与规则化数据流优化为主导的硬件演进路线日益脱节。因此，亟需新型硬件架构：

配备专用处理单元、适配的内存层次结构高带宽片上网络（NoC），以应对计算与通信的额外复杂性；
同时需具备高度灵活性：既支持可配置互连，又提供全地址可寻址内存，以持续适配神经符号AI算法的快速创新迭代。

VIII. 结论

神经符号人工智能（Neuro-symbolic AI）是一种新兴范式，旨在构建高效、鲁棒、可解释且具备高级认知能力的人工智能系统。本文对神经符号系统的性能进行了系统性特征刻画，并深入分析了其各操作组件的特性。基于剖析所得洞见，我们提出了跨层次优化技术，并以一项硬件架构设计案例研究，展示了如何显著提升其性能与能效。我们相信，本研究将有助于应对关键挑战，并凸显推动下一代神经符号AI系统发展所必需的机遇与方向。

原文：https://arxiv.org/pdf/2409.13153

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.