https://www.nature.com/articles/s41467-025-55832-y
Principled neuromorphic reservoir computing
神经形态库计算原理
摘要
储层计算提出了一个引人入胜的观点,即一个非线性递归神经电路——储层——可以对时空输入信号进行编码,从而实现高效地执行分类或回归等任务的方式。然而,最近关于单体储层网络同时缓冲输入信号并将它们扩展为非线性特征的观点受到了挑战。一种将记忆缓冲和扩展为更高阶多项式特征可以分别配置的表示方案已被证明在多变量时间序列预测方面显著优于传统的储层计算。在这里,我们提出了一种可配置的类脑神经形态表示方案,该方案在预测性能上具有竞争力,但与以往直接实现更高阶特征的方法相比,具有显著更好的扩展性。我们的方法结合了传统储层计算中的随机表示的使用以及通过这些表示近似多项式核的数学原理。虽然记忆缓冲可以使用标准储层网络实现,但计算更高阶特征需要“Sigma-Pi”神经元网络,即能够同时实现输入的求和和乘法的神经元。最后,我们在现有的类脑神经形态硬件平台Loihi 2上实现了记忆缓冲和Sigma-Pi网络。
储层计算是一种受神经科学观察启发的递归神经电路计算范式,并且已经实现了递归神经网络的有效实现,这种架构在处理多变量时间序列的技术应用中非常普遍。储层计算使用一个神经动力学系统——所谓的“储层”,将时间序列映射到高维状态空间中的一个模式,然后将其输入到单层神经网络中。单层网络可以通过监督学习的方式进行训练,以执行诸如时间序列的分类或回归等任务。储层被认为具有两个作用(图1a):首先,它是输入信号的存储缓冲区,如果需要强调最近的输入历史,则通常是衰减记忆缓冲区。对于缓冲来说,储层的动力学必须是固定的。例如,标准策略是使用具有固定随机连接的递归网络。其次,储层动力学中的非线性可以实现丰富的特征空间,包括输入信号的非线性函数,这可能实现原始信号上无法实现的可分性和泛化能力。
然而,在实践中,储层网络形成丰富特征空间的能力可能会受到限制。例如,具有常见饱和神经激活函数的储层网络主要导致记忆衰减,而得到的特征空间仍然与线性递归网络的特征空间非常相似。包含更多神经生物学细节的储层网络,例如具有脉冲神经元的网络,或者具有短期可塑性的突触连接作为额外动态变量的网络,可以创建更丰富的表示。然而,要调整这种丰富性以最好地服务于特定的计算任务是非常困难的。为了说明传统储层计算的这些局限性,最近的研究表明,一种计算输入信号延迟状态之间张量积的表示方案(图1b)可以在预测动态系统这一重要任务上实证性地优于传统储层网络。
鉴于这些局限性,我们在这里研究以有原则的、可配置的和高效的方式在类脑神经形态硬件上实现具有非线性特征的储层计算。我们提出了一种双部分方法,结合两种通用神经电路(图1c):传统的储层网络用于形成存储缓冲区,以及新型的Sigma-Pi网络用于计算非线性特征。我们从理论上描述了联合表示特征空间的两个基本操作——连接和张量积——并展示了每种操作都会导致构建的表示之间不同的相似性结构。我们基于随机分布式表示提出了一个具体的多变量时间序列预测方案,并在类脑神经形态芯片Loihi 2上展示了这些网络的实现。这种基于向量符号架构和随机核近似思想的方法可以形成与连接或张量积具有大致相同相似性结构的表示,但表示的维度保持固定。我们在混沌动态系统的预测上评估了这种新的随机分布式表示,并表明通常可以用比原始显式方法需要更少维度的表示来实现相同质量的预测。
结果
联合表示的形成:通过连接或张量积
为了从时间序列中进行预测,必须创建一个包含输入信号部分历史以及相关非线性特征的表示。一种经典的方法是通过连接在不同时间点观察到的 d 维状态向量来形成一个记忆缓冲区,以表示轨迹的历史,例如:
在这个结果特征空间中,通过连接形成的两个轨迹表示之间的内积等于单个时间点状态向量之间内积的总和。
另一种方法是通过张量积将轨迹中不同时间点的状态向量结合起来。得到的表示包含了原始状态向量各分量的乘积,即非线性的高阶特征,例如:
一对轨迹的张量积之间的内积,即弗罗贝尼乌斯内积,对应于每个时间点可观测状态之间内积的乘积。
通过内积所衡量的相似性在两种表示方式中是定性不同的。对于输入信号的拼接,即使两条轨迹的信号仅在一个时间点重合,它们仍然具有不可忽视的相似性。相反,张量积会形成输入信号的多项式乘积,因此只有当两条轨迹在所有时间点都重合时,它们之间的相似性才会很高。因此,在解决具体的计算任务时,重要的是要灵活地将这两种操作应用于输入信号,以构建最终的特征空间。
通过拼接和张量积表示轨迹
随机分布轨迹表示
如文献11、12和24所示,乘积表示方案(公式1)在从多变量时间序列进行预测方面可以优于传统的回声状态网络。然而,这种方法的一个显著限制是,随着多项式的阶数增加,表示的维度呈指数增长,见“高阶特征的乘积表示”部分。
用于张量积和绑定的Sigma-Pi神经元网络
为了在神经形态硬件上利用乘积表示或其等价的分布式表示,必须有一种网络结构用于计算拼接和张量积特征。正如已经提到的,用于存储延迟状态轨迹的存储缓冲区可以用传统的线性回声状态网络实现,如图1a所示。这些网络由传统的Sigma神经元组成,这些神经元对突触输入进行求和,并可能应用逐点非线性激活函数。
图2b、c中展示的分布式表示方法的另一个优势是,高阶特征可以通过反复使用绑定的网络结构来计算(图中未显示递归连接)。由于绑定结果的维度与输入的维度相同,因此可以将结果反馈作为其中一个输入,并在下一次迭代中重新组合。这可以大大减少在神经形态硬件上计算高阶特征所需的资源,因为绑定网络的突触连接和神经元可以被重复利用。
重要的是,具体的VSA模型选择不仅应基于相应的网络复杂性,还应基于其对目标计算硬件的适用性。为了说明这一点,“神经形态硬件上的实验”部分展示了现有神经形态芯片Loihi 2的实现。
在CPU上的实验
遵循传统回声状态计算(1、3)的范例,Gauthier等人(12)使用乘积表示方案(公式1)结合岭回归来构建用于多变量时间序列预测的预测模型,并在预测混沌动力系统方面对它们进行了评估。在训练过程中,从岭回归解(具有正则化参数α)中获得输出矩阵(“高阶特征的乘积表示”部分,公式9)。训练数据包括特征空间中的点以及目标函数对应的真值,例如通过传统数值积分确定的动力系统的下一个状态向量。
神经形态硬件上的实验
在这里,我们在神经形态芯片Loihi 2上展示了存储缓冲区和Sigma-Pi网络的实现(15、39)。Loihi 2(图5a)是一种异步神经形态计算架构,通过基于事件的报文传输信息。在Loihi 2中,这些报文可以包含24位信息——一个“分级脉冲”,我们用它来传输向量分量的大小。此外,Loihi 2具有一个可编程引擎,允许用户定义自定义神经元模型,我们用它来实现Sigma和Pi神经元。
按照“用于张量积和绑定的Sigma-Pi神经元网络”部分的描述,我们使用两种基本类型的神经元进行实现:Sigma和Pi。Sigma神经元计算输入群体与突触权重之间的内积,并将结果作为分级脉冲传输。Sigma神经元还可以配置阈值,低于该阈值的内积结果将不会产生脉冲输出,这可以减少脉冲流量。Pi神经元是一种特殊的神经元,具有两个输入通道。突触输入在两个通道上累积,然后神经元计算这些输入的乘积,并将结果作为分级脉冲输出。通常,每个通道上只有一个突触输入。
因此,Loihi 2神经元中的活动表示为包含24位的事件报文,这些位表示定点整数。8位突触权重和Pi神经元通过乘以整数值并右移来计算定点乘法,其中突触权重的定点通常为27,分级脉冲的定点为212。芯片使用基础软件包Lava( )进行编程,以及Lava-VSA,它提供了构建VSA电路的工具。由于稀疏性是Loihi 2电路的一个重要需求,我们利用了稀疏块码模型,如图2c所示。表示被结构化为 (K = 10)、(L = 20) 维的块,(D = LK)。Lava-VSA软件包包含用于创建网络结构的模块,这些网络结构可以在Loihi 2上执行,用于计算所需的高阶特征的分布式表示。
为了验证我们的实现是否产生有意义的表示,我们通过使用Lorenz63系统的状态(公式23)作为输入到在Loihi 2上运行的三种不同网络架构来进行可行性研究。目标是预测一个随机选择的二次函数,该函数依赖于最近的两个Lorenz63状态向量(图5b中的灰色线描绘了一个示例目标函数)。为了说明这一原理,我们实现了并比较了三个网络:一个计算最近输入历史的存储缓冲区的线性回声状态网络(图5b,左侧);一个计算最近状态向量及其二阶特征的联合分布式表示的网络(图5b,中部);以及一个将存储缓冲区与一阶和二阶特征结合起来的网络(图5b,右侧)。图5b定性地说明了第一个网络的预测效果最差,而第三个网络的预测几乎完美。图5c定量地展示了这一点,报告了八个随机实例的网络预测误差(实线)。性能与稀疏块的数量(固定大小 (L = 20))相对应。正如预期的那样,第一个和第二个网络的表示不足以紧密预测目标函数,因为这些特征空间中不包含与目标函数匹配的特征。相比之下,使用包含存储缓冲区及其二阶特征的表示可以得到较小的误差,且随着块数的增加而减小,因为所有相关的目标特征都存在。此外,Loihi 2上所有三个网络的结果与它们的CPU对应物的结果(虚线)非常接近。
回声状态计算是一种强大且通用的范式,用于在递归神经网络中利用随机分布式表示进行计算。它借鉴了神经计算的原理,并已被证明在广泛的任务中非常有用(40)。然而,尽管在函数近似方面有通用的保证(6),传统的回声状态计算在实践中往往难以解释和优化。这促使我们探索对原始架构的修改,以更少的资源实现相同的性能。例如,文献41使用了结合时间延迟的回声状态,文献42使用了结构化矩阵来加速回声状态的更新。另一种有前景的方法是显式地建模数据中的高阶多项式特征。文献11、12和24探索了这一想法,表明从时间序列中提取高阶特征可以显著提高回声状态计算模型的性能。尽管这种方法功能强大,但显式形成高阶特征的维度会随着多项式的阶数呈指数增长,这使得其难以扩展到高维输入。此外,庞大的显式特征空间与回声状态计算中经典的简洁性动机相冲突,并且不太适合在神经形态硬件上部署。在这里,我们提出了一种隐式计算高阶特征的方法,并在减少资源需求的情况下保留了显式构建的性能优势。此外,我们展示了这种方法提供了一种合理的方式,通过紧凑的神经电路近似多项式核,并通过在神经形态芯片Loihi 2上实现它来提供概念验证演示。
多项式核机器和多项式回归是机器学习中广为人知且有用的工具。文献11、12中的早期结果以及我们的结果通过明确地将回声状态网络与多项式核联系起来,丰富了回声状态计算网络的工具库。Volterra级数与多项式核回归之间的理论联系(43)进一步支持了使用这些表示来学习动态系统的观点。我们的方法基于机器学习文献中关于用随机表示近似核机器的经典工作(19、20),是合理化的。标准的核机器避免了计算所有高阶特征的指数成本,但仍具有与数据点数量平方相关的成本(25)(“通过多项式核机器实现隐式表示”部分)。相比之下,我们使用随机分布式表示的多项式核,这些表示捕获了与显式形成特征映射相同的相似性结构,但以一种更为简洁的“压缩”表示(“随机表示的核近似保证”部分)。这种方法的一个关键优势是,与显式形成多项式特征相比,前者将多项式特征“叠加”存储(18),所需的维度比后者显式表示所需的维度要少。这种压缩的代价是分布式表示是近似的:分布式表示恢复的相似性核只是真实核的一个噪声版本。这种噪声的大小作为维度的函数可以使用测度集中理论精确量化(19、20),并且实现小的近似误差所需的维度与显式表示特征所需的维度相比是适度的。这一理论分析支持了我们的实证发现,即所提出的方法可以用更小的维度进行更准确的预测(图4)。
关于随机核近似的早期理论工作留下了如何在计算硬件上最好地实现拼接和张量积的问题。我们的方法通过利用向量符号架构(16-18、30)来填补这一空白,这是一种用于形成组合分布式表示的代数、保持维度的框架。向量符号架构的绑定和叠加操作分别对应于拼接和张量积的近似表示(32)。我们的方法指出,两个模式——存储缓冲区和高阶多项式特征——可以组合成特征空间,并整合成两个神经网络(参见文献44关于在单一网络内提出替代方案的内容)。对于第二个模式(“轨迹的随机分布式表示”部分),我们展示了递归向量绑定对应于回声状态存储缓冲区中时间点的高阶特征的计算。此外,我们提出一个递归连接的Sigma-Pi神经元网络(13、45)可以实现递归绑定(“用于张量积和绑定的Sigma-Pi神经元网络”部分)。尽管Sigma-Pi神经元是一个理想化的模型,但已有实验证据表明单个神经细胞具有类似乘法的非线性(46)。
在预测动态系统(“CPU上的实验”部分)方面,我们方法的性能要么优于要么等于乘积表示、回声状态网络和多层感知器基线。此外,它通过使用更少的维度来提高乘积表示的性能,同时匹配性能(例如,图4b)。或者,可以通过适度增加维度以容纳更高阶的特征来实现更高的性能(图4c)。这些结果强调了维度作为所提出方法的可调超参数的作用。请注意,这是在乘积表示方案的超参数(即,延迟状态的选择、多项式特征的阶数和正则化参数)(12)之外引入的唯一额外超参数。正如图4的结果所示,随机表示的维度不需要广泛的调整。一个简单的启发式方法是最初使用乘积表示中的特征数量,这是一个通常可以在实践中减少的保守估计。因此,与乘积表示方案相比,所提出的方法对超参数搜索空间的引入最小。在实践中,随着分布式表示维度的增加,预期性能会提高。维度是控制模型性能和资源效率之间权衡的一种方式。
为了生成高效的神经形态绑定实现,我们利用了如何用Sigma-Pi神经元网络来计算分布式表示。我们进一步探索了随机连接的Sigma-Pi网络(补充材料S-III),并在“用于张量积和绑定的Sigma-Pi神经元网络”部分讨论了不同VSA模型的权衡。重要的是,这种组合分布式表示可以通过递归连接的神经元网络来计算,这进一步受益于神经形态硬件加速。我们在Loihi 2神经形态芯片(15、39)上实现了稀疏块码(32、36)(“神经形态硬件上的实验”部分),这在需要的突触连接数量上具有优势。值得注意的是,由神经形态实现计算的表示非常接近其CPU对应物(图5)。预计这些发现将进一步推动神经形态计算领域内开发受神经启发的算法、电路和应用的进步。
方法 高阶特征的乘积表示
在“任务和实验配置”部分中,有关预测Lorenz63系统的经验实验的报告可在补充材料S-IV中找到,该实验比较了乘积表示和相应的核机器。从公式(15)可以看出,核机器的大小取决于训练时间点的数量 r,而不是显式构建的乘积表示的维度。一方面,在核的特征映射具有较大维度的情况下,这可能是有益的;而另一方面,对于大规模数据集,这可能是一个问题。后一个问题促使文献25中提出了一个开创性的结果,建议使用随机表示来近似某些核函数。
具有绑定的高阶特征的随机表示
这是可能的,因为绑定和置换操作可以分配到叠加之上,因此公式(18)可以展开如下:
随机表示的核近似保证
正如我们在“轨迹的随机分布式表示”部分(以及“具有绑定的高阶特征的随机表示”部分)中提到的,我们介绍的嵌入方法可以被解释为生成多项式核的近似特征映射。实际上,当绑定操作符是逐分量乘积时,这种方法与文献19中关于近似多项式核的著名方法一致。在本节中,我们将更正式地推导出其他绑定操作实现的核近似特性。
由于关于回声状态计算的文献非常广泛,我们在这里不详细介绍(可参考文献4、40等),但为了完整性,我们提供了用于实验评估基线的回声状态网络的回声状态动态演变方程:
任务和实验配置
任务和特征空间的配置为了评估特征空间的分布式表示,并将其与乘积表示进行比较,我们首先遵循了文献12中的实验方案,该方案涉及三个任务,并且包括了一个在文献38中被证明对乘积表示具有挑战性的额外任务,以及一个涉及许多输入通道的动力系统的任务。对于所有任务,输出矩阵 是通过岭回归根据公式(9)或(14)获得的。
第一个和第五个任务是利用数值积分生成的由Lorenz在1963年开发的系统的时间序列设计的(50)。该系统包括三个耦合的非线性微分方程(称为Lorenz63):
第四个系统是Kuramoto–Sivashinsky系统,它被用来引入并行储层计算方案。该系统描述了一个在空间中扩展的系统的振动函数的缓慢变化,其基于四阶偏微分方程:
原文链接: https://www.nature.com/articles/s41467-025-55832-y
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.