https://www.nature.com/articles/s41598-024-84299-y
A recurrent sigma pi sigma neural network
递归 Sigma-Pi-Sigma 神经网络
摘要
本文提出了一种新型的递归 sigma–pi–sigma 神经网络(RSPSNN),它结合了高阶神经网络与递归神经网络的优点。为了基于最小均方误差(MSE)寻找最优权重,使用了批量梯度算法对 RSPSNN 进行训练。为了证明 RSPSNN 具有唯一的平衡状态,文中证明了其稳定收敛特性,这是衡量网络有效性并克服训练中不稳定性问题的最重要指标之一。最后,为了更准确地评估其有效性,本文进行了五个实证实验。RSPSNN 成功应用于函数逼近问题、预测问题、奇偶性问题、分类问题和图像模拟问题,从而验证了其有效性与实用性。
过去几十年里,神经网络因其诸多优势被广泛应用于多个领域。相比传统方法,神经网络的诸多应用与研究已充分展示了人工智能的诸多优点。那么,为什么神经网络如此广泛应用且如此具有吸引力?答案在于政府、企业和个人发现它们极具价值且使用方便。然而,一旦其输入层的元素数量以及训练样本数量非常大,训练速度就会下降。为避免此类问题,高阶神经网络(HONNs)被提出。HONNs 不仅包含传统的 ∑ 层,还引入了新的 ∏ 层,从而降低了网络的复杂性。HONNs 结合了求和单元和乘积单元,后者可以对输入进行乘积处理。相比仅含有加法单元的传统神经网络,HONNs 的乘积单元能够处理非线性信息。
HONNs 在本文所涉及的领域中被广泛应用。Sigma-pi 神经网络(SPNN)、sigma-pi-sigma 神经网络(SPSNN)和 pi-sigma 神经网络(PSNN)均属于 HONNs。Sun Kim 将 SPNN 应用于飞机速度/高度控制研究。Fan Q.W. 等人证明了 SPSNN 的收敛性,并将其应用于函数逼近和分类问题。Qian Kang 等人结合平滑 Lasso 正则化与自适应动量分析了 SPSNN 的收敛性,并应用于类似领域。Nayak S.C. 等人使用 PSNN 构建原油价格混沌模型并进行时间序列预测。Zhang Y.Q. 提出一种带稀疏约束的新型 PSNN,用于克服学习过程中的振荡现象并提升学习效率。Pan Wei 等人将 PSNN 应用于磁性形状记忆合金致动器领域。在一本近期出版的著作中,PSNN 被与群体智能元启发式算法相结合,展示了其在数据分类方面的有效性。未来,预计将构建新的 HONN 网络,广泛应用于多个领域,以避免传统神经网络在内存需求方面的问题。
对于任何神经网络结构来说,稳定性与收敛性是衡量其有效性的最重要指标之一。因此,许多研究致力于神经网络的稳定性与收敛性。Qinwei Fan 等人证明了 SPSNN 的收敛性,得出误差函数在训练过程中单调递减并趋近于零。在另一项研究中,作者研究了梯度神经网络的收敛性,并推广了基于梯度神经网络的动态系统计算的广义逆方法。为避免耗时的数值解过程,构造的动态系统可生成状态变量的轨迹,成功反映神经网络的收敛性。Xiao Lin 等人将零点神经网络方法扩展至动态四元数数值矩阵的逆问题求解,并通过新型非线性激活函数实现了网络的收敛加速及定时收敛。Liu Wei 等人基于郊狼优化算法提出了一种新型浅层神经网络演化方法,展示了该方法在优化和更新 BP 神经网络的权重与阈值方面的有效性,并在理论上证明网络模型可快速收敛至最优解。在另一项研究中,作者基于 BP 神经网络设计了岩石力学参数反演方法,建立了测得应力值与岩石力学参数之间的非线性映射关系并进行了网络训练,改进的神经网络算法易于收敛。2004 年,Chen Bin 从理论上分析了 BP 神经网络模型的收敛性。2017 年,Wang Jian 在稀疏响应调节场景下分析研究了 BP 神经网络的收敛性。由此可见,不同场景下对 BP 神经网络等的收敛性研究已持续近二十年。
因此,本文提出了一种新型神经网络 RSPSNN,它不仅可以实现静态映射,还具有径向基函数网络的功能,并可能构建为多层神经网络。RSPSNN 具备与动态脊多项式神经网络(DRPNN)类似的特性,DRPNN 包含脊多项式的递归单元,而RSPSNN 使用自生成的合适函数项来实现过去时间与当前时间之间的信息前馈。凭借其灵活性,RSPSNN 预计将具有更强的建模能力。因此,本文构建了新型网络 RSPSNN。本文的主要贡献总结如下:
构建了包含递归和高阶特性的 RSPSNN 新型网络结构;
证明了 RSPSNN 的稳定收敛性,这是递归网络最关键的性质之一;
在多个领域中验证了 RSPSNN 的有效性和能力。
本文其余部分组织如下:“新神经网络结构方法”部分提出了 RSPSNN 的新结构;“新结构的稳定性收敛性”部分介绍了网络的学习规则与训练过程;“新结构在不同应用中的评估”部分展示了稳定性收敛性的结果,并提供了详细证明;“函数逼近问题”部分通过数值实验验证 RSPSNN 的有效性;最后,“预测问题”部分给出了简要结论。引言部分未设标题,主要扩展了该主题的背景,并通常包含文中引用。
新神经网络结构方法
本节提出了一种新型的递归与高阶神经网络,称为递归 sigma-pi-sigma 神经网络(RSPSNN),它是对普通 sigma-pi-sigma 神经网络(SPSNN)的前馈函数的扩展,如图1所示。在图1中,黑色部分为 SPSNN,通过红线部分的扩展即可得到 RSPSNN 的整体结构。该网络同时具有递归性和高阶特性。在递归性方面,当前时刻的输出被用作下一时刻输入的一部分;在高阶特性方面,该结构包含了 ∑ 神经元与 ∏ 神经元,而传统神经网络仅包含 ∑ 神经元。
整个网络包含六部分:输入层、∑₁ 层、∏ 层、∑₂ 层、输出层,以及前馈链。前五部分为 SPSNN,RSPSNN 在此基础上引入了最后一部分。SPSNN 的结构可缓解传统神经网络在训练过程中内存需求大和学习难度高的问题。由于所需内存较少,该网络极具吸引力。因此,RSPSNN 不仅继承了 SPSNN 的优势,还引入了新的递归特性。就复杂度而言,在相同迭代次数条件下,输入层仅增加一个新元素,其余部分保持不变,因此对复杂度的影响可忽略不计。
RSPSNN 由多个高阶神经元构成。图1展示了其拓扑结构,包括输入层、∑₁ 层、∏ 层、∑₂ 层、输出层与递归链。设 t 为时间步;P+1、N 和 Q 分别为输入层、∑₁ 层和 ∏ 层的单元数;fqnp() 为网络训练的激活函数;y(t−1) 表示上一个时间步的网络输出值。各变量的详细符号在表1中列出。
新结构稳定性的收敛性
递归神经网络(Recurrent Neural Network, RNN)能够建模任意的动态系统,这是其最有益的特性之一。因此,RSPSNN 中的递归链预计会发挥优势作用。RSPSNN 的属性中,包括递归连接、复杂性以及训练网络的难度,这些特点都存在。与普通的 SPSNN 相比,训练 RSPSNN 更为困难。输出值与目标值之间的误差可能不会单调递减,因此梯度算法与稳定性收敛的状态可能更加复杂。其次,损失函数 E(w) 对 W0 和 Wn 的两个偏导数 ∂E(w)/∂W0 和 ∂E(w)/∂Wn,可能与输出和梯度相关。因此,梯度和权重的计算更加困难。
为了解决所提出新网络中的收敛性问题,推导了 RSPSNN 的稳定性,以说明该网络具有稳定的收敛性。关于 RSPSNN 在收敛性方面的稳定性,详述如下。
上述证明的详细过程见“补充材料”文件中的附录部分。对于 RSPSNN,其最终目的是通过权重的迭代规则搜索最优权重。期望网络能达到唯一的平衡状态,使得实际输出值尽可能接近理想输出值。
新结构在不同应用中的评估
为验证 RSPSNN 的有效性,我们使用 MATLAB 2018a 软件进行数值实验。首先,我们构建了 RSPSNN 的一种新型网络结构,其中输入神经元、∑₁ 层神经元、∏ 层神经元和 ∑₂ 层神经元的数量分别为 50、12、3 和 1。对于 ∑₁ ∼ ∏ 层,∑₁ 层的 12 个节点被分为三个组(3、4、5),第一组的三个节点与 ∑₂ 层的第一个节点全连接,第二组的四个节点与 ∑₂ 层的第二个节点全连接,第三组的五个节点与 ∑₂ 层的第三个节点全连接。
我们选择 tanh 函数作为激活函数,学习率 η = 0.01。W₀ 和 Wₙ 的初始权重从区间 [−0.05, 0.05] 中选取,并从 [−4.0, 4.0] 区间中随机选取 800 个输入点。训练终止条件为迭代次数达到最大值 50,000,或均方误差 MSE 小于 0.01。
函数逼近问题
为实现函数逼近,我们首先选择以下正弦函数来验证所提出 RSPSNN 的逼近能力。
图2展示了函数逼近过程中均方误差(MSE)的曲线。当迭代次数达到33924时,MSE值为0.0078,满足停止迭代的条件。
图3显示了RSPSNN的逼近函数(用“*”表示的线)和实际函数(虚线)。从逼近结果来看,这两条线非常相似:大部分线条重叠,准确率为86.7%。RSPSNN表现出良好的逼近性能。
预测问题
对于预测问题,我们选择Mackey-Glass(MG)时间序列来说明RSPSNN的有效性,并验证其能力。因此,本文也使用它来评估RSPSNN的有效性。MG方程如下:
MG方程较为复杂,因为时间延迟τ是一个变量。为了便于表述,将y(0)的初始值记为1.8。图4展示了MG时间序列的状态空间分布。目标是对该时间序列进行建模,并预测时间序列在未来某一时刻的值。
在本实验中,首先实现了一步预测,即通过时间k之前和时间k的值来预测时间k+1的真实值。我们生成了500个训练数据点和500个测试数据点用于实验。在图5中,目标输出(1000个数据点)以红线表示,而RSPSNN的预测输出结果以蓝线表示。预测结果非常准确,因为红线和蓝线非常接近,几乎重合。对于500个测试数据点(从501到1000),预测结果也非常准确。在训练和测试过程中,误差变化如图6所示。当迭代次数达到3033时,均方误差(MSE)为0.0096。
此外,还进行了长期预测的检验。对于这种预测,将输出值反馈作为输入值,用于计算RSPSNN的未来值。正如前面所述,1000个点被划分为800个训练数据点和200个测试点(见图7)。图7展示了误差情况,当迭代次数达到567时,MSE为0.0085。图8展示了长期预测的有效性。红线表示目标输出(点1到800表示训练数据的目标输出,点801到1000表示测试数据的目标输出),而蓝线表示预测输出(前800个点表示训练数据,接下来的200个点表示测试数据)。对于点801到1000,当预测结果与目标结果进行比较时,有190个点满足误差小于或等于0.01的条件。因此,预测准确率达到了95%。值得注意的是,RSPSNN具有良好的预测能力。
此外,将RSPSNN与其他尖端架构(如长短期记忆(LSTM)网络)进行比较,以进行全面评估。正如前面所述,整个数据(1000个点)也被划分为80%和20%。图9展示了LSTM的预测结果。对于点1到800,红线表示训练数据的目标输出,而蓝线表示训练数据的预测输出。红线中的点801到1000表示测试数据的目标输出,相应的蓝线中的200个点表示测试数据的预测输出。图10展示了MSE的误差曲线。结果表明,当迭代次数达到115时,MSE降至0.01以下。与RSPSNN的结果相比,LSTM在处理序列问题方面表现出更好的性能。在相同的误差精度下,LSTM需要的迭代次数更少。
奇偶校验问题
对于奇偶校验问题,我们使用分类基准作为样本,该样本位于n维空间中,包含个元素。在本实验中,以4维奇偶校验问题为例来评估RSPSNN的模型。4维奇偶校验函数由个不同的向量组成,表2列出了输入和目标输出的16组数据。
对于这个问题,输出始终为1或0,输入始终为1或-1。在训练RSPSNN的过程中,我们需要更小的误差精度值来展示MSE的细节。因此,在本实验中,将误差精度从0.01提高到0.0001。
学习过程中性能的演变特性如图11和图12所示。
图11展示了均方误差(MSE)的曲线。当迭代次数达到2062时,MSE值为9.9998e-05。
在图12中,目标输出是16个红点,而训练输出是16个蓝点,两者紧密重叠。值得注意的是,RSPSNN能够解决奇偶校验问题。
分类问题
对于分类问题,具有多层结构的RSPSNN适用于解决此类问题。在本实验中,我们使用了四个分类器,每个分类器对应两个5变量函数。这两个函数是
我们分别在[0,2.0]范围内随机选择1000个值作为x1和x2,并将它们依次组合成1000个点[x1,x2]。随后,使用RSPSNN对分类问题进行训练。图14展示了均方误差(MSE)的曲线,表3展示了分类准确率。
在图14中,当迭代次数达到1964时,MSE为0.0100。在表2中,最初的1000个点根据公式(14)和公式(15)被划分为四个分类器,其中I、II、III和IV类的数据量分别为78、31、111和780。此外,这些分类数据通过RSPSNN进行训练,相应的训练结果是:I类正确分类21个,II类正确分类12个,III类正确分类109个,IV类正确分类770个;总共正确分类912个。因此,最终的准确率为91.2%,这表明了RSPSNN的分类能力。
图像模拟
在图像模拟过程中,我们使用RSPSNN来模拟图15中的原始图像。RSPSNN对图像模拟的效果如图16所示。图16展示了经过50次迭代后的图像模拟结果,其模拟准确率为62.5%。在迭代次数较少的情况下,猫的图像已经清晰可见。随着迭代次数的增加,模拟效果变得更加清晰。
最后,为了说明所提出方法的效率和准确性,表4展示了RSPSNN与SPSNN之间的比较结果。
上表表明,RSPSNN的总体准确率优于SPSNN。对于奇偶校验问题和图像模拟,两者的准确率相似。对于函数逼近和分类问题,RSPSNN与SPSNN之间存在一些优势。值得注意的是,在预测问题上,RSPSNN的结果比SPSNN高出22.8%。也就是说,新结构的有效性和能力通过其递归性质得到了证明。其最有优势的特性是记忆功能,在预测问题上表现出色。
结论
在本工作中,我们提出了一种新的神经网络。首先,我们成功地利用SPSNN构建了RSPSNN。随后,我们证明了这种新网络结构的收敛稳定性,这是其最重要的优势特性之一。此外,RSPSNN在四个实验中均取得了成功:函数逼近问题、预测问题、奇偶校验问题、分类问题以及图像模拟。最后,展示了RSPSNN与SPSNN之间的比较结果,验证了所提出网络的效率和准确性。在构建RSPSNN时,仅在输入层新增了一个元素,其他部分保持不变,因此对复杂性的影响可以忽略不计。然而,由于RSPSNN的输入层比SPSNN多一个元素,计算需要更多的可扩展性来应对潜在的限制。一次迭代需要增加一个单位的可扩展性,N次迭代则需要增加N×1单位的可扩展性。
我们期望RSPSNN将在其他领域的理论分析和改进中得到更广泛的应用。RSPSNN的卓越应用可以扩展到全球许多实际问题中。
在未来的工作中,我们计划研究所提出网络的单调性这一新特性,并与其他现有的神经网络模型进行更全面的比较,以更清晰地突出RSPSNN的优势。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.