The functional role of oscillatory dynamics in neocortical circuits: A computational perspective
振荡动力学在新皮质回路中的功能作用:计算视角
https://www.pnas.org/doi/epdf/10.1073/pnas.2412830122
![]()
神经系统的动力学特征包括振荡和同步等典型特性。然而,这些特性是表象现象还是被用于计算,这一点仍然不清楚。由于在神经系统中选择性地干扰振荡网络动态具有挑战性,我们模拟了阻尼谐振子的递归网络,在该网络中每个节点都表现出振荡活动,这一选择得到了实验结果的支持。当在标准模式识别任务上进行训练时,这些谐振子递归网络(HORNs)在学习速度、噪声容忍度和参数效率方面均优于非振荡架构。HORNs 还再现了许多神经系统的典型特征,例如大脑皮层和海马体。在训练后的 HORNs 中,由刺激引起的干扰模式整体上表示将感觉证据与存储在递归连接权重中的先验信息进行比较的结果,而学习导致的权重变化与赫布原则相容。实现自然网络的其他特征,如异质振荡频率、非均匀传导延迟和网络模块化,进一步提升了 HORN 的性能,且无需增加额外参数。综合来看,我们的模型使我们能够为那些功能作用一直难以解释的自然网络特征提供合理的后验解释。我们得出结论:神经系统很可能利用了递归振荡网络的独特动力学,其计算优越性关键依赖于其节点动力学的振荡模式。将所提出的计算原理应用于模拟硬件,有望实现高效节能且具备自适应能力的设备设计,从而理想地补充现有的数字技术。
神经振荡 | 大脑皮层 | 递归网络 | 模式识别 | 行波
大脑皮层和海马体的神经网络,以及可能在非哺乳动物同源结构中的神经网络,具有一些典型的解剖学和生理学特征。其中包括处理层内及层间网络节点之间的递归连接(1, 2),节点和子网络倾向于在不同偏好频率范围内振荡(3, 4),异质但调谐的传导延迟(5, 6),以及通过赫布型突触可塑性(9)实现的基于活动的连接增益调节(7, 8)。某些典型的电路模式,如递归抑制和兴奋,在信号处理中发挥明确的作用。例如,对比增强、增益控制、动态范围扩展和竞争性相互作用。然而,这些微电路本身也容易产生振荡,当多个此类微电路相互作用时,会出现更复杂的动力学现象。在对多个网络节点的同时记录中,这些动力学表现为频率变化的振荡(10, 11)、瞬时同步或去同步放电(12)、共振(13)、锁定(14)、相位偏移(15)和行波(16–18)。然而,许多这些动力学现象的功能意义仍不清楚。尽管振荡神经元和微电路在生成运动模式中的作用已被充分证实(19),但在大脑皮层的认知过程中是否支持计算,以及如何支持,仍然是一个有争议的问题(20–25)。此外,在生理学实验中确定这些动力学现象是否服务于计算功能极为困难,因为基于功能丧失或获得干预来识别因果关系的策略在如此复杂且高度整合的系统中往往失效(26)。因此,几乎所有关于振荡动力学功能作用的证据都保持相关性的性质。
重要性
新皮层电路具有复杂的振荡动力学特征。这些振荡是否服务于计算功能,还是仅仅是表象现象,目前仍存在争议。为回答这一问题,我们设计了一种可控制振荡动力学的计算模型(谐振子递归网络,HORN)。当在振荡模式下运行时,HORN 在学习速度、噪声容忍度和参数效率方面均优于非振荡递归网络。此外,它们能高度模拟神经系统的动力学特性,表明生物神经网络很可能也利用振荡动力学所提供的独特性质进行计算。基于波的响应所产生的干涉图案,允许对刺激特征之间的空间和时间关系进行整体性和高度并行的编码。
为了克服这一认识论障碍并分离出计算原理,我们在计算机中模拟了递归网络(RNN),并在标准模式识别任务上对其进行训练(包括顺序和置换MNIST数字识别、口语数字识别以及Mackey-Glass时间序列预测任务),从而可以将任务表现作为功能相关性的衡量指标。受生理学证据(27)的启发,我们将网络节点配置为阻尼谐振子(DHOs),这是振荡动力学的一个典型模型。在由此产生的谐振子递归网络(HORNs)中,节点的振荡动力学作为一种归纳偏置,使我们能够仅通过调整DHO的控制参数(而保持其他网络参数不变),来比较非振荡节点动力学与不同振荡动力学状态下的网络表现。
在每个节点中强制实施振荡活动是我们方法的核心。由非振荡节点(如漏积分器)组成的网络往往会在网络层面表现出振荡动力学。然而,梯度学习方案(如基于反向传播的学习)对振荡所支持的扩展动力学原语(如相空间编码、同步/去同步、共振等)的利用能力是有限的,因为学习引起的权重配置变化很容易改变或破坏这些自发产生的振荡。相比之下,将节点配置为振荡器,可以使这些扩展的动力学原语稳定地提供给诸如时间反向传播(BPTT)之类的学习算法,从而允许它们被用于计算目的。通过控制节点的振荡特性,我们得以量化振荡对网络性能的影响。
我们发现,HORNs在参数效率、任务表现、学习速度和噪声容忍度方面,有时以很大优势优于由漏积分器构成的非振荡网络。这种优越性在与依赖门控架构的其他非振荡RNN(如LSTM、GRU(28))对比时同样明显,尤其在系统规模较小时表现尤为突出。此前研究(29–32)也观察到递归振荡网络性能提升的现象,这支持了我们关于任务表现增强的发现。
对HORNs动力学的深入分析揭示了一种强大的计算原理,该原理源于耦合振荡器网络的独特性质,利用波的叠加与干涉模式进行刺激表征与处理。在无需针对不同实验精细调节参数的情况下,HORNs的动力学与大脑皮层中观察到的诸多特征高度相似,表明自然神经网络很可能也利用了我们所揭示的这种计算原理。为进一步检验这一可能性,我们在HORNs中实现了自然网络的其他典型特征,发现这些受生物学启发的特征的引入通常能进一步提升任务表现,且无需增加可训练变量的数量。由于模拟使我们能够研究在自然神经网络(特别是大脑皮层)中实现已知特性所带来的功能后果,我们的合成方法还为许多此前功能不明或引发争议的现象提供了合理的后验解释。
与以往神经科学和机器学习领域研究不同——前者主要聚焦于网络动力学与生物真实性(33–36),后者侧重于任务表现(30, 32, 37, 38)——本研究通过同时关注生物网络特性的机制建模及其通过基准测试的功能验证,将两个领域的元素有机结合。
结果
振荡网络节点。选择阻尼谐振子(DHO)作为节点活动的模型,是基于以下几个原因。首先,DHO 是振荡过程最典型的实现方式,它允许通过少数几个可解释的控制参数,轻松调控其弛豫动力学。其次,在神经微电路中,阻尼谐波振荡通常源于兴奋性–抑制性相互作用或受阻尼力作用的负反馈(39, 40)。第三,最近的实验证据表明,猕猴视觉皮层中的群体活动可以很好地用受驱动的阻尼谐振子建模(27)。
通过调节 DHO 的控制参数,我们可以在不干扰其他网络属性的前提下,将节点从振荡器转变为积分器,从而比较振荡与非振荡状态下的表现。重要的是,在我们的网络中,一个 DHO 节点不应被简单视为单个生物神经元,而应被理解为代表由兴奋性和抑制性神经元群体递归耦合组成的微电路(如 (P)ING 电路)所抽象聚合的活动量;或者,也可代表具有起搏电流的单个神经元(41–43)。从这个意义上讲,HORNs 可被视为皮层网络的中观尺度模型(图 1A)。
![]()
在我们的模型中,每个 DHO 节点具有一个状态变量 x(振荡器随时间变化的振幅),以及三个共同决定其弛豫动力学的控制参数:自然频率 ω、阻尼系数 γ 和兴奋性系数 α(参见 SI 附录图 S6 及材料与方法部分)。这些参数可被视为节点对所处理信号特征的先天或长期适应(感受野)。尽管结构简单,DHO 节点仍能捕捉多种神经群体模型在振荡状态下的核心动力学特征(39, 44, 45)(参见 SI 附录)。因此,我们在模拟中实现的节点振荡特性既具有生理合理性,也得到了实验支持(27)。
即使单个 DHO 节点,也具备非振荡节点(如漏积分器)所不具备的计算能力。DHO 可将任何输入信号转化为振荡,即使该信号本身是非振荡的。使用振荡表征使节点不仅能通过振幅编码信息,还能通过相位编码信息——例如,可通过相位偏移编码刺激序列的顺序(参见 SI 附录图 S6)。当输入本身是振荡时(如来自其他网络节点的递归输入,或某些感觉输入),还可进一步利用额外的计算能力。参数 ω 定义了一个频率带,DHO 节点可通过共振选择并放大时间调制信号。当集成到递归网络中时,DHO 将输入转化为波形模式。这些模式既表现为每个网络节点上的驻波(这是非振荡架构所不具备的表征形式),也传播至整个网络,允许与内部和回响网络动力学产生的波,以及空间和时间上分离的刺激所产生的波发生干涉。至关重要的是,当输入信号呈现不同的时间模式时,DHO 节点的振荡行为使其能够通过共振识别特征,而不仅仅是通过对汇聚输入连接的积分——这是非振荡 RNN 和所有前馈架构常用的策略(46)。在 HORNs 中,单个节点或节点集合还可以在不同频段编码信息,并依据频率间的关系调控信息流(图 2E)。DHO 的这些特性赋予 HORNs 一种各向异性耦合、非线性、模拟式的信息处理介质的属性,能够利用基于波的刺激表征及其干涉模式进行计算。这形成了一个丰富且高维的编码空间。
![]()
将输入非线性与受生物学启发的反馈连接相结合,赋予 DHO 节点超越经典阻尼谐振子的动力学能力(参见 SI 附录)。例如,反馈使 DHO 节点能够表现出自维持振荡,并在其自然频率的分数谐波处发生共振(参见 SI 附录图 S7–S9)。
虽然使用 DHO 节点在中观尺度建模神经群体活动,使我们得以揭示本文所描述的通用原理,但也限制了模型捕捉神经元系统中其他动力学现象的能力,例如振荡频率的动态变化、尖峰及其簇发放行为,以及更一般地,任何非振荡动力学或无法在群体水平捕捉的动力学(44)。
网络的配置与训练。我们首先考虑参数值(ω、γ、α)在所有节点中均相同的均匀 HORNh 网络。由于皮层回路处于一种平衡状态(47),强调波动的重要性,我们将 DHO 节点通过其速度项 ẋ 进行耦合(材料与方法)。刺激以时间序列的形式呈现给网络。由于其标准性和广泛应用,
我们选择 MNIST 手写数字分类任务作为默认基准测试,将 MNIST 数字转换为 sMNIST 时间序列(SI 附录,图 S1A)。这种转换将刺激的几何特性转化为频谱模式,使 HORNs 能够利用这些模式进行刺激分类。该方法可作为其他自然信号中典型频谱规律性的代理。为了增加任务难度,我们还对随机但固定的排列应用于时间序列的置换顺序 MNIST(psMNIST)刺激进行了网络训练。该操作破坏了 MNIST 数字中的局部亮度相关性,生成具有平坦频谱的时间序列刺激,从而使得基于频率的信息处理更加困难(SI 附录,图 S10)。
我们还研究了几何组织输入的情况(几何输入驱动自组织),并在更具挑战性的数据集上训练了 HORN 网络,例如口语数字分类任务和 Mackey-Glass 时间序列预测任务(SI 附录,图 S14 和 S15)。结果证实,在这些情况下,HORNs 中的振荡动力学相较于非振荡架构仍具有计算优势,尤其是在低参数规模下尤为明显。
对于 sMNIST 分类任务,我们在参数三元组 ω、γ、α 上进行了网格搜索,以找到一组能实现高分类性能的 DHO 控制参数值(图 1D 和 SI 附录,图 S1B 及表 S1)。我们发现,阻尼因子 γ 值较低的网络表现最佳。较低的阻尼因子使系统处于高度振荡状态,并增强单个 DHO 和整个网络的记忆能力(48)。兴奋性参数 α 对性能影响不大,其中介值在 0.2 到 0.4 之间时表现出最佳性能。
自然频率参数 ω 的最优值约为 ωv = 2π/28,这对应于由 28×28 MNIST 像素空间中一条垂直直线产生的 sMNIST 时间序列的基本频率。由于 DHO 节点在输入频率接近 ωv 时发生共振,这一 ω 的选择使节点能够提取并保留与像素空间中不同斜率的连续线条相对应的时间序列信息。该值 ωv 同时也与一组代表性 sMNIST 样本计算得到的功率谱密度(PSDs)方差中的峰值相吻合(SI 附录,图 S10)。因此,通过调节 ω,网络可以适应 sMNIST 刺激的统计规律性,这种先验设置通过共振实现特征提取,而非仅依赖于收敛输入连接的选择性重组,从而提升了性能。HORNs 中实施的这一策略关键依赖于节点或微电路具有倾向于振荡的特性。
网络性能。为网络节点赋予振荡动力学后,其性能在学习速度、参数效率和噪声容忍度方面均优于漏积分器或门控单元网络(见图 1 和 SI 附录,图 S11–S15)。这种优越性在低参数数量区域尤为显著(图 1C),并且高度依赖于网络节点配置为高振荡状态(ω ≫ γ,图 1D)。研究发现,对于振荡频率较低(行为更像漏积分器)或阻尼值超过临界值 γ > ω(导致节点振荡被抑制)的网络,性能会下降。
这表明 HORNs 中振荡节点动力学的功能优势。当通过降低信噪比或增加刺激模式的数量及相似性来提高任务难度时,HORNs 与其他网络之间的性能差异进一步增大(SI 附录,图 S11–S15)。
在某些情况下,即使在超参数优化后,漏积分器网络也能表现良好(图 1B 和 C)。这一发现可归因于 HORNs 和漏积分器网络都受益于底层常微分方程(ODE)离散化方案引入的残余连接,这些连接引入了稳定的李雅普诺夫指数并稳定梯度(SI 附录)。此外,每个 DHO 节点的振荡动力学会随时间调制梯度,这可能提升网络的实际表达能力(SI 附录,图 S17 及参考文献 48)。
与所测试的其他架构相比,HORNs 具有极强的抗噪能力,随着噪声水平上升,其任务性能仅呈现缓慢下降(图 1E)。此外,HORNs 中的刺激表征对训练与推理过程中噪声特性的不匹配具有鲁棒性(图 1F)。这种鲁棒性可归因于每个 DHO 节点对输入信号进行非线性、频率依赖的增益调制,从而强烈衰减了高频频信号(感受野)。特别是,这种噪声容忍性在 HORNs 使用随机排列的顺序 psMNIST 刺激进行训练时依然存在,此时 sMNIST 刺激中低频信息占主导地位的特性被消除(SI 附录,图 S10 和 S16)。鉴于生物和人工系统都必须从噪声刺激中学习,并在噪声特性变化的情况下稳健地检测、分类和处理刺激,这种抗噪能力构成了 HORNs 的另一项吸引人特性。
为了评估反馈参数 v(幅度反馈)和 w(速度反馈,即递归权重矩阵的对角元素)的存在对网络性能的影响,我们在 sMNIST 和 psMNIST 上分别训练了带有和不带 DHO 反馈连接的 HORNs,并测量其任务性能(SI 附录,图 S18 和 S19)。我们发现,即使在幅度和速度反馈均不存在(v = w = 0)的情况下,性能仅略有下降,但要获得最快的学习速度和最高的整体性能,仍需要两个反馈项。
在学习前,均匀 HORNh 网络的动力学主要由节点间的大规模同步主导(图 2A 和 B)。随着学习的进行,全局同步逐渐减弱(图 2C),网络动力学的维度随之增加(SI 附录,图 S2A)。这种全局同步的减少伴随着复杂的空间-时间结构相关性以及更高阶的、特定于刺激的同步模式的出现(通过 Kuramoto 有序参数评估,该参数能捕捉高阶同步现象;见图 2D),这些模式在高维活动景观中被良好分离,并可通过线性读出机制进行分类(图 2A、B 和 D,以及 SI 附录,图 S2B 和 C)。
异质网络。成熟皮层网络的结构和功能组织具有异质性特征(49, 50)。尽管最近一些研究发现这种变异性可能有利于学习和计算(51–53),但自然异质性的功能意义仍存在争议。为了检验增加网络异质性是否有助于 HORNs 的学习,我们模拟了非均匀的 HORNn 网络,其中每个节点具有不同的自然频率、阻尼系数和兴奋性参数(材料与方法)。正如预期,异质 HORNs 在未训练状态下的响应模式更加复杂且全局同步性更低(图 2A)。与均匀情况类似,随着学习的进行,全局同步进一步降低(图 2C)。同样,全局同步的减少导致动力学维度的增加(SI 附录,图 S2A),尽管在训练前其动力学维度已高于对应的均匀网络。
对均匀和异质 HORNs 的比较表明,在如 psMNIST 这类具有更复杂谱结构的数据集上,异质 HORNs 在学习速度方面表现更优(SI 附录,图 S12)。对于此类数据集,异质 HORNs 的性能优于经过参数优化的均匀网络。此外,噪声容忍度也得到增强(图 1F 和 SI 附录,图 S12)。值得注意的是,在 sMNIST 数字这类信号统计复杂性较低的数据集上,异质 HORNs 的最终性能与经过特定刺激优化的均匀 HORNs 相当(图 1B 和 C 以及 SI 附录,图 S11)。因此,异质性使人们能够在无需寻找最优参数配置的情况下获得高性能网络,从而节省计算资源。异质网络相对于均匀网络表现出更高的任务性能,是因为异质性引入了多种时间尺度到网络动力学中,这些时间尺度可用于处理和表征刺激(48)。
此外,异质性使网络动力学更接近临界点(48, 51, 53, 54)。接近临界点的动力学具有标度不变性和空间-时间相关长度的发散特性,导致动态行为的丰富性和更长的记忆时间尺度,为编码瞬态信息的储层提供了计算优势(54)。由于 HORNs 也在瞬态中编码信息,接近临界点的动力学所支持的长寿命瞬态状态增强了其计算能力,并使其能够更好地平衡学习效率与稳定性之间的权衡(48)。
异质性的优势在更大规模网络、更复杂的分类任务以及更高水平的刺激噪声中尤为显著(SI 附录,图 S11–S15)。由于异质 HORNs 即使在未训练状态也能产生高度结构化的响应景观,我们假设它们也可能作为高效的储层,并证实了这一点(SI 附录)。这一发现最近也在参考文献 55 中得到了验证。
传导延迟。生物神经网络中的另一个变异来源是节点之间传导延迟的分散性(56)。为了检验引入耦合延迟对任务性能的影响,我们从一个 HORNh 开始,并为所有递归连接赋予均匀分布的可变耦合延迟 [1, d_max](材料与方法)。该操作通过延迟引入的相位偏移,提高了 psMNIST 上的最大分类准确率和学习速度(图 3A)。增大 d_max(导致更大的异质性)被发现能进一步提升任务性能,且这种功能增益随 d_max 值的增加而增强。因此,与优选振荡频率类似,传导延迟的异质性使得 HORNs 能够生成更复杂的空间-时间结构化活动景观,从而增加了网络状态空间的维度及其性能,特别是在具有复杂谱特性的数据集上。
![]()
多层网络。在哺乳动物大脑皮层中,感觉信号在层次化组织的皮层区域中被处理,这些区域相互递归连接(57)。为了探究分布式多阶段处理的潜在优势,我们构建了由下层(L1)和上层(L2)组成的双层 HORN³²,³² 网络,每一层均由一个 HORN³² 构成,并在两层之间引入稀疏的双向连接(图 3B 和材料与方法)。输入信号如前所述提供给 L1,结果在 L2 的节点上读出。我们对层间前馈连接和反馈连接概率 f_f、f_b,以及控制 L2 参数 ω、γ 相对于 L1 的缩放因子 f_ω、f_γ 进行了网格搜索。对于每种参数配置,我们训练了一个 HORN³²,³²,并评估其在 psMNIST 上经过 10 个训练周期后的最佳任务性能(我们选择 psMNIST 而非 sMNIST,因其具有更丰富的谱刺激特性)。需要注意的是,对于每个参数的固定值,通常存在一种参数配置,可产生高性能的双层网络(SI 附录,图 S3)。
重要的是,我们发现许多双层 HORNs 在可比的可训练参数数量下,性能优于单层 HORNh(SI 附录,图 S3C)。特别是,当上层的优选振荡频率和阻尼系数均较低时,任务性能更高(图 3B,底部一行)。在这种设置下,较快的下层 L1 的动力学部分对较慢的上层 L2 来说是不透明的,因为 L2 对较高频率的衰减更强。然而,L2 的活动能够驱动 L1 中的节点,可能支持诸如特征绑定等过程,通过向高层提供更全局的绑定准则,但不会反向影响低层。由于上层节点接收来自下层的汇聚输入并以更长的时间尺度运行,上层能够将刺激时间序列的更长片段进行绑定。有趣的是,我们发现,如果跨层频率带的分离失效,双层网络无法学习(SI 附录,图 S3C,灰色曲线)。在这种情况下,不同层之间的计算并未充分分离到不同的频率带中,同一频率带内层间的串扰阻碍了网络成功解决刺激分类问题。
衰减记忆与证据积累。视觉皮层神经元的电生理记录表明,群体活动表现出衰减记忆,并能够同时表征连续呈现刺激的身份信息,包括其序列顺序(58)。HORNs 具备这种能力。在依次呈现两个不同刺激后,一个线性分类器可以从同一段回响活动中解码出这两个刺激(图 2F)。由于异质 HORNs 拥有比均匀网络更多样化的记忆时间尺度,它们在同时表征在时间上分离的刺激信息方面表现更优,这是网络异质性的另一项功能优势。
如同任何递归神经网络(RNN),HORNs 的响应模式会随着时间演化,这是由网络动力学引起的。为了确定网络达到最大刺激特异性状态的时间点,我们训练了一个线性支持向量机(SVM),利用在刺激呈现期间不同时间点从训练后的均匀 HORN 中获取的活动数据进行刺激分类。我们发现,网络会逐渐积累证据,其动力学允许随着网络接近训练时的读取时间,对刺激身份的解码效果逐步改善(SI 附录,图 S2B、C 和 S20)。
感受野。为更好理解 HORNs 中的计算原理以及在训练过程中刺激特异性活动模式如何产生,我们研究了学习如何改变单个节点和整个网络的响应特性。HORN 中每个 DHO 节点具有一条增益曲线 G(ωi),描述该节点如何根据输入信号频率 ωi 调制一个时间调制输入信号的振幅(图 2E 和 SI 附录,图 S8)。需要注意的是,这一特性既适用于具有时间结构的外部、依赖于刺激的信号,也始终适用于由内在递归连接传递的振荡活动。G 的形状由 ω、γ 以及自连接项 v(幅度反馈)和 w(速度反馈,即递归权重矩阵的对角元素)的值决定。我们将 G 称为节点的内在感受野(IRF),因为它定义了节点表现出特征选择性的频率带。在学习过程中,自连接权重 v 和 w 的调整会改变 G,从而驱动每个节点 IRF 的变化,使节点能够提高其对执行特定任务有用刺激特征的选择性(图 2E)。在均匀 HORNs 中,所有节点的 IRF 仅因学习导致的反馈参数 v 和 w 在节点间的变化而有所不同(图 2E,左侧)。对于异质网络,未训练网络的 IRF 已经覆盖了更大的频率空间,节点在频率空间中被调谐到更多样化的特征(图 2E,右侧)。注意,ω 的值不仅影响 IRF,还决定了节点编码所处的频率带,这增加了异质 HORNs 可用于处理的频率带的多样性。
为了与神经元系统进行比较,我们以电生理学研究中常见的方法绘制了节点的感受野(RFs)(59)。我们考察了哪些刺激最强烈地激活某个节点,并将此定义为有效感受野(ERF)。与神经元系统类似(60, 61),ERF 的结构在很大程度上取决于测试刺激的性质。原因是响应不仅依赖于外部输入,还依赖于网络的递归动力学。我们通过两种典型的刺激映射方式确定了模型中节点的 ERF:i) 不同方向的简单线段,常用于视觉实验中的 RF 映射(59)(SI 附录,图 S22);ii) 网络训练所用的 sMNIST 数字,作为复杂自然刺激的例子(61)。为测量 ERF,我们模拟了一个在 sMNIST 上训练的异质 HORN₁₆,并计算每个节点产生最大激活的平均刺激(材料与方法)。当用简单线段刺激时,我们观察到简单的方向选择性 ERF,其形态与初级视觉皮层神经元的 RF 非常相似(图 2G,左列)。当用复杂刺激映射时,一些节点表现出对 MNIST 数字特定特征的选择性(图 2G,右列)。其他节点的 ERF 看起来与训练集中刺激无关,甚至受到抑制。为了确定集体网络动力学对个体 ERF 的影响,我们沉默了网络中的一个节点。这导致其他节点的 ERF 立即重新配置,在某些情况下变化非常明显(图 2G)。
这表明,学习完成后,ERF 在很大程度上是网络动态相互作用的结果。因此,HORN 节点的 ERF 会经历与自然系统中观察到类似的上下文依赖性动态修改(60, 62)。为定量描述节点在频率空间中的 ERF,网络被施加谐波正弦波输入,以确定其频率响应(SI 附录,图 S23)。尽管未训练网络中的节点在接近其自然频率的输入下共振最强,但训练后节点发展出复杂且难以预测的共振模式,证实了网络相互作用对 ERF 的强影响。
学习先验。在哺乳动物初级感觉皮层中,关于自然环境统计规律的信息存储于突触权重的架构和分布中。为检验在 HORNs 中引入先验如何影响其学习和任务表现,我们首先通过训练一个异质 HORNⁿ(93 个节点)来建立一组典型先验,使其能区分随机放置在 MNIST 像素矩阵中的不同方向的简单拉长轮廓(SI 附录,图 S22)。这些典型先验使预训练的 HORNs 能够创建不同的 MNIST 表征,仅通过训练读出层即可实现高特异性分类(SI 附录,图 S24)。允许递归连接在安装先验后继续学习进一步提高了学习速度(SI 附录,图 S24)。预结构化的 HORNs 实现相似性能所需的训练步骤少于直接在 sMNIST 上训练的网络,表明已知的统计特征关联性增强了学习效率。更大规模的预训练异质网络也需要更少的步骤就能达到高性能(SI 附录,图 S24)。我们预测,大规模且异质的预训练 HORNs 可能实现类比自然神经系统的少样本学习。综合来看,这些发现强调了先验对人工及很可能也是自然神经网络中对象表征正交化带来的有益影响。
赫布式学习。我们通过分析训练前后突触权重分布和响应活动相关性的变化,检验基于 BPTT 的 HORNs 训练是否符合赫布式学习原则。有趣的是,BPTT 训练引起的突触权重变化与赫布式预测相符(图 4A 和 SI 附录,图 S4A)。BPTT 似乎利用了网络活动中的刺激特异性相关结构,增强那些能诱导特定刺激特征相关模式的连接,促进刺激特异性模式的发展。异质 HORNs 由于具有更多样化的动力学,天然地从一开始就利用这些结构,而均匀 HORNs 必须首先去同步化以扩展其状态空间并发展出刺激特异性相关结构(图 2A–C)。
![]()
我们检验了用基于相关性的学习规则替代 BPTT 的效果,使用无监督的赫布式和反赫布式规则来修改递归连接权重。在此设置中,具有固定递归权重以及可塑性输入和读出连接的 HORN 作为基线(即“储层”HORN,图 4B)。当递归连接仅通过基于相关性的学习规则(而非 BPTT)进行修改时,均匀网络中的反赫布式规则出人意料地表现出与 BPTT 相似的性能(图 4B),促进了选择性去同步化,并使刺激特异性相关性得以形成。在异质网络中,传统的赫布式规则通过增强现有相关性,使性能优于基线水平(SI 附录,图 S4)。
在非振荡网络中,BPTT 同样会导致赫布式兼容的权重变化,尽管其效率低于 HORNs。HORNs 能迅速获得刺激特异性权重,这是由于耦合振荡器的动力学特性,能够放大并维持适合赫布机制的同步活动模式。BPTT 也以类似方式受益,利用共振在高维状态空间中对表征进行正交化。
综合来看,这些结果提供了一个原理性证明:在 HORNs 中,递归连接层面的无监督赫布式学习支持刺激特异性动态状态的分离,从而促进其分类(图 4B 和 SI 附录,图 S4B)。
几何输入驱动自组织与行波。为了检验 HORNs 如何处理时空结构化的输入,而不仅仅是标量时间序列,我们训练了接收空间组织输入的网络(图 5A)。为此,我们激活每个节点一个时间步长,其强度对应于其感受野内 MNIST 像素强度值的总和。然后给予网络 150 个时间步长来处理刺激,再进行线性读出(图 5B)。训练时,我们使用与之前相同的 BPTT 算法,从全连接随机连通性开始,保持输入层权重固定,而递归和读出权重可塑。经过 10 个训练周期后,在测试集上达到的最佳分类准确率为 90.21%。
![]()
当受到刺激时,每个同时被激活的节点均以阻尼振荡响应(图 5B)。这些活动在整个网络中传播,产生行波和复杂的干涉图案(视频 S1 和 S2)。由不同刺激引发的响应所形成的波的方向和形状各不相同。HORNs 能够在每个 DHO 节点中以驻波形式维持振荡活动。一旦启动,这些波便持续存在,并产生全局干涉图案。相比之下,在没有振荡节点的 RNN 中,行波仅在波前碰撞时才会发生干涉。
在我们的模型中,由闪光刺激共同激活的节点表现出与刺激锁定的同步振荡。由于 BPTT 算法模拟了 HORNs 中的赫布式可塑性,这预测在学习过程中,这些同步活跃的节点应增强彼此之间的耦合。因此,我们观察到连接模式从非特异性的全连接转变为具有空间限制的连接,其耦合强度随距离衰减,呈现出类似墨西哥帽的形态(图 5C,左侧)。
这种连接性捕捉了 MNIST 刺激的本质结构特征,包括其轮廓的连续性以及被激活节点的空间邻近性。在对训练模型进行测试(回忆)时,特定刺激再次诱导一组相应节点产生同步振荡,由于训练网络中这些节点之间增强了耦合,它们现在会发生共振,导致响应幅度增大。
正如预期,当在打乱的 MNIST 刺激上训练 HORNs 时,这种远距离依赖的连接模式并未出现(图 5C,右侧),尽管网络在测试集上仍达到了相当的分类准确率(90.48%)。在后一种情况下,除了空间连续性和邻近性之外,其他先验信息被编码在耦合连接的结构中,即代表打乱 MNIST 数字中无局部空间结构的统计关联性。
自发与诱发动态。皮层网络具有自发活动,刺激通常会减少其变异性,并引发刺激特异性子状态的出现(63, 64)。在自发活动的 HORNs 中(SI 附录),自发活动覆盖了较大的、受限的状态空间,该空间包围了刺激诱导的响应空间。在这些网络中,受刺激后动力学迅速且短暂地收敛至刺激特异性子状态(SI 附录,图 S5),再现了实验现象(65)。
受控振荡。在递归神经网络(RNN)中实现哺乳动物大脑皮层的特征,揭示了一种基于振荡活动的强大计算原理。尽管不含振荡节点的 RNN 本身也会自然产生振荡,但这类自发振荡往往是瞬态的、难以控制的,从而阻碍了梯度学习算法对其的有效利用。在 HORNs 中,通过在每个节点强制实施振荡,我们得以研究振荡动力学的功能相关性,识别 HORNs 性能提升所依赖的计算原理,并建立其与自然网络(如大脑皮层)动力学之间的紧密联系。
在 HORNs 中,单个节点将任何输入转化为振荡,从而获得通过共振提取特征的能力,并更广泛地实现频率依赖的增益调制。而网络整体则生成以波干涉模式为特征的整体性、瞬态刺激表征(37, 38, 66)。在标准模式识别基准测试中的性能评估表明,基于梯度的学习方案能够充分利用这种扩展的动力学能力,使 HORNs 相较于不含振荡节点的 RNN 表现出显著增强的性能。这些关于任务性能提升的发现与先前机器学习领域对含振荡节点 RNN 的研究结果一致(30, 37, 38)(值得注意的是,HORNs 在节点数量相同时,可训练参数减少了 50%)。
在网络节点中强制实施振荡活动,可视为 RNN 中的一种归纳偏置,能增强模型的表达能力(48)。这种振荡偏置也被证明可通过使亚阈值膜电位发生振荡来提升脉冲神经网络的任务性能(67, 68)。这些发现提示了一种基于耦合振荡器的通用计算原理,该原理支持基于波的表征,适用于神经元群体,也适用于单个神经元(69)。
当使用具有空间结构的刺激训练 HORNs 时,网络发展出局部连接模式。这类局部连接的振荡器 RNN(37, 38)可被解释为具有特定连接核的神经场模型的离散化形式,该核实现了阻尼波动方程(70, 71)。从这个意义上讲,局部振荡与全局波是同一枚硬币的两面,在特定条件下,HORNs 与场模型的动力学是等价的——这一主题留待未来研究。
性能提升的原因。HORNs 的优异性能源于多个因素,这些因素均与网络节点倾向于振荡的特性密切相关。
第一,节点对刺激特征的先天偏好(由参数 ω、γ、α 控制),使单个节点即使在未训练状态下也能高效提取并编码刺激特征,并增强了 HORNs 的抗噪能力。即使输入信号缺乏时间结构,节点的振荡特性仍是有益的,因为它们能将持续输入转化为振荡响应。这种转化使得计算可在时间调制信号的统一格式下进行——这种格式在节点间通信中普遍存在(另见下文第四点)。
第二,用于振荡微分方程离散化的方案引入了时间残差连接,有助于稳定 BPTT 学习中的梯度;同时,振荡动力学可通过调制梯度来提升网络的实际表达能力(参见 SI 附录及文献 30, 48)。
第三,HORN 网络中的 DHO 节点通过将感觉输入转化为波,以完全分布式的方式协同处理刺激。初始阶段,每个振荡器内形成驻波,随后波传播并在网络层面产生复杂的干涉图案(16, 17),这些发现与生理学证据相符(66)。这种表征提供了极高维度的编码空间,更重要的是,允许同时叠加多个空间和时间上分离事件的信息。这使得 HORNs 能够同时分析和编码大量刺激特征之间的空间与时间关系,并生成复杂输入构型相关结构的整体表征。
异质性的优势。异质性通过增加网络状态空间的维度来提升 RNN 的性能。
通过让节点具有不同的偏好振荡频率,我们实现了异质性增强,从而提升了任务性能。除了通过变化节点偏好频率增强异质性外,我们还引入了异质传导延迟以刻意诱导相位偏移。这进一步增加了网络编码空间的维度,可用于计算。
异质性的优势也在双层网络模拟中得到验证。这些网络在参数数量相同的情况下表现出更优性能,尤其是当上层运行在比下层更低的偏好频率时。这使得多层网络能在不同频段运行,并在每一层对输入模式进行不同时间尺度的并行分析。这一发现源于对双层网络最优参数设置的网格搜索,与大脑皮层的组织方式相似。在皮层中,随着处理层级从低到高,振荡频率也逐渐降低(11, 72)。高层较慢的振荡可在更长时间间隔内建立时间分离刺激之间的关系,可能支持“组块化”(chunking)过程。
有趣的是,根据基础物理学原理,频率较慢的波往往传播更远的空间距离——在我们的模型中,即跨越更多网络节点。在大脑皮层中,高层区域整合来自越来越多样化、空间上更远的处理流的信息,这反映在其广泛、常为多模态且多选择性的感受野中。假设采用基于波的表征(66),在较低振荡频率下运行将使这些高层区域能在更大的时空尺度上整合信息,有利于信息的整体处理和多模态绑定。
异质性的另一优势是使网络动力学更接近临界点(48, 53, 73)。接近临界点的动力学是皮层网络的标志,并具有“临界脑”假说所总结的计算优势(74)。这些优势源于长寿命瞬态和亚稳态的出现(54)。HORNs 同样在瞬态中编码信息,因此当处于接近临界状态时,能够通过亚稳态序列和“幽灵吸引子”进行编码(75)。这使其动力学区别于吸引子网络(76),后者在临界点附近因临界减速而限制了计算能力(77)。需要更多研究来深入理解 HORNs 中的瞬态动力学,并在生物网络中识别相关活动(75, 78)。
总之,我们发现,实施生理上合理的异质性通常能在不增加可训练参数数量的前提下提升性能。异质性:i) 使未训练网络对多样相关结构具有敏感性,从而加速学习;ii) 增强对具有变化频谱的新异或噪声刺激的处理能力;iii) 扩展编码维度;iv) 使网络能利用接近临界点动力学带来的计算优势;同时 v) 减少对昂贵参数调优的需求。异质性带来的功能增益在更大规模网络中尤为显著,表明“单次学习”(生物系统标志)在如大脑皮层般大型且异质的网络中更容易实现。由此我们推断,自然神经系统的明显异质性很可能并非自然“不精确”的体现,而是应对计算挑战的高效解决方案。
与神经生物学系统的关联。HORNs 再现了自然神经系统的若干典型动力学与组织特征,特别是大脑皮层,也可能包括海马体。此外,模拟使我们能够为自然网络中那些在信息处理中作用仍存争议的特征赋予具体功能。
我们的模拟表明,依赖学习的复杂、瞬态、刺激特异性的同步模式有利于信息处理,并将网络节点的振荡特性识别为潜在机制。这支持了如下假说:振荡与同步(在神经系统中也可观察到,79)具有功能相关性,而非仅仅是表象现象。
使用视觉系统处理的空间结构化输入模式进行的模拟,得出了与不含几何信息的时间序列数据相似的结果。因此,所识别的计算原理能以相似方式处理输入信号之间的空间与时间关系,并以相同格式表征计算。这有利于接收时空结构化输入的感觉皮层进行计算,并促进跨模态和跨脑区通信。对于空间结构化刺激,学习导致突触权重配置随距离衰减,并捕捉到格式塔的连续性与邻近性准则——这一特性在自然系统中也广为人知(2, 65)。
在视觉皮层中,递归连接的基本布局由遗传决定,但经验依赖的修剪通过赫布机制进一步增强其选择性(80)。
对局部连接的 HORNs 进行刺激,引发了与自然神经网络中观察到的极为相似的行波(16, 66)。行波也是人为设计局部连接的振荡 RNN 的标志(37, 38)。基于波的表征允许极高维度的表征和多种流形编码策略。因此,已提出大量关于行波功能角色的假说(17, 69)。在运动皮层的波基模型中,行波的方向和波长被用于构建易于下行运动系统神经元树突结构解码的指令(69)。然而,行波在感觉皮层中的确切功能仍未完全理解。
HORNs 与大脑皮层动力学的另一个相似之处,体现在对空间结构化刺激响应的时间演化上。初始瞬态响应通过回响被放大,由于群体向量中刺激特异性主成分的更好分离,动态状态的可解码性得以提升(65)。这种状态可被视为在感觉证据与习得先验之间进行高度并行化匹配搜索的过程(2)。因此,预测编码的核心功能之一——感觉证据与存储先验的匹配——可通过振荡递归网络中的自组织动态交互实现。
在学习过程中,被语义相关特征激活的节点会增强彼此之间的耦合;在回忆阶段,这些节点会自组织形成一个刺激特异性的神经元集群,表现出同步且共同增强的响应。这种节点的动态关联现象也在视觉皮层中观察到,例如对感知上绑定特征具有调谐特性的神经元(10, 65),这正是“同步绑定假说”(Binding by Synchrony, BBS)(20)的核心内容。HORNs 通过利用耦合振荡器的共振特性,再现了自然皮层网络的这一重要特征。
自发活动状态下的 HORNs 动力学与自然皮层网络相似:刺激呈现会降低活动变异性(63),并使动力学暂时对齐至刺激特异性的子状态。这些子状态存在于自发活动的子空间内,源于感觉证据与存储先验之间的比较(2)。因此,自发活动可被视为由已学习的刺激特异性表征片段混合而成。
除了再现大量生理现象外,本研究的结果还可指导设计新的生理实验,以检验由此推导出的具体预测。这些实验将需要在皮层内及皮层间进行大规模并行神经元活动记录,并具备高时空分辨率,以捕捉行波的时空动态及其产生的干涉图案。
结论
综上所述,本研究不仅揭示了 HORNs 及其他振荡器网络所能利用的计算原理,还为大量实验已证实、但在信息处理中功能尚不明确或引发争议的生理现象提供了功能解释。现在我们可以为以下现象赋予合理的功能角色:
i) 节点倾向于振荡的特性,及其引发的动力学现象,如同步、去同步、共振、锁相和行波(12–15, 17);
ii) 偏好振荡频率的多样性、非平稳性及上下文依赖性(3, 4);
iii) 递归连接传导速度的异质性(5, 6);
iv) 皮层处理层级中高层区域振荡频率的降低(11, 72);
v) 递归连接的赫布式可塑性(7, 8);
vi) 通过网络相互作用产生的上下文依赖性动态感受野(60, 61);
vii) 刺激呈现期间网络动力学变异性的降低(63)。
模拟结果还提示了一种生理上合理的场景:感觉证据与存储先验可通过网络动力学的自组织收敛,快速且并行地匹配至可分类的、刺激特异性的动态子状态。这些子状态由高度结构化、高维度的动力学景观构成,其形成源于振幅、频率和相位空间中波形模式的干涉。本质上,所描述的网络在高维状态空间中执行高度并行的模拟计算,能够同时关联大量具有空间和时间结构的输入变量——这一能力非常适合实现上下文依赖的特征绑定与场景分割。因此,已有研究尝试将本研究所描述的原理应用于专为场景分割设计的机器学习架构中(81)。此外,HORNs 所实现的计算策略也非常适合解决需要同时评估多重嵌套关系的挑战,例如语言理解中出现的情形。有趣的是,生物系统能轻松解决绑定问题、对杂乱场景进行分割以及分析复杂时间序列(如口语),而这些任务对于通常依赖串行前馈处理的数字计算机架构而言却异常困难。
我们相信,自然界正是通过本研究所描述的这类模拟计算来解决这些困难问题的。我们预测,本文提出的计算原理有望在室温下运行、可微型化且高度节能的模拟硬件中实现。若结合模拟赫布突触的电子元件(如忆阻器),该原理很可能促成自适应机器学习设备的设计,从而理想地补充现有的数字技术。
材料与方法
网络模型。由 n 个单元组成的 HORN 网络在离散时间 t 下的更新方程,源自对受驱阻尼谐振子的二阶常微分方程(ODE)进行离散化(参见 SI 附录),其表达式如下:
![]()
数据集。手写数字 MNIST 数据集由 28×28 的强度值矩阵组成,数值已缩放至 [0, 1] 区间。sMNIST 样本为长度为 784 的时间序列,按扫描行顺序表示 MNIST 数字。对于 psMNIST,采用一个固定的随机排列对像素位置进行打乱(参见 SI 附录,图 S10 和 S16)。在噪声情形下,在像素级别添加独立同分布的加性高斯白噪声,噪声采样自 N(0, σ²),并在添加后将刺激值限制(clamp)在 [0, 1] 范围内。
线段数据集(Line Segments Dataset, LSDS)包含 28×28 像素的样本,每个样本包含特定角度的线段,由四个参数定义:角度数量 na、每个样本中线段的最大数量 ns、线段最小与最大长度 lmin 和 lmax,以及线段位置是随机分布(r)还是居中分布(c);详见 SI 附录。我们使用 LSDS(32,5,11,c) 作为 LSDSa,使用 LSDS(10,3,8,24,r) 作为 LSDSb(参见 SI 附录,图 S22)。其他数据集的描述见 SI 附录。
模拟。所有网络均使用 PyTorch(版本 1.9)进行模拟,并在最后一个时间步使用仿射读出层,通过时间反向传播(BPTT)训练所有模型参数:对于所有分类任务使用二元交叉熵损失函数,对于回归任务使用均方误差(MSE)损失函数。优化器采用 AdamW,并对非 HORN 网络应用梯度裁剪以确保收敛。针对每种网络架构和数据集,通过网格搜索确定最优超参数配置(参见 SI 附录)。
![]()
感受野。对于每个 DHO 节点,其内在感受野(IRF)被计算为该节点的 DHO 振幅(即稳态强迫振荡)与输入振幅的比值,作为输入频率 ωi 的函数(增益曲线)。该计算使用正弦输入信号,幅度为 1,在 50,000 个时间步内进行,以使瞬态动力学趋于稳定。DHO 节点的有效感受野(ERF)则通过计算最强烈驱动该节点的刺激均值来确定。具体方法为:首先记录网络在测试集上 10,000 个样本的活动,然后取其中使某特定 DHO 节点在整个刺激呈现周期内平均绝对振幅最高的 500 个刺激的平均值,作为该节点的 ERF。
赫布式学习。实现了一种加性规则,用于修改从节点 j 到节点 i 的突触连接权重 Wij,其形式为 ΔWij = σΔλh aij r(xi(t), xj(t)),其中 σΔ ∈ {+1, −1} 决定了学习规则的类型(σΔ = +1:传统赫布式;σΔ = −1:反赫布式),λh 表示学习率,aij ∈ {0, 1} 是一个活动调节因子,r(xi(t), xj(t)) 表示节点 i 和 j 在时间步 t = c, ..., T 上的活动向量之间的皮尔逊相关系数,T 表示刺激长度;详见 SI 附录。
几何输入。一个均匀 HORN 网络被赋予了空间结构化的非重叠感受野(网络单元排列在 14×14 的网格上,每个单元接收来自对应 28×28 像素 MNIST 数字中 2×2 像素区域的输入)。为了模拟闪光刺激,网络仅在第一个时间步接收输入,且输入连接强度保持不变(参见 SI 附录)。该网络使用 BPTT 在 MNIST 分类任务上进行训练,读出时间为 t = 150。对于打乱的 MNIST 情形,对所有 MNIST 样本应用一个随机但固定的排列。
数据、材料和软件可用性。相关代码已存入 GitHub 仓库:https://github.com/exilef/horn (82)。
原文链接: https://www.pnas.org/doi/epdf/10.1073/pnas.2412830122
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.