Probing learning through the lens of changes in circuit dynamics
通过电路动态变化的视角探究学习
https://www.biorxiv.org/content/10.1101/2023.09.13.557585v1.full.pdf
摘要
尽管动态系统在解释电路计算和观察到的行为方面取得了成功,但我们对动态系统在学习过程中如何演变的理解仍然非常有限。在此,我们开发了一个计算框架,用于提取循环电路在学习过程中核心的动态系统特征,并分析这些元动态在几种与大脑相关的任务模型中的特性。在不同的学习算法和任务中,我们发现了一条通往任务掌握的典型路径,该路径涉及动态系统特征的创建及其向稳定解的精炼。这种学习的普遍性揭示了循环神经网络在服务功能时的共同组织原则,并突显了从神经活动的慢性群体记录中反向工程学习原则的一些挑战。
关键词:学习 | 循环神经网络 | 动态 | 吸引子
引言
普遍认为,突触可塑性是学习的主要生理驱动因素。然而,将突触强度的变化与行为的变化直接联系起来是困难的,因为它们发生在截然不同的空间和时间尺度上。神经环路动态可以作为突触水平和行为水平之间的桥梁:突触可塑性驱动神经环路动态的变化,而神经环路动态的变化又驱动行为的变化(1)。此外,近年来方法学的进步,例如大规模慢性群体记录(2)以及用于分析这些记录的统计工具(3),使得我们能够以前所未有的方式接触到这一层面。然而,我们目前还缺乏一个关于行为水平上的学习是如何表现为神经环路动态变化的系统性解释。
过去几十年的研究在将神经环路动态与功能联系起来方面取得了显著进展。实验和理论工作相结合,识别出一系列动态系统特征,这些特征能够以紧凑的计算方式表征行为(4,5)。特别是,低维吸引子动态在大脑中普遍存在,跨越不同的神经环路和物种(6)。它们有多种形式,包括单个离散状态(固定点)或多个状态,这些状态在行为上表现得像一个连续体(吸引子流形),它们支持大脑的基本功能,从短期记忆(7)和联想记忆(8),到去噪(6)、认知地图形成(9)、整合(10)和决策制定(11)。吸引子动态还为解释循环神经网络(RNNs)如何解决复杂任务提供了有力的手段(12)。
尽管将突触可塑性的现象学模型以自下而上的方式与行为相关功能联系起来可能相当困难,但自上而下的可塑性模型可以直接将全局行为目标映射到学习规则上。特别是,循环神经网络可以通过优化特定任务的目标函数来训练,这可以通过机器学习算法(13,14)或其生物学动机的近似方法(15)来实现。经过这种训练的循环神经网络为理解大脑计算提供了一个有用的工具(16,17),同时也是研究生物学习的一个富有成果的试验场(18,19)。
在此,我们开发了一个通过群体活动变化来评估学习的理论框架。我们的前提是,动态系统特征(如固定点或流形吸引子)在行为水平上具有解释力,并且在神经群体记录(7,20-22)或循环神经网络活动(12,23)中具有可测量的特征。因此,追踪这些特征在学习过程中的演变,即网络的“元动态”,为我们提供了一个间接的视角来观察学习过程——这一过程最终是由突触连接的变化驱动的,并且明确地与观察到的行为变化联系在一起。这种表述的主要实际优势是,与突触相比,神经活动可以在体内以更高的精度进行实验观察和操控。
以循环神经网络作为测试我们想法的模型系统,我们开发了用于识别任何时刻存在的动态系统特征的工具,以及用于量化学习过程中动态系统结构变化的指标。我们将这种方法应用于几个捕捉大脑关键计算任务的任务,如项目工作记忆、证据整合和决策制定。除了不同任务和算法的特异性之外,我们的分析揭示了学习过程中元动态的共同模式,其中动态系统结构的定性变化伴随着任务表现的突破。这些结果表明,我们应该将关于生物学习的问题重新聚焦于网络动态,尽管突触变化在学习规则的表述中具有名义上的重要性。
结果
阶段III对于行为改善的重要性相对较小——因为行为表现已经趋于稳定,几乎接近完美——但其在机制微调方面更为关键。研究表明,不同架构的循环神经网络(RNN)最终会收敛到相同的解决方案,尽管目标函数仅基于任务表现,并未考虑解决方案的“如何实现”。然而,由行为误差驱动的学习实际上促使网络不仅找到任何可行的动态,而且找到一个特别优雅(且稳健)的解决方案。阶段III正是这种通用解决方案逐渐成型的阶段,网络在此阶段通过相对较小的权重更新(与相对较小的误差规模成比例)来调整,直到在阶段IV达到稳定。
学习阶段的通用性。我们知道这个任务有一个通用解决方案,但通往这一解决方案的路径在多大程度上是通用的呢?鉴于阶段II中快速的波动,我们不期望这些学习轨迹的细节会在不同网络之间复制。但在宏观层面,元动态的粗略模式——缓慢的开始,随后是快速的变化和行为的迅速改善,最终通过微调达到稳定的解决方案——是否是一种普遍现象?
但这种现象是否适用于所有学习过程呢?我们研究了在不同学习规则下,网络如何穿越多重图结构的空间以达到通用解决方案。许多不同的学习规则用于更新突触强度,它们基于完全不同的原理。我们使用三种学习规则来训练网络完成这项任务,并分析它们在学习过程中多重图轨迹的交叉相似性。
在其中一端,通过时间的反向传播(BPTT)提供了优化任务表现的理想解决方案。然而,BPTT需要计算复杂且高维的学习信号,这在生物学上是不现实的。对BPTT的有效近似是解耦神经接口方法(DNI),它涉及学习计算与BPTT部分对齐的学习信号;从理论上讲,它可以在生物学约束下实现,特别是突触可塑性规则的局部性。而我们的第三种学习规则是之前介绍的随机反馈局部在线学习(RFLO),它本质上是局部的。网络在所有三种学习规则下都能充分学会任务,但我们可以看到学习动态存在明显差异。图3b的底部两条轨迹显示,与通过RFLO训练的网络相比,这些网络的行为改善和元动态发生在更慢的时间尺度上。此外,图3d和3e清晰地显示了在相同学习时间内,通过不同学习规则训练的网络之间存在明显不同的演变模式。图3g包含了一个矩阵,显示了所有网络之间、不同时间点上的动态差异,其中较大的块矩阵对应于不同的学习规则(三种),较小的块矩阵(每种算法八个)对应于单个网络,而每个矩阵条目对应于训练中的特定时间点。尽管细节难以用眼睛分辨,但图3d和3e中隔离的跨算法差异也存在于较大矩阵的块结构中。
在这些表面差异之下,三种学习规则的元动态是否存在潜在的相似性呢?我们重复了图3f的分析,将时间点分阶段分组,并在每对阶段内平均计算 ,但这次我们对图3g中展示的每对网络(总共24对)都进行了这样的操作。然后,我们在每种学习规则块内对结果进行平均,生成了通过任何一对学习规则训练的网络在各阶段之间的平均差异(图3h)。在这个描述层次上,所有比较都显示了与图3f中单个网络示例中阐述的相同学习动态。因此,Flip-Flop任务的学习过程本身在这种意义上也是“通用的”。
这种通用性并非事先给定的,也不是我们对学习阶段形式化的微妙循环性所继承的。阶段转换时间严格由网络内部的元动态和行为定义,但图3h中的矩阵代表了更丰富的跨网络、跨时间的比较综合。我们对阶段的形式化有效地对元动态进行了粗略的时间扭曲,以纠正不同的学习速率。至关重要的是,它依赖于我们的阶段转换时间有意义地识别每个网络学习过程的不同阶段。如果我们选择均匀随机的阶段转换时间,结构就会分散(图3i)。
除了时间尺度外(图4a),元动态的定性元素在学习规则之间也存在区别。在阶段II和阶段III期间生成的多重图类型对于RFLO与其他学习规则来说是系统性不同的。特别是,RFLO网络比其他学习规则更快地建立起通用解决方案所需的8个稳定节点,甚至在修剪多重图结构之前就超出了目标(图4b)。由于RFLO是三种方法中学习速度最快的,这可能是快速高效学习的一般表现:快速发展的过于复杂的动态,可以被修剪以满足任务需求。
总结来说,通过不同学习规则训练的网络在Flip-Flop任务上展现出了共同的学习轨迹,可以概括为四个学习阶段。尽管网络在构建中间步骤的特定多重图时存在个体差异,以及这些学习规则取得成功的速度不同,但导致学习的元动态模式存在潜在的相似性。这一模式的一个关键特征是多重图重组与表现最快速改善的时期相吻合,发生在阶段II。我们现在转向其他任务,看看这一原则是否更广泛地成立,即元动态是推动行为学习的根本因素。
情境依赖的证据整合。Flip-Flop任务的关键动态特征是固定点,但这些特征本身并不能解释许多经典实验范式背后的神经机制。例如,线性吸引子参与了参数化工作记忆和证据整合(6)。这种特征的出现使得区分动态中的拓扑变化与几何变化变得更加复杂。线性吸引子是一种定性特征,它通常是有用的,并且与固定点不同,但它也有空间范围和方向,这些可以持续地增长和旋转。
为了研究线性吸引子形成的元动态,我们训练网络完成一个情境依赖的证据整合任务(CDI)。受(10)中情境依赖决策制定范式的启发,网络被训练根据试验中提示的输入,整合两个独立的、有噪声的输入流中的一个(图5a,CDI)。我们使用BPTT和RFLO来训练网络完成这项任务;DNI在某种程度上也能成功完成这项任务,但往往会生成退化的解决方案(未展示)。在这个任务中,网络为每种情境发展出一个线性吸引子,用于整合证据,这在不同输入相干性水平的无噪声探测试验中可以看到(图5b)。
这些线性吸引子是如何在学习过程中出现的呢?为了评估元动态,我们使用线性吸引子的长度作为衡量这一任务中机制发展的适当指标。也就是说,我们通过动能(KE)最小化找到的固定点集合,并在通过DBSCAN(详见方法部分)确定的簇内,通过测量每对点之间的最大距离来衡量每个簇的空间范围。这些簇中最长的长度给出了动态指标 。我们将其以与Flip-Flop任务中的相同的颜色绘制,因为它在测量关键动态相关信息方面具有类似的作用——尽管这些指标在本质上是不同的,一个用于测量动态的几何方面,另一个用于测量拓扑方面。当 的值较小时,所有节点本质上都是固定点,非零的是由于动能最小化过程中的不完美导致的。
图5c展示了一个示例网络的学习轨迹,测试损失和 都以对数尺度绘制。损失在学习过程中逐渐减少,而在某个时刻,线性吸引子的长度以一种暗示相变的突然方式呈指数增长。相对显著的 变化与行为的逐渐改善形成了对比——动态变化是否与行为表现相关,就像我们在图2b中看到的那样?
通过比较 50 个示例网络的相同曲线,这些网络均以相同的方式进行训练,但用于网络初始化和训练数据生成的噪声具有不同的实现方式,我们观察到了学习速度的分布(图 5d)。我们将这些网络按照它们达到一个损失阈值的时间进行排序,另一方面,按照其动态系统结构的非平凡特征出现的时间(即 Ldyn 超过一个阈值的时间)进行排序。这些事件时间具有高度显著的斯皮尔曼秩相关性(ρ = 0.59,p < 10⁻⁵),且成对分布在接近恒等线附近(图 5d)。我们对通过 RFLO 训练的网络也观察到了类似的结果(未展示)。这一观察表明,网络动态的发展和行为的改善是紧密耦合的,这在与翻转任务的元动态中得到的关键见解在本质上不同的背景下得到了重现。
依赖于上下文的证据整合与决策提示。我们对第三个任务——依赖于上下文的决策制定(CDDM)的元动态进行了分析,以将翻转任务和 CDI 任务中动态系统发展的拓扑和几何元素联系起来。该任务本质上与 CDI 任务相同,但增加了一个额外的输入,用于提示对(上下文提示的)输入是向下还是向上(即净负或正)的二元报告。这种报告提示在试验的中途到试验结束之间的随机时间出现。
尽管输出被简化为二元化,但该任务比整合任务更具挑战性,因为在试验结束时的报告阶段之前,没有任何有用的学习信号。网络必须学会在正确报告和试验早期出现的众多证据脉冲之间的长程时间依赖关系。此外,输入和输出本身只是通过整合隐含地相互关联,因此网络必须自行弄清楚线性吸引子表示证据的效用,而在 CDI 中,任务需求直接“喂养”了这种计算。
图 5e 展示了通过 BPPT 训练的用于 CDDM 任务的网络的学习动态。每条测试损失对数曲线最初都有一个急剧下降,我们认为这对应于边缘输出统计的校准。然后每个网络在不同的时间段内趋于平稳,最终突破并以指数速率继续提高性能。同样,我们将这些网络按照它们跨越这个共同测试损失阈值的时间,以及线性吸引子增长的时间进行排序。在这种情况下,我们看到了更强且更稳健的斯皮尔曼秩相关性(ρ = 0.84,p < 10⁻¹³),这些事件与恒等线的分布更加紧密。
我们的解释是,网络必须通过 BPPT 解决长程时间信用分配,以学习证据整合的有用动态,即使任务在任何时刻都没有明确要求报告净证据。网络发现这种策略的确切时间是随机的,但一旦构建了线性吸引子,网络就能够快速加速其学习。通过 RFLO 的无效案例(图 5f)验证了这一解释,RFLO 未能完全学会该任务,可能是因为时间依赖性超出了其可行的学习范围。通过 RFLO 训练的网络无法跨越图 5e 中相同的损失阈值,且最大的吸引子特征几乎完全是固定点,没有空间范围。尽管在过程中偶然会偶然产生一些线性吸引子,但与通过 BPPT 训练的网络群体相比,通过 RFLO 训练的网络群体中产生的线性吸引子数量要少得多,且网络无法将它们用于与任务相关的证据整合。
总体而言,CDI 和 CDDM 的元动态与翻转任务中的元动态讲述了类似的故事,尽管表面上存在差异。在所有情况下,解决任务所需的动态系统结构的初始发展都存在延迟,这与损失的初始停滞相呼应。网络性能的突破与网络动态的有意义变化在时间上是一致的,无论是翻转任务中输入驱动的节点转换模式,还是 CDI 和 CDDM 中线性吸引子的延长。这表明这些元动态是行为水平学习的原因,因此是可测量的学习神经相关性的自然目标。
尽管在建立突触可塑性与行为学习测量之间的因果联系方面有令人兴奋的实验努力,但弥合这两者之间的差距仍然是一个挑战(30, 31)。与此同时,学习算法的理论层出不穷(32–34),但几乎没有实验性证据来区分它们。我们迫切需要新的思路,以更易于实验操作的方式探讨学习及其神经相关性。在这里,我们主张将元动态作为一种有用的视角来观察与行为相关的学习。我们的方法揭示了吸引子动态及其在学习过程中的演变对任务表现具有相当大的解释能力,尤其是在行为改善的时机与底层动态变化之间的关系上。成功的学习规则倾向于驱动类似的元动态,而学习失败则表现为无法发展出所需的动态系统结构。
我们的框架强调了携带行为所需底层计算的核心动态系统特征,希望这种表征能够跨越人工网络和生物网络之间的差异。这种思维方式深受(25)的影响,并在方法论上取得了几项关键进展。首先,我们的方法超越了对自主网络动态的表征,通过描述稳定不动点之间的输入驱动转换来实现。正是这些输入驱动的转换因果地决定了翻转任务中的行为,因此它们成为元动态分析的自然目标。其次,几何漂移和相变使得量化学习过程中吸引子结构的变化尤其困难。我们不得不开发新的方法,以合理地对齐学习阶段之间的多重图节点。最后,由于多重图通过抽象化网络的个体特征来总结其计算本质,我们的不动点对齐程序也可以用于比较可能具有截然不同物理实现的不同网络。
如果被要求从一组预先指定的选项中逆向工程一种学习算法,并且完全了解系统的特性,那么训练有素的模型中的网络活动足以识别真正的底层学习规则(35–37)。然而,这可以说对系统神经科学而言并不是一个具有实际相关性的场景:由于存在许多未知因素,我们只能寻找定性而非定量的差异。我们已经表明,在吸引子元动态的层面上,相似性超过了学习算法之间的大多数独特差异,正如在(36)中关于最终解决方案所展示的那样。然而,我们并不声称这总是正确的:学习过程的性质可能还存在其他差异,这些差异可以有意义地影响元动态。任务的性质是其中之一;有些任务具有普遍的解决方案,而其他任务则在计算策略上表现出显著的个体间变异性(23)。不同的学习算法可能在这些解决方案之间产生不同的偏好,从而为实验验证提供更丰富的机会。仅从学习的终点来看,通过利用脑机接口,实验者可以控制神经动态与任务结果之间的映射(38),从而区分基于梯度的规则和基于强化的规则。凭借这种对学习目标的额外访问权限,人们可以开发出可检验的预测,以了解在一种规则与另一种规则下神经动态应该如何变化。如果没有这种访问权限,区分学习算法可能需要更丰富的学习范式,或许涉及中间训练步骤或其他形式的任务塑造(39)。在这一领域中,我们的元动态框架为设计更丰富、更具信息量的范式以检验突触学习理论提供了一个试验平台。
我们对元动态进行理论洞察的能力依赖于对系统的不切实际的访问水平;实验者无法穷尽地搜索神经状态空间以揭示其缓慢变化的点。然而,用于识别吸引子等潜在动态特征的统计工具正在稳步改进,这些工具利用行为动物的大规模群体记录(40–42)。因果干预,例如通过光遗传学刺激,可以对已识别的动态系统特征的稳定性进行直接验证(11, 20)。更复杂的实验工具,例如全息刺激,有望提供更丰富且可能更数据高效的电路动态表征,使得这些变化能够在慢性神经记录中被观察到(43)。因此,我们工作的可检验预测之一是,任务表现的突破将与相关脑区电路动态的定性变化相关联。更广泛地说,慢性记录和干扰神经活动的持续创新使得在实验中实现基于我们元动态分析的类似方法成为可能。
方法
循环神经网络(RNN)动态。我们使用标准循环神经网络(RNN),其定义方程为:
任务 我们使用了三个任务来评估元动态:翻转任务(Flip-Flop)、依赖于上下文的整合任务(Context-Dependent Integration, CDI)和依赖于上下文的决策制定任务(Context-Dependent Decision-Making, CDDM)。
学习设置 我们在论文中使用了3种不同的学习规则:通过时间的反向传播(Backpropagation through Time, BPTT 13)、解耦神经接口(Decoupled Neural Interfaces, DNI, 29, 44)和随机反馈局部在线学习(Random-Feedback Local Online Learning, RFLO, 28)。关于算法的描述,请参考原始论文;在这里,我们具体说明细节。
在翻转任务中,我们使用了在线学习(批量大小为1),在每个训练活动的时间步都会通过优化器进行学习步骤。对于图3中的网络,我们每个网络训练了50k个训练时间步。在CDI和CDDM中,我们使用了批量学习,每个学习步骤包含200个试验。学习步骤仅在完成整个试验后发生。对于CDI,我们总共使用了2k个训练步骤(使用较低的学习率),而对于CDDM,我们总共使用了1k个训练步骤。
不动点计算我们通过寻找动能函数的极小值来计算网络动态中的不动点:
然后,我们重新排列我们网络的转移矩阵 的行和列,以符合计算出的节点对齐。接着,这两个网络之间的不相似性仅仅是基于这些转移概率矩阵的归一化内积:
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.