反赫布可塑性驱动纹状体中的序列学习|细胞|静息|信号|鲁棒性

分享至

Anti-Hebbian plasticity drives sequence learning in striatum

https://www.nature.com/articles/s42003-024-06203-8

（反赫布可塑性驱动纹状体中的序列学习）

我们的研究采取了与机器学习和计算算法相反的方法，这些算法寻找处理尖峰神经元序列的高效算法。在这里，我们模拟了在纹状体中观察到的生物学习规则，并探索了可以从这些规则中学习的模式类型

涉及序列学习的生物机制在很大程度上是难以捉摸的，并且可能是多种多样的。为了揭开这一复杂现象的部分面纱，我们开发了简单的皮层-纹状体网络模型，并探索了它们学习和识别序列的能力。值得注意的是，我们研究了在MSN水平上实验观察到的突触可塑性、尖峰延迟和侧支抑制的可能作用，这些MSN整合了来自皮层神经元群体的尖峰。我们设计了一个简单的学习任务，作为程序性学习的模拟，以测试这种能力。在这个任务中，MSN通过在特定子集的模式结束时尖峰，并对其余模式保持沉默，来正确分类尖峰模式（精确时间序列的皮层尖峰）。我们的模拟结果显示，即使是最简单的纹状体网络模型，具有两种类型的突触可塑性、反赫布学习规则（对称LTD或非对称反赫布STDP）和非联想性奖励-LTP，在这个任务中也表现良好。然而，我们也观察到，某些类型的模式组合更难被最简单的网络同时学习，特别是在学习嵌套尖峰模式时。这就是我们展示尖峰延迟的地方，这是MSN的一个显著电生理特性，解决了子模式期间早期尖峰的问题，并且具有尖峰延迟的神经元网络被证明与经典逻辑回归达到相似的性能。然而，在这种情况下，学习嵌套模式时又会出现困难，即完整模式未被奖励但子模式被奖励。我们观察到，添加第二个MSN，学习相反的模式关联并通过侧支抑制抑制第一个MSN，完全解决了这个问题。在后一种情况下，纹状体网络实际上优于经典算法。

因此，我们的贡献是四方面的。我们（i）开发了一个概念框架来测试序列学习，（ii）展示了在皮层-纹状体突触中观察到的反赫布学习规则自然地赋予简单模型学习序列的能力，（iii）观察到尖峰延迟，如广泛证实的MSN特性，增强了序列学习，（iv）观察到具有侧支抑制的纹状体网络进一步改善了序列学习，甚至可以超越人工算法在学习序列中的表现。

我们的选择是使用尽可能简单的模型，以专门识别生物学习规则、MSN尖峰延迟特性和小网络中侧支抑制的个体影响。当然，这个模型并没有涵盖纹状体功能的全部复杂性。特别是，最近的几项研究对简单、基于对的STDP规则在特定上下文中的相关性提出了质疑。包括电压和频率依赖性的LTP和LTD的赫布学习规则的演变、三元组规则、三因素学习规则或甚至新的范式可以被探索。尽管存在不足，基于对的STDP规则在这里被证明足以赋予系统检测序列的能力。一个有趣的途径是探索更现实的突触可塑性模型，无论是基于复杂模式还是更生物物理现实的突触、神经元或奖励和神经调制模型，如何增强网络学习和高效序列学习是否对应于生物物理现实的参数范围。此外，这里考虑的任务过于基本，MSN的数量也太少，无法对皮层-纹状体轴的生理功能得出任何确切的结论。然而，这种简单性也为解读无网络效应的塑性规则的作用带来了优势。结果确实显示，MSN主要由于反赫布STDP，可以解码完整的皮层/丘脑活动序列（这已经是联想性的），从这种分布和复杂的放电中提取出一个简单的执行命令。当然，这并不是生物学上的主张或以任何形式限制，我们预计纹状体不会局限于一组在完整序列后放电的神经元；我们实际上预计纹状体会提取其他类型的信息，但内在和网络特性的结合使纹状体能够优化这种顺序活动模式的阅读。一些生物学观察支持这种可能性，在皮层/丘脑-纹状体突触中，联想性输入具有强烈的时间组织。事实上，在非人灵长类动物和啮齿动物完成行为任务期间，在大脑皮层和丘脑核团中报告了这种顺序活动模式。纹状体从整个皮层区域和一些丘脑核团接收单突触输入。由于特定的内在特性（主要由于电压门控钾电导、iH和iR），如非常超极化的静息膜电位、I-R钟形关系、内向整流I-V关系、延迟的第一个动作电位，MSN作为皮层和丘脑活动分布模式的巧合检测器。由于这些基本的内在特性，结合反赫布可塑性的表达和抑制性侧支的存在，我们认为MSN可以解码按时间顺序组织的皮层/丘脑-纹状体活动模式。

这项工作提出了一个概念证明，即反赫布STDP允许学习尖峰序列。它深深植根于大量生物学观察，包括大脑皮层中顺序活动的存在和纹状体中的反赫布型可塑性，以及在皮层-纹状体突触中观察到的反赫布STDP。同时，纹状体在程序性学习中起着至关重要的作用。背侧纹状体是基底神经节的主要输入结构，从所有皮层区域和丘脑核团接收兴奋性输入，并在动作选择和记忆形成及程序性学习中起主要作用。在这种多样化的任务中，可以预期纹状体使用来自证据序列的信息来做出决策。然而，这两个生物学观察之间的联系从未建立，并且在实验上似乎难以分离。事实上，在所有可塑性和学习领域中，直接证据表明STDP在功能中的作用一直难以获得。在程序性和序列学习的特定领域，序列如何被生物学解码仍然不清楚。基于先前的发现，即反赫布STDP在背侧纹状体中表达，以及MSN的特定特性（非常超极化的静息膜电位、I-R钟形关系、延迟的第一个动作电位、抑制性侧支），我们的模拟指向反赫布可塑性优化的顺序活动模式解码。在这里，我们提出了一个细胞基础，即通过反赫布可塑性规则在背侧纹状体中学习顺序的皮层和/或丘脑活动模式。迄今为止，关于在行为动物中出现“自然”皮层/丘脑-纹状体STDP样模式缺乏实验证据。这需要通过例如Neuropixel多单位在体记录来进一步研究。

当然，所研究的网络是玩具模型，提供了生物学的简化视图。更现实的模型，包括属于不同群体的多个纹状体神经元，例如DLS和背内侧（DMS）纹状体，这些纹状体显示不同类型的反赫布可塑性（对称LTD和非对称STDP），多条通路、下游神经元、可能的反馈回路和精确的神经调制系统，将允许评估现实模型是否也显示出类似的能力。在考虑纹状体可塑性在动作选择过程中的影响时，纳入直接和间接通路也很有趣，这主要依赖于每条通路的独特动态。在比较DMS和DLS时也存在类似的二分法。据报道，这两个区域在程序性学习的不同步骤中涉及，特别是目标导向行为和习惯。实验上已显示皮层-纹状体STDP存在差异，参考文献36中的类似纹状体网络研究了不同类型的反赫布STDP对学习灵活性和维持的影响。这些模型的另一个优势是提供更现实的侧支抑制模型。事实上，我们在具有侧支抑制的双细胞系统模型中做出的一个特定假设是，MSN接收的所有侧支抑制都来自单个姐妹细胞，这并没有捕捉到网络的所有复杂性，并且需要假设姐妹MSN学习第一个MSN的负图像。在更大规模的纹状体模型中，可能不再需要这个假设，因为多个细胞可以对不同模式做出贡献。这种更大规模的模型还将允许研究网络学习多任务的能力，并更好地评估纹状体网络的学习能力，以及更精细地划分参与纹状体功能的不同隔室在学习序列中的各自作用。

通过GABA能中间神经元的反馈抑制在这里没有被建模，并且可能会对学习产生不同的影响。快速放电的Parvalbumin中间神经元上的皮层-纹状体突触显示赫布可塑性，当与MSN上的反赫布STDP结合时，会导致新的行为。更一般地，纹状体由许多微电路、显示各种STDP的不同隔室组成，包括不同输入（来自皮层和丘脑）、纹状体的解剖功能隔室（DMS/DLS）和神经元类型（MSN、GABA能中间神经元、多巴胺能神经元、胆碱能神经元）的系统全局模型可以导致纹状体学习的一般理论。

在当前模型中使用的奖励信号仅限于通过在奖励模式期间突触前尖峰相关的突触权重增强的简单监督。详细的模型，特别是三因素学习规则，也可以在此上下文中使用，特别是通过提出更现实的模型，例如通过多巴胺信号传递实现奖励的模型，例如参考文献57中为赫布STDP开发的模型。

这样的模型需要识别多巴胺的触发因素。这样的模型还可以进一步整合多巴胺能神经元不仅由奖励价值（或奖励预测误差）调制的事实。事实上，负责背侧纹状体多巴胺的黑质致密部多巴胺能神经元也直接受到来自纹状体的MSN的刺激。因此，多巴胺回路的整合可以导致更现实的研究，探讨奖励对纹状体学习的影响。

总的来说，这项研究提供了另一种视角，探讨反赫布STDP在纹状体中的功能作用，与情节记忆和时间序列学习的关系。这种STDP规则完全是成对的，因此允许高效的算法实现。值得注意的是，其他用于学习时间序列的人工模型也使用了反赫布STDP。正如这里所观察到的，这种学习序列的能力似乎是反赫布学习的本质。在学习序列时，网络需要在一个狭窄的区域发展出对序列响应尖峰的能力，这反过来又改变了它对同一序列进一步响应尖峰的能力。这种学习规则似乎允许网络在尖峰和非尖峰之间的临界过渡附近自组织。（自组织）临界系统以显示丰富特性而闻名；这些现象也可能根据某些规定的输入统计或模式塑造突触权重的分布，研究这些现象将是一个有趣的问题，也可以与数据进行比较。具有LTD的反赫布尖峰网络提供了自组织到临界性的一个例子，其理论研究构成了这项工作的一个潜在丰富和迷人的视角。

介绍：

在自发活动、动作前或动作期间以及对刺激的反应中，已在多种脑区观察到时空活动模式。赋予神经元区分不同序列能力的生物机制在很大程度上仍未被了解。学习尖峰序列提出了多个挑战，例如在记忆中保持尖峰历史和区分部分重叠的序列。在这里，我们展示了在皮层-纹状体突触处观察到的反赫布尖峰时间依赖性可塑性（STDP）可以自然地导致尖峰序列的学习。我们设计了一个尖峰模型，模拟了从一组固定的皮层神经元接收定义为顺序输入的尖峰模式的纹状体输出神经元。我们使用了一个简单的突触可塑性规则，该规则结合了反赫布STDP和非联想性增强，用于称为奖励模式的一组呈现模式。我们研究了纹状体输出神经元通过仅在呈现奖励模式后放电来区分奖励模式和非奖励模式的能力。特别是，我们展示了纹状体网络的两个生物学特性，即尖峰延迟和侧支抑制，通过允许更好地区分部分重叠的序列，有助于提高准确性。这些结果表明，反赫布STDP可能作为学习尖峰序列的生物学基础。

神经细胞产生动作电位的时空模式，通常被认为在中枢神经系统中传递信息。尽管在各种时间尺度和不同的脑区确实观察到了尖峰序列，但用于编码、存储序列或区分不同序列的生物机制仍然很大程度上未知。在行为时间尺度（秒）上，情节性经历本质上是一系列事件。在大脑中，这导致产生时空尖峰序列，例如海马体位置细胞在动物移动时激活，或在顶叶皮层中出现的与动作相关的尖峰序列。生成动态输出还需要形成顺序的皮层活动，如鸟类重复数十秒的时空序列，并在突触链中保持毫秒级的时间结构，或者更一般地，神经元集合的顺序激活。在较短的时间尺度上，也报告了持续数十毫秒的皮层尖峰序列，这些序列在振荡神经元集合中的尖峰相对时间、在上升状态转换后的顺序激活、对单个尖峰的响应或自发活动模式中。理论上，具有赫布突触可塑性的网络有能力生成顺序活动或完成它们所暴露的序列。解释这种普遍的顺序尖峰活动需要神经机制来识别和区分序列，以便输出神经元可以对特定模式放电，而对其他模式保持沉默。识别序列是一个复杂的任务，需要在多个尖峰的时间尺度上整合信号。此外，它需要区分共享相似子模式的序列，例如最初相同但仅在最后尖峰不同的序列；学习这种重叠序列有时甚至可能显得不兼容。

提出了机器学习算法来选择尖峰序列。在这个领域，大量工作解决了生成特定目标输出尖峰序列以响应一系列尖峰的问题。提出的方法依赖于错误反向传播、高阈值投影、远程监督方法（ReSuMe）或Chronotron的平滑修改，用于计算错误项的尖峰序列的Victor & Purpura距离，这些方法在这些任务中表现成功。更接近当前问题的是，一些算法被设计用于从尖峰序列中解码统计信息，甚至简单地对特定的输入尖峰序列放电。这些技术包括Tempotron及其扩展，旨在区分尖峰序列的特定结构（特别是由突触前神经元尖峰之间的延迟或同步定义的模式），并依赖于一种计算学习规则，该规则在神经元未放电时增强与特定（奖励）模式相关的突触，并在输出神经元对非奖励模式放电时抑制这些突触。Tempotron的准确性通过在序列中任何时间点放电的奖励模式呈现的比例来估计。这些早期工作为测试序列学习提供了坚实的基础，我们在这里使用并扩展了这些基础。

我们的研究采取了与机器学习和计算算法相反的方法，这些算法寻找处理尖峰神经元序列的高效算法。在这里，我们模拟了在纹状体中观察到的生物学习规则，并探索了可以从这些规则中学习的模式类型。背侧纹状体是基底神经节的主要输入结构，从所有皮层区域和大多数丘脑核团接收兴奋性输入，并被证明在动作选择和记忆形成及程序性学习中起主要作用。在这种多样化的任务中，预计纹状体使用来自证据序列的信息来做出决策。与在呈现部分模式时有效回忆缺失信息的联想性皮层相反，纹状体是一个主要的前馈网络，它结合了各种皮层输入以产生输出。皮层-纹状体突触在体外和体内显示反赫布尖峰时间依赖性可塑性，其中皮层尖峰后跟纹状体中型多棘神经元（MSN）尖峰导致相关突触权重的抑制。虽然许多计算研究调查了赫布STDP的影响，但只有少数研究考虑了反赫布STDP。这些研究集中在突触权重的稳定性、树突衰减的补偿、相关信号的消除和新奇检测等问题上，特别是在电鳗电鱼的感觉系统中。如所有这些研究所示，当呈现相关活动时，反赫布STDP导致相关突触的抑制。这种现象自然地赋予系统必要的耐心来倾听完整序列并识别特定序列。

我们的研究探索了皮层-纹状体反赫布STDP的可能作用，这些作用在实验中与程序性学习相关的区域中报告，在尖峰序列的学习中。我们采用理论和计算方法。为了分别测试不同的特征，我们的模型从最简单到更现实，这允许深入探索生物学习规则支持序列学习的能力以及每个生物特征在序列学习中的作用。我们的结果表明，在纹状体中观察到的三种基本生物机制，即反赫布学习、尖峰延迟和侧支抑制，结合奖励机制，对于时空尖峰序列的学习特别有效。特别是，我们展示了反赫布STDP与简单的非联想性LTP的结合足以使单个MSN获得区分序列的能力，为最近观察到的反赫布STDP学习规则提供了功能相关性。此外，虽然具有瞬时放电的神经元最简单的模型可以学习序列，但我们的模拟显示它们倾向于过早放电，这在学习区分重叠尖峰序列时尤其成问题。我们表明，这种缺点通过结合尖峰延迟和侧支抑制自然得到纠正，这是纹状体网络的两个关键经典生物学观察。这一分析进一步提出了这两个生物学观察在序列学习框架中的功能作用，表明它们可能有助于识别和优化尖峰序列学习的能力，这些能力优于一些受类似约束的人工学习算法。

结果

在纹状体中建模序列学习任务

给定一个时空的皮层尖峰序列，如在小鼠或非人灵长类动物中在体内观察到的，我们假设一个中型多棘神经元（MSN）如果能够区分两组序列，即在序列的子集结束后或有选择地放电，而在其他情况下保持沉默，那么它就已经学会了区分这两组序列。尽管这一概念很简单，但它与文献中的概念有很大不同。事实上，以前的工作主要集中在神经元的能力上：（i）重现或完成目标尖峰序列，或（ii）在刺激呈现期间的任何时间通过放电来分类模式。我们的序列学习概念类似于后一种标准。然而，要求MSN在序列结束后放电，允许学习完整的序列，并赋予系统区分嵌套刺激的能力。详细来说，对于任何引发尖峰的模式A，任何包含A的超模式（即包含A的尖峰模式）需要属于同一类别，以使学习任务保持一致。相反，要求MSN在模式呈现结束时放电，为区分这些模式并对其做出不同响应打开了道路，从而允许利用超模式中包含的任何额外信息。从功能角度来看，任务（ii）以及我们的任务（即要求MSN在特定模式后放电）都与纹状体神经元的角色相关，这些神经元整合皮层相关模式，然后放电以触发进一步的下游通路，最终导致运动处理和动作。

我们使用简单但越来越现实的数学模型探索了纹状体网络执行此任务的能力。MSN整合了大量皮层和丘脑输入，并作为同时检测器，因为它们的高阈值需要许多尖峰的同时到达才能引发尖峰，这些尖峰在一段时间延迟后放电。这些神经元在生物学和计算上都得到了深入描述，并提出了几种数学模型来描述它们的行为。在纹状体中，MSN之间产生稀疏的抑制性侧支连接，据报道这在调节MSN放电或其整体活动方面起着重要作用。

我们的方法是从单个MSN接收多个皮层输入的最简单设置开始，并表达实验观察到的皮层-纹状体可塑性类型，然后逐步构建更复杂的两个神经元网络模型，包括非线性和适应性，并在每种情况下评估系统的表现。所有模型在“材料和方法”部分中定义。

我们首先将神经元建模为线性积分-放电神经元（M1），参数从成年小鼠急性脑切片中MSN（n = 16）的电生理记录中拟合（材料和方法及图S1）。图S1a提供了实验数据（总结在表1中）与模型的比较，图S1b将神经元参数与其他文献中报告的模型进行了比较。我们获得了一个相对准确地再现MSN活动现象学的模型；然而，模型M1未能重现实验观察到的对恒定输入的放电率，这不应影响我们的学习实验结果，因为这些实验仅与瞬态尖峰输入的单个尖峰响应相关。皮层-纹状体突触具有STDP和奖励-LTP。为了模拟学习，在训练阶段向MSN呈现尖峰活动模式。如果MSN在呈现整个模式后放电，则认为奖励模式已学会，而非奖励模式不应引发任何尖峰。在学习之前，模式A和B都没有触发MSN的任何尖峰，导致A的正确分类（作为非奖励模式）和B的错误分类。在学习之后，模式A仍然没有引发任何尖峰，而MSN在呈现模式B的所有皮层尖峰后放电，导致正确分类（图1c）。学习过程的准确性通过对不同模式的正确响应的平均数量来估计。

权重分布和响应泊松输入的放电率

为了理解STDP和奖励-LTP在学习中的作用，我们首先分析了系统在呈现不同输入并具有不同可塑性时的行为（图1a）。为了量化序列学习的性能，我们比较了以下类型的STDP的演变：

我们区分了赫布学习规则（对称和非对称赫布STDP），其特征为Apre-post = 1，与反赫布学习规则（对称和非对称反赫布STDP），其特征为Apre-post = -1（图1a）。在每种情况下，我们比较了有无奖励LTP的学习准确性（图2）。

我们向MSN呈现来自皮层神经元的随机活动（每个皮层神经元以10 Hz或100 Hz的速率作为泊松过程放电），并研究了突触权重的分布（图S2或2a）。从这些模拟中得出的第一个观察结果是，赫布规则通常导致突触权重的整体增强，对称LTP系统地导致突触权重的饱和，这是赫布理论中突触权重发散的已知结果。这导致MSN的放电率饱和，与模式是否被奖励无关（对称LTP在10或100 Hz泊松输入下无奖励时，MSN的中位放电率分别为89.26和465.15 Hz，赫布无奖励时为90.07和467.32 Hz，对称LTP有奖励时为88.38和467.90 Hz，赫布有奖励时为89.27或466.37 Hz，两样本t检验在20次重复中未发现这些条件之间的显著差异，p > 0.1）。相反，两种反赫布规则导致突触权重的平稳分布，远离饱和，并且有一部分权重保持非常低的值。在没有奖励-LTP的情况下，对称LTD导致突触权重减少，直到MSN变得沉默。奖励-LTP防止了这种活动的消亡，并产生了集中在相对低值的突触权重分布。非对称反赫布STDP在两种情况下都得到了类似的结果。对于非常低的初始突触权重值，网络的罕见消亡是可能的，但在大多数情况下，我们观察到突触权重收敛到非平凡的权重分布，独立于初始化，典型特征显示一部分权重消亡，而其他权重分布在远离饱和阈值的支持上。有无奖励-LTP的分布特征相似，预计在存在奖励LTP的情况下，支持范围更广，突触权重更大。总的来说，这一分析表明，与已知容易导致突触权重发散的赫布规则相反，反赫布规则通常允许保持低突触权重，可能在无奖励-LTP的情况下导致网络消亡（MSN无尖峰）。有了这些奖励，两种反赫布规则都达到了稳定的权重分布，幅度相对较低，MSN的活动稳定在相对稀疏的稳定活动，奖励应用后频率增加（分别为10和100 Hz，对称LTD从无奖励时的0.00和0.04 Hz增加到有奖励时的9.91和11 Hz，或对于非对称反赫布学习，放电率从无奖励时的0.01和0.52 Hz增加到有奖励时的22.37和97 Hz。两样本t检验显示任何反赫布STDP与其他条件之间的显著差异，p < 0.0005）。

学习规则和学习单个序列的机制

然后，我们研究了系统对单个模式的动态响应，该模式作为在5 ms时间间隔内强度为λpoisson = 1 kHz的泊松过程获得，条件是至少有两个尖峰（图2b）。我们计算了MSN保持沉默的概率、MSN第一个尖峰的相对时间以及非奖励和奖励模式的最终准确性，并密切研究了可塑性规则和奖励对突触权重的影响。

为了理解反赫布学习如何产生准确行为的机制，我们考虑了在非奖励或奖励模式下，重复呈现模式对突触权重和MSN放电或静息的影响，以及表达一种赫布或反赫布可塑性的突触。对于非奖励模式，根据突触权重的初始条件，会出现两种不同的情况：

- 如果权重足够低，以至于模式呈现不会引发尖峰，那么由于MSN的静息，没有可塑性（无奖励-LTP和无突触权重更新）意味着权重保持不变，未来的模式呈现不会导致任何尖峰，如果权重在此期间未被其他过程修改（图2b）。

- 如果突触权重初始足够大，以触发MSN对非奖励模式的尖峰，那么反赫布STDP的突触前-突触后抑制（对称和非对称可塑性中都存在）将导致与模式相关的突触权重衰减，最终导致MSN停止放电。相反，赫布STDP只会通过使在MSN之前放电的突触前神经元的突触权重变大来强化初始MSN放电，防止神经元在响应非奖励模式时停止放电（图2b）。

接下来，我们考虑了一个初始不引发MSN尖峰的奖励模式。在这种情况下，与模式呈现期间尖峰相关的所有突触通过奖励-LTP增强。因此，无论可塑性如何，模式的重复呈现最终都会导致MSN尖峰。一旦MSN尖峰，STDP与奖励结合，根据可塑性类型产生不同的结果。对于赫布STDP（对称LTP和非对称赫布STDP），突触前-突触后增强进一步增加了导致神经元尖峰的突触前神经元的突触权重，随着模式的呈现，神经元尖峰越来越早（图2b），提供了序列学习的错误结果。与此相反，反赫布STDP赋予系统机制，允许MSN在模式结束时尖峰（见图2b中的统计数据）。通常，当Areward较小时，在没有MSN尖峰的情况下重复呈现奖励模式发生在序列的末尾（我们任务中的成功）。但即使尖峰没有在序列末尾出现，突触前-突触后抑制和突触后-突触前增强通常会将尖峰移到模式的末尾。实际上，因为Areward + Apre-post < 0，在MSN之前尖峰的突触前神经元的突触权重减少，最终防止神经元尖峰，并将尖峰移到模式中较晚的位置，突触后-突触前增强有利于支持尖峰。虽然这些机制似乎有利于序列学习和MSN在模式结束时尖峰，但它们也允许两种失败模式，取决于模式持续时间和突触权重阈值：在MSN尖峰之前的突触权重衰减，以及在模式早期出现的尖峰的突触权重可能增加。

为了进一步探讨这种学习机制的运作原理，我们通过考虑一个简单的由四个脉冲组成的模式，并且这些脉冲具有相等的脉冲间隔，同时没有与该模式无关的外部泊松脉冲，进一步简化了实验设置（图3）。当任务成功并且MSN在该模式的末尾发生脉冲时，所有与模式末尾附近神经元脉冲相关的突触权重都会减弱（具体地说，即在模式结束前少于个时间单位之前的神经元），其中最后一个发生脉冲的神经元受到最强的抑制。相反，在模式结束前超过时间单位发生脉冲的神经元，其突触权重将增强（图3a），因为获得的奖励量超过了前后脉冲的长期抑制（LTD）。这两种现象共同作用，防止连续成功序列的出现。相反，成功序列终止于某一刻。

1. 当模式早期突触的累积增强超过临界值，导致MSN在序列结束前尖峰（图3a左面板中的类型1错误），或

2. 当与序列后期相关的突触权重衰减最终导致MSN无法响应模式尖峰（图3a右面板中的类型2错误）。

在一般情况下，反赫布STDP因此不允许达到完美的性能，而是交替成功与失败，其类型和发生率取决于参数。图3c显示了各种典型情况，显示了长序列稀疏尖峰的频繁类型1错误（左），突触权重被限制在低最大值时的频繁类型2错误（中），或中间参数的两种错误的交替（右），模式持续时间改变了神经元学习的能力。为了平滑这些成功和错误的动态交替，我们引入了MaxAccuracy度量。

总之，只有对称和非对称反赫布STDP正确学会了分类奖励和非奖励模式，而赫布规则表现不佳。特别值得注意的是，反赫布规则已在皮层-纹状体突触中被报道，因此能够正确分类顺序皮层活动模式。

然而，这些实验指出，反赫布规则与非联想性奖励-LTP结合导致神经元在亚阈值和超阈值状态之间振荡的平衡。准确性受到这些动态的影响，并不反映网络确实学会了在模式结束时引发尖峰的正确权重组合。为了避免由于上述学习响应结构导致的准确性虚假波动，我们定义了MaxAccuracy量化（在材料和方法中定义），并在大多数后续分析中使用了该度量。

反赫布学习允许学习多个尖峰序列

接下来，我们在一组更复杂的任务上测试了学习准确性（在材料和方法中定义）。

我们首先向网络呈现具有固定尖峰间延迟的时空尖峰序列（任务1）。该任务的结果，P = 10个皮层神经元，Np = 5个模式，Nstim ¼ 3个模式最大尖峰数，如图4a所示。所有四种STDP类型（赫布或反赫布，对称或非对称极性）的准确性（虚线）和MaxAccuracy（实线）的时间演化被表示。我们发现，两种类型的反赫布学习规则正确地分类了模式。如前所述，突触权重收敛到一个动态稳定状态，MSN交替出现几次正确响应和一次错误响应，这初始化了新的正确响应序列。使用MaxAccuracy量化，我们观察到更高的性能水平，表明网络正确地区分了模式。赫布规则在这个任务中表现不佳，导致低准确性。有趣的是，MaxAccuracy和准确性对于赫布规则收敛到相同的值，表明MaxAccuracy并不总是提高准确性值。

对于各种模式数量Np（图4a），得到了类似的结果。对于所有任务，只有反赫布规则显著优于对照条件（无奖励-LTP，图中的黑色圆圈，每个条件的显著性水平在底部指示）。赫布规则显著差于无监督网络。当与逻辑回归的结果比较时，反赫布规则略逊于经典机器学习算法。总之，反赫布规则在学习时空尖峰模式时实现了高效学习，而赫布规则表现不如无监督网络。

为了进一步研究反赫布规则在记忆模式时达到的平衡，我们测试了网络对随机选择的奖励模式子模式的响应（图4b）。例如，如果在任务中，模式（1, 3）被奖励，我们测试了MSN对模式ð1; +Þ,ð+; 3Þ的响应，其中+表示没有尖峰呈现。我们计算了不响应子模式的学习MaxAccuracy。反赫布规则显著优于赫布规则，在经典逻辑回归产生较少正确分类的任务中（图4b）。

为了评估这些发现的鲁棒性，我们测试了各种数量的皮层神经元P或每个模式的最大尖峰数Nstim，并发现了一致的结果（图S3a-b），除了非对称反赫布STDP在较高刺激数量下表现较差。我们还测试了Apost-pre值的变化是否导致不同的动态（图S3c），并发现与我们对Apre-post对学习能力的强烈依赖性相比，影响较小（特别是区分赫布和反赫布规则）。最后，我们测试了Areward的不同值（图S3d）。为了引发学习，我们需要，这在时，对于得到验证。此外，最大学习在t相对于较小时实现。因此，我们在后续选择了 = 0.9，满足这两个属性。

总之，反赫布规则不仅学会了正确分类奖励模式，而且收敛到一个平衡状态，其中皮层活动的子模式不足以触发MSN的尖峰，因此表达反赫布STDP的MSN只有在呈现整个模式时才会尖峰。

对噪声的鲁棒性

尖峰潜伏期提高了网络性能

使用前述网络，反赫布规则能够接近经典机器学习的准确度，但它们的表现并不如预期那么好。

从经验上讲，积分-发放模型的缺点在于，在膜电位去极化后会立即发放。

这意味着，当呈现重叠模式时，例如，模式A = (1) 和模式B = (1, 2)，神经元无法学会在两个模式结束之后发放，因为它要么仅对模式A产生反应，并因此在模式B结束前就发放，或者在模式B之后发放，因此没有在模式A之后发放。这种积分-发放模型描述的神经元“不耐烦”是积分-发放模型的一个经典缺点。实际上，MSNs表现出尖峰潜伏期，这是由于特定的电压门控钾电导延迟了第一个尖峰的发射。

为了测试尖峰潜伏期是否提高了它们学习序列的能力，我们修改了我们的神经元模型，包括非线性和适应性。我们在图5a中展示了使用非线性模型（M2）的MSN膜电位，无论是对阶梯（a1）还是脉冲（a2）电流。非线性动态和尖峰潜伏期使得膜电位的动态更接近于在小鼠大脑切片中记录的MSN的电生理数据（比较图S1a1和图5a1）。在MSN对皮层脉冲的反应中，尖峰潜伏期尤为明显（图5a2）：当电流脉冲刚好足以触发尖峰时（即等于 rheobase），尖峰的启动需要几毫秒。

图5b报告了使用非线性神经元（M2）学习时空模式（任务1）的MaxAccuracy的演变。我们观察到不对称反赫布STDP的表现和逻辑回归一样好，这证实了缺乏尖峰潜伏期是在线性（M1）和非线性（M2）神经元之间观察到的差距的原因。

我们更精确地比较了这两种模型，并表明对于不对称反赫布STDP，非线性神经元（M2）总是达到比线性（M1）显著更高的准确度（对于)，见图5c）。

结合尖峰潜伏期机制的反赫布STDP规则使得一个简单的纹状体网络像逻辑回归一样有效，使用生物学学习规则学习分类任务。

突触动态对学习的影响

序列分类任务要求神经元足够精细地解析突触前尖峰的时间，同时还要确保信号的持久性，以便将序列作为一个整体进行分析。从这个角度看，本文其余部分使用的即时突触提供了最大的时间分辨率，但不保留电流的持续性，留给神经元维持接收到的电流的痕迹。生物学上，在皮层-纹状体突触中，突触前神经元产生的电流并非瞬间产生：它们显示出具有快速上升和缓慢衰减的连续时间过程，时间尺度在4-10毫秒左右。这些通常通过指数轮廓（忽略上升时间但保留典型衰减）或更现实的α突触（材料与方法和图6a，左）来建模。与引起神经元电压瞬时变化的狄拉克突触相比，持续的突触后电流更平滑地改变突触后神经元的电压，因为膜电位整合了突触电流的逐渐变化（图6a，中）。在这些情况下，神经元是否发放（以及何时发放）取决于神经元的参数、突触权重以及突触电流的轮廓和时间尺度（图6a，右）。因此，可以假设突触电流轮廓对序列学习有影响。

总结

总的来说，这项研究表明，更现实的EPSC（兴奋性突触后电流）曲线产生了与瞬时突触一致的现象学，并允许学习序列，而且在时间上分布输入允许使用较小的突触电流进行学习，学习的最优时间尺度与生理衰减时间尺度一致。

纹状体网络中的抑制改善学习

尽管考虑非线性和适应性会产生可能允许适当学习嵌套奖励模式的延迟，但皮层-纹状体输入的兴奋性本质阻止了系统学习奖励模式A和包含A的非奖励模式B（图7a）。实际上，如果MSN对模式A尖峰，那么它必然对模式B尖峰，因为它接收到更多的兴奋（图7a）；相反，如果神经元不对模式B放电，那么更不用说MSN没有接收到足够的兴奋来对子模式A放电。我们注意到，当我们将权重W限制为正时，逻辑回归也会出现类似的问题。生物学上，纹状体由大量MSN组成，它们共享部分输入，接收不同的神经调制，并通过侧支抑制相互作用。启发式地，这种侧支抑制可以提供一种机制来学习这种嵌套模式。

我们通过考虑一个简单的双神经元网络模型来探索侧支抑制的作用，其中每个MSN（MSN1和MSN2）是一个非线性神经元（M2），通过两个不同的权重矩阵W1和W2整合相同的皮层活动，并且MSN1可能通过额外的电流被MSN2抑制。我们考虑了皮层-纹状体突触经历相同的STDP规则，但相反的奖励信号。

在没有侧支抑制的情况下，MSN1学会了响应模式A，因此也对模式B ⊃ A尖峰，而MSN2在模式B后尖峰。MSN2的抑制对MSN1的电位产生了足够强的抑制，防止其尖峰，从而正确分类了两种模式。超越这个特定案例，我们详细研究了统计上侧支抑制如何影响准确性。

为了更广泛地研究这种网络特性，我们测试了我们的模型学习嵌套模式的能力（任务2）。结果如图7b所示，P = 2, 3, 4或5个皮层神经元。与图7a的示例一致，具有侧支抑制的网络正确分类了所有P = 2的序列模式，并且在P值较高时保持接近最佳性能，特别是优于无抑制的网络和逻辑回归。

我们将MSN2的奖励选择为MSN1奖励的完全相反（以下标记为差分奖励）是一种理论情况，因此不太可能发生。通常，MSN2也可能对MSN1奖励的模式做出响应或漠不关心。我们测试了当两个MSN对相同模式奖励或不奖励时的学习准确性（相同奖励），发现只有差分奖励方案显著提高了准确性（图S4）。

我们还测试了在学习时空模式时（任务1，图7c），侧支抑制导致所有测试参数的显著更高性能。结论对于少量模式Np非常显著，但对于更多模式，显著性趋于降低。

这些结果对于不同的P神经元集合（图S5a）、每个模式的最大尖峰数Nstim（图S5b）或不同的侧支抑制值（图S5c）得到了确认。

总的来说，对于两个任务，非对称赫布STDP仍然导致较差的表现，而非对称反赫布STDP达到高准确性。两个生物学上记录和相关的MSN特性，即尖峰延迟和侧支抑制，通过其特定机制，都显著提高了准确性。

最后，我们测试了不同神经网络学习更复杂输入的能力，没有固定的尖峰间延迟。我们测试了具有抖动延迟的模式（任务3）或泊松结构的模式（任务4，材料和方法）的学习。

我们展示了抖动延迟模式（任务3，图8a）和泊松模式（任务4，图8b和图S6）的分类结果，对于不同的模式数量Np。我们观察到，即使有复杂的输入，整体性能与具有固定延迟的时空模式（任务1）一致，特别是侧支抑制导致比逻辑回归更高的准确性。这些观察结果取决于模式的持续时间，并且如预期的那样，考虑更长的模式时，准确性降低，但仍高于偶然性（图S6）。

材料和方法

我们使用了两种积分-放电模型来表示MSN的动态，一个简单的漏积分-放电模型（M1）和一个稍微更现实的适应性非线性模型（M2）。

漏积分-放电模型（模型M1）

对于模型M1，MSN被建模为一个线性漏积分-放电神经元。在这个模型中，MSN的电压根据其皮层和外部输入的线性方程演化，并在电压超过固定阈值时放电。详细来说，在两个尖峰之间，神经元的膜电位V满足一个线性微分方程：

皮层输入

非线性积分-放电神经元模型（M2）

我们还考虑了一个非线性神经元模型（标记为模型M2），该模型在参考文献53中引入，其中电压V通过以下方程与适应变量U耦合：

两个神经元网络与抑制

皮层-纹状体突触可塑性

从P个皮层神经元到MSN的突触权重受到基于成对的STDP（Spike-Timing-Dependent Plasticity）的影响，被建模为在每次尖峰后根据尖峰时间相对于另一个神经元的所有先前尖峰的时间来更新突触权重（在参考文献103中的术语为all-to-all实现）。具体来说：

反赫布可塑性（即突触后-突触前LTP和突触前-突触后LTD，以及突触后-突触前和突触前-突触后LTD）及其与LTD的显著性通常与非联想性LTP结合，以防止神经元完全沉默。事实上，参与突触后放电的突触权重通过反赫布STDP减少，导致其减少，这一过程可能持续到尖峰消亡。除了这一实际观察之外，非联想性奖励依赖于时间信用分配问题（或远端奖励问题）的概念，这一概念得到了充分的生物学支持。在中枢神经系统中，据报道奖励（多巴胺）与STDP极性和形状之间存在各种复杂的关系和效应，取决于多巴胺浓度、激活的多巴胺亚型受体（D1型与D2型）、多巴胺传递相对于STDP诱导的时间性，以及多巴胺与其他神经调质如乙酰胆碱的相互作用。因此，我们选择将奖励与STDP解耦，以尽可能通用，而不偏向任何复杂的相互作用。时间信用分配问题质疑奖励与先前动作之间的时间联系，以允许强化学习。时间信用分配问题可以通过资格迹的概念来解决，资格迹是由学习引起的突触标记，可以通过各种神经调质（如多巴胺）的回溯效应转化为突触可塑性。重要的是，资格迹允许从学习序列中保持突触痕迹，但除非奖励在资格迹消亡之前发生，否则不会引发突触可塑性。实验上，例如通过监测结构可塑性，已经证明了这一点，结果显示当多巴胺纹状体在STDP后最多2秒释放时，结构可塑性发生。在这些论文中，没有报告诱导可塑性时间依赖性的渐进证据，因此我们没有假设任何时间依赖性。

我们选择非联想性LTP来建模奖励信号，导致以下突触更新规则，其中在皮层神经元i的每次突触前尖峰时，相关联的突触权重Wi通过以下方式更新：

纹状体中的模式识别

纹状体的学习基于检测皮质输入的相关序列29-31。我们通过不同的任务模拟了学习过程，其中向MSN呈现了Np个皮层活动的尖峰模式。

这些模式代表了一个持续时间为tduration = 50 ms的皮质活动序列，并结合了（i）涉及一部分皮质神经元的特定时空活动模式（每次呈现模式时始终存在）和（ii）所有皮质神经元的随机尖峰活动。

在图1c中，详细描述了一个简单的学习任务，包含两个模式：patternA对应于在时间toffset时皮质神经元4的尖峰；patternB中，皮质神经元1在toffset时尖峰，随后在延迟tdelay后，皮质神经元3尖峰。

在学习过程中，网络随机呈现了Np个模式中的模式。在这些模式中，固定子集以1/2的概率被选择为奖励模式。相应地，其余模式被定义为非奖励模式。在图1c所示的例子中，patternA被选择为非奖励（-），而patternB被奖励（+）。在训练期间，奖励模式受到正向增强信号（Areward > 0）的影响，而非奖励模式则不受影响（Areward = 0）。对于所有模式，STDP规则也根据突触前和突触后尖峰应用于突触权重矩阵W。

学习准确性的量化

学习过程的准确性通过正确响应的平均数量来估计：‍

为了正确分类一个奖励模式，MSN在皮层模式期间不应该发放，而只在序列结束时才被引发，以模拟纹状体根据整个皮层活动序列做出决策的能力，而不仅仅是基于第一批尖峰。

为了避免由于学习响应的结构（即不可避免的成功与失败的交替，如图3中所研究的）而导致准确度的虚假波动，从而准确评估序列的学习，我们还定义了：

算法基准测试

对于两个系统，计算了准确度和最大准确度，并与传统算法的分类准确度进行了比较。具体来说，我们定义了一个等效的优化问题，其中使用逻辑回归学习正确的分类，使用lmfit包实现。我们通过将矩阵的二进制版本作为输入来训练网络，其中= 1表示皮层神经元n在模式p期间发放，= 0表示神经元n在模式p期间没有发放。逻辑回归中的线性矩阵W被限制为只有正系数，从而执行与兴奋性网络学习相关的约束。使用我们的任务与序列学习中的其他算法进行比较似乎不可行。事实上，这些算法要么旨在复制目标尖峰列车（例如，Chronotron20），因此将目标整合到它们的更新规则中，要么对模式进行分类（例如，Tempotron21），而对输出尖峰列车的时序没有任何约束。我们的任务在更新规则中给出的内容和分类条件上都有所不同，使得大多数比较变得无关紧要。逻辑回归，具有正权重，为我们提供了一个简单的方法，有效地将我们的任务与感兴趣的基线进行比较。

学习任务

我们定义了四个任务来描述网络学习能力的不同维度。

任务1：学习具有固定延迟的皮层尖峰的空间时间序列。模式的构建是随机的，具体如下：

a. 参与模式的皮层尖峰数量n在1到之间随机选择。

b. 参与模式的神经元的有序身份是从{1, P}中n个神经元的有序集合（不重复）中随机选择的。

c. 时间序列定义为第一个尖峰在时间随后的尖峰以固定延迟= 1毫秒呈现。

d. 最后，每个模式被选择以1/2的概率获得奖励。

任务2：学习嵌套尖峰序列：我们测试了网络区分P个嵌套模式的完整序列的能力，(1)，(1, 2)，...，(1, 2, ..., P)，当考虑所有可能的奖励/非奖励模式组合（2^P种情况）。例如，对于P = 2，网络被测试在4个不同的2个模式集合上，(1)和(1, 2)，每个模式要么是奖励的(+)要么是非奖励的(-)（如图1c所示）。对于这个任务，我们选择了尖峰之间的延迟为tdelay = 0.5毫秒。

任务3：对噪声的鲁棒性：这个任务考虑了像任务1中形成的模式，但是尖峰在空间时间模式中的时间被一个均匀随机变量（抖动）所偏移。

统计与可重复性

学习准确性及其他网络特性是在一个固定的网络上估计的，突触权重被冻结（即没有可塑性），且没有噪声。所有模式都被呈现，记录每次模式呈现的反应，并且在每次模式之间，MSN膜电位被重置为其静息值。模拟是在使用 Python 3.X 开发的自定义代码上进行的，采用 Anaconda 套件（Anaconda 软件发行版，计算机软件版本 2-2.4.0，Anaconda，2016 年 11 月，网址：https://anaconda.com）和数值计算库 numpy 以及绘图库 matplotlib。生成图形的所有代码可在 https://github.com/Touboul-Lab/SequenceLearning 上自由获取。运行该代码将允许重现结果（可能使用不同的随机种子）。模拟在 INRIA CLEPS 集群和 GENCI-IDRIS 的 HPC 资源上运行（资助号 2022-A0100612385），使用 GNU parallel（Tange, O. (2020, May 22). GNU Parallel 20200522 (“Kraftwerk”)，访问链接 https://doi.org/10.5281/zenodo.3841377）。我们使用欧拉方法模拟网络和泊松过程，固定时间步长 ( dt = 0.1, ms)。独立的 Matlab 代码被开发用来确认与简单情况下模型 M1 相关的一些结果，尤其用于生成图 3。

我们使用了来自 scipy.stats Python 库的统计 t 检验或 Matlab 的 ttest2 函数（*p < 0.05，**p < 0.005，***p < 0.0005）。箱线图由 matplotlib 生成，表示包含数据的第一和第三四分位数的箱体，中间有一条中位数线，须延伸到箱体外的最远数据点，范围为 1.5 倍的四分位距（即箱体的长度）。超出须端的点被称为异常点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.