嵌套学习:深度学习架构的幻觉|算法|上下文|新论文|神经网络

分享至

Nested Learning: The Illusion of Deep Learning Architectures

嵌套学习:深度学习架构的幻觉

https://arxiv.org/pdf/2512.24695

摘要

在过去几十年里，开发更强大的神经架构以及同时设计优化算法来有效训练它们，一直是增强机器学习模型能力研究工作的核心。尽管最近取得了进展，特别是在开发语言模型（LMs）方面，但在这种模型如何持续学习/记忆、自我改进和找到有效解决方案方面，仍存在根本性挑战和未解答的问题。

在本文中，我们提出了一种新的学习范式，称为嵌套学习（Nested Learning, NL），它将机器学习模型连贯地表示为一组嵌套的、多层次的和/或并行的优化问题，每个问题都有其自身的"上下文流"。通过NL的视角，现有的深度学习方法通过压缩其自身的上下文流来从数据中学习，而上下文学习（in-context learning）则自然地在大型模型中出现。

NL提供了一种设计哲学，用于设计具有更多"层次"的更具表达力的学习算法，从而实现高阶上下文学习，并有可能解锁有效的持续学习能力。除了其神经科学动机之外，我们通过三项核心贡献来倡导NL：

(1) 表达性优化器： 我们表明，已知的基于梯度的优化器（如Adam、带动量的SGD等）实际上是旨在压缩梯度信息（通过梯度下降）的关联记忆模块。基于这一洞见，我们提出了其他具有深层记忆和/或更强大学习规则的"更具表达性"的优化器；

(2) 自我修改的学习模块： 利用NL对学习算法的洞见，我们提出了一种序列模型，它通过学习自身的更新算法来学会如何修改自己；

(3) 连续记忆系统： 我们提出了一种记忆系统的新形式化方法，它推广了传统的"长期/短期记忆"观点。结合我们的自我修改序列模型与连续记忆系统，我们提出了一种称为Hope的持续学习模块，在语言建模、知识整合、小样本泛化任务、持续学习和长上下文推理任务中显示出有希望的结果。

1 引言

几十年来，人工智能研究一直专注于设计从数据（Pitts 1943; McCulloch et al. 1948; McCulloch 1949; Samuel 1959）或经验（Sutton et al. 1998; Connell et al. 1999; Silver et al. 2025）中学习的机器学习算法；通常通过基于梯度的方法在参数上优化目标函数。虽然传统的机器学习技术需要仔细设计和领域专业知识来设计特征提取器，这限制了它们直接处理和学习自然数据的能力（LeCun et al. 2015），但深度表示学习提供了一种全自动的替代方案来发现任务所需的表示。此后，深度学习一直是大规模计算模型不可分割的一部分，在化学和生物学（Jumper et al. 2021）、游戏（Silver et al. 2016, 2018）、计算机视觉（Krizhevsky et al. 2012; Dosovitskiy et al. 2021）以及多模态和自然语言理解（Achiam et al. 2023; Liu et al. 2024a; Comanici et al. 2025）方面取得了开创性的成功。

在深度学习模型中堆叠多个层，为模型提供了更好的表达能力来表示复杂特征，以及更多的内部计算（例如，）（Montúfar et al. 2014; Poole et al. 2016; Hestness et al. 2017），这些都是对于需要在先验固定集合上进行分布内预测的静态任务而言关键且理想的特性。然而，这种深层设计并非解决所有挑战的通用方案，也无法在多个方面帮助模型的表达能力，例如：(i) 深度模型的计算深度可能不会随着层数增加而改变（Merrill et al. 2022; Sanford et al. 2024），与传统浅层方法相比，其实现复杂算法的能力保持不变（Merrill et al. 2024）；(ii) 某些参数类别的容量可能随着模型深度/宽度的增加而显示边际改善（Kaplan et al. 2020）；(iii) 训练过程可能收敛到次优解，主要是由于优化器或其超参数的选择不当；以及 (iv) 模型快速适应新任务、持续学习和/或泛化到分布外数据的能力可能不会随着堆叠更多层而改变，需要更仔细的设计。

克服上述挑战和增强深度学习模型能力的核心努力集中在：(1) 开发更具表达力的参数类别（即神经架构）（Fukushima 1980; Schmidhuber et al. 1997; Krizhevsky et al. 2012; Vaswani et al. 2017; Behrouz et al. 2025c）；(2) 引入能够更好建模任务的目标函数（Rumelhart et al. 1986; Kingma et al. 2014b; Hjelm et al. 2019; Goodfellow et al. 2020; Alshammari et al. 2025）；(3) 设计更高效/有效的优化算法以找到更好的解或具有更强的抗遗忘能力（Kingma et al. 2014a; Gupta et al. 2018; Farajtabar et al. 2020; Jordan et al. 2024）；以及 (4) 在做出架构、目标函数和优化算法的"正确"选择时，扩大模型规模以增强其表达能力（Brown et al. 2020; Kaplan et al. 2020; Hoffmann et al. 2022）。总体而言，这些进展以及关于深度模型扩展模式的新发现，为大型语言模型（LLMs）的建立奠定了基础。

LLMs的发展标志着深度学习研究的一个关键里程碑：从特定任务模型到更通用的系统的范式转变，这是扩展"正确"架构的结果（Brown et al. 2020; Schaeffer et al. 2023）。尽管LLMs在各种任务集中取得了成功和显著的能力（Nijkamp et al. 2023; Wang et al. 2023; Comanici et al. 2025），但它们在初始部署阶段后基本上是静态的，这意味着它们成功地执行在预训练或后训练期间学习的任务，但无法在其直接上下文之外持续获取新能力。LLMs唯一可适应的组件是它们的上下文学习能力——这是LLMs的一种（已知是涌现的）特性，能够实现对上下文的快速适应，从而执行零样本或少样本任务（Brown et al. 2020）。除了上下文学习之外，近期克服LLMs静态特性的努力要么计算成本高昂，需要外部组件，缺乏泛化能力，和/或可能遭受灾难性遗忘（Akyürek et al. 2024a; Eyuboglu et al. 2025; yu et al. 2025），这导致研究人员质疑是否需要重新审视如何设计机器学习模型，以及是否需要超越层堆叠的新学习范式来释放LLMs在持续设置中的能力。

当前模型只体验即时当下。 作为类比，为了更好地说明LLMs的静态特性，我们使用了顺行性遗忘症的例子——一种神经系统疾病，患者在疾病发作后无法形成新的长期记忆，而现有记忆保持完整（Scoville et al. 1957）。这种情况将患者的知识和经验限制在短暂的当下窗口和遥远的过去——在疾病发作之前——导致持续地将即时当下体验为全新的。当前LLMs的记忆处理系统遭受着类似的模式。它们的知识仅限于：要么适合其上下文窗口的即时上下文，要么存储在MLPs中的"预训练结束"之前的长期过去知识。这个类比促使我们从神经生理学文献以及大脑如何巩固其短期记忆中汲取灵感。

1.1 人脑视角与神经生理学动机

人脑在持续学习方面非常高效和有效，这通常归因于神经可塑性——大脑根据新经验、记忆、学习甚至损伤来改变自身的卓越能力（Pascual-Leone et al. 2005; Johnston 2009）。近期研究支持，长期记忆的形成涉及至少两个不同但互补的巩固过程（Frey et al. 1997; Goto et al. 2021; Yang et al. 2024）：(1) 快速的"在线"巩固（也称为突触巩固）阶段在学习后立即或很快发生，甚至在清醒状态下也是如此。这时新的、最初脆弱的记忆痕迹被稳定下来，并开始从短期存储转移到长期存储；(2) "离线"巩固（也称为系统巩固）过程在海马体的尖波涟漪（SWRs）期间，与皮层的睡眠纺锤波和慢振荡相协调，重复重放最近编码的模式——加强和重组记忆，并支持向皮层位点的转移（Foster et al. 2006; Ji et al. 2007; Peyrache et al. 2009）。

回到顺行性遗忘症的类比，证据表明该疾病可能影响两个阶段，但特别是影响在线巩固阶段，主要是由于海马体是编码新陈述性记忆的门户，因此其损伤意味着新信息永远不会被存储在长期记忆中。如上所述，LLMs的设计，更具体地说基于Transformer的架构，在预训练阶段后遭受类似的状况。也就是说，上下文中提供的信息永远不会影响长期记忆参数（例如前馈层），因此模型无法获取新知识或技能，除非信息仍然存储在短期记忆中（例如上下文或注意力中）。为此，虽然第二阶段对于记忆的巩固同等重要，甚至更为关键，且其缺失可能损害过程并可能导致记忆丧失（Drummond et al. 2000; Yoo et al. 2007），但在本工作中，我们关注第一阶段：作为在线过程的记忆巩固。如前所述，人类的记忆处理、其在线巩固以及持续学习能力被认为高度依赖于神经可塑性以及神经振荡（Bliss et al. 1993; Buzsaki et al. 2004; Klinzing et al. 2019）。

多时间尺度处理系统。 脑振荡（也称为脑波）——大脑活动中的节律性波动——不仅仅是大脑功能的副产品，而是越来越被理解为在各种认知功能（如注意力、记忆和决策）中发挥关键作用，并且是组织神经计算、协调脑区之间通信以及门控构成学习和记忆基础的突触可塑性的核心机制（Fell et al. 2011; Cavanagh et al. 2014; Fries 2015）。这些脑波是大脑在不同时间尺度和频率更新中协调其计算的结果，其中每个频率决定脑神经元群组变得活跃并共享更新信息的频率。更具体地说，这种神经振荡通常被分类为不同的频率，每个频率都与不同的认知功能相关，关键的是，与不同时间尺度的信息处理相关：范围从(1) 主要与感觉信息相关的快速Gamma波（30-150 Hz频率）到(2) 主要与主动思考相关的Beta波（13-30 Hz频率）（Buzsaki et al. 2004; Buschman et al. 2007; Lundqvist et al. 2016），以及(3) 主要负责记忆巩固和学习的慢Delta和Theta波（0.5-8 Hz频率）（Marshall et al. 2006; Diekelmann et al. 2010; Ngo et al. 2013; Staresina et al. 2015; Heusser et al. 2016; Daume et al. 2024）。

然而，在深度学习模型中，架构的权重在测试时是固定的，而且在预训练中对模型的所有块/层使用相同的更新率也很常见。然而，在第6节中，我们表明上下文学习提供了这种设计的一个极端案例，事实上，Transformer架构基于两个极端的更新频率：即对于注意力块和MLP块分别为∞和0。

大脑的统一和可重用结构。 如前所述，神经可塑性是大脑根据新记忆、知识甚至损伤来改变自身的卓越能力（Pascual-Leone et al. 2005; Johnston 2009）。这一特征表明了一种统一的架构，其中神经元素并非严格专用于某一功能，而是可重用的，能够被灵活地重新部署以支持不同的认知需求。神经可重用性的一个真实世界例子是大脑半球切除术——通常是为了缓解严重癫痫而切除或禁用一侧大脑半球。令人惊奇的是，如果在儿童时期进行这种手术，患者可以在成年期过上大体正常的生活，具有高功能认知和完整的神经网络组织，其中包含与典型双半球大脑中存在的所有相同核心脑网络（语言、视觉等网络）。这种非凡的结果为大脑的统一架构提供了现实生活中的证明。也就是说，即使只有半个大脑，也可以重新分配资源和重组，使人能够极好地运作。这类案例，以及有记录的个体在缺失部分皮层的情况下仍能相对正常生活的实例，突显了大脑的统一和可重用结构。

此外，这种对大脑统一和可重用结构的解释表明，人脑中的记忆并非某些特定区域的孤立系统，而主要是分布在大脑各处的。也就是说，与传统记忆模型通常暗示的不同类型的记忆驻留在不同的脑结构中（例如，前额叶皮层的短期记忆与海马体和皮层的长期记忆）相反，现代研究倡导分布在多个区域的神经回路进行记忆处理（Christophel et al. 2017; Kitamura et al. 2017; Roy et al. 2022）。

然而，近年来的现代深度学习架构至少在表面上看起来是异质的，并且基于以下部分的组合：自注意力机制的变体（Vaswani et al. 2017）、现代循环神经网络（Katharopoulos et al. 2020; Schlag et al. 2021; Behrouz et al. 2025c; Peng et al. 2025b）、标准层（Allen-Zhu 2025）、全局卷积（Hasani et al. 2023; Poli et al. 2023）和MLP块（Shazeer 2020）。这提出了一个问题：我们是否需要一个统一的架构，或者我们是否需要重新审视关于当前模型异质性的认知。

1.2 贡献与路线图

在本文中，我们旨在呈现一种统一的学习范式，它不仅为现有算法、方法和架构提供新的见解，而且还揭示了深度学习中层堆叠的新维度，增强了模型的计算深度和持续学习能力。在第2节讨论预备概念和背景之后，我们呈现：

嵌套学习范式（第3节）。 为了回答上述提出的问题，并为克服现代深度学习模型在持续学习、架构设计和计算深度方面的设计挑战提供新的见解，我们提出了嵌套学习（Nested Learning, NL）——一种学习范式，允许机器学习模型的每个组件在其自身的上下文中拥有多层次的内部梯度流，将模型及其学习过程（即优化）表示为一个相互连接的嵌套、多层级和/或并行优化问题的系统。我们认为，优化过程与学习算法/架构本质上是相同的概念，只是处于具有不同上下文（即梯度与词元）的系统中的不同层次。此外，它们是相互连接的组件，学习算法/架构为优化器生成上下文（即梯度），这倡导了设计架构特定优化器的理念。我们讨论了不同层次之间的知识迁移方式，从而统一和泛化了元学习、上下文学习、循环神经网络、超网络等概念。

优化器与架构作为学习模块（第4、5节）。 基于NL的观点，我们认为使用反向传播过程和梯度下降训练深度神经网络是一个压缩和优化问题，旨在训练一个关联记忆模块，将各层的输入映射到其在预测中的相应局部误差。据此，我们认为预训练是上下文学习的一种形式，其中上下文是整个预训练数据，而各层将上下文压缩到其参数中。我们证明，这些论点对于其他流行的基于梯度的优化器同样有效——它们都是旨在将梯度压缩到其参数中的关联记忆模块。

从NL的术语来看，诸如带动量的梯度下降、Adam（Kingma et al. 2014a）和AdaGrad（Duchi et al. 2011）等基于梯度的优化器可以被分解为两级嵌套优化问题，每一级都通过简单的梯度下降进行优化。特别地，这一观点清楚地表明，从理论上讲，对于压缩梯度，Adam是关于逐元素L2回归目标的最优关联记忆。

我们重新审视了将架构表示为关联记忆的先前发现（Behrouz et al. 2025b），并将其优化过程分解为一组嵌套优化问题，所有这些问题都通过梯度下降进行优化。基于上述发现——即流行的基于梯度的优化器和现代架构都是一组嵌套和/或并行优化问题——我们认为这两者的组合——即使用特定优化器训练架构——也可以表示为一组嵌套和/或并行优化问题。因此，神经学习模块（架构及其训练/优化过程的联合系统）是一个统一模型，其中所有元素都是线性或深层MLP，同时它们在不同层次以不同频率优化其自身的内部目标。

基于优化器的关联记忆视角，我们设计了一组具有更具表达性的记忆结构或记忆管理的新学习更新（优化步骤），用于压缩梯度。特别地，我们认为优化器的选择取决于优化的上下文。一个用于压缩梯度的强大优化器可能不是压缩词元的最佳选择。为此，我们提出了一种新的梯度下降变体，称为Delta梯度下降（Delta Gradient Descent, DGD），其更新不仅依赖于当前输入，还依赖于神经网络的权重状态，从而能够在不假设独立同分布（i.i.d.）的情况下捕捉数据样本之间的依赖关系。

主要收获与重新审视常用术语：持续学习与上下文学习、预训练和学习（第6节）。 我们讨论了NL关于核心概念的主要收获，并重新审视了一些常用术语：(1) 我们认为持续学习可以被视为在传入上下文或片段序列上的学习问题，其中不同层次负责压缩其自身的上下文内知识并将其转移到更高层次。基于此，我们倡导设计不依赖测试/训练阶段的模型和流程，而是持续管理其知识和记忆；(2) 上下文学习是"具有多个嵌套层次"的特性。据此，Transformer的上下文学习源于其作为对词元特定回归目标的非参数解，而现代循环模型在其较低层次使用参数学习过程；(3) 我们进一步重新审视了其他术语，如学习/记忆、混合架构、循环架构和学习优化器。

连续记忆系统、自指代Titans与Hope（第7、8节）。 我们通过提出连续记忆系统（Continuum Memory Systems, CMSs）来泛化传统的"长期/短期记忆"（LSM）观点，将记忆视为具有频率更新频谱的分布式相互连接系统。在这种设计中，高频率神经元负责快速适应，但将记忆/知识存储较短时间，而低频率神经元负责更持久的知识。与LSM相比，我们表明这种多频率设计导致模型记忆的循环过程，这意味着知识在被遗忘时可以部分恢复。虽然我们将这种记忆系统主要设计为Transformer中MLP块的替代品，但我们利用这一直觉设计了多尺度动量Muon（Multi-scale Momentum Muon, M3）优化器——一种具有多个动量项的优化算法——进一步支持CMSs设计在不同上下文中的重要性。

评估（第9节）。 为了支持我们概念验证的有效性以及嵌套学习设计的重要性，我们在以下方面进行了实验评估：(1) 持续学习和上下文学习任务，包括(i)学习新语言，(ii)类别增量学习，以及(iii)在新语料库上的问答；(2) 长上下文理解任务，包括大海捞针（needle-in-a-haystack）（Hsieh et al. 2024）和BABILong（Kuratov et al. 2024）基准测试；(3) 语言建模和常识推理任务；(4) 上下文回忆和记忆任务；(5) 语言识别任务；以及(6) 比较不同的优化器，包括我们的M3优化器。我们的结果表明NL观点在设计具有持续学习能力、多层次计算和自指代过程的模型方面的有效性。

2 预备知识

本节讨论相关符号约定并回顾背景概念。

上下文学习。“上下文学习”这一概念最初由 Brown 等人（2020）定义为语言模型利用预训练期间获得的知识，仅基于其上下文（例如，少量示例或自然语言指令）推断和执行新任务的能力。这个广泛且通用的定义，原则上适用于任何架构主干和/或目标函数的语言模型，后来被形式化地描述为仅适用于通过下一个词预测目标训练的 Transformer 架构的上下文学习。因此，尽管对基于 Transformer 的模型可以在上下文中学习的算法/问题进行了广泛研究（Akyürek 等人，2022，2024b；Zhang 等人，2024a；Dherin 等人，2025），但作为其一般形式的上下文学习相对而言尚未得到充分探索。在本文中，我们使用“上下文学习”最通用的定义，并将其指代为模型根据给定上下文自适应和学习的能力。我们的自然语言公式将上下文学习与联想记忆的概念联系起来，为模型的上下文学习能力提供了一个统一的解释，无论其架构主干和/或目标函数如何。

3 嵌套学习

本节讨论嵌套学习的动机、形式定义以及一般性的高层次影响。我们首先提出联想记忆的公式，然后通过逐步示例，建立架构分解的直觉及其与将神经网络建模为优化问题集成系统的联系。我们旨在首先展示深度学习中现有的方法和概念如何归入嵌套学习范式，然后提出超越传统方法的新公式，并/或提供关于如何改进现有算法和设计的见解。

3.1 联想记忆

联想记忆——即形成并检索事件之间联系的能力——是一种基本的心理过程，也是人类学习中不可分割的组成部分（Terry 2017）。在文献中，记忆和学习这两个概念经常被混用；然而，在神经心理学文献中，这两者被明确区分。更具体地说，遵循神经心理学文献（Okano 等人，2000），我们基于以下关于记忆和学习的定义来构建我们的术语：

在这项工作中，我们的目标是首先证明计算序列模型的所有元素（包括优化器和神经网络）都是压缩其自身上下文流的联想记忆系统。广义而言，联想记忆是将一组键映射到一组值的算子。我们遵循 Behrouz 等人（2025b）提出的联想记忆的通用定义：

该算子本身是一种记忆，而其映射过程则充当了记忆行为（即记忆上下文中事件之间的联系）。基于数据来获得这种有效的算子，则是一个学习过程。请注意，这里的键和值可以是任意事件，记忆旨在对它们进行映射，并不局限于令牌。稍后我们将讨论，在给定的上下文流中，键和值可能是令牌、梯度、子序列等等。此外，虽然联想记忆这一术语在神经科学和神经心理学文献中更为常见，但上述公式也与数据压缩和低维表示密切相关。也就是说，我们可以将公式（6）中的优化过程解释为网络 M ( ⋅ )
的训练过程，该网络旨在将映射关系压缩到其参数中，并在低维空间中表示它们。

在序列建模中，当键和值是输入令牌（例如，经过分词的文本）时，目标函数的选择以及用于求解公式（6）的优化过程，可以产生不同的序列建模架构（参见 Liu 等人，2024b 和 Behrouz 等人，2025b），例如全局/局部 softmax 注意力机制（Vaswani 等人，2017），或其他现代循环模型（Katharopoulos 等人，2020；Sun 等人，2023；Behrouz 等人，2025c）。这种简单的序列模型公式化表述，使我们能更好地理解其内部过程，同时也提供了一种工具，可以根据其目标函数和优化过程来简单比较它们的建模能力。接下来，我们将通过逐步的示例，探讨如何将此公式应用于神经架构的所有组件（包括其在预训练中的优化过程），并实际上说明一个模型是如何成为一个多层次、嵌套、且可能并行的记忆集成系统，其中每个层次都有自己的上下文流。

因此，该公式将模型的训练阶段转化为一个获取有效记忆的过程，该记忆将数据样本映射到其表示空间中的 局部惊奇信号（LSS） ——衡量其对应输出的惊奇程度。该梯度可视为预测中的误差（当损失最小时梯度为零）。在第4节中，我们将更详细地讨论反向传播过程作为一种联想记忆，但作为这个简单示例的初步启示：

包含更多层级的架构分解 。在上述两个示例中，我们讨论了它们如何被视为一个 双层优化过程 （这与它们的FWPs解释相符）。然而，在实践中，我们可能需要使用更强大的优化过程和/或更强大的记忆循环更新规则。举个简单的例子，假设我们使用带动量的梯度下降来训练一个线性注意力模型。如上所述，线性注意力组件可以被分解为两个嵌套的优化过程。类似地，这里的模型可以表示为一个双层优化问题，其中（1）内层使用梯度下降优化记忆以压缩上下文（公式 17），（2）外层使用带动量的梯度下降优化投影层。有趣的是，我们发现“带动量的梯度下降”算法本身也可以被视为一个双层优化过程，其中动量项本身就是一个将过往梯度压缩到其参数中的联想记忆。

3.2 嵌套优化过程

在上一节中，我们通过示例展示了如何将机器学习模型分解为一组嵌套或多层次的优化过程。接下来，我们首先给出嵌套学习问题的形式化定义，然后定义神经学习模块——一个从数据中学习的集成计算系统。

在之前的章节中，我们将模型分解为一组优化过程。然而，目前尚不清楚我们是否能在这些过程中定义一种层级（或顺序）关系，并以这种格式唯一地表示模型。受大脑波层级（指示各部分信息处理频率，第1节已讨论）的启发，我们利用每个优化过程的更新速率来对多个层级的组件进行排序。为此，我们设每处理一个数据点的一次更新步骤为一个时间单位，并将每个组件的更新频率定义如下：

定义2（更新频率）。对于组件 A A的任意部分，它可以是参数化组件（例如，可学习权重或带动量的梯度下降中的动量项）或非参数化组件（例如，注意力块），我们将其频率（记为）定义为单位时间内其更新的次数。

请注意，每个优化过程都有其自身的梯度流，因此有时我们将其称为对应于某个优化问题的梯度流盒子。在本文中，我们进一步推广了嵌套系统的定义，并允许为某些盒子（即优化问题）寻找非参数化解。

上述定义为嵌套系统提供了一个通用且灵活的定义，它并未指定不同盒子之间是否存在依赖关系（即，一个盒子可以决定另一个盒子的上下文或参数空间）。在接下来的章节中，我们将讨论知识/信息如何在不同的层级或盒子之间传递。在整篇论文中，我们主要关注联想记忆的嵌套系统，这是一个嵌套系统，其中每个优化过程都是一个联想记忆。更正式地说，

上述示例也适用于在 Transformer 架构中使用更先进、更深的 MLP 块（如 SwiGLU（Shazeer 2020）），并将其与其对应的循环记忆版本（Behrouz 等人，2025a）进行比较。此外，这个简单的示例表明，当前将混合架构视为表达性强大的 softmax 注意力与高效循环模型结合的观点有些误导性，它遵循了传统的 Transformer 骨干设计，但为 MLP 块增加了上下文学习能力。我们将在第 6 节和第 7 节进一步讨论这一点。

作为本小节关于嵌套系统和嵌套学习概念讨论的要点：

如先前所讨论，在文献中，将架构与其优化过程分离并视其为独立的设计选择是常见的做法，旨在组合在各方面都能实现最大表达能力的算法。然而，在实践中，使用随机梯度下降优化的Transformer架构（Vaswani等人，2017）所学得的解决方案，与使用Adam优化器（Kingma等人，2014a）的同一架构所学得的方案可能有很大不同。因此，在与这类机器学习算法交互时，我们观察到，尽管架构轴相似，但整体训练出的模型展现出不同的预测或生成不同的输出。然而，从嵌套学习的视角来看，一个机器学习算法被表示为一个优化问题与模型行为、预测及输出生成的互联系统；模型的预测和输出生成取决于这个系统整体，而非其各子组件的简单叠加。为此，我们定义神经学习模块这一术语来指代模型的这种表示，其中架构和优化过程共同决定了模型及其输出。虽然在当前存在训练阶段和测试阶段的机器学习流程中，这种联合表示可能显得不那么重要，但在我们所倡导的持续学习设置中（即没有明确的训练/测试阶段，详见第8节），它变得更加重要。

公式 23 中模型 f ( ⋅ ; ⋅ ) 优化过程的一种解读，是将模型视为该优化过程的数据生成器。也就是说，正如第 3.1 节第一个示例所讨论的，以及我们将在第 4 节展示的那样，优化过程是一种联想记忆，旨在压缩训练数据与其梯度（或惊奇度）之间的模式。因此，内部训练这种记忆（即模型的梯度）所用的数据集是由模型生成的。这样一来，模型的类型可能导致生成的数据集（即梯度）随着时间推移具有不同的模式和分布。优化过程的影响以及这种数据生成也会反馈到模型自身，模型中参数的下一状态由优化算法决定。正如我们将在第 4 节讨论的，将优化器视为对模型梯度的联想记忆，意味着每个优化器都具有某些特殊属性，例如更好的记忆管理、更高的压缩率等。因此，选择这类算法需要理解生成的梯度以及模型在参数空间中的变化。

3.3 层级间的知识传递

层级的直接连接（参数化）。第一种知识传递类型是直接整合不同层级或块的权重。为此，低频（即高层级）记忆系统的前向传递或检索过程也以高频（即低层级）记忆的参数为条件：

作为这种变体的一个示例，可以参见 Transformer 和 softmax 注意力模块（Vaswani 等人，2017）。上述两种变体都有一个重要特征：在不同层级的两个块之间，没有经过任何状态的反向传播，知识传递是通过直接将一个层级的输出以另一个层级的输出/参数为条件来实现的。因此，在这个过程中，每个块的状态都被视为另一个块的超参数。

通过反向传播的知识传递。另一种知识传递形式是通过反向传播，即在不同层级的块之间存在梯度流。这种设计的前向传播过程与上面讨论的前向传播相同。然而，反向传播是主要区别所在：在上述两种情况下，每个联想记忆的状态被视为另一个记忆的超参数，但在这里，两种状态都在同一个梯度流中进行优化。因此，对于一个简单的两层块结构，我们有：

通过初始化的知识传递。模型无关元学习（MAML）（Finn 等人，2017）是元学习（或称学会学习）中最受欢迎的形式之一，其目标是学习模型的一个全局初始点，以便能够快速学习新任务。从嵌套学习的视角看，存在两个嵌套的优化过程：其中内层问题在其自身上下文上进行迭代，并基于其内部目标；高层级问题则将其自身学习到的权重作为内层问题的初始点进行衡量。更正式地，我们定义：

其中高层级块在所有低层级问题可能遇到的上下文上学习最佳初始值。如前所述，任何基于 MAML 的学习模型都是这种情况的一个实例，但作为一个更具体的例子，我们参考第 3.2 节和图 3 讨论的（MLP 层与线性注意力）示例。

与生成的联系。知识传递最常见的形式之一是通过生成权重或上下文。也就是说，一个较低频率（或较高频率）的块生成较高频率（或较低频率）块的权重。更正式地，

上述形式的知识传递有两个重要示例：（1）超网络：目标神经网络的权重由另一个（生成器）网络生成。（2）优化过程：架构为优化器生成输入。也就是说，优化器的上下文（或输入数据）是架构生成的梯度。关于此主题的更多讨论，请参见第 4 节。请注意，此示例不一定涉及“学习到的优化器”，它同样适用于常用的优化过程和算法，例如梯度下降、Adam（Kingma 等人，2014a）、AdaGrad（Duchi 等人，2011）等。

关于设计神经学习模块的说明。以上我们仅讨论了一些可能的知识传递方法的示例，以及不同层级间的潜在联系。然而，嵌套学习和神经学习模块的表述是通用的，因此不仅限于上述特定的方法集合。因此，要从嵌套学习的角度设计神经学习模块，有两个重要的步骤和设计选择：

值得注意的是，通过不同的知识传递方式选择，一些学习范式可以被视为神经学习模型的一部分。例如：（1）元学习，当两个层级的块之间进行知识传递，其中一个层级通过元学习来指导另一个层级；（2）模型无关元学习（MAML）（Finn 等人，2017），当知识传递通过学习初始化实现时；（3）超网络，当一个较高频率的块为另一个较低频率的块生成权重时；（4）学习到的优化器，当知识传递通过数据生成实现时（即一个高频率块为另一个低频率块生成梯度）。

4 优化器作为学习模块

在本节中，我们首先从联想记忆和数据压缩的角度来审视反向传播过程以及对神经网络的优化。接着，我们将讨论诸如基于动量的优化器等变体如何成为嵌套联想记忆系统的实例。最后，我们将从联想记忆的角度探讨其他方法，这些方法可以产生具有更强表达能力深度优化器。

4.1 反向传播作为联想记忆

反向传播 ≠ 线性注意力。对公式 30 的一个常见误解是假设 δ ℓ
是一个预先计算好的项，因此反向传播（至少在线性层上）恢复了赫布学习规则，从而导致优化过程等同于在梯度上执行线性注意力。然而，我们的公式表明，反向传播中的更新规则是一个自指过程（Schmidhuber 1993），其中联想记忆的值由其自身生成，这使得它成为一种比简单的梯度线性注意力更复杂的联想记忆（参见第 4.5 节）。

4.2 基于动量的优化器作为联想记忆

基于动量的优化器是现代机器学习模型训练的主要组成部分（Duchi 等人，2011；Kingma 等人，2014a；Jordan 等人，2024）。为了将基于动量的优化器解释为联想记忆，让我们从一个简单的梯度下降算法开始：

该规则根据瞬时梯度（或惊奇度）更新权重的当前状态。此更新规则没有纳入先前处理的令牌以及迄今已探索的损失函数地形，导致在许多情况下收敛速度较慢（或鲁棒性较差）。为了解决这个问题，基于动量的梯度下降方法纳入了过去梯度的指数移动平均（EMAs）：

预处理与海森矩阵近似。另一类算法是预处理算法，其核心思想是近似海森矩阵的逆以模拟牛顿算法的行为。形式上，带有预处理的梯度下降定义如下：

基于这一视角，核心问题在于找到能够增强压缩过程的最佳坐标系。最简单的变体是恒等映射，即我们保持度量系统不变，并利用 P P将 g g（在本例中为梯度）映射到其自身，从而产生 Adam（Kingma 等人，2014a）和 AdaGrad（Duchi 等人，2011）中的预处理项，如附录 B 所述。这些结果，以及将 Adam 及其变体表示为联想记忆，表明不仅基于动量的优化器是联想记忆，它们还可以被分解为一组嵌套的学习问题，每个问题都通过梯度下降进行优化。然而，在更一般的形式中，可以使用更多嵌套层级，并通过梯度下降优化公式 40 中的内部问题，从而得到：

在 NL 框架中，要设计有效的预处理，需要找到的正确选择。这一视角还可以引出其他类别的算法，例如具有梯度/动量正交化特性的算法：例如 Muon 及其变体（Jordan 等人，2024；Cesista，2025；Keigwin 等人，2025）。回顾 Muon 优化器（Jordan 等人，2024）：

受这一观察启发，我们接下来将讨论更具表达能力的动量变体，这些变体能够实现更好的记忆管理和更高的记忆容量：

4.4 作为联想记忆的动量的更具表达能力的设计

到目前为止，我们讨论了（1）动量项可被视为一种旨在将（过去的）梯度压缩到其参数中的联想记忆；以及（2）对于能够长时间持续学习多样任务集的模型，优化过程需要关于久远过去和损失地形全局特性的适当信息。接下来，我们将讨论嵌套学习和联想记忆视角如何能够促成具有多样化记忆管理/结构的优化器的设计：

扩展：更具表达力的关联。如前所述，原始动量项可被视为无值的联想记忆。为了允许更具表达力的联想记忆，并遵循联想记忆的原始定义（即将键映射到值），我们令值参数，因此动量旨在最小化：

这种更新基于 delta 规则（Prados 等人，1989），因此它允许记忆（动量）更好地管理其有限的容量（即 O ( N )
），并更好地记忆过去的梯度序列。例如，我们可以在优化过程中学会遗忘某些过去的梯度（类似于从联想记忆中的线性注意力转向 delta 规则时发生的情况）。我们将此类动量项的变体称为 Delta 动量变体。

扩展：更具表达力的记忆。将动量视为一个压缩器或一个将过去梯度存储到其元素（参数）中的记忆，其容量不仅取决于其更新规则（如上所述），还需要更具表达力的结构以允许更大的容量。当前的公式基于一个线性层（即矩阵值）来压缩过去的梯度值，但这种线性特性可能限制其仅学习过去梯度的线性映射。为了提高该模块的学习能力，可以使用更复杂的映射，例如用 MLP 替换动量中的线性矩阵值记忆。这种设计允许动量记忆更多的梯度，从而为优化过程提供更好的信息。我们将公式 33 扩展为：

优化器中长上下文的玩具示例。在第 4.3 节中，我们讨论到在复杂设置（包括正交任务的持续学习）中，我们可能需要更复杂的动量项，要么具有更高的容量，要么具有更好的记忆管理能力。为了更好地说明其他动量记忆设计的潜在收益，我们使用一个时变曲率的玩具示例。由于标准动量充当低通滤波器，如果损失地形以高频变化，那么旨在使用过去梯度加权平均的标准动量将受到不相关梯度项的影响，从而延迟收敛。作为一个说明性示例，考虑如下情形：

并旨在使用标准动量和我们的 delta 动量来优化它。我们从点 ( r 0 , θ 0 ) = ( − 3.5 , 2 )
开始优化过程，并持续到其中一个算法收敛到最优解为止。结果如图 4 所示。delta 动量更快地找到了解，这主要是由于其依赖于梯度的权重衰减有助于动量项在需要时衰减或停止。

4.5 超越简单梯度下降与动量

这种基于Delta规则的新算法（Prados等人，1989），我们称之为Delta梯度下降，它不仅基于当前元素更新权重，还结合了权重的先前状态，从而产生了一个基于当前数据样本的自适应衰减项。接下来，我们将讨论关于使用梯度下降的反向传播过程的一种广义视角，这将有助于我们后续构建广义梯度下降系列的学习规则：

基于上述解释，我们可以将使用梯度下降的反向传播以一种通用形式定义，即任何旨在将训练样本压缩为键，并将它们映射到自生成的值，以更好地控制其自身学习过程的自指模型。根据此定义，我们附录 C 中的上述公式仅是一个使用回归损失的简单实例；然而，通常来说，我们可以将广义梯度下降定义如下：

定义 5（广义梯度下降学习规则）。广义梯度下降学习规则是一种自指的联想记忆，旨在压缩数据样本并将其映射到一组自生成的键：

同样地，这一公式可以适用于动量项，从而产生广义动量。然而，值得注意的是，动量本身是一种传统的联想记忆，其键和值是给定的，或者更具体地说，是由一个较低频率的层级生成的。在第 4.2 节中，我们探讨了这一公式的一个特殊情况，其中回归损失。

关于持续学习设置中优化器的说明。如上所述，优化器本身就是学习模块或联想记忆，旨在将梯度压缩到其参数中。这些参数在传统术语中不一定是可训练的，但事实上，基于动量的优化器存储了关于损失地形的知识，帮助它们更好地更新权重。当神经学习模块的“预训练结束”时，存储在动量项中的关于梯度/数据分布的知识会从模型中移除，因此，在不恢复动量状态的情况下继续训练可能会影响模型学习新能力的效果。当模型处于持续学习设置时，关于数据的知识存储在传统参数中（通过反向传播优化），而关于模型如何优化自身以及目标空间的知识则在较低频率的优化层级（例如动量项）中进行优化。

5 现有架构作为神经学习模块

诸如 Transformer（Vaswani 等人，2017）和循环模型（Katharopoulos 等人，2020；Schlag 等人，2021；Sun 等人，2024；Behrouz 等人，2025c）等现代序列模型是近期语言模型进展的基石。最近，这类模型与旨在从数据中学习从键到值映射的联想记忆之间的等价性已在不同设置和目标下得到了研究（Liu 等人，2024b；Sun 等人，2024；Behrouz 等人，2025b；Wang 等人，2025）。特别地，我们关注 Miras（Behrouz 等人，2025b）的通用框架，该框架将联想记忆定义为定义 1，并在任意函数类（即记忆架构）上，通过选择一种优化算法来优化内部目标（称为“注意力偏置”）。尽管这一表述本身表明，众所周知的架构是联想记忆嵌套系统的实例，但接下来，我们将针对一些学习规则和架构回顾这种等价性。

关于现代序列模型中门控机制的说明。现代语言模型中最近的架构变化之一，是用序列模型的输出对线性层的输出进行门控处理。尽管这种方法带来了显著的性能提升，但其具体如何增强性能仍不明确。正如我们在图 3 及其对应示例中所讨论的，当记忆的初始状态经过元学习时，前馈网络与现代循环记忆模块（如线性注意力（Katharopoulos 等人，2020）或深度记忆模块（Behrouz 等人，2025c））的主要区别在于，记忆模块的第二层级会进行上下文学习并根据上下文调整其状态。从这个角度看，当记忆的初始值未经元学习时，它仅依赖于记忆的上下文自适应，因此在该模块中不存在存储预训练知识的持久记忆系统。所以，在记忆初始值未经元学习的情况下（这在早期线性 Transformer 变体中很常见），线性注意力的门控机制充当了持久记忆以及记忆模块初始化的角色。

5.1 重新审视嵌套学习的人脑视角

在第 1.1 节中，我们讨论了人脑结构的均匀性和可复用性，以及我们是否需要在深度学习中设计新的架构，或者是否需要重新审视当前模型异质性的看法。在前面的章节中，我们观察到神经网络的优化过程以及神经架构都可以被形式化为一组嵌套和/或并行的优化问题，其中记忆结构是前馈层（例如深度 MLP、线性层等），而目标则通过梯度下降或牛顿法进行优化。

原文链接：https://arxiv.org/pdf/2512.24695

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.