陶柯霏：神经网络中的顿悟丨集智百科|算法|拓扑|正则化

分享至

导语

“集智百科精选”是一个长期专栏，持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目，集智百科希望打造复杂性科学领域最全面的百科全书，欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入，文末可以扫码报名加入百科志愿者！

↑↑↑扫码直达百科词条

陶柯霏 | 作者

作者简介

1. 历史

1.1 顿悟的发现

2. 相关基础知识

2.1 神经网络的记忆（Memorization）与泛化（Generalization）

2.2 神经网络中的涌现（Emergent Abilities）

2.3 早停机制（Early Stop）

3. 顿悟的场景

3.1 模运算

3.2 其他算法任务

3.3 非算法任务

3.4 大语言模型

4. 顿悟现象的可解释性分析

4.1 结构化表征

4.2 时钟和披萨算法

4.3 控制权之争

4.4 参数空间

4.5 特征学习

5. 促进顿悟的方法

5.1 权重范数

5.2 慢梯度增强(Slow Gradient Amplification)

5.3 顿悟彩票（Grokking Ticket）

5.4 基于预训练或迁移的加速学习策略

6. 顿悟与其他现象的关联

6.1 双降（double descent）

6.2 大语言模型的涌现能力

6.3 反思与批判：顿悟和涌现可能只是“度量的幻觉”

你是否经历过学习中的“灵光一现”？其实，人工智能模型也有这样的时刻。

神经网络中的顿悟（grokking）指的是一种反直觉的现象：当模型在训练过程中看似已经“死记硬背”（过拟合）而无法处理新数据时，如果我们不停止训练、坚持让它继续“思考”，它可能会在某个临界点突然“开窍”，从而掌握数据背后的真实规律，实现泛化能力的飞跃。

我们可以用一个学生做题的例子来理解：想象一个刚学加法的小孩，起初他只是把练习册上的答案全背了下来（训练准确率100%），但一旦遇到没见过的数字就束手无策（测试准确率接近0%）。按照常规判断，这个孩子只是在死记硬背。

然而，如果还要让他继续反复看这些题，经过漫长的枯燥过程后，由于某种原因，他突然理解了加法的原理。那一瞬间，他不仅能背出旧题，也能完美解决所有新题。这种从死记硬背到真正理解的延迟性突变，就是顿悟。在神经网络中，体现为如下图所示的泛化延迟：

顿悟现象的直观展示：训练和验证集上准确率曲线间的上升延迟

1. 历史

1.1 顿悟的发现

OpenAI在ICLR2021数学推理workshop中发布的论文《Grokking: Generalization beyond overfitting on small algorithmic datasets》[1]，首次引入了神经网络中的顿悟（grokking）概念。而顿悟现象的发现其实源于一个有趣的巧合：当 OpenAI 团队开始探索神经网络如何进行数学运算时，他们使用一个小型 Transformer来进行模加法运算（( a + b ) mod p = c ），测试了 Transformer 在未知的 a 和 b 组合下能否正确预测答案 c 。正如预期，当网络进入过拟合状态时，训练数据的损失接近于零（它开始记忆所见内容），而测试数据的损失开始上升，即神经网络没有泛化能力。然而，在一次实验中，负责训练神经网络的那位成员忘记了停止训练，随着长时间继续训练它突然在未见过数据上变得准确，测试数据的准确率飙升到接近100%，这说明模型已经完全理解了运算规则。随后，团队使用不同的任务和不同的网络验证了结果，这一发现得到了证实。

2. 相关基础知识

2.1 神经网络的记忆（Memorization）与泛化（Generalization）

记忆指网络对训练数据的拟合能力。强大的记忆力能让模型在训练集上表现完美，但如果过强，模型可能会记住数据所包含的噪声或偶然细节，导致过拟合。泛化指模型将学到的规律应用到未见过的样本上的能力，提升泛化能力是机器学习的核心目标。

记忆与泛化两者需要平衡，既要有足够容量去拟合数据中存在的真实模式，又要通过正则化、早停、交叉验证等手段抑制过拟合。直观地说，记忆像“背答案”，泛化像“学方法、会举一反三”；实践中人们通常以降低验证误差为目标，避免训练误差下降而验证误差上升的过拟合，也避免训练与验证误差都高的欠拟合。

2.2 神经网络中的涌现（Emergent Abilities）

顿悟是一种特殊的涌现现象，表现为泛化能力的突然跃升，可以被视为一种时间维度上的涌现。在大语言模型（LLM）发展时代，神经网络中涌现的概念已经引发了广泛关注。已有研究者系统研究了不同模型的能力差异，将大模型的涌现定义为小型模型不具备、但突然出现在大型模型中的能力特征[2]。而顿悟则是随着训练时间（步数）的增加，模型能力发生的突变。两者都展示了深度神经网络在跨过某个临界阈值后，性能发生质变的非线性特征。

2.3 早停机制（Early Stop）

为了防止过拟合，机器学习界长期遵循一个黄金法则：在验证集性能不再提升时停止训练。这种策略被称为早停机制，是一种简单有效的正则化方法：在训练过程中持续监控验证集指标（如验证损失或准确率），当该指标在若干轮内不再改善即停止训练，以防模型在训练集上继续降低损失、却在验证集上开始恶化而产生过拟合。

3. 顿悟的场景

起初，顿悟似乎只是简单数学玩具模型的一个特性，但随着研究深入，人们发现从图像识别到大语言模型，顿悟无处不在。

3.1 模运算

最初关于模型顿悟的研究大多在Transformer执行模运算任务上进行[1][3]。为什么选择用模运算任务？是因为小型算法数据集在研究神经网络泛化能力上具有重要作用：它构成了一个代数结构严密且特征独立的小样本空间，且具有强烈的离散性；在数据有限、规则清晰的情况下，模型必须理解隐藏在数据中的模式和规律才能实现泛化，有助于快速验证顿悟理论和假设，加深对神经网络泛化能力的理解。因此，模运算成为了观察模型从“机械记忆”向“算法泛化”转变的最佳受控实验场，能清晰地展示泛化能力突变的动态过程。

模运算数据集通常由形如 a ∘ b mod p = c 的方程组成，其中每个元素" a "、" ∘ "、" b "、" m o d "、" p "、" = "和" c "均为独立token，可写作 < c >=< a >< o p >< b >< m o d >< p > ，其中 < o p > 是运算符，通常在一个任务中只有 a , b , c 三个数字变量，也有研究试验了对于不同运算符的泛化效果。除了首次发现顿悟现象的模加法运算，研究者们已经在以下多种类型模运算上进行了实验，验证了顿悟并非偶然的个例，而是一个真实存在的规律：

3.2 其他算法任务

除了模运算，研究者还在以下数学任务中观察到了顿悟：

1. 群运算（Group Operations）：这是模运算的推广。Chughtai 等人[4]训练MLP模型在阶数为 ∣ G ∣= n 的有限群上执行群组合运算，发现模型表现出顿悟现象。该任务模型输入为有序对 ( a , b ) （其中 a , b ∈ G ），训练目标是预测群元素 c = a b 。值得注意的是，模运算任务是该任务的特例——因为模113加法运算等价于113阶循环群的组合运算。

2. n位k稀疏奇偶校验（Parity Check）：这是一个典型离散搜索问题。Barak等人[5]通过大量实验证明，使用标准初始化（均匀、高斯、伯努利）和标准训练（SGD）的各种神经网络架构（包括 2 层 MLP、特定设计的单神经元网络、Transformer、PolyNet），能够在训练步数接近计算极限 n O ( k ) 的情况下，成功学习 k-稀疏 n 位奇偶函数，即从 n 个比特中找出 k 个关键比特，并计算它们的异或作为标签。

2023年，Nanda等人[3]发现有限数据是顿悟现象的必要条件，而无限数据会导致模型直接泛化，并在以下三种运算中证实这一现象：

3. 5位数加法：该任务输入两个随机生成的5位数（例如 12345 + 67890），模型需预测其和的每一位数字（如 80235 的 8,0,2,3,5）。在1层完整Transformer上，训练数据限制为700个样本时出现顿悟；使用随机生成的无限数据时未出现顿悟。

4. 重复子序列预测：该任务生成均匀分布的随机符号序列，随机选择子序列进行重复，训练模型预测被重复的符号（如 7,2,8,3, 1,9,3,8,3, 1,9,9,2,5，其中 1,9 为重复子序列）。在2层仅注意力Transformer上，训练数据限制为512个样本时出现顿悟；使用随机生成的无限数据时未出现顿悟，形成归纳头后直接泛化。

5. 跳跃三元组（skip trigram）：该任务的输入是由0到19构成的符号序列（其中恰好一个符号≥10），模型需输出≥10的符号。如 [0,3,15,7,...,2]，模型需输出该特殊token 15。在1层仅注意力Transformer上，训练数据限制为512个样本时出现顿悟；使用随机生成的无限数据时未出现顿悟，而是直接学习了所有跳跃三元组规则。

3.3 非算法任务

顿悟不仅仅存在于完美的数学公式中，刘子鸣团队在2022年[6]首次证明，顿悟现象是机器学习中更为普遍的现象，不仅出现在算法数据集上，也会出现在主流基准数据集中，例如MNIST数据集；并通过调整优化超参数能够实现对顿悟的控制，发现显式增加初始化权重范数会诱发顿悟现象，并在以下三种非算数任务上得到了证明[7]：

IMDb文本情感分析任务：该数据集包含5万条需分类为正面或负面的电影评论。采用LSTM模型进行分类，该模型包含两层结构，嵌入维度64，隐藏维度128。
分子QM9任务：该数据是小分子及其性质的数据库。采用图卷积神经网络（GCNN）预测各向同性极化率。该GCNN包含2个带ReLU激活的卷积层和1个线性层。
MNIST任务：在MNIST数据集上训练宽度200、深度3的ReLU多层感知机（MLP），采用均方误差损失。

除此之外，Abramov等人[8]提出定向数据合成方法，在基于真实维基百科的多跳问答（Multi-hop QA）任务中，实验表明当比例系数超过特定阈值时，顿悟随即出现。这意味着，不需要复杂的提示工程，只要给模型足够的时间去顿悟，它就能自动学会进行多步推理。

3.4 大语言模型

现有关于顿悟的研究通常针对一两个高度特定或玩具级任务训练小型模型数千个周期，而Li等人[9]首次基于7B参数大语言模型（LLM）OLMoE的单次预训练过程展开研究，他们计算OLMoE在预训练数据上的训练损失，并在多样化基准任务（包括数学推理、代码生成、常识/领域知识检索任务）上评估其泛化性能，该研究首次证实顿悟现象在实用化大规模基础模型的预训练中依然存在，但不同数据可能异步进入其顿悟阶段。

4. 顿悟现象的可解释性分析

尽管人工智能神经网络在各种任务中非常出色，但它们的内部机制仍然像过去一样难以理解。研究人员一直在寻找任何可以深入了解这些模型的线索。顿悟现象的发现促使了很多后续研究，很多人已经复现了这些结果，甚至进行了逆向工程。最近发表的研究论文不仅阐明了这些神经网络在顿悟时正在做什么，还提供了一个新的视角来审视它们的内部机制。麻省理工学院的 Eric Michaud 评价，顿悟现象中数据的设置就像是一个很好的模式生物，观察这个生物体内部有助于理解深度学习的许多不同方面。现就职于伦敦谷歌深度思维的 Neel Nanda 也认为，挖掘模型顿悟的内部原理，不仅能发现美丽的结构，而且这种美丽的结构对于理解内部发生的事情非常重要[10]。这些模型内部表征的研究揭示了神经网络在处理复杂任务时的内部运作机制，进一步验证了顿悟现象的可重复性和可解释性。通过深入分析内部结构，科学家们能够更好地理解神经网络如何逐步构建和优化其认知模型，从而为未来的AI研究提供了宝贵的理论基础和实践指导。

4.1 结构化表征

OpenAI团队在发现顿悟最初就对模型输出层的权重进行了可视化（使用t-SNE），发现网络学到的符号嵌入中出现了可识别的数学结构[1]，例如下图所示，在模加法任务中，嵌入空间中出现了圆形拓扑结构，表现出模运算的循环性质；在对称群S5任务中，嵌入空间中出现了子群和陪集的结构，显示出神经网络对群结构的理解。

群运算和模加法运算的嵌入空间结构（左：群运算，右：模加法运算）。左图为在S5群运算上训练的网络输出层权重的t-SNE投影，可以观察到排列的聚类，每个聚类都是子群 ⟨ ( 0 , 3 ) ( 1 , 4 ) , ( 1 , 2 ) ( 3 , 4 ) ⟩ 或其共轭子群的陪集。右图是在模加法上训练的网络输出层权重的t-SNE投影，线条表示每个元素加8的结果，颜色表示各元素模8的余数。模加法对应的圆环拓扑结构通过"将每个元素加8"形成的"数轴"得以呈现，这种结构在采用权重衰减优化的网络中表现得更为明显。

尽管对于神经网络来说，输入是无内在先验结构与意义的符号，网络仍能从它们的交互中推断出结构，并形成有意义的嵌入表示，这表明神经网络不仅能记忆训练数据，还能从有限样本中归纳出抽象关系。

刘子鸣在他们的论文[6]里更明确地指出，泛化的发生与输入嵌入高度结构化的出现直接相关。他们发现，在玩具模型中，这种结构表现为嵌入向量形成平行四边形结构；在模运算中，表现为圆形结构。当且仅当模型学到了这种结构，它才能进行泛化。为了精确衡量结构化程度，他们还提出了一个可量化的指标——表征质量指数（RQI）。RQI 衡量的是学习到的嵌入在多大程度上满足任务所要求的数学关系（例如，在加法中，检查有多少 ( i , j , m , n ) 四元组满足 E i + E j = E m + E n ）。实验表明，RQI 与模型的泛化准确率高度一致，证实了结构化表征是泛化的直接原因。

4.2 时钟和披萨算法

Nanda 的工作重点是逆向工程训练好的神经网络，以弄清楚它学习了哪些算法[3]。他设计了一个更简单的神经网络版本，以便在模型学习模块化算术时仔细检查其参数。他观察到了相同的行为：过拟合逐渐让位于泛化，测试准确率突然提高。他的网络也在将数字排列成圆形。

经过一番努力，Nanda最终弄清了原因。当将数字表示在圆形时钟上时，网络并不是像看时钟的小学生那样简单地数数，而是在进行一些复杂的数学操作。通过研究网络参数的值，Nanda和同事们发现，它通过对这些时钟数字进行“离散傅里叶变换”来相加——使用正弦和余弦等三角函数转换数字，然后利用三角恒等式对这些值进行操作以得出解决方案。

刘子鸣团队继续研究了Nanda的工作，他们展示了这些“理解”神经网络并不总是发现这个“时钟”算法，有时会找到研究人员称之为“披萨”的算法[11]。这种方法设想一个披萨被分成若干片并按顺序编号，要加两个数，想象从披萨中心指向所问数字的箭头，然后计算由前两个箭头形成的角度的角平分线。这条线穿过披萨某一片的中间：这一片的编号就是两个数的和。这些操作也可以用三角函数和代数操作来表示，即对 a 和 b 的正弦和余弦进行操作，理论上它们与时钟方法一样精确。时钟和披萨算法的原理如下图所示：

时钟与披萨算法示意图。左侧为Clock算法，右侧为Pizza算法。两者均包含三个核心步骤：输入嵌入（Embed）、中间计算（MLP/Transformer）、输出预测（Unembed/Logit），但中间计算逻辑存在本质差异。时钟算法模拟时钟指针相加:将 a 和 b 对应的角度直接相加，得到和 a + b 对应的角度，再映射到结果 c 。披萨算法通过 a 和 b 的平均值向量所在的“披萨切片"区域判断结果。平均值向量的角度由 a + b 决定，长度由 a − b 决定。

刘子鸣说：“时钟算法和披萨算法都有这种循环表示，但是它们利用正弦和余弦的方式不同。这就是我们称它们为不同算法的原因。”而且这还不是全部。在训练多个网络进行模运算后，他们发现，这些网络中发现的大约40%的算法是披萨算法或时钟算法的变种，而目前还无法精确破译。对于披萨算法和时钟算法，“它只是碰巧找到了一些我们能人类解读的东西。”刘说道。

4.3 控制权之争

研究人员也开始理解网络顿悟数据的过程。Varma 等人指出，模型执行任务时存在两种机制：高效但学习慢的泛化机制，和低效但学习快的记忆算法。顿悟现象的突然性源于记忆机制与泛化算法之间主导性的转换——只有当模型完全抑制了其记忆机制之后，泛化能力才会真正显现出来，并且存在一个数据集规模的临界值 crit [12]。因此，虽然泛化能力的延迟似乎突然出现，但网络内部参数实际上一直在学习泛化算法。只有当网络既学会了泛化算法，又完全消除了记忆算法时，才能实现顿悟。Nanda说：“看似突然的事情，实际上可能表面之下是渐进的”，这个问题在其他机器学习研究中也出现过。

并且，由于临界数据集规模 crit 决定记忆和泛化竞争结果，通过控制数据集规模可衍生逆顿悟（ungrokking）和半顿悟（semi-grokking）现象。逆顿悟现象是指若对已完成顿悟的网络在新数据集（满足 < crit 条件）上继续训练，网络会退化为显著记忆状态，导致测试损失重新恶化。半顿悟是指当 ≈ crit 时，记忆算法与泛化算法在收敛过程中相互竞争，因此我们观察到测试损失有所改善但未达完美。

进一步地，Huang等人[13]对记忆与泛化之争产生的不同训练动态进行了更详细的定义和划分，他们研究了模型隐空间维度和训练数据量如何影响模型训练动态，并根据这两个参数绘制出相空间，每个区域对应实验中观察到的不同训练动态，如下图所示：

不同配置与训练数据量下模型表现出的动态差异与相图。左图展示了随着模型规模增大而提升的记忆能力与降低的临界数据集规模，可以将图像划分为四个区域——渐进区、记忆区、半顿悟区和顿悟区。每个区域对应右侧展示的特定训练动态特征，关键交点处标注了估计值。

各子图呈现特定训练动态如下：

(a)渐进区(progressing)：当训练数据量超过模型记忆容量时，模型无法完全记忆所有数据，表现为先以零验证精度尽可能记忆训练数据，随后在保持训练精度提升的同时对部分验证数据产生泛化能力；

(b)记忆区(memorization)：小规模训练数据下，模型能完全记忆且记忆回路效率优于泛化机制，因此仅表现为对训练数据的记忆行为，验证精度始终为零；

(c)半顿悟区(semi-grokking)：当训练数据量接近临界规模时，模型在完成全记忆后会表现出中等程度的泛化能力；

(d)顿悟区(grokking)：训练数据量超越临界规模后，泛化回路效率超越记忆机制，导致模型在训练性能达到完美后经历长期延迟才实现从记忆到泛化的转变。

4.4 参数空间

研究人员对顿悟过程的参数空间进行了一系列的分析，以探索模型内部真实变化。最初科学家们发现，使用权重衰减的训练方式能显著提升嵌入的结构化程度[1]。权重范数（Weight Norms）最近的研究也认为参数权重的L2 norm是结构顿悟的重要量。总体上来说，训练过程中范数（Norms）增长被作为神经网络泛化的关键因素之一进行了研究。通过分析权重范数，研究者也提出了关于顿悟现象的解释：

研究者认为，训练损失与测试损失景观之间的不匹配是导致顿悟的原因[7]。两者在权重范数 w > w c 区域的不匹配导致快慢动力学机制，从而产生顿悟现象。在权重范数较大时，模型很容易过拟合训练数据，使得训练损失较低。只有在权重范数接近“Goldilocks zone”时，测试损失才较低，模型泛化性能较好。如果模型权重范数初始化为较大值，模型会首先快速移动到一个过拟合的解，因为此时训练损失最小化，在没有正则化的情况下模型会停留在过拟合的状态，因为训练损失在过拟合解的山谷中梯度几乎为零，泛化不会发生。

由于训练损失和测试损失（相对于模型权重范数）通常分别呈现“L”形和“U”形，人们将其称为“LU机制”。这一简单机制可以很好地解释顿悟的诸多特征：数据规模依赖性、权重衰减依赖性、表征的涌现等。基于这一直观图像，研究者们成功在涉及图像、语言和分子的任务中诱导出了顿悟现象。

4.5 特征学习

而从训练动力学的角度探索模型，可将神经网络的训练动态分为两个阶段，惰性训练动态和丰富的特征学习动态。在惰性训练动态阶段，网络参数 w 几乎停留在初始点 w 0 附近，网络行为接近一个关于参数的线性模型：网络通过初始神经切线核（NTK）提供的特征来拟合数据，此时训练相当于进行一次固定核的核回归（Kernel Regression）。随着训练推进，参数更新幅度逐渐增大，网络不再保持线性近似。这时网络不再依赖初始NTK，而是通过学习生成新的特征空间，更好地捕捉数据的结构。

为了让训练发生从惰性到特征学习的转变，需要同时满足：

初始特征未对齐（misaligned NTK）：若初始NTK特征与任务标签方向接近，则惰性模型已能泛化，不会出现顿悟。
中等规模数据集
惰性初始（小步长 / 大 α 值）：训练初期参数变化缓慢，维持线性化状态，使得网络需较长时间才过渡到特征学习阶段。

这些条件共同导致训练曲线出现延迟分离和突然收敛的顿悟现象[14]。

5. 促进顿悟的方法

促进顿悟这一系列研究旨在减少记忆与泛化之间的延迟效应，从而使模型更快泛化，从而也被叫做“消除顿悟”。

5.1 权重范数

其中的一个关键发现与权重范数有关，可以理解为模型参数的体积或规模。在可解释性部分的参数空间小节，我们讲过，研究者们认为存在一个“黄金泛化区”，当模型规模恰好处于这个区间时，最容易学到真本领。于是，他们想出了一个巧妙的办法：在训练期间，使用一种约束技术，将模型的体积始终固定在这个最佳区域附近[7]。这就好比直接为模型规划好了最佳的学习路径，让它无法绕远去死记硬背，从而被迫从一开始就寻找通用的解决方案，极大地缩短了从记忆到泛化的等待时间，实现了顿悟的消除。

5.2 慢梯度增强(Slow Gradient Amplification)

这项名为 Grokfast 的研究发现造成顿悟的原因在于梯度的频率特性[15]：

快梯度（高频信号）：像噪音一样剧烈抖动，主要导致模型死记硬背训练数据。
慢梯度（低频信号）：像洋流一样缓慢且坚定，这才是推动模型理解通用规律的关键力量。

该方法的解决思路非常巧妙，即“滤噪存真”：把训练过程中的梯度看作随时间变化的信号。他们引入了一个简单的低通滤波器（Low-Pass Filter），过滤掉那些杂乱的快梯度，提取出代表长期趋势的慢梯度，并将其人为放大叠加回去。结果显示，这种慢梯度增强策略能让模型顿悟的速度提升 50 倍，只需几行代码即可实现，无需昂贵的算力堆叠。

5.3 顿悟彩票（Grokking Ticket）

“顿悟彩票”（Grokking Ticket）这个方法桥接了两个重要的神经网络研究领域：Lottery Ticket Hypothesis (LTH, 彩票假设) 和顿悟现象。LTH 认为，任何一个随机初始化的大型神经网络（密集网络）内部，都包含一个或多个稀疏子网络。这些子网络如果单独从原始权重初始化并训练，能够比完整网络更快、更好地收敛，达到相似的甚至更高的性能。LTH 将这些优秀的稀疏子网络比喻为中奖的“彩票”（Winning Ticket）。这意味着成功的关键不在于网络有多大，而在于在随机初始化中“抽中”了哪个具备优秀拓扑结构的子集。

研究者们认为顿悟的延迟现象，并非单纯在等待权重衰减降低参数范数，而是在高维参数空间中搜索并锁定一个具备泛化能力的稀疏子网络结构。所谓的“彩票假设掩码”方法，实际上是一种提取并利用后验结构知识的过程[16]：

首先将一个密集网络训练至完全泛化状态，此时网络内部的功能回路已经形成。通过幅度剪枝（Magnitude Pruning），保留权重绝对值较大的连接，将其拓扑结构固化为一个二值掩码（Binary Mask），然后将此掩码应用于一个随机初始化的网络。这意味着在训练伊始，就强行约束了网络的拓扑结构，使其仅在被筛选出的特定子空间内进行优化。该方法之所以能消除泛化延迟，其核心机理包含两个方面：

拓扑结构即泛化归纳偏置：实验表明，通过掩码锁定的稀疏子网络本身就编码了任务所需的良好表征（如模运算任务中的周期性特征）。这种特定的拓扑结构即使在权重随机初始化时，也具备了快速学习任务特征的能力。

解耦权重优化与结构优化：在标准训练中，模型需要同时进行参数值的优化和有效结构的筛选。应用掩码后，模型直接跳过了漫长的“结构搜索”阶段，使得训练准确率与测试准确率同步上升，从而消除了延迟泛化。

5.4 基于预训练或迁移的加速学习策略

1. 权重初始化

权重初始化的方法即用已顿悟的模型部件来给新模型“开小灶”，由于拥有更多先验知识，模型得以提前顿悟[17]。方法的具体步骤如下：首先在简单任务（如模加法）上预训练一个Transformer直到其顿悟，然后将其组件（嵌入层或整个Transformer主体）取出，作为新模型在相关任务（如模减法、线性表达式）对应组件的初始化权重，并在后续训练中保持这些权重冻结，以此利用不同任务间内部表示与算法的相似性，显著加速新任务的顿悟过程。但该方法的成功高度依赖于源任务和目标任务之间的相似性，对于更复杂的操作，简单移植基础算术的组件可能不足以提供有效的先验知识，复杂任务可能需要发现全新的、更复杂的算法。

2. 嵌入迁移

Xu等人提出了 GrokTransfer[18]（嵌入迁移法），提供了消除延迟泛化的一个简洁而强大的解决方案。其核心洞察是：决定模型能否快速泛化的关键，在于它对输入数据的初始理解，即数据在模型嵌入层中如何被表示和编码。

嵌入迁移法的步骤可以简单理解为：

请教弱模型：首先，我们快速训练一个更小、更弱的模型。这个弱模型虽然无法达到完美性能，但它能以更快的速度学到一个初步但有效的数据结构地图（即数据的嵌入表示）。

知识迁移：接着，我们将这个弱模型学习到的、带有有效结构信息的嵌入层参数提取出来。用这些参数来初始化我们真正想要训练的那个更强大、更复杂的模型的嵌入层。

通过这种方式，强大的目标模型在训练之初就获得了高质量的嵌入，不再需要从零开始摸索数据间的潜在联系。它直接站在了弱模型的肩膀上，因此可以迅速从记忆阶段进入泛化阶段，大大加速甚至完全消除了原有的泛化延迟现象。

6. 顿悟与其他现象的关联

6.1 双降（double descent）

Belkin等人[19]提出的双下降（Double Descent）现象揭示了模型验证误差随规模变化的非单调模式：误差先下降，随后因过拟合噪声而上升，最终随着模型容量的进一步扩大而再次下降。Nakkiran等人[20]进一步在多种架构下验证了这一现象，指出误差峰值往往出现在训练误差趋近于零的临界区间。

近期研究致力于将双下降现象与顿悟现象联系起来。Davies等人[21]提出了一种基于“规模-时间”对偶性的假说，认为两者本质上反映了模型对不同复杂度模式的学习速率差异：模型倾向于先快速拟合简单的虚假相关性（导致第一次下降后回升），只有在长时间训练或更大规模下，才能掌握复杂的泛化模式（导致第二次下降，也即顿悟）。

具体而言，这种关联的表现形式受限于训练数据量。当数据量不足（低于特定临界点）时，模型随规模扩大会经历“渐进期—记忆期—半顿悟期—顿悟期”四个阶段，其中“记忆期”的性能恶化直接对应双下降的峰值；反之，当数据量充足时，模型能够跳过记忆期带来的负面影响，直接从渐进期过渡到顿悟期，表现为泛化性能的单调提升。

Grokking 现象和双重下降现象可以被视为同一学习机制在不同条件下的表现。它们都源于一个共同的学习动态：神经网络的归纳偏置更倾向于选择那些泛化能力强但学习速度慢的模式，因此模型会经历一个从“快速学习但泛化差”的模式向“学习慢但泛化好”的模式过渡的过程。

6.2 大语言模型的涌现能力

从记忆与泛化的竞争视角来看，纯记忆任务的存在会阻碍模型在记忆完所有训练数据后完全转向泛化阶段。然而，当模型规模达到足够大时，其记忆能力会显著超过训练数据量，它可以在记住大量信息的同时，借助其强大的内存能力去总结和学习出泛化的规律，从而表现出记忆与泛化等功能分化。

该现象与当前大语言模型（LLM）中观察到的涌现能力相呼应——由于预训练阶段也可视为多任务学习场景，模型必须在保留海量世界知识的同时，习得上下文学习和多步推理等通用规则与能力。这一观察也阐释了Huang等人提出的假设[13]：涌现能力是通过不同神经回路的竞争形成的。尽管当前LLM的能力涌现由诸多复杂因素驱动，顿悟研究将为理解LLM的涌现能力提供新视角，并推动该领域的进一步研究。

Anthropic 的团队发现，LLM 的上下文学习（In-context Learning）能力的涌现，恰好发生在模型顿悟了“归纳头”这一特定电路结构的时刻[22]。研究发现，模型在训练过程中会出现一个短暂的相变时刻（即顿悟）。在这个时刻，验证集损失突然下降，同时上下文学习能力突然涌现。这种同步发生是因为模型学会了使用归纳头（Induction Heads）——一种能够通过查找前文来复制模式的注意力机制电路。这一发现强烈暗示，宏观的涌现是由微观电路层面的顿悟驱动的。

The Quantization Model of Neural Scaling这篇文章[23]提供了一个非常漂亮的理论框架，解释了为什么学习曲线会呈现阶梯状（即包含顿悟和涌现），而不是平滑曲线。作者提出了“神经缩放的量子化模型”（QMNS），他们认为，复杂的任务是由许多离散的“子技能”（Quanta）组成的。随着模型规模或训练时间增加，模型并非一点点学好所有知识，而是按顺序攻克一个个子技能。每当模型彻底掌握一个关键子技能，即对该子技能发生顿悟，整体性能就会出现一次阶跃，表现为能力的阶段性涌现。将顿悟（时间的阶跃）和涌现（规模的阶跃）统一到了同一个离散特征学习的框架下。

6.3 反思与批判：顿悟和涌现可能只是“度量的幻觉”

Schaeffer指出，所谓的“尖锐的涌现”或“突然的顿悟”，可能并非模型本身随规模增长而产生的本质变化[24]，而是由于研究人员选择的评估指标（如准确率、完全匹配等非线性或不连续指标）对模型逐词错误率进行了非线性或不连续的缩放，从而在特定任务上制造出的假象；若改用线性或连续的指标（如词编辑距离、Brier分数），则模型性能会呈现平滑、连续、可预测的提升趋势，所谓的“涌现”现象也随之消失。这暗示顿悟和涌现可能并非模型内部发生了魔法般的突变，而是模型内部一直在进行平滑的渐进式学习，只是在越过某个阈值后，才被我们粗糙的指标捕捉到。这提示我们需要从不同角度审视与探讨顿悟现象。

参考文献

Power A; Burda Y; Edwards H; Babuschkin I; Misra V (2022). "Grokking: Generalization beyond overfitting on small algorithmic datasets". arXiv.
Wei J; Tay Y; Bommasani R; Raffel C; Zoph B; Borgeaud S; Yogatama D; Bosma M; Zhou D; Metzler D; Chi E. H.; Hashimoto T; Vinyals O; Liang P; Dean J; Fedus W. (2022). "Emergent abilities of large language models". Transactions on Machine Learning Research. ISSN 2835-8856.
Nanda N; Chan L; Lieberum T; Smith J; Steinhardt J (2023). "Progress measures for grokking via mechanistic interpretability". International Conference on Learning Representations (ICLR).
Chughtai B; Chan L; Nanda N (2023). "A toy model of universality: Reverse engineering how networks learn group operations". International Conference on Machine Learning (ICML), PMLR.
Barak B; Edelman B; Goel S; Kakade S; Malach E; Zhang C (2022). "Hidden progress in deep learning: SGD learns parities near the computational limit". Advances in Neural Information Processing Systems. 35: 21750–21764.
Liu Z; Kitouni O; Nolte N S; Michaud E; Tegmark M; Williams M (2022). "Towards understanding grokking: An effective theory of representation learning" (PDF). Advances in Neural Information Processing Systems. 35: 34651–34663.
Liu Z; Michaud E J; Tegmark M (2023). "OMNIGROK: Grokking Beyond Algorithmic Data". International Conference on Learning Representations (ICLR).
Abramov R; Steinbauer F; Kasneci G (2025). "Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers". arXiv.
Li Z; Fan C; Zhou T (2025). "Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test". arXiv.
Pérez I (2024). "How Do Machines Grok Data?". Quanta Magazine.
Zhong Z; Liu Z; Tegmark M; Andreas J (2023). "The clock and the pizza: Two stories in mechanistic explanation of neural networks". Advances in Neural Information Processing Systems. 36: 27223–27250.
Varma V; Shah R; Kenton Z; Kramár J; Kumar R (2023). "Explaining Grokking Through Circuit Efficiency". arXiv.
Huang Y; Hu S; Han X; Liu Z; Sun M (2024). "Unified View of Grokking, Double Descent and Emergent Abilities: A Comprehensive Study on Algorithm Task". First Conference on Language Modeling.
Kumar T; Bordelon B; Gershman S J; Pehlevan C (2024). "Grokking as the Transition from Lazy to Rich Training Dynamics". Twelfth International Conference on Learning Representations (ICLR).
Lee, J.; Kang, B. G.; Kim, K.; Lee, K. M. (2024). "Grokfast: Accelerated Grokking by Amplifying Slow Gradients". arXiv:2405.20233.
Minegishi G; Iwasawa Y; Matsuo Y (2023). "Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?". arXiv preprint arXiv:2310.19470.
Furuta, H.; Minegishi, G.; Iwasawa, Y.; Matsuo, Y. (2024). "Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials". Transactions on Machine Learning Research. ISSN 2835-8856.
Xu Z; Ni Z; Wang Y; Hu W (2025). "Let me grok for you: Accelerating grokking via embedding transfer from a weaker model". arXiv preprint arXiv:2504.13292.
Belkin M; Hsu D; Ma S; Mandal S (2019). "Reconciling modern machine-learning practice and the classical bias–variance trade-off". Proceedings of the National Academy of Sciences. 116 (32): 15849–15854.
Nakkiran P; Kaplun G; Bansal Y; Yang T; Barak B; Sutskever I (2021). "Deep double descent: Where bigger models and more data hurt". Journal of Statistical Mechanics: Theory and Experiment. 2021 (12): 124003.
Davies X; Langosco L; Krueger D (2023). "Unifying grokking and double descent". arXiv preprint arXiv:2303.06173.
Olsson C; Elhage N; Nanda N; Joseph N; DasSarma N; Henighan T; Mann B; Askell A; Bai Y; Chen A (2022). "In-context learning and induction heads". arXiv preprint arXiv:2209.11895.
Michaud E; Liu Z; Girit U; Tegmark M (2023). "The quantization model of neural scaling". Advances in Neural Information Processing Systems. 36: 28699–28722.
Schaeffer R; Miranda B; Koyejo S (2023). "Are emergent abilities of large language models a mirage?". Advances in Neural Information Processing Systems. 36: 55565–55581.

参考文献可上下滑动查看

本词条由集智俱乐部众包生产，难免存在纰漏和问题，欢迎大家留言反馈，一经采纳，可以获得对应的积分奖励噢！

亲爱的社区伙伴与知识探索者：

我们诚挚邀请热爱知识分享的您，加入集智百科词条编写志愿团队！无论您是领域专家，还是对特定主题充满热忱的学习者，这里都有您的舞台。通过编写百科词条，您将为全球读者传递权威知识，同时获得专家指导与个人能力跃升的双重成长。

志愿者职责

创作新词条：覆盖复杂系统、人工智能等前沿领域

迭代经典内容：更新现有词条，守护知识的准确性与时效性

质量守护者：参与内容校对审核，共建精品知识库

我们期待您

集智读书会成员（需完成一期字幕任务）

拥有清晰表达复杂概念的写作能力

对特定领域有深度研究或强烈兴趣

具备信息检索与整合素养

怀揣责任感与协作精神，愿为知识共享赋能

您将收获

百科积分（支持兑换集智俱乐部周边：文化衫、复杂科学知识卡以及提现）

集智俱乐部创始人张江教授亲自指导写作

科研志愿者晋升通道：表现优异者可加入张江教授科研团队从事科研志愿者

你的百科贡献之路，从一字一句开始！

第一步，从成为一名字幕志愿者开始！

只需完成一期读书会讲座字幕任务，这不仅是贡献，更是一次深度的学习。字幕任务过关后，您将升级为“百科志愿者”，开启编辑词条、整理术语的进阶旅程。

从字幕到百科，这是一条清晰的成长路径。立即行动，从第一个任务开始你的升级吧！

计算神经科学第三季读书会

从单个神经元的放电到全脑范围的意识涌现，理解智能的本质与演化始终是一个关于尺度的问题。更值得深思的是，无论是微观的突触可塑性、介观的皮层模块自组织，还是宏观的全局信息广播，不同尺度的动力学过程都在共同塑造着认知与意识。这说明，对心智的研究从最初就必须直面一个核心挑战：局部的神经活动如何整合为统一的体验？局域的网络连接又如何支撑灵活的智能行为？

继「」与「」读书会后，集智俱乐部联合来自数学、物理学、生物学、神经科学和计算机的一线研究者共同发起，跨越微观、介观与宏观的视角，探索意识与智能的跨尺度计算、演化与涌现。重点探讨物理规律与人工智能如何帮助我们认识神经动力学，以及神经活动跨尺度的计算与演化如何构建微观与宏观、结构与功能之间的桥梁。

详情请见：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.