网易首页 > 网易号 > 正文 申请入驻

Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」

0
分享至



机器之心报道

编辑:冷猫

早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛化。

类似于「顿悟时刻」,模型在某一刻突然理解了数据的内在规律。

这种现象被称为「grokking(延迟泛化)」。该现象挑战了传统关于过拟合与泛化关系的理解,因此成为揭示神经网络学习机制的重要研究方向。



数年时间过去,相信大家对大模型的「顿悟时刻」早已不陌生,在探究大模型 grokking 的成因和基本原理的领域已经有了许多重量级研究。

我们也曾经报道过谷歌关于大模型「顿悟时刻」的分析博客;与 DeepSeek「顿悟时刻」相关的研究等相关内容。

而在最近, Meta 超级智能实验室(FAIR)的新论文再一次针对顿悟现象进行了更深层次的探讨,这篇论文通过给出grokking 现象的数学可解释模型,让人们更清楚地理解深度网络如何从「死记硬背」过渡到「真正学习」。

值得关注的是,这篇文章仅有唯一作者Meta FAIR 研究科学家总监田渊栋,是一篇一个人的论文。



  • 论文标题:Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
  • 论文链接:arxiv.org/abs/2509.21519



本研究提出了一个名为 Li₂ 的数学框架,用以解释 Grokking(延迟泛化) 现象在两层非线性神经网络中的学习动态。具体来说,该框架:

  • 精确描述了训练过程中将会涌现的特征,揭示了模型如何逐步形成泛化表示;
  • 给出了泛化与记忆的可证明缩放定律—— 对于阶数为 M 的群运算任务,仅需 O (M log M) 个数据样本即可实现泛化行为;
  • 从理论上解释了一个流行经验假设:即「泛化电路学习速度较慢,但比记忆电路更高效」。



Li₂ 框架概览。

如图所示,Li₂ 将学习过程划分为三个阶段——(I) 惰性学习(Lazy learning)、(II) 独立特征学习(Independent feature learning)以及 (III) 交互特征学习(Interactive feature learning),以此解释 grokking 的动力学过程,即网络先经历「记忆」阶段后再实现「泛化」。

  • Grokking 行为的解释:在 grokking 初期,惰性学习阶段对应记忆过程,顶层利用随机特征找到一个暂时的解来拟合目标。之后,反向传播的梯度才开始有意义,促使隐藏层学习到可泛化的「新兴特征」。
  • 新兴特征:这些特征是能量函数 E 的局部极大值,支配着独立学习阶段。这些特征在标签预测上的效率高于简单记忆。
  • 数据决定能量景观:充足的训练数据可以保持这些可泛化局部极大值的形状,而数据不足则会导致非泛化的局部极大值。
  • 特征出现、泛化与记忆的尺度律:通过研究能量景观随数据分布变化的方式,可以推导出相应的尺度规律。

如图右侧所示,论文分析覆盖了不同的网络宽度 K 和权重衰减系数 η,展示了它们对学习动态的影响,涵盖 NTK 区域与特征学习区域。在特征学习阶段,借助能量函数 E(定理 1),我们将学习到的特征描述为 E 的局部极大值(定理 2),并推导出维持这些特征所需的样本规模,从而建立了泛化与记忆的尺度律。



Li₂ 框架的三个阶段 (a) 随机权重初始化。(b) 阶段 I:惰性学习。(c) 阶段 II:独立特征学习。 (d) 阶段 III:交互特征学习。

阶段 I:惰性学习

在这一初始阶段,输出层权重 V 会迅速调整,以随机初始化的隐藏特征来拟合训练数据。反向传播到隐藏层的梯度 G_F 基本上仍是随机噪声,无法驱动隐藏层权重 W 学到有意义的特征。这导致模型表现为「记忆」行为,泛化能力较差。



实验验证结果展示了 grokking 的三个阶段:在 输出层发生过拟合(阶段 I) 之后,隐藏层权重才开始更新。

阶段 II:独立特征学习

当权重衰减项 (η> 0) 生效时,梯度 G_F 开始携带关于目标标签的结构化信息,模型进入第二阶段。论文证明,在一定条件下,每个隐藏单元的动态是相互独立的,并遵循以下能量函数的梯度上升过程(定理 1):



该能量函数可视为输入与目标之间的一种非线性典型相关分析(nonlinear CCA)。



能量函数 E 的景观变化

左图:当采用线性激活时,E 可简化为普通的特征分解,仅存在一个全局最大值。

中图:引入非线性后,能量景观出现多个严格的局部最大值,每个最大值对应一个特征。更重要的是,这些特征在目标预测中比记忆化更高效。

右图:当训练数据充足时,能量景观保持稳定,可以恢复这些具有泛化能力的特征;而当数据不足时,能量景观会发生显著变化,局部最大值退化为记忆化特征。



模加任务中的泛化 / 记忆相变

实验表明:随着群结构复杂度增加(特别是非阿贝尔群),泛化阈值的变化依然符合理论的对数尺度规律,验证了 Li₂ 框架推导的特征涌现与泛化的尺度定律(scaling law)。



在模加运算的小数据场景下,设 M = 127 且 n = 3225(在 1272 个样本中使用 20% 进行训练),使用较小学习率的 Adam 优化器(0.001,对应左图;0.002,对应中图)能够得到可泛化的解(傅里叶基),并且误差 E 较低;而当使用较大学习率(0.005,对应右图)时,Adam 则会找到不可泛化的解(例如记忆化),此时误差 E 明显更高。

群算术任务相关内容,请参阅原论文。

阶段 III:交互特征学习

随着隐藏层权重不断更新、特征逐渐涌现,隐藏单元之间的交互开始变得显著。该框架表明,相似特征之间会产生「排斥效应」,而梯度结构则会自适应地优先学习尚未捕获的特征,从而保证特征表示的多样性与完整性。

我们首先研究 B 的作用,它会引起隐藏节点之间的相互作用。在训练过程中,两个节点的激活可能高度相关,定理 6 表明,相似的特征会导致排斥效应。



在训练过程中,某些局部最优解可能先被学习,而其他则在后期才被学习。当表示仅被部分学习时,反向传播提供了一种机制,可以聚焦于尚未学习的部分,通过改变能量函数 E 的形态来实现(定理 7,自上而下的调制)。

对于具有 Σ(x) = x^2 的群算术任务,如果隐藏层仅学习了一部分不可约表示集合 S,那么反向传播梯度

会产生一个修改后的能量函数 E_S,其局部最大值仅出现在尚未学习的不可约表示 k∉S 上。

对更深网络的扩展

虽然严格分析集中在两层网络上,论文也给出了对更深架构的定性扩展。核心观点是,特征学习会从低层向高层传播,而残差连接(residual connections)可能提供更干净的梯度,从而促进多层特征的生成。



Adam 与 Muon 优化器的比较结果表明,Muon 在实现泛化方面表现更优,尤其是在隐藏单元数量受限的情况下。

总结与讨论

两种不同的记忆(memorization)类型

从分析来看,grokking 中的记忆来源于对随机特征的过拟合,这与由于有限或噪声数据而遵循特征学习动力学得到的记忆解不同。从这个角度看,grokking 并不是从记忆切换到泛化,而是从过拟合切换到泛化。

平坦(flat)与尖锐(sharp)极值

常识通常认为平坦极值对应可泛化解,而尖锐极值对应记忆或过拟合。从 Li₂ 的观点来看,当模型对随机特征过拟合时会出现尖锐极值,此时权重的微小变化会导致损失大幅变化。另一方面,我们可以证明能量函数 E 的局部极值是平坦的,因此在某些方向上权重的小幅变化不会改变 E。如果模型是过参数化的,则多个节点可能学习相同或相似的特征集合,从而为损失函数提供平坦性。如果由于有限 / 噪声数据学习了记忆特征,则需要更多节点参与「解释」目标,整体权重会显得不那么平坦。

小学习率与大学习率

根据分析,在阶段 I,需要较大学习率以快速学习脊状解 V,使反向传播梯度 G_F 变得有意义,从而触发阶段 II。在阶段 II,最佳学习率取决于可用数据量:

  • 数据量大时,可以使用较大学习率快速找到特征。
  • 数据量有限时,可能需要较小学习率以保持在可泛化特征的盆地内,这可能与常识认知相矛盾。

更多研究细节,请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人狂自有天收

人狂自有天收

李老逵乱摆龙门阵
2025-09-11 09:01:28
家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

家电三巨头差距断崖:美的净利润385亿,海尔187亿,格力令人意外

有范又有料
2026-03-24 10:59:07
20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

20人老头乐公司起诉小米汽车,把网友们CPU干冒烟了……

柴狗夫斯基
2026-03-26 11:44:33
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
70万韩国青年,选择“消失”

70万韩国青年,选择“消失”

中国新闻周刊
2026-03-26 09:30:07
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

9.9元战火未熄,库迪用“不限量”掀了桌子!给瑞幸整不会了

品牌观察官
2026-03-26 17:17:59
西安某建筑公司全方位崩塌!

西安某建筑公司全方位崩塌!

黯泉
2026-03-26 18:49:04
“鸡蛋界的LV”,安全了吗

“鸡蛋界的LV”,安全了吗

中国新闻周刊
2026-03-26 13:01:31
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

喜欢历史的阿繁
2026-03-26 14:40:54
26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

26号收评:沪指失守3900点,所有人都注意了,大盘后市开始这样看

春江财富
2026-03-26 15:26:22
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

日媒:日本高中生起诉市政府和日本政府,指控市政府擅自将个人信息提交给防卫省用于招募

环球网资讯
2026-03-26 20:44:05
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

狂赚18亿!比爱马仕还狠的运动奢侈品,正在掏空中产的钱包

青眼财经
2026-03-17 16:03:09
2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

2022年,江苏一老师路边花30元买1条上交,专家:很多年没见过了

万象硬核本尊
2026-03-26 22:23:37
上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

上海宛平南路一套房子爆火!月租7000元,回家像玩密室逃脱...

黄河新闻网吕梁
2026-03-26 15:14:06
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

快提醒家里长辈:广州老年人优待卡满两年记得续期!手机就能办

城事特搜
2026-03-26 19:13:51
2026-03-27 00:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
游戏
时尚
亲子
家居

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

400万人爱过的女孩,被黄谣网暴180天后

亲子要闻

看看把孩子吓得哈哈哈

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版