网易首页 > 网易号 > 正文 申请入驻

Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」

0
分享至


来源:机器之心报道

编辑:冷猫

早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛化。

类似于「顿悟时刻」,模型在某一刻突然理解了数据的内在规律。

这种现象被称为「grokking(延迟泛化)」。该现象挑战了传统关于过拟合与泛化关系的理解,因此成为揭示神经网络学习机制的重要研究方向。


数年时间过去,相信大家对大模型的「顿悟时刻」早已不陌生,在探究大模型 grokking 的成因和基本原理的领域已经有了许多重量级研究。

我们也曾经报道过;等相关内容。

而在最近, Meta 超级智能实验室(FAIR)的新论文再一次针对顿悟现象进行了更深层次的探讨,这篇论文通过给出grokking 现象的数学可解释模型,让人们更清楚地理解深度网络如何从「死记硬背」过渡到「真正学习」。

值得关注的是,这篇文章仅有唯一作者Meta FAIR 研究科学家总监田渊栋,是一篇一个人的论文。


  • 论文标题:Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking

  • 论文链接:arxiv.org/abs/2509.21519


本研究提出了一个名为 Li₂ 的数学框架,用以解释 Grokking(延迟泛化) 现象在两层非线性神经网络中的学习动态。具体来说,该框架:

  • 精确描述了训练过程中将会涌现的特征揭示了模型如何逐步形成泛化表示;

  • 给出了泛化与记忆的可证明缩放定—— 对于阶数为 M 的群运算任务,仅需 O (M log M) 个数据样本即可实现泛化行为;

  • 从理论上解释了一个流行经验假设即「泛化电路学习速度较慢,但比记忆电路更高效」。


Li₂ 框架概览。

如图所示,Li₂ 将学习过程划分为三个阶段——(I) 惰性学习(Lazy learning)、(II) 独立特征学习(Independent feature learning)以及 (III) 交互特征学习(Interactive feature learning),以此解释 grokking 的动力学过程,即网络先经历「记忆」阶段后再实现「泛化」。

  • Grokking 行为的解释在 grokking 初期,惰性学习阶段对应记忆过程,顶层利用随机特征找到一个暂时的解来拟合目标。之后,反向传播的梯度才开始有意义,促使隐藏层学习到可泛化的「新兴特征」。

  • 新兴这些特征是能量函数 E 的局部极大值,支配着独立学习阶段。这些特征在标签预测上的效率高于简单记忆。

  • 数据决定能量充足的训练数据可以保持这些可泛化局部极大值的形状,而数据不足则会导致非泛化的局部极大值。

  • 特征出现泛化与记忆的尺度律:通过研究能量景观随数据分布变化的方式,可以推导出相应的尺度规律。

如图右侧所示,论文分析覆盖了不同的网络宽度 K 和权重衰减系数 η,展示了它们对学习动态的影响,涵盖 NTK 区域与特征学习区域。在特征学习阶段,借助能量函数 E(定理 1),我们将学习到的特征描述为 E 的局部极大值(定理 2),并推导出维持这些特征所需的样本规模,从而建立了泛化与记忆的尺度律。


Li₂ 框架的三个阶段 (a) 随机权重初始化。(b) 阶段 I:惰性学习。(c) 阶段 II:独立特征学习。 (d) 阶段 III:交互特征学习。

阶段 I:惰性学习

在这一初始阶段,输出层权重 V 会迅速调整,以随机初始化的隐藏特征来拟合训练数据。反向传播到隐藏层的梯度 G_F 基本上仍是随机噪声,无法驱动隐藏层权重 W 学到有意义的特征。这导致模型表现为「记忆」行为,泛化能力较差。


实验验证结果展示了 grokking 的三个阶段:在 输出层发生过拟合(阶段 I) 之后,隐藏层权重才开始更新。

阶段 II:独立特征学习

当权重衰减项 (η> 0) 生效时,梯度 G_F 开始携带关于目标标签的结构化信息,模型进入第二阶段。论文证明,在一定条件下,每个隐藏单元的动态是相互独立的,并遵循以下能量函数的梯度上升过程(定理 1):


该能量函数可视为输入与目标之间的一种非线性典型相关分析(nonlinear CCA)。


能量函数 E 的景观变化

左图:当采用线性激活时,E 可简化为普通的特征分解,仅存在一个全局最大值。

中图:引入非线性后,能量景观出现多个严格的局部最大值,每个最大值对应一个特征。更重要的是,这些特征在目标预测中比记忆化更高效。

右图:当训练数据充足时,能量景观保持稳定,可以恢复这些具有泛化能力的特征;而当数据不足时,能量景观会发生显著变化,局部最大值退化为记忆化特征。



模加任务中的泛化 / 记忆相变

实验表明:随着群结构复杂度增加(特别是非阿贝尔群),泛化阈值的变化依然符合理论的对数尺度规律,验证了 Li₂ 框架推导的特征涌现与泛化的尺度定律(scaling law)。



在模加运算的小数据场景下,设 M = 127 且 n = 3225(在 1272 个样本中使用 20% 进行训练),使用较小学习率的 Adam 优化器(0.001,对应左图;0.002,对应中图)能够得到可泛化的解(傅里叶基),并且误差 E 较低;而当使用较大学习率(0.005,对应右图)时,Adam 则会找到不可泛化的解(例如记忆化),此时误差 E 明显更高。

群算术任务相关内容,请参阅原论文。

阶段 III:交互特征学习

随着隐藏层权重不断更新、特征逐渐涌现,隐藏单元之间的交互开始变得显著。该框架表明,相似特征之间会产生「排斥效应」,而梯度结构则会自适应地优先学习尚未捕获的特征,从而保证特征表示的多样性与完整性。

我们首先研究 B 的作用,它会引起隐藏节点之间的相互作用。在训练过程中,两个节点的激活可能高度相关,定理 6 表明,相似的特征会导致排斥效应。


在训练过程中,某些局部最优解可能先被学习,而其他则在后期才被学习。当表示仅被部分学习时,反向传播提供了一种机制,可以聚焦于尚未学习的部分,通过改变能量函数 E 的形态来实现(定理 7,自上而下的调制)。

对于具有 Σ(x) = x^2 的群算术任务,如果隐藏层仅学习了一部分不可约表示集合 S,那么反向传播梯度

会产生一个修改后的能量函数 E_S,其局部最大值仅出现在尚未学习的不可约表示 k∉S 上。

对更深网络的扩展

虽然严格分析集中在两层网络上,论文也给出了对更深架构的定性扩展。核心观点是,特征学习会从低层向高层传播,而残差连接(residual connections)可能提供更干净的梯度,从而促进多层特征的生成。


Adam 与 Muon 优化器的比较结果表明,Muon 在实现泛化方面表现更优,尤其是在隐藏单元数量受限的情况下。

总结与讨论

两种不同的记忆(memorization)类型

从分析来看,grokking 中的记忆来源于对随机特征的过拟合,这与由于有限或噪声数据而遵循特征学习动力学得到的记忆解不同。从这个角度看,grokking 并不是从记忆切换到泛化,而是从过拟合切换到泛化。

平坦(flat)与尖锐(sharp)极值

常识通常认为平坦极值对应可泛化解,而尖锐极值对应记忆或过拟合。从 Li₂ 的观点来看,当模型对随机特征过拟合时会出现尖锐极值,此时权重的微小变化会导致损失大幅变化。另一方面,我们可以证明能量函数 E 的局部极值是平坦的,因此在某些方向上权重的小幅变化不会改变 E。如果模型是过参数化的,则多个节点可能学习相同或相似的特征集合,从而为损失函数提供平坦性。如果由于有限 / 噪声数据学习了记忆特征,则需要更多节点参与「解释」目标,整体权重会显得不那么平坦。

小学习率与大学习

根据分析,在阶段 I,需要较大学习率以快速学习脊状解 V,使反向传播梯度 G_F 变得有意义,从而触发阶段 II。在阶段 II,最佳学习率取决于可用数据量:

  • 数据量大时,可以使用较大学习率快速找到特征。

  • 数据量有限时,可能需要较小学习率以保持在可泛化特征的盆地内,这可能与常识认知相矛盾。

更多研究细节,请参阅原论文。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新闻多一度丨神二十推迟返回 空间碎片影响有多大?

新京报
2025-11-05 18:11:09
国民党新人事公布“柱系”班师回朝,郝龙斌的美女智囊掌管国际部

国民党新人事公布“柱系”班师回朝,郝龙斌的美女智囊掌管国际部

海峡导报社
2025-11-06 16:39:06
湖南前主持田源,直播间哭诉:维嘉能回去,求求前东家也让我回去

湖南前主持田源,直播间哭诉:维嘉能回去,求求前东家也让我回去

乐悠悠娱乐
2025-11-05 10:38:51
河北拦婚车要50条香烟后续:双方僵持一小时,新人无奈打车离开

河北拦婚车要50条香烟后续:双方僵持一小时,新人无奈打车离开

石辰搞笑日常
2025-11-06 13:20:26
“有仇必还”!告别陈伟霆,携手百亿继承人,家世显赫无人能敌

“有仇必还”!告别陈伟霆,携手百亿继承人,家世显赫无人能敌

可乐谈情感
2025-11-06 12:56:31
许家印可能只是替罪羊,恒大幕后黑手另有其人,早已逃之夭夭!

许家印可能只是替罪羊,恒大幕后黑手另有其人,早已逃之夭夭!

保德全
2025-11-02 19:30:03
山东人为什么不愿意做生意?

山东人为什么不愿意做生意?

李倩说品牌
2025-11-06 12:37:21
赛力斯为何突然大跌?

赛力斯为何突然大跌?

东针商略
2025-11-06 22:19:20
万万没想到!湾湾博主击碎具俊晔最后的体面,原来他留台原因很多

万万没想到!湾湾博主击碎具俊晔最后的体面,原来他留台原因很多

小娱乐悠悠
2025-11-05 09:33:40
Shams:詹姆斯已获准参加对抗训练,1-2周后重新评估伤情

Shams:詹姆斯已获准参加对抗训练,1-2周后重新评估伤情

懂球帝
2025-11-07 01:16:05
刚刚宣布!不降息了

刚刚宣布!不降息了

中国基金报
2025-11-06 22:23:42
小鹏机器人被疑藏真人?一镜到底拉开拉链,82 个自由度太逼真

小鹏机器人被疑藏真人?一镜到底拉开拉链,82 个自由度太逼真

小南看车
2025-11-06 16:39:36
心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

心爱的硅胶娃娃被室友锁上门猛干,男子“抓奸在床”气哭报警获赔7766元

可达鸭面面观
2025-10-11 15:09:06
四川这三名同学,保送清北

四川这三名同学,保送清北

红星新闻
2025-11-06 21:08:22
就在今天!11月7日凌晨,中超传来北京国安、上海海港、蓉城消息

就在今天!11月7日凌晨,中超传来北京国安、上海海港、蓉城消息

皮皮观天下
2025-11-07 04:25:29
海南首富,坐拥数百亿却没有儿子,花了10亿买别墅送明星妻子

海南首富,坐拥数百亿却没有儿子,花了10亿买别墅送明星妻子

冷夜说
2025-11-05 21:55:31
本土大哥邵佳一:足协刚拿到批文就官宣 已有国脚主动申请回国足

本土大哥邵佳一:足协刚拿到批文就官宣 已有国脚主动申请回国足

刘哥谈体育
2025-11-07 01:39:42
全红婵未夺冠并不意外,教练陈若琳到场为爱徒加油,满眼都是心疼

全红婵未夺冠并不意外,教练陈若琳到场为爱徒加油,满眼都是心疼

喜欢历史的阿繁
2025-11-07 01:00:07
你见过最离奇的案件是什么?网友:我一个变态都觉得这些人太变态

你见过最离奇的案件是什么?网友:我一个变态都觉得这些人太变态

带你感受人间冷暖
2025-11-01 00:05:14
网友晒家里的腊肠犬,看懵了,第一眼还以为是烧猪!

网友晒家里的腊肠犬,看懵了,第一眼还以为是烧猪!

美芽
2025-11-05 19:02:11
2025-11-07 07:55:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4304文章数 37334关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

"一键投诚"APP在台湾引热议 台当局破防

头条要闻

"一键投诚"APP在台湾引热议 台当局破防

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

房产
教育
艺术
本地
时尚

房产要闻

锚定居住新趋势!广佛新世界重构湾区“理想生活投资学”

教育要闻

假如你11月才备考四六级觉得来不及

艺术要闻

Omar Ortiz 2025作品,墨西哥当代极简超写实画家

本地新闻

这届干饭人,已经把博物馆吃成了食堂

大衣别这么穿,显黑又显胖!

无障碍浏览 进入关怀版