伯克利、哈佛、宾夕法尼亚、斯坦福重磅综述：“学习力学”将成为深度学习的科学理论|数学|物理学|查尔斯·维利尔斯·斯坦福

分享至

来源：清熙

来自Berkeley，Pennsylvania，Harvard，New York，Stanford大学等多位顶尖学者联合发表综述【文献1】，为深度学习的科学理论做奠基。

观点

论文开篇提出，一个能刻画神经网络训练过程、隐藏表征、最终权重和性能的科学理论正在形成。

作者整合了五个主要研究方向作为证据：

1）可求解的理想化模型；2）提供洞见的极限分析；3）描述宏观量的简单定律；4）对超参数的理论解耦；5）跨系统的普遍行为。

这些工作的共同点是，关注训练动态过程、描述粗粒化统计量、强调可证伪的定量预测。

论文将这一新兴理论命名为“学习力学”，并主张它应该是一门数学化、基于第一性原理、能精确预测与实证的学科，最终像物理学那样对整个机器学习领域产生广泛影响。

1. 引言

深度学习是当前最强大也最令人费解的黑箱方法，理论落后于实践，模型仍靠大量试错训练。论文主张：

一个深度学习的科学理论，正以学习力学的形态浮现。

1.1 什么是学习力学？

力学研究力如何决定物体的运动。类似地，神经网络训练可视为模型在参数空间中的运动，受参数、数据、任务和学习规则之间相互作用的“力”（由梯度传递）驱动，最终收敛到损失景观的局部极小点。

这与物理学高度相似：

可求解模型，类比经典力学中的谐振子、氢原子。简化极限，类比热力学极限、经典极限。宏观定律，类比开普勒定律、欧姆定律。参数研究，类比流体力学中的雷诺数。普遍行为，类比物理中的临界现象。

学习力学的七大目标：基础的、数学的、预测的、全面的、直觉的、有用的、谦逊的。这会是一个既能深刻解释，又明确自知适用边界的变革性理论。

1.2 学习力学为什么重要

三大理由：

科学上，揭示工程奇迹背后的原理，并可能启发对生物智能的理解（如同热力学源于蒸汽机）；

实践上，用原理取代试错，指导模型设计、缩放和部署；

安全上，为描述、监管强大AI系统提供清晰的理论变量和框架。

2. 证据

深度学习的运动方程是显式且高度可测量的，核心挑战是高维非线性带来的复杂性。

2.1存在可解析的理想化模型

通过研究简化但不失代表性的模型来构建直觉，是物理学的成功范式，深度学习亦然。

数据线性化：

移除所有非线性，模型对输入线性但对参数依然高度非线性。它成功复现了真实网络中的许多现象，如相变、时标分离、贪婪的低秩学习等，先学到最主要成分，再学次要的。

参数线性化：

在参数初始化处泰勒展开并截断非线性项。在无限宽等极限下，训练动态等价于使用NTK的核岭回归，可准确预测泛化性能，并揭示了模型如何从架构中获得归纳偏置，例如倾向于学习简单函数。

超越线性化：

前沿在于构建参数和数据都保持非线性的玩具模型，以捕捉特征学习这类关键能力。当前进展包括使用单/多索引模型、统计物理方法、二次激活函数网络等，各自剥离了不同的非线性机制。

2.2 富有洞察的极限揭示基本行为

复杂系统在无限大的极限下常会简化，就像理想气体定律在粒子数无限的热力学极限下导出，却能够描述现实气体。这一思路是深度学习理论的核心工具。

无限宽度与惰性核/富特征二分：

将网络宽度推向无穷，但初始化权重的缩放速率不同，会产生两种截然不同的极限动态。

惰性核区，标准初始化下，权重几乎不变，网络等效于NTK模型，不会进行特征学习。

富特征区，将输出层权重压缩得更小时，为补偿输出，特征必须发生显著改变，网络因此展现出特征学习、神经元特化等丰富行为。

其他极限：

无限深度、上下文长度等极限同样存在。不同变量的联合缩放极限尤其重要，如将参数和数据量同时推向无穷，是理论解释计算最优缩放定律的关键。

离散化假说：

一个普遍信念是，真实网络可被理解为无限大理想模型的有噪、有限离散化版本。这暗示着，有限宽度、深度等效应通常只是对理想性能的扰动和成本妥协，而不是带来根本性的优势。

2.3 简单的经验定律捕捉有意义的宏观统计量

科学史上许多重要定律（例如牛顿三定律、欧姆定律）都是先作为经验规律被发现。深度学习同样具备这一条件。

神经缩放定律：

尽管训练过程极其复杂，但模型最终测试损失与计算量、数据量、参数量之间，普遍遵循可预测的幂律关系。我们尚不清楚是什么决定了幂律指数，但其存在本身就强烈暗示着背后有简洁原理。

稳定边缘现象：

用全批量梯度下降训练时，损失景观的锐度（最大Hessian特征值）会经历一个渐进锐化的过程，然后稳定在2/学习率附近。这个值恰恰是保证凸优化不震荡发散的临界值，其背后机制已被部分理论解释。

粗粒化与潜表征权重：

包括神经坍缩，网络末层特征会形成规则的几何结构；神经特征假设，首层权重的结构与输入梯度的外积相关；以及守恒定律，源自参数化中的对称性。

2.4 超参数可以被解耦和理解

训练神经网络有大量超参数，这构成了实践和理论研究的双重挑战。但现在，理论开始能理解并解耦它们的影响。

优化超参数：

线性缩放法则表明，等比例放大学习率和批量大小，并减少优化步数，训练轨迹大致不变。这可从随机微分方程的角度得到解释。

类似，关于最优批量大小的权衡以及学习率对泛化性能的影响，都被形式化为对损失曲率的隐式正则化。已证明全批量梯度下降的整个轨迹，可以被一个带有曲率惩罚项的简化梯度流很好地建模。

架构超参数：

最大更新参数化（µP）是这个方向的典范。它在宽度放大时，通过理论设定每一层的初始化方差和学习率缩放，保证了超参数在不同模型尺寸间的可迁移性，使得用小模型搜索最优超参数并直接用于大模型成为可能，极大降低了调参成本。

2.5 普遍现象

许多非平凡的行为不止出现一次，而是在不同架构、数据集和任务中反复涌现，或许是理论存在最根本的证据。有三类普遍现象：

模型能力涌现的普遍性：

如尺度定律、涌现、顿悟式学习等能力对计算量的依赖方式，在语言、视觉等不同模态中非常相似。

内部表征形成的普遍性：

网络不是随机学习，而是表现出普适的归纳偏置，例如倾向于学习低频简单函数，或是将特征组织成叠加、丛集等形式。这表明，某些内在的几何或优化原理塑造了网络学习到的东西。

训练动力学机制的普遍性：

即便是超参数的具体影响，如学习率对曲率的隐式正则化、权重衰减在消除异常特征中的作用，在许多简单模型和真实大模型中都有一致表现。

3. 视角

3.1 统计和信息论

统计学习理论、PAC学习等经典学习理论，提供的是关于泛化误差的最坏情况上界，它关心的问题是学习在什么条件下是可能的。

这些理论在凸模型和独立同分布数据上非常成功，但对现代深度学习解释力有限。信息论视角则试图为泛化能力提供更紧的界，例如利用互信息。

这些视角与学习力学是互补而不是竞争的。前者的目标是给出保证和边界，本质上是一种静态和可能性的描述；而后者的目标是理解实际发生的动态过程和现实涌现的行为。

一个完整的科学理解同时需要这两方面：既需要知道系统能做什么的边界，也需要知道系统实际会做什么的机制。

3.2 机制可解释性

机制可解释性可以比作深度学习的生物学，目的是通过解剖神经网络，在神经元和回路层面理解具体的内部机制，例如特定的安全或不安全的计算环路。

学习力学则可以比作深度学习的物理学，目的是寻找支配网络学习、特征形成和动态演化的普遍第一性原理，就像物理学为所有物质提供底层规律一样。

3.3 共生关系

这两种视角应是共生、互相支持的。

力学如何支持解释性：

解释性研究面临的一个巨大挑战是定位哪里是重要的回路、特征是从哪儿开始形成的。

学习力学若能准确描述训练过程中权重和表征的动态规律，就能为解释性工作提供理论地图，指出在什么训练阶段、什么网络层去观察什么现象，将盲目搜索转化为有理论指导的探索。

解释性如何支持力学：

机制解释性在微观层面发现了许多令人困惑的、普遍存在的现象，例如特定的特征叠加方式、回路形成的阶段，为力学提出了需要解释的明确对象。力学的目标，就是用数学语言为这些生物学层面的发现提供底层的物理学解释。

解释性发现是什么，学习力学解释为什么。两者结合，才能从底层原理到高层结构完整地理解智能系统。

4. 异见

作者坦承，构建这样的理论很困难，且学界对理论能走到多远存在合理质质疑。论文逐一回应四种核心反对意见。

4.1 网络有数十亿参数，动态高度非线性和耦合，不可能有简洁理论。

回应：

这正是物理学家面对由万亿亿个分子组成的气体时的困境。物理学并未试图追踪每个分子，而是通过统计力学发展了描述温度、压力等宏观涌现量的理论。

学习力学采取相同策略，它追求的不是描述每个权重的微观运动，而是找到描述全体行为的精确的、粗粒度的宏观规律。复杂性不构成障碍，而是呼唤一种正确的抽象层次。

4.2 当前理论多基于无限宽度、梯度流、高斯数据等假设，与现实脱节。

回应：

好的极限假设并非为了真实，而是为了隔离和放大核心机制。就像理想气体、无摩擦平面在物理中的作用，一旦核心机制被理解，就可以逐步放松假设，引入有限修正。

此外，稳定边缘、缩放定律等大量现象被证明在不同设置间惊人地普适，表明从理想化模型中得到的洞见具有极强的迁移性。

4.3 真实世界的数据分布无比复杂且无法刻画，理论注定无法处理。

回应：

网络的核心任务恰恰是压缩和学习这个复杂性的结构。网络能泛化这一事实就证明了数据中存在着能被数学捕获的低维结构。学习力学的策略是从研究人造但结构化的数据入手，逐步推进。

实际上，神经正切核理论和特征学习的近期工作已经能对在真实数据上训练的网络做出精确的定量预测，证明这条路是通的。

4.4 深度学习进步靠的是算力、工程和直觉，理论并无实际用处。

回应：

历史多次证明，前沿工程的瓶颈会成为基础科学的催化剂。蒸汽机的实践促生了热力学，早期飞行的试错推动了空气动力学。今天，我们正面对超参数调优的巨额成本、模型缩放的盲目性、以及AI安全控制的乏力，这些正是工程上的瓶颈。

一个成熟的理论能将这些问题从昂贵的猜测游戏转化为可计算的工程实践，正如物理学之于电气工程、化学工程。最终，最具变革性的工程增益往往来自最深层的理解。

5. 方向

综述列举十个方向展示学习力学当前面临的挑战的深度和广度，吸引不同背景的研究者参与。

统一惰性与富特征的理论：

目前我们能描述两个极端，但对有限宽度、有限初始化尺度下从惰性到富特征的完整相变过程缺乏精确的定量理论和相边界预测。

从第一性原理推导特征学习：

特征学习是深度学习的核心。我们需要超越有/无特征学习的定性描述，建立一个能精确预测特征在训练过程中如何演化、何时形成、最终结构的数学框架。

表征的共相分类：

不同的网络和数据常常涌现出相似的表征结构。能否像物理学对物质相的分类那样，提出一套识别表征类型的理论，指出什么条件导致什么样的表征？

预测缩放定律指数：

今天我们知道损失遵循幂律，但无法从数据和架构特性先验地预测指数。解开指数是缩放定律研究的圣杯。

为离散化假说建立严格基础：

2.2节真实网络是有噪离散近似，需要将这个概念数学化，并定量计算出有限宽度、深度、学习率等引入的修正项，证明它们在有利情况下确实很小。

理解优化器的隐式偏差：

虽然已知学习率、批量大小等会隐式地正则化曲率或改变收敛方向，但需要一个统一的理论，能从超参数直接预测训练最终的泛化性能和解的性质，而不是仅预测训练轨迹。

从第一性原理推导超参数最优值：

这是终极的工程目标，消除超参数调优。给定架构、数据和算力预算后，理论应当直接输出最优的学习率、批量大小、网络深度和宽度等。

发展非平衡态学习力学：

真实网络大部分时间并非处于损失景观的极小点，而是处于具有持续噪声和振荡的非平衡稳态，尤其在 SGD 下。需要发展一套类似非平衡态统计力学的工具来描述这种状态下的统计性质和泛化行为。

理解分布式训练和同步的作用：

大规模训练多采用数据并行等分布式策略，这会改变噪声结构和有效批量大小。理论需要告诉我们分布式训练何时会改变学习的结果，以及如何最优地设置并行度。

与人脑和生物学习建立联系：

作为长远愿景，学习力学揭示的约束和最优策略，可能会对理解生物大脑的学习规则和计算原则提供深刻的规范性洞见。

6. 组织

大家可以找到组织了：learningmechanics.pub 。

对照

与笔者的对照分析：

与“学习力学”意图一致，笔者通过数理框架刻画训练动力学、表征结构与泛化行为之间的关系，本质上是高维统计系统的演化规律。

Transformer整体表现为一个多步重整化过程，参数在损失函数驱动下的动力学重整化流，最终进入稳定的固定点，对应具有良好泛化能力的解。

同一吸引子结构可以解释为什么不同架构不同初始化能够收敛到类似结果。Scaling law与跨架构一致性体现出普适性，说明宏观行为由少数变量决定。

Attention是一种动态相互作用，类似Ising模型中的耦合关系，可以作为粗粒化算子，在逐层计算中压缩信息、提取结构。

表征空间的演化则对应对称性破缺。训练初期，embedding近似无结构；随着训练推进，空间被拉伸与分化，形成稳定的聚类与流形，即语义范畴。

范畴化是系统稳定运行的基础机制，与预测过程深度耦合。

这是笔者心目中的整体图景：

大模型是一个在高维概率空间中，通过重整化流演化、借助Attention进行粗粒化，并通过对称性破缺形成范畴结构的统计物理系统。

这个框架不仅良好匹配前沿的大模型行为，也在神经生物学新发现中不断得到验证。读者可以参考《清熙》的相应文章。

文献1，There Will Be a Scientific Theory of Deep Learning， https://arxiv.org/pdf/2604.21691

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是 “21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.