Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
论可压缩性对复杂度的度量——最小描述长度与奇异学习理论之融合
https://arxiv.org/pdf/2510.12077
![]()
![]()
摘要
我们通过使用奇异学习理论(SLT)将最小描述长度(MDL)原则扩展到像神经网络这样的奇异模型,来研究神经网络的可压缩性。通过在 Pythia 套件上进行量化、分解和其他压缩技术的广泛实验,我们发现基于局部学习系数(LLC)的复杂度估计与可压缩性密切相关,在某些情况下甚至是线性相关的。我们的结果为严格评估模型压缩的极限提供了一条路径。
1 引言
深度学习的一个核心挑战是衡量模型的复杂性,即模型参数中编码的关于数据集的信息量。这不能简单地从损失函数中得出,因为实现给定水平的损失有不同的信息量:例如,网络可以记忆训练数据(使用相对较大的权重部分进行编码),或者发现一个通用解(使用较少的权重进行编码)。一种能够区分这两种解决方案的度量将非常有用,例如,在预测网络在分布外的行为方面。那么,我们该如何衡量这种数量呢? 一个简单的实用答案涉及压缩:给定一个损失容忍度 ε > 0 和某种压缩方案,其参数为 P(P 越大表示压缩程度越高),设 Pmax 是使损失从原始值 L 增加到阈值 L+ε 的压缩程度。直观上,如果网络使用其权重的一小部分来编码数据约束的解决方案,那么它可以“承受”大量的压缩,Pmax 将会很大。如果网络使用了其全部容量来编码解决方案,那么我们预计 Pmax 将会很小。 鉴于量化等压缩技术的实际重要性,这似乎是一个衡量模型复杂性的有用指标。然而,这种“可压缩性”概念的理论地位在先验上是不明确的。 可压缩性与复杂性之间的非正式关系可以追溯到 LeCun 等人(1989 年);Hochreiter 和 Schmidhuber(1997 年),并且一直是泛化误差理论界限的基础(Arora 等人,2018 年)。很明显,上述意义上的可压缩性必须与最小描述长度(MDL;Gr ̈unwald 和 Roos 2019 年)等概念有关。在本文中,我们通过奇异学习理论(SLT;Watanabe 2009 年)和局部学习系数(Lau 等人,2024 年)这一衡量模型复杂性的估计量,来研究各种实际压缩方案与 MDL 之间的关系,从而为深度学习中可压缩性与复杂性之间的直观联系提供了一些理论依据。
贡献。我们做出了以下贡献:
![]()
我们推导出了奇异 MDL 原则(第 3 节):运用奇异学习理论(SLT;Watanabe 2009)的思想,我们将最小描述长度(MDL;Gr ̈unwald 和 Roos 2019)原则扩展到神经网络,并证明存在一种两部分编码方式,其渐近冗余涉及局部学习系数(LLC;Lau 等人 2024),这是 SLT 中衡量模型复杂性的指标。与经典 MDL 处理方式不同,经典方式中几何不变量如由黑塞矩阵决定的曲率会出现在描述长度中,而在奇异情况下,重要的几何特征是退化性(见图 1)。
我们比较了 LLC 与可压缩性:在通过量化和分解进行压缩的场景下,我们通过绘制 LLC 与可压缩性之间的关系图,对 Pythia 系列多达 69 亿参数的模型进行了一系列实证研究,这些模型涵盖了不同训练检查点。正如预期的那样,我们发现 LLC 较大的模型倾向于具有较低的可压缩性。对于量化,我们观察到了一种特别密切的关系:在大多数训练步骤中,估计的 LLC 与以位为单位测量的可压缩性之间存在线性关系。 从这些结果中,我们得出了两个主要结论。首先,可压缩性作为一种衡量模型复杂性的非正式概念与 LLC 估计值是一致的,而 LLC 估计具有坚实的理论基础。其次,Pythia 模型中的可压缩性为在这些规模上使用 LLC 估计值的做法提供了一个独立的验证;鉴于我们对大型 Transformer 模型的真实 LLC 缺乏理论知识(见附录 D.2),这一点十分有价值。
2 相关工作
深度学习中的网络压缩。关于模型压缩的文献数量庞大,并且正在迅速发展。一个标准的参考文献是 Han 等人(2016 年),更新的综述包括 Hoefler 等人(2021 年);Wang 等人(2024b)。长期以来,人们一直认识到深度神经网络的“有效维度”通常远小于参数数量(Maddox 等人,2020 年)。这被广泛理解为模型压缩可能的一个原因(LeCun 等人,1989 年;Hassibi 等人,1993 年;Denil 等人,2013 年)。通过丢弃小幅度权重来修剪模型,或者利用黑塞矩阵的谱来确定低重要性权重,以及这些修剪方法的经验成功,导致了对有效维度的一种非正式工作理解,即“在不牺牲太多性能的情况下可以进行多少压缩”。然而,使用例如黑塞矩阵谱来确定有效维度的理论基础仍然薄弱。存在“彩票票”(即,在初始化时的稀疏且可训练的子网络)也表明最终训练的参数存在很大的冗余度(Frankle 和 Carbin,2019 年)。
微调的内在维度。与训练有素的神经网络的低有效维度相关,但又有所不同的是预训练大型语言模型(LLM)微调时观察到的低“内在维度”(Li 等人,2018 年)。这里的内在维度指的是在完整参数空间中可以解决微调优化问题的超平面的最小维度,精度达到一定水平。这可能比完整维度小几个数量级;例如,Aghajanyan 等人(2021 年)指出,对于一个拥有 3.35 亿参数的 RoBERTa 模型,200 个参数就足以解决微调问题,其性能可达到完整模型的 90%。这种观察表明,在 LLM 微调中,更新矩阵具有低“内在秩”,这促成了低秩适应微调方法的引入和广泛使用(Hu 等人,2022 年)。这种内在维度与完整预训练模型的有效维度之间的关系尚不清楚。
其他相关工作见第 A 节。
3 理论:奇异 MDL
![]()
3.1 设置
![]()
![]()
3.2 两部分编码
![]()
![]()
![]()
![]()
![]()
3.3 与可压缩性的关系
![]()
![]()
![]()
4 方法论
为了补充关于奇异 MDL 原则的理论,我们研究了可压缩性如何在实践中与局部学习系数(LLC)估计相关。在正文中,我们专注于量化(第 4.1 节)。在附录中,我们还处理了张量分解(第 C.2 节)、剪枝(第 C.5 节)以及向模型参数添加高斯噪声(第 C.4 节)。为了估计 LLC,在第 4.2 节中,我们描述了 Lau 等人(2024 年)估计器的一个预处理变体。
4.1 量化
![]()
![]()
![]()
![]()
5 结果
![]()
![]()
6 结论
我们已经建立了一个理论基础,通过奇异学习理论的视角来理解神经网络压缩,扩展了最小描述长度原则,以考虑神经网络损失景观的退化几何特性。我们的实验表明,局部学习系数(LLC)提供了一个压缩性的基本原则,具有较大估计 LLC 的模型检查点在包括量化和分解在内的多种压缩技术中被证明对压缩的抵抗力较小。
观察到的 LLC 估计值与量化的临界压缩阈值之间的强线性关系是一个独立的检验,表明我们当前基于 SGLD 的估计能够为多达 69 亿参数的变换器模型捕获有关模型复杂性的有意义信息。这对于将 SLT 应用于大型神经网络来说是一个令人鼓舞的信号,但 LLC 估计和类似技术仍然面临重大的方法论挑战。LLC 估计对超参数的敏感性以及估计值与真实值之间可能存在的差距代表了我们当前框架的主要局限性。
展望未来,该领域正沿着两条互补的路径前进,最终将汇聚。一方面,实际的压缩技术不断改进,越来越接近理论极限。另一方面,LLC 估计的科学发展提供了一条通向更准确估计这些极限的路径。随着这些方法的汇聚,我们将对压缩的基本极限以及实际技术如何接近这些极限获得更精确的理解。
原文链接:https://arxiv.org/pdf/2510.12077
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.