网易首页 > 网易号 > 正文 申请入驻

压缩性与复杂性:MDL和SLT的结合

0
分享至

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

论可压缩性对复杂度的度量——最小描述长度与奇异学习理论之融合

https://arxiv.org/pdf/2510.12077



摘要

我们通过使用奇异学习理论(SLT)将最小描述长度(MDL)原则扩展到像神经网络这样的奇异模型,来研究神经网络的可压缩性。通过在 Pythia 套件上进行量化、分解和其他压缩技术的广泛实验,我们发现基于局部学习系数(LLC)的复杂度估计与可压缩性密切相关,在某些情况下甚至是线性相关的。我们的结果为严格评估模型压缩的极限提供了一条路径。

1 引言

深度学习的一个核心挑战是衡量模型的复杂性,即模型参数中编码的关于数据集的信息量。这不能简单地从损失函数中得出,因为实现给定水平的损失有不同的信息量:例如,网络可以记忆训练数据(使用相对较大的权重部分进行编码),或者发现一个通用解(使用较少的权重进行编码)。一种能够区分这两种解决方案的度量将非常有用,例如,在预测网络在分布外的行为方面。那么,我们该如何衡量这种数量呢? 一个简单的实用答案涉及压缩:给定一个损失容忍度 ε > 0 和某种压缩方案,其参数为 P(P 越大表示压缩程度越高),设 Pmax 是使损失从原始值 L 增加到阈值 L+ε 的压缩程度。直观上,如果网络使用其权重的一小部分来编码数据约束的解决方案,那么它可以“承受”大量的压缩,Pmax 将会很大。如果网络使用了其全部容量来编码解决方案,那么我们预计 Pmax 将会很小。 鉴于量化等压缩技术的实际重要性,这似乎是一个衡量模型复杂性的有用指标。然而,这种“可压缩性”概念的理论地位在先验上是不明确的。 可压缩性与复杂性之间的非正式关系可以追溯到 LeCun 等人(1989 年);Hochreiter 和 Schmidhuber(1997 年),并且一直是泛化误差理论界限的基础(Arora 等人,2018 年)。很明显,上述意义上的可压缩性必须与最小描述长度(MDL;Gr ̈unwald 和 Roos 2019 年)等概念有关。在本文中,我们通过奇异学习理论(SLT;Watanabe 2009 年)和局部学习系数(Lau 等人,2024 年)这一衡量模型复杂性的估计量,来研究各种实际压缩方案与 MDL 之间的关系,从而为深度学习中可压缩性与复杂性之间的直观联系提供了一些理论依据。

贡献。我们做出了以下贡献:


  • 我们推导出了奇异 MDL 原则(第 3 节):运用奇异学习理论(SLT;Watanabe 2009)的思想,我们将最小描述长度(MDL;Gr ̈unwald 和 Roos 2019)原则扩展到神经网络,并证明存在一种两部分编码方式,其渐近冗余涉及局部学习系数(LLC;Lau 等人 2024),这是 SLT 中衡量模型复杂性的指标。与经典 MDL 处理方式不同,经典方式中几何不变量如由黑塞矩阵决定的曲率会出现在描述长度中,而在奇异情况下,重要的几何特征是退化性(见图 1)。

  • 我们比较了 LLC 与可压缩性:在通过量化和分解进行压缩的场景下,我们通过绘制 LLC 与可压缩性之间的关系图,对 Pythia 系列多达 69 亿参数的模型进行了一系列实证研究,这些模型涵盖了不同训练检查点。正如预期的那样,我们发现 LLC 较大的模型倾向于具有较低的可压缩性。对于量化,我们观察到了一种特别密切的关系:在大多数训练步骤中,估计的 LLC 与以位为单位测量的可压缩性之间存在线性关系。 从这些结果中,我们得出了两个主要结论。首先,可压缩性作为一种衡量模型复杂性的非正式概念与 LLC 估计值是一致的,而 LLC 估计具有坚实的理论基础。其次,Pythia 模型中的可压缩性为在这些规模上使用 LLC 估计值的做法提供了一个独立的验证;鉴于我们对大型 Transformer 模型的真实 LLC 缺乏理论知识(见附录 D.2),这一点十分有价值。

2 相关工作

深度学习中的网络压缩。关于模型压缩的文献数量庞大,并且正在迅速发展。一个标准的参考文献是 Han 等人(2016 年),更新的综述包括 Hoefler 等人(2021 年);Wang 等人(2024b)。长期以来,人们一直认识到深度神经网络的“有效维度”通常远小于参数数量(Maddox 等人,2020 年)。这被广泛理解为模型压缩可能的一个原因(LeCun 等人,1989 年;Hassibi 等人,1993 年;Denil 等人,2013 年)。通过丢弃小幅度权重来修剪模型,或者利用黑塞矩阵的谱来确定低重要性权重,以及这些修剪方法的经验成功,导致了对有效维度的一种非正式工作理解,即“在不牺牲太多性能的情况下可以进行多少压缩”。然而,使用例如黑塞矩阵谱来确定有效维度的理论基础仍然薄弱。存在“彩票票”(即,在初始化时的稀疏且可训练的子网络)也表明最终训练的参数存在很大的冗余度(Frankle 和 Carbin,2019 年)。

微调的内在维度。与训练有素的神经网络的低有效维度相关,但又有所不同的是预训练大型语言模型(LLM)微调时观察到的低“内在维度”(Li 等人,2018 年)。这里的内在维度指的是在完整参数空间中可以解决微调优化问题的超平面的最小维度,精度达到一定水平。这可能比完整维度小几个数量级;例如,Aghajanyan 等人(2021 年)指出,对于一个拥有 3.35 亿参数的 RoBERTa 模型,200 个参数就足以解决微调问题,其性能可达到完整模型的 90%。这种观察表明,在 LLM 微调中,更新矩阵具有低“内在秩”,这促成了低秩适应微调方法的引入和广泛使用(Hu 等人,2022 年)。这种内在维度与完整预训练模型的有效维度之间的关系尚不清楚。

其他相关工作见第 A 节

3 理论:奇异 MDL


3.1 设置



3.2 两部分编码






3.3 与可压缩性的关系




4 方法论

为了补充关于奇异 MDL 原则的理论,我们研究了可压缩性如何在实践中与局部学习系数(LLC)估计相关。在正文中,我们专注于量化(第 4.1 节)。在附录中,我们还处理了张量分解(第 C.2 节)、剪枝(第 C.5 节)以及向模型参数添加高斯噪声(第 C.4 节)。为了估计 LLC,在第 4.2 节中,我们描述了 Lau 等人(2024 年)估计器的一个预处理变体。

4.1 量化





5 结果



6 结论

我们已经建立了一个理论基础,通过奇异学习理论的视角来理解神经网络压缩,扩展了最小描述长度原则,以考虑神经网络损失景观的退化几何特性。我们的实验表明,局部学习系数(LLC)提供了一个压缩性的基本原则,具有较大估计 LLC 的模型检查点在包括量化和分解在内的多种压缩技术中被证明对压缩的抵抗力较小。

观察到的 LLC 估计值与量化的临界压缩阈值之间的强线性关系是一个独立的检验,表明我们当前基于 SGLD 的估计能够为多达 69 亿参数的变换器模型捕获有关模型复杂性的有意义信息。这对于将 SLT 应用于大型神经网络来说是一个令人鼓舞的信号,但 LLC 估计和类似技术仍然面临重大的方法论挑战。LLC 估计对超参数的敏感性以及估计值与真实值之间可能存在的差距代表了我们当前框架的主要局限性。

展望未来,该领域正沿着两条互补的路径前进,最终将汇聚。一方面,实际的压缩技术不断改进,越来越接近理论极限。另一方面,LLC 估计的科学发展提供了一条通向更准确估计这些极限的路径。随着这些方法的汇聚,我们将对压缩的基本极限以及实际技术如何接近这些极限获得更精确的理解。

原文链接:https://arxiv.org/pdf/2510.12077

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普这棋,下成了死局

特朗普这棋,下成了死局

梳子姐
2026-03-04 10:08:59
美国电网将迎史诗级扩建 中国电网设备出口订单或持续受益

美国电网将迎史诗级扩建 中国电网设备出口订单或持续受益

中国能源网
2026-03-04 10:32:07
中国队时隔多年后再次确认参加土伦杯!多位07后出战,值得期待

中国队时隔多年后再次确认参加土伦杯!多位07后出战,值得期待

振刚说足球
2026-03-04 15:53:57
2026年养老金或再涨,低于3500元涨180,高于6500元涨80可行吗?

2026年养老金或再涨,低于3500元涨180,高于6500元涨80可行吗?

另子维爱读史
2026-03-03 17:49:47
早上十点!徐杰宣布重要决定,萨林杰直接摆烂,杜润旺肚腩遭群嘲

早上十点!徐杰宣布重要决定,萨林杰直接摆烂,杜润旺肚腩遭群嘲

多特体育说
2026-03-04 09:45:45
许世友晚年三次自杀,用毛巾勒脖子,拔掉静脉插管,医生:何苦啊

许世友晚年三次自杀,用毛巾勒脖子,拔掉静脉插管,医生:何苦啊

搜史君
2026-02-25 15:20:07
现货黄金突破5200美元/盎司,日内涨2.21%

现货黄金突破5200美元/盎司,日内涨2.21%

每日经济新闻
2026-03-04 18:26:06
开始抢人,美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

开始抢人,美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

离离言几许
2026-03-04 16:27:16
政治不扰足球!美国足协发声:全力支持伊朗征战美加墨世界杯

政治不扰足球!美国足协发声:全力支持伊朗征战美加墨世界杯

夜白侃球
2026-03-04 19:11:07
元宵节已过,全国打工人再出发,原来他们有鄙视链分三六九等…

元宵节已过,全国打工人再出发,原来他们有鄙视链分三六九等…

慧翔百科
2026-03-04 09:04:13
哈梅内伊儿子成为接班人,父母之仇:或将追杀内塔尼亚胡和特朗普

哈梅内伊儿子成为接班人,父母之仇:或将追杀内塔尼亚胡和特朗普

陈博世财经
2026-03-04 16:52:48
特朗普大怒欲断西贸易,话音刚落,西班牙反手一击:立即退出北约

特朗普大怒欲断西贸易,话音刚落,西班牙反手一击:立即退出北约

明天见灌装冰块
2026-03-04 17:30:51
买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

买前白月光,买后真垃圾!这6个家居物品,坑了太多人!

室内设计师有料儿
2026-02-24 15:06:49
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
三婚又要离了,他也太渣了!

三婚又要离了,他也太渣了!

背包旅行
2026-03-04 15:11:34
五个孩子一个爹:用试管造娃的华人虎爸,如何培养奥运冠军?

五个孩子一个爹:用试管造娃的华人虎爸,如何培养奥运冠军?

听风听你
2026-03-04 11:05:39
伊朗导弹首次在北约国家上空被击落

伊朗导弹首次在北约国家上空被击落

碳基生物关怀组织
2026-03-04 23:44:31
4号午评:沪指跌破4100点!所有人都注意了,大盘后市或将这样走

4号午评:沪指跌破4100点!所有人都注意了,大盘后市或将这样走

春江财富
2026-03-04 11:56:50
《乘风2026》官宣名单,30人没热搜,没哭戏,没C位争夺战。

《乘风2026》官宣名单,30人没热搜,没哭戏,没C位争夺战。

情感大头说说
2026-03-04 20:09:19
听我一句劝:今年买iPhone17,请直接省下那3000块!

听我一句劝:今年买iPhone17,请直接省下那3000块!

小兔子发现大事情
2026-03-04 03:37:27
2026-03-05 00:27:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1252文章数 18关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

时尚
旅游
数码
健康
公开课

女人不管多大年纪,都要准备一条黑裙子,百搭舒适又显气质

旅游要闻

临沂:千年古城撒欢夜,这才是中国年最燃的结尾

数码要闻

苹果发布全新入门级笔记本电脑MacBook Neo 起售价599美元

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版