网易首页 > 网易号 > 正文 申请入驻

压缩性与复杂性:MDL和SLT的结合

0
分享至

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

论可压缩性对复杂度的度量——最小描述长度与奇异学习理论之融合

https://arxiv.org/pdf/2510.12077



摘要

我们通过使用奇异学习理论(SLT)将最小描述长度(MDL)原则扩展到像神经网络这样的奇异模型,来研究神经网络的可压缩性。通过在 Pythia 套件上进行量化、分解和其他压缩技术的广泛实验,我们发现基于局部学习系数(LLC)的复杂度估计与可压缩性密切相关,在某些情况下甚至是线性相关的。我们的结果为严格评估模型压缩的极限提供了一条路径。

1 引言

深度学习的一个核心挑战是衡量模型的复杂性,即模型参数中编码的关于数据集的信息量。这不能简单地从损失函数中得出,因为实现给定水平的损失有不同的信息量:例如,网络可以记忆训练数据(使用相对较大的权重部分进行编码),或者发现一个通用解(使用较少的权重进行编码)。一种能够区分这两种解决方案的度量将非常有用,例如,在预测网络在分布外的行为方面。那么,我们该如何衡量这种数量呢? 一个简单的实用答案涉及压缩:给定一个损失容忍度 ε > 0 和某种压缩方案,其参数为 P(P 越大表示压缩程度越高),设 Pmax 是使损失从原始值 L 增加到阈值 L+ε 的压缩程度。直观上,如果网络使用其权重的一小部分来编码数据约束的解决方案,那么它可以“承受”大量的压缩,Pmax 将会很大。如果网络使用了其全部容量来编码解决方案,那么我们预计 Pmax 将会很小。 鉴于量化等压缩技术的实际重要性,这似乎是一个衡量模型复杂性的有用指标。然而,这种“可压缩性”概念的理论地位在先验上是不明确的。 可压缩性与复杂性之间的非正式关系可以追溯到 LeCun 等人(1989 年);Hochreiter 和 Schmidhuber(1997 年),并且一直是泛化误差理论界限的基础(Arora 等人,2018 年)。很明显,上述意义上的可压缩性必须与最小描述长度(MDL;Gr ̈unwald 和 Roos 2019 年)等概念有关。在本文中,我们通过奇异学习理论(SLT;Watanabe 2009 年)和局部学习系数(Lau 等人,2024 年)这一衡量模型复杂性的估计量,来研究各种实际压缩方案与 MDL 之间的关系,从而为深度学习中可压缩性与复杂性之间的直观联系提供了一些理论依据。

贡献。我们做出了以下贡献:


  • 我们推导出了奇异 MDL 原则(第 3 节):运用奇异学习理论(SLT;Watanabe 2009)的思想,我们将最小描述长度(MDL;Gr ̈unwald 和 Roos 2019)原则扩展到神经网络,并证明存在一种两部分编码方式,其渐近冗余涉及局部学习系数(LLC;Lau 等人 2024),这是 SLT 中衡量模型复杂性的指标。与经典 MDL 处理方式不同,经典方式中几何不变量如由黑塞矩阵决定的曲率会出现在描述长度中,而在奇异情况下,重要的几何特征是退化性(见图 1)。

  • 我们比较了 LLC 与可压缩性:在通过量化和分解进行压缩的场景下,我们通过绘制 LLC 与可压缩性之间的关系图,对 Pythia 系列多达 69 亿参数的模型进行了一系列实证研究,这些模型涵盖了不同训练检查点。正如预期的那样,我们发现 LLC 较大的模型倾向于具有较低的可压缩性。对于量化,我们观察到了一种特别密切的关系:在大多数训练步骤中,估计的 LLC 与以位为单位测量的可压缩性之间存在线性关系。 从这些结果中,我们得出了两个主要结论。首先,可压缩性作为一种衡量模型复杂性的非正式概念与 LLC 估计值是一致的,而 LLC 估计具有坚实的理论基础。其次,Pythia 模型中的可压缩性为在这些规模上使用 LLC 估计值的做法提供了一个独立的验证;鉴于我们对大型 Transformer 模型的真实 LLC 缺乏理论知识(见附录 D.2),这一点十分有价值。

2 相关工作

深度学习中的网络压缩。关于模型压缩的文献数量庞大,并且正在迅速发展。一个标准的参考文献是 Han 等人(2016 年),更新的综述包括 Hoefler 等人(2021 年);Wang 等人(2024b)。长期以来,人们一直认识到深度神经网络的“有效维度”通常远小于参数数量(Maddox 等人,2020 年)。这被广泛理解为模型压缩可能的一个原因(LeCun 等人,1989 年;Hassibi 等人,1993 年;Denil 等人,2013 年)。通过丢弃小幅度权重来修剪模型,或者利用黑塞矩阵的谱来确定低重要性权重,以及这些修剪方法的经验成功,导致了对有效维度的一种非正式工作理解,即“在不牺牲太多性能的情况下可以进行多少压缩”。然而,使用例如黑塞矩阵谱来确定有效维度的理论基础仍然薄弱。存在“彩票票”(即,在初始化时的稀疏且可训练的子网络)也表明最终训练的参数存在很大的冗余度(Frankle 和 Carbin,2019 年)。

微调的内在维度。与训练有素的神经网络的低有效维度相关,但又有所不同的是预训练大型语言模型(LLM)微调时观察到的低“内在维度”(Li 等人,2018 年)。这里的内在维度指的是在完整参数空间中可以解决微调优化问题的超平面的最小维度,精度达到一定水平。这可能比完整维度小几个数量级;例如,Aghajanyan 等人(2021 年)指出,对于一个拥有 3.35 亿参数的 RoBERTa 模型,200 个参数就足以解决微调问题,其性能可达到完整模型的 90%。这种观察表明,在 LLM 微调中,更新矩阵具有低“内在秩”,这促成了低秩适应微调方法的引入和广泛使用(Hu 等人,2022 年)。这种内在维度与完整预训练模型的有效维度之间的关系尚不清楚。

其他相关工作见第 A 节

3 理论:奇异 MDL


3.1 设置



3.2 两部分编码






3.3 与可压缩性的关系




4 方法论

为了补充关于奇异 MDL 原则的理论,我们研究了可压缩性如何在实践中与局部学习系数(LLC)估计相关。在正文中,我们专注于量化(第 4.1 节)。在附录中,我们还处理了张量分解(第 C.2 节)、剪枝(第 C.5 节)以及向模型参数添加高斯噪声(第 C.4 节)。为了估计 LLC,在第 4.2 节中,我们描述了 Lau 等人(2024 年)估计器的一个预处理变体。

4.1 量化





5 结果



6 结论

我们已经建立了一个理论基础,通过奇异学习理论的视角来理解神经网络压缩,扩展了最小描述长度原则,以考虑神经网络损失景观的退化几何特性。我们的实验表明,局部学习系数(LLC)提供了一个压缩性的基本原则,具有较大估计 LLC 的模型检查点在包括量化和分解在内的多种压缩技术中被证明对压缩的抵抗力较小。

观察到的 LLC 估计值与量化的临界压缩阈值之间的强线性关系是一个独立的检验,表明我们当前基于 SGLD 的估计能够为多达 69 亿参数的变换器模型捕获有关模型复杂性的有意义信息。这对于将 SLT 应用于大型神经网络来说是一个令人鼓舞的信号,但 LLC 估计和类似技术仍然面临重大的方法论挑战。LLC 估计对超参数的敏感性以及估计值与真实值之间可能存在的差距代表了我们当前框架的主要局限性。

展望未来,该领域正沿着两条互补的路径前进,最终将汇聚。一方面,实际的压缩技术不断改进,越来越接近理论极限。另一方面,LLC 估计的科学发展提供了一条通向更准确估计这些极限的路径。随着这些方法的汇聚,我们将对压缩的基本极限以及实际技术如何接近这些极限获得更精确的理解。

原文链接:https://arxiv.org/pdf/2510.12077

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯嘉丽·约翰逊全球票房冠军地位被取代

斯嘉丽·约翰逊全球票房冠军地位被取代

TVB的四小花
2026-01-16 10:01:16
车厘子被保姆“炫”完了,怎么提醒才不伤和气?网友的招儿太绝了

车厘子被保姆“炫”完了,怎么提醒才不伤和气?网友的招儿太绝了

另子维爱读史
2026-01-05 18:14:33
太离谱!昨日致32人丧生的泰国高铁建筑商,今又致多人死伤!

太离谱!昨日致32人丧生的泰国高铁建筑商,今又致多人死伤!

一簌月光
2026-01-16 04:48:23
2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

你食不食油饼
2026-01-11 06:41:42
商务局,一杯百万酒你敢喝吗?网友:全程一片木耳奉陪到底!

商务局,一杯百万酒你敢喝吗?网友:全程一片木耳奉陪到底!

另子维爱读史
2026-01-15 20:20:43
克罗斯:巴萨不会赢得任何国际赛事冠军,欧战中对手是顶级的

克罗斯:巴萨不会赢得任何国际赛事冠军,欧战中对手是顶级的

懂球帝
2026-01-16 07:10:06
钱小豪“毁灭史”,他的故事比你想得更恶劣

钱小豪“毁灭史”,他的故事比你想得更恶劣

比利
2025-12-21 11:26:52
报复不隔夜!对华加税25%后,中方发布第3号公告:对美韩征税113%

报复不隔夜!对华加税25%后,中方发布第3号公告:对美韩征税113%

潮鹿逐梦
2026-01-15 20:56:58
无座票乘客站一等座车厢被要求离开?12306回应:无座票仅限二等车厢

无座票乘客站一等座车厢被要求离开?12306回应:无座票仅限二等车厢

闪电新闻
2026-01-15 12:55:11
央视停播U23亚洲杯:中国队战乌兹,点球大战定胜负

央视停播U23亚洲杯:中国队战乌兹,点球大战定胜负

格斗联盟王大锤
2026-01-16 11:34:48
里程碑,克莱生涯三分数超越利拉德独享历史第四,身前是雷-阿伦

里程碑,克莱生涯三分数超越利拉德独享历史第四,身前是雷-阿伦

懂球帝
2026-01-16 10:12:07
加拿大总理刚到北京,又有两国元首计划访华,特朗普突然喊话中国

加拿大总理刚到北京,又有两国元首计划访华,特朗普突然喊话中国

时时有聊
2026-01-15 15:51:07
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
1935年方志敏被俘,狱中用米汤致信鲁迅求救,不料鲁迅拒绝援手

1935年方志敏被俘,狱中用米汤致信鲁迅求救,不料鲁迅拒绝援手

唠叨说历史
2026-01-14 11:30:28
突然!李湘遭全平台封号,近期行程曝光令人费劲,知情人曝原因

突然!李湘遭全平台封号,近期行程曝光令人费劲,知情人曝原因

八斗小先生
2026-01-16 10:53:18
中方对萧美琴下达封杀令,向欧洲发出照会后,加拿大议员取消窜台

中方对萧美琴下达封杀令,向欧洲发出照会后,加拿大议员取消窜台

兴史兴谈
2026-01-15 12:03:14
油轮背后的静默屠杀:中方七十二小时的底层逻辑重构

油轮背后的静默屠杀:中方七十二小时的底层逻辑重构

宇视天下
2026-01-15 23:14:30
巩固东部第一!布克伤停活塞16分逆转太阳 狄龙6犯阿伦33分

巩固东部第一!布克伤停活塞16分逆转太阳 狄龙6犯阿伦33分

醉卧浮生
2026-01-16 10:51:51
伊朗航空邀你免费去玩了,你心动了吗?

伊朗航空邀你免费去玩了,你心动了吗?

山间听雨
2026-01-15 08:00:11
台媒曝大S离世一年,汪小菲与徐家重启谈判,抚养费之争迎来转机

台媒曝大S离世一年,汪小菲与徐家重启谈判,抚养费之争迎来转机

李健政观察
2026-01-16 09:37:46
2026-01-16 13:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1153文章数 18关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

头条要闻

特朗普终于拿到诺奖 马查多或为换取委内瑞拉总统宝座

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

从 "商务" 变 "潮酷" 全新一汽奥迪A6L首秀亮相

态度原创

教育
旅游
亲子
时尚
艺术

教育要闻

“我们是驴吗?”小学老师晒学校午餐,学校餐饮管理引深思

旅游要闻

强降雪将至!雪后去撒欢儿,郑州及周边滑雪场推荐→

亲子要闻

好物齐刷刷|新生命 乳酸菌

年度最扎心电影,看得中年男女坐立难安

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

无障碍浏览 进入关怀版