网易首页 > 网易号 > 正文 申请入驻

压缩性与复杂性:MDL和SLT的结合

0
分享至

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

论可压缩性对复杂度的度量——最小描述长度与奇异学习理论之融合

https://arxiv.org/pdf/2510.12077



摘要

我们通过使用奇异学习理论(SLT)将最小描述长度(MDL)原则扩展到像神经网络这样的奇异模型,来研究神经网络的可压缩性。通过在 Pythia 套件上进行量化、分解和其他压缩技术的广泛实验,我们发现基于局部学习系数(LLC)的复杂度估计与可压缩性密切相关,在某些情况下甚至是线性相关的。我们的结果为严格评估模型压缩的极限提供了一条路径。

1 引言

深度学习的一个核心挑战是衡量模型的复杂性,即模型参数中编码的关于数据集的信息量。这不能简单地从损失函数中得出,因为实现给定水平的损失有不同的信息量:例如,网络可以记忆训练数据(使用相对较大的权重部分进行编码),或者发现一个通用解(使用较少的权重进行编码)。一种能够区分这两种解决方案的度量将非常有用,例如,在预测网络在分布外的行为方面。那么,我们该如何衡量这种数量呢? 一个简单的实用答案涉及压缩:给定一个损失容忍度 ε > 0 和某种压缩方案,其参数为 P(P 越大表示压缩程度越高),设 Pmax 是使损失从原始值 L 增加到阈值 L+ε 的压缩程度。直观上,如果网络使用其权重的一小部分来编码数据约束的解决方案,那么它可以“承受”大量的压缩,Pmax 将会很大。如果网络使用了其全部容量来编码解决方案,那么我们预计 Pmax 将会很小。 鉴于量化等压缩技术的实际重要性,这似乎是一个衡量模型复杂性的有用指标。然而,这种“可压缩性”概念的理论地位在先验上是不明确的。 可压缩性与复杂性之间的非正式关系可以追溯到 LeCun 等人(1989 年);Hochreiter 和 Schmidhuber(1997 年),并且一直是泛化误差理论界限的基础(Arora 等人,2018 年)。很明显,上述意义上的可压缩性必须与最小描述长度(MDL;Gr ̈unwald 和 Roos 2019 年)等概念有关。在本文中,我们通过奇异学习理论(SLT;Watanabe 2009 年)和局部学习系数(Lau 等人,2024 年)这一衡量模型复杂性的估计量,来研究各种实际压缩方案与 MDL 之间的关系,从而为深度学习中可压缩性与复杂性之间的直观联系提供了一些理论依据。

贡献。我们做出了以下贡献:


  • 我们推导出了奇异 MDL 原则(第 3 节):运用奇异学习理论(SLT;Watanabe 2009)的思想,我们将最小描述长度(MDL;Gr ̈unwald 和 Roos 2019)原则扩展到神经网络,并证明存在一种两部分编码方式,其渐近冗余涉及局部学习系数(LLC;Lau 等人 2024),这是 SLT 中衡量模型复杂性的指标。与经典 MDL 处理方式不同,经典方式中几何不变量如由黑塞矩阵决定的曲率会出现在描述长度中,而在奇异情况下,重要的几何特征是退化性(见图 1)。

  • 我们比较了 LLC 与可压缩性:在通过量化和分解进行压缩的场景下,我们通过绘制 LLC 与可压缩性之间的关系图,对 Pythia 系列多达 69 亿参数的模型进行了一系列实证研究,这些模型涵盖了不同训练检查点。正如预期的那样,我们发现 LLC 较大的模型倾向于具有较低的可压缩性。对于量化,我们观察到了一种特别密切的关系:在大多数训练步骤中,估计的 LLC 与以位为单位测量的可压缩性之间存在线性关系。 从这些结果中,我们得出了两个主要结论。首先,可压缩性作为一种衡量模型复杂性的非正式概念与 LLC 估计值是一致的,而 LLC 估计具有坚实的理论基础。其次,Pythia 模型中的可压缩性为在这些规模上使用 LLC 估计值的做法提供了一个独立的验证;鉴于我们对大型 Transformer 模型的真实 LLC 缺乏理论知识(见附录 D.2),这一点十分有价值。

2 相关工作

深度学习中的网络压缩。关于模型压缩的文献数量庞大,并且正在迅速发展。一个标准的参考文献是 Han 等人(2016 年),更新的综述包括 Hoefler 等人(2021 年);Wang 等人(2024b)。长期以来,人们一直认识到深度神经网络的“有效维度”通常远小于参数数量(Maddox 等人,2020 年)。这被广泛理解为模型压缩可能的一个原因(LeCun 等人,1989 年;Hassibi 等人,1993 年;Denil 等人,2013 年)。通过丢弃小幅度权重来修剪模型,或者利用黑塞矩阵的谱来确定低重要性权重,以及这些修剪方法的经验成功,导致了对有效维度的一种非正式工作理解,即“在不牺牲太多性能的情况下可以进行多少压缩”。然而,使用例如黑塞矩阵谱来确定有效维度的理论基础仍然薄弱。存在“彩票票”(即,在初始化时的稀疏且可训练的子网络)也表明最终训练的参数存在很大的冗余度(Frankle 和 Carbin,2019 年)。

微调的内在维度。与训练有素的神经网络的低有效维度相关,但又有所不同的是预训练大型语言模型(LLM)微调时观察到的低“内在维度”(Li 等人,2018 年)。这里的内在维度指的是在完整参数空间中可以解决微调优化问题的超平面的最小维度,精度达到一定水平。这可能比完整维度小几个数量级;例如,Aghajanyan 等人(2021 年)指出,对于一个拥有 3.35 亿参数的 RoBERTa 模型,200 个参数就足以解决微调问题,其性能可达到完整模型的 90%。这种观察表明,在 LLM 微调中,更新矩阵具有低“内在秩”,这促成了低秩适应微调方法的引入和广泛使用(Hu 等人,2022 年)。这种内在维度与完整预训练模型的有效维度之间的关系尚不清楚。

其他相关工作见第 A 节

3 理论:奇异 MDL


3.1 设置



3.2 两部分编码






3.3 与可压缩性的关系




4 方法论

为了补充关于奇异 MDL 原则的理论,我们研究了可压缩性如何在实践中与局部学习系数(LLC)估计相关。在正文中,我们专注于量化(第 4.1 节)。在附录中,我们还处理了张量分解(第 C.2 节)、剪枝(第 C.5 节)以及向模型参数添加高斯噪声(第 C.4 节)。为了估计 LLC,在第 4.2 节中,我们描述了 Lau 等人(2024 年)估计器的一个预处理变体。

4.1 量化





5 结果



6 结论

我们已经建立了一个理论基础,通过奇异学习理论的视角来理解神经网络压缩,扩展了最小描述长度原则,以考虑神经网络损失景观的退化几何特性。我们的实验表明,局部学习系数(LLC)提供了一个压缩性的基本原则,具有较大估计 LLC 的模型检查点在包括量化和分解在内的多种压缩技术中被证明对压缩的抵抗力较小。

观察到的 LLC 估计值与量化的临界压缩阈值之间的强线性关系是一个独立的检验,表明我们当前基于 SGLD 的估计能够为多达 69 亿参数的变换器模型捕获有关模型复杂性的有意义信息。这对于将 SLT 应用于大型神经网络来说是一个令人鼓舞的信号,但 LLC 估计和类似技术仍然面临重大的方法论挑战。LLC 估计对超参数的敏感性以及估计值与真实值之间可能存在的差距代表了我们当前框架的主要局限性。

展望未来,该领域正沿着两条互补的路径前进,最终将汇聚。一方面,实际的压缩技术不断改进,越来越接近理论极限。另一方面,LLC 估计的科学发展提供了一条通向更准确估计这些极限的路径。随着这些方法的汇聚,我们将对压缩的基本极限以及实际技术如何接近这些极限获得更精确的理解。

原文链接:https://arxiv.org/pdf/2510.12077

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
邻居拿错车厘子吃掉后续:直接失联,警方介入赔款,真相耐人寻味

邻居拿错车厘子吃掉后续:直接失联,警方介入赔款,真相耐人寻味

丁丁鲤史纪
2026-01-15 18:01:12
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
神舟二十号返回舱即将重返地球:禁航时间公布,空间站怎样应对太空碎片?

神舟二十号返回舱即将重返地球:禁航时间公布,空间站怎样应对太空碎片?

Thurman在昆明
2026-01-16 09:09:28
全球首款!葛兰素史克乙肝新药III期告捷,2.5亿人迎“治愈”曙光

全球首款!葛兰素史克乙肝新药III期告捷,2.5亿人迎“治愈”曙光

思思夜话
2026-01-16 11:09:23
官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

官媒主动下场,53岁孟晚舟再掀天花板,让任正非与整个商界沉默了

牛牛叨史
2026-01-07 13:34:04
末节落后50分,杜锋鸣金收兵,上海外援继续死战

末节落后50分,杜锋鸣金收兵,上海外援继续死战

追踪不停歇
2026-01-16 15:42:34
打了两年,人财两空,哈马斯终于看清形势,宣布将解散加沙政府

打了两年,人财两空,哈马斯终于看清形势,宣布将解散加沙政府

辛苦的啊欣啊
2026-01-16 15:08:33
封口费4:酒店黑吃黑

封口费4:酒店黑吃黑

金昔说故事
2026-01-16 16:21:43
霍英东建设广州白天鹅宾馆遭遇审批难,杨尚昆:我去看望一下叶帅

霍英东建设广州白天鹅宾馆遭遇审批难,杨尚昆:我去看望一下叶帅

史之铭
2026-01-16 15:02:43
3-1逆转夺三连胜!中国女乒20岁新星崛起:孙颖莎师妹又进化

3-1逆转夺三连胜!中国女乒20岁新星崛起:孙颖莎师妹又进化

李喜林篮球绝杀
2026-01-16 11:32:53
带队9场不胜!英超神奇主帅魔力不再 恐无缘执教曼联

带队9场不胜!英超神奇主帅魔力不再 恐无缘执教曼联

球事百科吖
2026-01-16 04:50:21
番禺商场关店后,4万平方自持物业何去何从?宜家回应了

番禺商场关店后,4万平方自持物业何去何从?宜家回应了

南方都市报
2026-01-16 15:06:07
四川10.91%的HIV携带者感染耐药毒株 成都、德阳与周边城市传播关联紧密

四川10.91%的HIV携带者感染耐药毒株 成都、德阳与周边城市传播关联紧密

小星球探索
2026-01-15 15:04:31
大量14T低价硬盘涌入闲鱼!1T折合44元,到底有啥猫腻?

大量14T低价硬盘涌入闲鱼!1T折合44元,到底有啥猫腻?

闲搞机
2026-01-16 11:14:40
上海交警:目前高速公路均已恢复正常,黄浦江越江轮渡线正常开航

上海交警:目前高速公路均已恢复正常,黄浦江越江轮渡线正常开航

澎湃新闻
2026-01-16 13:50:26
被曝拖欠房租,北京嫣然天使儿童医院回应!李亚鹏:医院也许会成为历史,但会站好最后一班岗

被曝拖欠房租,北京嫣然天使儿童医院回应!李亚鹏:医院也许会成为历史,但会站好最后一班岗

每日经济新闻
2026-01-13 19:18:09
9岁女童猝死后续:监控画面流出,舅舅晒证据,知情人曝更多内幕

9岁女童猝死后续:监控画面流出,舅舅晒证据,知情人曝更多内幕

好贤观史记
2026-01-16 16:29:29
夺东北头功、拥兵十万的曾克林为何屡遭贬?林彪的话揭秘核心

夺东北头功、拥兵十万的曾克林为何屡遭贬?林彪的话揭秘核心

唠叨说历史
2026-01-04 14:55:46
81岁曹翠芬现状:在北京住150平三居室,结婚60年无儿无女成遗憾

81岁曹翠芬现状:在北京住150平三居室,结婚60年无儿无女成遗憾

阿讯说天下
2026-01-16 15:56:15
被中年阿姨的“清洁大法”惊到了!不费时费力,家里立马干净如新

被中年阿姨的“清洁大法”惊到了!不费时费力,家里立马干净如新

家居设计师苏哥
2025-12-30 14:40:45
2026-01-16 17:28:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1153文章数 18关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
教育
数码
本地
公开课

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

教育要闻

期末辅导就用夸夸辅导法,辅导作业不再鸡飞狗跳

数码要闻

当贝S7 Ultra Pro:激光影院级,国补焕新好价

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版