网易首页 > 网易号 > 正文 申请入驻

压缩性与复杂性:MDL和SLT的结合

0
分享至

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

论可压缩性对复杂度的度量——最小描述长度与奇异学习理论之融合

https://arxiv.org/pdf/2510.12077



摘要

我们通过使用奇异学习理论(SLT)将最小描述长度(MDL)原则扩展到像神经网络这样的奇异模型,来研究神经网络的可压缩性。通过在 Pythia 套件上进行量化、分解和其他压缩技术的广泛实验,我们发现基于局部学习系数(LLC)的复杂度估计与可压缩性密切相关,在某些情况下甚至是线性相关的。我们的结果为严格评估模型压缩的极限提供了一条路径。

1 引言

深度学习的一个核心挑战是衡量模型的复杂性,即模型参数中编码的关于数据集的信息量。这不能简单地从损失函数中得出,因为实现给定水平的损失有不同的信息量:例如,网络可以记忆训练数据(使用相对较大的权重部分进行编码),或者发现一个通用解(使用较少的权重进行编码)。一种能够区分这两种解决方案的度量将非常有用,例如,在预测网络在分布外的行为方面。那么,我们该如何衡量这种数量呢? 一个简单的实用答案涉及压缩:给定一个损失容忍度 ε > 0 和某种压缩方案,其参数为 P(P 越大表示压缩程度越高),设 Pmax 是使损失从原始值 L 增加到阈值 L+ε 的压缩程度。直观上,如果网络使用其权重的一小部分来编码数据约束的解决方案,那么它可以“承受”大量的压缩,Pmax 将会很大。如果网络使用了其全部容量来编码解决方案,那么我们预计 Pmax 将会很小。 鉴于量化等压缩技术的实际重要性,这似乎是一个衡量模型复杂性的有用指标。然而,这种“可压缩性”概念的理论地位在先验上是不明确的。 可压缩性与复杂性之间的非正式关系可以追溯到 LeCun 等人(1989 年);Hochreiter 和 Schmidhuber(1997 年),并且一直是泛化误差理论界限的基础(Arora 等人,2018 年)。很明显,上述意义上的可压缩性必须与最小描述长度(MDL;Gr ̈unwald 和 Roos 2019 年)等概念有关。在本文中,我们通过奇异学习理论(SLT;Watanabe 2009 年)和局部学习系数(Lau 等人,2024 年)这一衡量模型复杂性的估计量,来研究各种实际压缩方案与 MDL 之间的关系,从而为深度学习中可压缩性与复杂性之间的直观联系提供了一些理论依据。

贡献。我们做出了以下贡献:


  • 我们推导出了奇异 MDL 原则(第 3 节):运用奇异学习理论(SLT;Watanabe 2009)的思想,我们将最小描述长度(MDL;Gr ̈unwald 和 Roos 2019)原则扩展到神经网络,并证明存在一种两部分编码方式,其渐近冗余涉及局部学习系数(LLC;Lau 等人 2024),这是 SLT 中衡量模型复杂性的指标。与经典 MDL 处理方式不同,经典方式中几何不变量如由黑塞矩阵决定的曲率会出现在描述长度中,而在奇异情况下,重要的几何特征是退化性(见图 1)。

  • 我们比较了 LLC 与可压缩性:在通过量化和分解进行压缩的场景下,我们通过绘制 LLC 与可压缩性之间的关系图,对 Pythia 系列多达 69 亿参数的模型进行了一系列实证研究,这些模型涵盖了不同训练检查点。正如预期的那样,我们发现 LLC 较大的模型倾向于具有较低的可压缩性。对于量化,我们观察到了一种特别密切的关系:在大多数训练步骤中,估计的 LLC 与以位为单位测量的可压缩性之间存在线性关系。 从这些结果中,我们得出了两个主要结论。首先,可压缩性作为一种衡量模型复杂性的非正式概念与 LLC 估计值是一致的,而 LLC 估计具有坚实的理论基础。其次,Pythia 模型中的可压缩性为在这些规模上使用 LLC 估计值的做法提供了一个独立的验证;鉴于我们对大型 Transformer 模型的真实 LLC 缺乏理论知识(见附录 D.2),这一点十分有价值。

2 相关工作

深度学习中的网络压缩。关于模型压缩的文献数量庞大,并且正在迅速发展。一个标准的参考文献是 Han 等人(2016 年),更新的综述包括 Hoefler 等人(2021 年);Wang 等人(2024b)。长期以来,人们一直认识到深度神经网络的“有效维度”通常远小于参数数量(Maddox 等人,2020 年)。这被广泛理解为模型压缩可能的一个原因(LeCun 等人,1989 年;Hassibi 等人,1993 年;Denil 等人,2013 年)。通过丢弃小幅度权重来修剪模型,或者利用黑塞矩阵的谱来确定低重要性权重,以及这些修剪方法的经验成功,导致了对有效维度的一种非正式工作理解,即“在不牺牲太多性能的情况下可以进行多少压缩”。然而,使用例如黑塞矩阵谱来确定有效维度的理论基础仍然薄弱。存在“彩票票”(即,在初始化时的稀疏且可训练的子网络)也表明最终训练的参数存在很大的冗余度(Frankle 和 Carbin,2019 年)。

微调的内在维度。与训练有素的神经网络的低有效维度相关,但又有所不同的是预训练大型语言模型(LLM)微调时观察到的低“内在维度”(Li 等人,2018 年)。这里的内在维度指的是在完整参数空间中可以解决微调优化问题的超平面的最小维度,精度达到一定水平。这可能比完整维度小几个数量级;例如,Aghajanyan 等人(2021 年)指出,对于一个拥有 3.35 亿参数的 RoBERTa 模型,200 个参数就足以解决微调问题,其性能可达到完整模型的 90%。这种观察表明,在 LLM 微调中,更新矩阵具有低“内在秩”,这促成了低秩适应微调方法的引入和广泛使用(Hu 等人,2022 年)。这种内在维度与完整预训练模型的有效维度之间的关系尚不清楚。

其他相关工作见第 A 节

3 理论:奇异 MDL


3.1 设置



3.2 两部分编码






3.3 与可压缩性的关系




4 方法论

为了补充关于奇异 MDL 原则的理论,我们研究了可压缩性如何在实践中与局部学习系数(LLC)估计相关。在正文中,我们专注于量化(第 4.1 节)。在附录中,我们还处理了张量分解(第 C.2 节)、剪枝(第 C.5 节)以及向模型参数添加高斯噪声(第 C.4 节)。为了估计 LLC,在第 4.2 节中,我们描述了 Lau 等人(2024 年)估计器的一个预处理变体。

4.1 量化





5 结果



6 结论

我们已经建立了一个理论基础,通过奇异学习理论的视角来理解神经网络压缩,扩展了最小描述长度原则,以考虑神经网络损失景观的退化几何特性。我们的实验表明,局部学习系数(LLC)提供了一个压缩性的基本原则,具有较大估计 LLC 的模型检查点在包括量化和分解在内的多种压缩技术中被证明对压缩的抵抗力较小。

观察到的 LLC 估计值与量化的临界压缩阈值之间的强线性关系是一个独立的检验,表明我们当前基于 SGLD 的估计能够为多达 69 亿参数的变换器模型捕获有关模型复杂性的有意义信息。这对于将 SLT 应用于大型神经网络来说是一个令人鼓舞的信号,但 LLC 估计和类似技术仍然面临重大的方法论挑战。LLC 估计对超参数的敏感性以及估计值与真实值之间可能存在的差距代表了我们当前框架的主要局限性。

展望未来,该领域正沿着两条互补的路径前进,最终将汇聚。一方面,实际的压缩技术不断改进,越来越接近理论极限。另一方面,LLC 估计的科学发展提供了一条通向更准确估计这些极限的路径。随着这些方法的汇聚,我们将对压缩的基本极限以及实际技术如何接近这些极限获得更精确的理解。

原文链接:https://arxiv.org/pdf/2510.12077

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“人民咖啡馆”被央媒点名批评后紧急改名,记者实探:店铺已开始整改,店名被遮盖

“人民咖啡馆”被央媒点名批评后紧急改名,记者实探:店铺已开始整改,店名被遮盖

极目新闻
2025-11-08 13:20:10
摊牌了!高市早苗提对台海出兵,日本高层的反应,如中国所料

摊牌了!高市早苗提对台海出兵,日本高层的反应,如中国所料

云鹏叙事
2025-11-10 10:46:15
陈慧琳演唱会穿三角裤衩,五十多了合适吗?

陈慧琳演唱会穿三角裤衩,五十多了合适吗?

草莓解说体育
2025-11-10 06:24:55
内娱欠她一个爆红!神颜实力派为何无人识?

内娱欠她一个爆红!神颜实力派为何无人识?

乡野小珥
2025-11-09 14:45:34
三位勇士以一身伤痕,为14亿人辟出法治生路

三位勇士以一身伤痕,为14亿人辟出法治生路

深度报
2025-11-07 22:56:16
李嘉诚曾和梁洛施私下做交易,不把3个孙子纳入李家,是一种算计

李嘉诚曾和梁洛施私下做交易,不把3个孙子纳入李家,是一种算计

娱乐团长
2025-11-09 14:33:37
银行批量直售房产

银行批量直售房产

经济观察报
2025-11-07 21:22:29
异人必有异相!吴宜泽上限或高于赵心童,英媒早就赞他能统治未来

异人必有异相!吴宜泽上限或高于赵心童,英媒早就赞他能统治未来

杨华评论
2025-11-09 23:04:18
爆冷2分惜败,又14分惨败!NBA退步最快球队,这笔交易亏大了

爆冷2分惜败,又14分惨败!NBA退步最快球队,这笔交易亏大了

篮球扫地僧
2025-11-10 12:44:15
菲律宾这次灾害,全世界保持沉默,就连美日欧盟都按下了暂停键

菲律宾这次灾害,全世界保持沉默,就连美日欧盟都按下了暂停键

诗意世界
2025-11-09 21:35:14
全运会爆大冷!女乒名将被淘汰,最新赛程:孙颖莎、樊振东迎硬战

全运会爆大冷!女乒名将被淘汰,最新赛程:孙颖莎、樊振东迎硬战

知轩体育
2025-11-09 22:58:45
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
拍案叫绝!主席如何识破101阴险两面派?居然是一次不起眼的谈话!

拍案叫绝!主席如何识破101阴险两面派?居然是一次不起眼的谈话!

博览历史
2023-12-23 18:40:48
陕西咸阳一男子打晕妻子误以为已死,将人扔下土崖致其死亡被公诉

陕西咸阳一男子打晕妻子误以为已死,将人扔下土崖致其死亡被公诉

上游新闻
2025-11-09 15:23:04
拿40万镑顶薪!利物浦头牌成球霸 空门不传队友+过人0成功仅获6分

拿40万镑顶薪!利物浦头牌成球霸 空门不传队友+过人0成功仅获6分

我爱英超
2025-11-10 03:14:29
钓鱼岛究竟有多大?上面能住人吗?终于揭开钓鱼岛神秘的面纱

钓鱼岛究竟有多大?上面能住人吗?终于揭开钓鱼岛神秘的面纱

缘史记
2025-11-07 18:14:40
霍震霆父子三人现身全运会开幕式,打扮风格不一样!霍启山好松弛

霍震霆父子三人现身全运会开幕式,打扮风格不一样!霍启山好松弛

心静物娱
2025-11-10 10:39:04
事出反常,东大为什么忽然沉默了?

事出反常,东大为什么忽然沉默了?

每日一见
2025-11-09 12:33:19
曝皇家马德里计划用罗德里戈交换利物浦1.25亿欧元先生

曝皇家马德里计划用罗德里戈交换利物浦1.25亿欧元先生

油泼辣不辣
2025-11-10 07:46:28
秦基伟下放劳动,战士问他以前是多大的官,秦:我是师里农场场长

秦基伟下放劳动,战士问他以前是多大的官,秦:我是师里农场场长

林子说事
2025-11-08 08:13:22
2025-11-10 13:36:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
963文章数 16关注度
往期回顾 全部

科技要闻

存储芯片大厂涨价50%!华强北一天一个价

头条要闻

老人花1500元装的净水器次日就漏水 生产厂家经营异常

头条要闻

老人花1500元装的净水器次日就漏水 生产厂家经营异常

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

郝蕾风波升级?

财经要闻

俄罗斯大幅加税 中国汽车出口骤降58%

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

游戏
时尚
本地
旅游
军事航空

无需多言!S15夺冠Faker再现经典手势!

“小黑靴”今年冬天又火了!这4组搭配照着搭就很时髦

本地新闻

这届干饭人,已经把博物馆吃成了食堂

旅游要闻

聚焦河南新密溱洧水城:千年文脉碰撞创新活力

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版