网易首页 > 网易号 > 正文 申请入驻

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

0
分享至



我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?

我们非常荣幸地宣布,我们试图回答这些问题的论文 UNCOMP 已被 EMNLP 2025 主会接收!我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解 LLM 内部的信息动态。



  • 论文标题:UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective
  • 论文地址:https://arxiv.org/abs/2410.03090
  • GitHub:https://github.com/menik1126/UNComp





核心洞察:

一个关于熵的悖论与新解

传统的矩阵熵 (Matrix Entropy)分析存在一个悖论:它显示信息熵随着层数加深是逐层增加的。这与我们观察到的「模型越深越稀疏」的现象相矛盾。如果信息在不断累积,又何来稀疏一说?

我们的关键突破在于引入了截断矩阵熵 (Truncated Matrix Entropy)。通过分析 Token 矩阵协方差奇异值分布的「拐点」,我们只关注最重要的主成分。惊人的发现是:

✨ 截断矩阵熵随着层数加深,呈现出明显的逐层递减趋势!

这不仅完美解释了深层网络的稀疏化现象,也为我们的压缩策略提供了坚实的理论基础。熵的减少意味着信息变得更加集中和稀疏,为压缩创造了空间。

从理论到实践:

信息流的指引

这个理论工具让我们能「看透」模型的内部运作:



  • 识别关键结构:中间层信息熵的异常波动点,精准地对应了负责信息聚合的检索层 (Retrieval Layers)和负责长程记忆的检索头 (Retrieval Heads)。我们不再是盲目压缩,而是有理论指导的结构化剪枝。



  • 最优压缩的奥秘:我们进一步分析发现,最佳的压缩性能和最终的准确率的权衡并非来自于寻找最优的累计注意力分布,而是来自于对「信息流模式」的模仿。我们用皮尔逊相关系数证明:当压缩后 KV Cache 的逐层熵变趋势,与原始全尺寸 Cache 的趋势高度相似时,模型性能最好。这意味着,我们的压缩策略成功地保留了模型原有的信息压缩模式。



  • Group Query Attention 结构中呈现出明显的头共享的稀疏模式。

首创:

从隐藏状态压缩到 KV Cache 优化

基于以上理论,我们设计了 UNCOMP 框架,并首次通过直接压缩 Prefill 阶段的隐藏状态,来间接优化 KV Cache,实现了计算与内存的联合优化。

  • 层级压缩 (Layer-wise):在 Prefill 阶段压缩隐藏状态,加速计算。

  • 头级压缩 (Head-wise):在 Decoding 阶段压缩流式头的 KV Cache,保留检索头,节省内存。



实验结果亮点

  • Prefill 阶段加速60%
  • 吞吐量提升6.4倍
  • KV Cache 压缩至4.74%



  • 极端压缩率下依旧保证模型的性能



  • 通过合并检索层和最后的层大海捞针性能几乎无损,在特定任务上超越全尺寸基线。

我们相信,UNCOMP 不仅是一个工具,更是一扇窗口,帮助我们理解 LLM 内部复杂的信息压缩行为。

欢迎大家深入探讨、引用和 star!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
王家卫录音风波再升级! 袁立全平台喊冤,这下轮到张国立慌了

王家卫录音风波再升级! 袁立全平台喊冤,这下轮到张国立慌了

情感大头说说
2025-11-13 03:23:41
安徽少年拿到大学录取通知书不久后病逝,父亲:他画去学校的火车,激励自己撑过化疗

安徽少年拿到大学录取通知书不久后病逝,父亲:他画去学校的火车,激励自己撑过化疗

潇湘晨报
2025-11-13 10:46:39
山东28家省级医院年收入情况公布!

山东28家省级医院年收入情况公布!

看医界
2025-11-13 15:20:43
副院长又冲上热搜!原来又冒出一个小四,瓜太大了!

副院长又冲上热搜!原来又冒出一个小四,瓜太大了!

魔都姐姐杂谈
2025-11-12 19:34:34
局势恶化了,高市早苗凌晨3点采取行动,安保团队收到紧急通知

局势恶化了,高市早苗凌晨3点采取行动,安保团队收到紧急通知

玉涵简书
2025-11-13 15:36:15
中方发“斩首”警告后,不到48小时,高市早苗表态了:言辞失当

中方发“斩首”警告后,不到48小时,高市早苗表态了:言辞失当

知鉴明史
2025-11-12 16:31:23
东风着陆场将禁航!神舟二十号或要返回了,航天员会一起回来吗?

东风着陆场将禁航!神舟二十号或要返回了,航天员会一起回来吗?

科普大世界
2025-11-13 08:53:19
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
中共中央统战部召开党外人士形势和政策报告会

中共中央统战部召开党外人士形势和政策报告会

中华工商时报
2025-11-13 14:47:54
A股:今天,11月13日,A股为何突然加速上涨?原因有三点!

A股:今天,11月13日,A股为何突然加速上涨?原因有三点!

明心
2025-11-13 12:12:13
三星杯半决赛两场中韩对决 廖元赫PK朴廷桓上届冠军丁浩战金志锡

三星杯半决赛两场中韩对决 廖元赫PK朴廷桓上届冠军丁浩战金志锡

劲爆体坛
2025-11-13 17:38:06
日本通告全球,中国不认栽,就驱逐外交官,话音刚落空军王炸来了

日本通告全球,中国不认栽,就驱逐外交官,话音刚落空军王炸来了

阿天爱旅行
2025-11-13 12:38:41
能源腐败丑闻:泽连斯基遭遇战争以来最大困境

能源腐败丑闻:泽连斯基遭遇战争以来最大困境

近距离
2025-11-13 15:18:01
章泽天在英国和一帮富商共进晚餐,她的打扮一言难尽,肋骨外翻。

章泽天在英国和一帮富商共进晚餐,她的打扮一言难尽,肋骨外翻。

草莓解说体育
2025-11-07 12:39:22
天津65岁男子冠脉造影手术顺利,4小时死亡,医生:犯了致命错误

天津65岁男子冠脉造影手术顺利,4小时死亡,医生:犯了致命错误

健身狂人
2025-11-13 13:13:57
沙溢亲吻宋雨琦风波升级,疑女方拒绝仍强吻,节目组回应避重就轻

沙溢亲吻宋雨琦风波升级,疑女方拒绝仍强吻,节目组回应避重就轻

古希腊掌管月桂的神
2025-11-12 22:15:25
福建舰刚服役,特朗普莫名突然发声:中国因美军强大,所以不敢打

福建舰刚服役,特朗普莫名突然发声:中国因美军强大,所以不敢打

通文知史
2025-11-12 16:45:03
A股:大家要做好准备,不出所料,明天,11月14日,很有可能这样走

A股:大家要做好准备,不出所料,明天,11月14日,很有可能这样走

花心电影
2025-11-13 16:35:44
F-15EX还在折腾,歼轰-20“野兽”已至!中美空军差在哪?

F-15EX还在折腾,歼轰-20“野兽”已至!中美空军差在哪?

策略述
2025-11-13 16:57:54
2025-11-13 18:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11710文章数 142505关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

时尚
游戏
教育
艺术
公开课

今年最好看的4件大衣!

神作《辐射:新维加斯》重制有戏?权威编辑:在路上

教育要闻

银川科技学院就业深造怎么样?高就业率+百余所海外名校,稳了!

艺术要闻

黄君璧:仿古山水册

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版