网易首页 > 网易号 > 正文 申请入驻

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

0
分享至



我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?

我们非常荣幸地宣布,我们试图回答这些问题的论文 UNCOMP 已被 EMNLP 2025 主会接收!我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解 LLM 内部的信息动态。



  • 论文标题:UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective
  • 论文地址:https://arxiv.org/abs/2410.03090
  • GitHub:https://github.com/menik1126/UNComp





核心洞察:

一个关于熵的悖论与新解

传统的矩阵熵 (Matrix Entropy)分析存在一个悖论:它显示信息熵随着层数加深是逐层增加的。这与我们观察到的「模型越深越稀疏」的现象相矛盾。如果信息在不断累积,又何来稀疏一说?

我们的关键突破在于引入了截断矩阵熵 (Truncated Matrix Entropy)。通过分析 Token 矩阵协方差奇异值分布的「拐点」,我们只关注最重要的主成分。惊人的发现是:

✨ 截断矩阵熵随着层数加深,呈现出明显的逐层递减趋势!

这不仅完美解释了深层网络的稀疏化现象,也为我们的压缩策略提供了坚实的理论基础。熵的减少意味着信息变得更加集中和稀疏,为压缩创造了空间。

从理论到实践:

信息流的指引

这个理论工具让我们能「看透」模型的内部运作:



  • 识别关键结构:中间层信息熵的异常波动点,精准地对应了负责信息聚合的检索层 (Retrieval Layers)和负责长程记忆的检索头 (Retrieval Heads)。我们不再是盲目压缩,而是有理论指导的结构化剪枝。



  • 最优压缩的奥秘:我们进一步分析发现,最佳的压缩性能和最终的准确率的权衡并非来自于寻找最优的累计注意力分布,而是来自于对「信息流模式」的模仿。我们用皮尔逊相关系数证明:当压缩后 KV Cache 的逐层熵变趋势,与原始全尺寸 Cache 的趋势高度相似时,模型性能最好。这意味着,我们的压缩策略成功地保留了模型原有的信息压缩模式。



  • Group Query Attention 结构中呈现出明显的头共享的稀疏模式。

首创:

从隐藏状态压缩到 KV Cache 优化

基于以上理论,我们设计了 UNCOMP 框架,并首次通过直接压缩 Prefill 阶段的隐藏状态,来间接优化 KV Cache,实现了计算与内存的联合优化。

  • 层级压缩 (Layer-wise):在 Prefill 阶段压缩隐藏状态,加速计算。

  • 头级压缩 (Head-wise):在 Decoding 阶段压缩流式头的 KV Cache,保留检索头,节省内存。



实验结果亮点

  • Prefill 阶段加速60%
  • 吞吐量提升6.4倍
  • KV Cache 压缩至4.74%



  • 极端压缩率下依旧保证模型的性能



  • 通过合并检索层和最后的层大海捞针性能几乎无损,在特定任务上超越全尺寸基线。

我们相信,UNCOMP 不仅是一个工具,更是一扇窗口,帮助我们理解 LLM 内部复杂的信息压缩行为。

欢迎大家深入探讨、引用和 star!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最低-5℃!周末冷空气“速冻”江苏,下周回暖如“小阳春”

最低-5℃!周末冷空气“速冻”江苏,下周回暖如“小阳春”

现代快报
2026-01-10 20:29:03
1月10日俄乌:英国重申对乌坚定支持,至少19位俄军将领阵亡

1月10日俄乌:英国重申对乌坚定支持,至少19位俄军将领阵亡

山河路口
2026-01-10 18:46:53
肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

肥肠再次成为关注对象!研究发现:常吃肥肠,身体会收获3大好处

全球军事记
2025-12-29 21:28:37
朝鲜战争中,美军原本已接近击败中国,却碰上了中国决死的师长

朝鲜战争中,美军原本已接近击败中国,却碰上了中国决死的师长

兴趣知识
2025-12-18 01:04:23
WTT多哈冠军赛王曼昱苦战7局3:4韩莹,无缘四强

WTT多哈冠军赛王曼昱苦战7局3:4韩莹,无缘四强

余憁搞笑段子
2026-01-10 21:23:41
央国企的两大弊端:领导层载歌载舞底层员工无米下锅,关系户横行

央国企的两大弊端:领导层载歌载舞底层员工无米下锅,关系户横行

黯泉
2026-01-08 23:02:21
医学的尽头真是玄学吗?网友:国家不让你迷信,没说让你不信

医学的尽头真是玄学吗?网友:国家不让你迷信,没说让你不信

带你感受人间冷暖
2025-12-31 00:20:05
遗憾!外教回忆董方卓:不像中国球员,后卫都怕他,可惜过于内向

遗憾!外教回忆董方卓:不像中国球员,后卫都怕他,可惜过于内向

国足风云
2026-01-10 16:00:36
乌打击俄别尔哥罗德能源设施致断网,系开战以来最有效攻势之一

乌打击俄别尔哥罗德能源设施致断网,系开战以来最有效攻势之一

老马拉车莫少装
2026-01-10 20:45:18
特朗普势在必得格陵兰岛,欧洲还能争取何种“交易”?

特朗普势在必得格陵兰岛,欧洲还能争取何种“交易”?

澎湃新闻
2026-01-09 18:09:09
美军报告:中国东风-27已战备值班,是全球唯一服役洲际高超弹?

美军报告:中国东风-27已战备值班,是全球唯一服役洲际高超弹?

策略述
2026-01-08 19:12:40
世体:巴萨更衣室喜欢西超杯决赛打皇马,击败皇马更有满足感

世体:巴萨更衣室喜欢西超杯决赛打皇马,击败皇马更有满足感

懂球帝
2026-01-10 19:28:14
国运来了挡都挡不住!中国探测出10万亿宝藏,战略价值远超想象

国运来了挡都挡不住!中国探测出10万亿宝藏,战略价值远超想象

趣文说娱
2026-01-08 18:27:26
快讯!日本东京消息,捅马蜂窝了!在野党集体开喷骂到高市脸绿!

快讯!日本东京消息,捅马蜂窝了!在野党集体开喷骂到高市脸绿!

达文西看世界
2026-01-10 10:11:17
开始老套路,记者曝火箭队计划避税,为700万美元恐将放弃本赛季

开始老套路,记者曝火箭队计划避税,为700万美元恐将放弃本赛季

拾叁懂球
2026-01-10 19:08:45
她才是下棋人!谢杏芳9年前设局,如今林丹在家沦为“编外人员”

她才是下棋人!谢杏芳9年前设局,如今林丹在家沦为“编外人员”

地球记
2026-01-08 22:42:11
哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

哭穷风波刚9天,何庆魁儿子曝闫学晶猛料被扒,77岁老父亲被牵连

梦史
2026-01-08 14:10:27
2-1大逆转!WTA神剧情!恭喜中国莎娃:救赛点进决赛,刷爆纪录

2-1大逆转!WTA神剧情!恭喜中国莎娃:救赛点进决赛,刷爆纪录

大秦壁虎白话体育
2026-01-10 15:29:20
儿子在省城买了套房子给我们养老,看似孝顺,去了才知是一场阴谋

儿子在省城买了套房子给我们养老,看似孝顺,去了才知是一场阴谋

人间百态大全
2026-01-09 06:50:03
《寻秦记》票房破2亿,男演员演技排名:古天乐第4,第1难超越

《寻秦记》票房破2亿,男演员演技排名:古天乐第4,第1难超越

飘逸语人
2026-01-10 06:07:54
2026-01-10 22:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12088文章数 142534关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

男子精神分裂砍死同学的弟弟 第二次精神鉴定结果变了

头条要闻

男子精神分裂砍死同学的弟弟 第二次精神鉴定结果变了

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

艺术
本地
时尚
手机
公开课

艺术要闻

王耀中油画作品集

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

年底大牌返场 || 每次都“秒空”,这次100+真的好值!

手机要闻

realme真我Neo8参数曝光:骁龙8 Gen5处理器、8000mAh电池

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版