网易首页 > 网易号 > 正文 申请入驻

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

0
分享至



我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?

我们非常荣幸地宣布,我们试图回答这些问题的论文 UNCOMP 已被 EMNLP 2025 主会接收!我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解 LLM 内部的信息动态。



  • 论文标题:UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective
  • 论文地址:https://arxiv.org/abs/2410.03090
  • GitHub:https://github.com/menik1126/UNComp





核心洞察:

一个关于熵的悖论与新解

传统的矩阵熵 (Matrix Entropy)分析存在一个悖论:它显示信息熵随着层数加深是逐层增加的。这与我们观察到的「模型越深越稀疏」的现象相矛盾。如果信息在不断累积,又何来稀疏一说?

我们的关键突破在于引入了截断矩阵熵 (Truncated Matrix Entropy)。通过分析 Token 矩阵协方差奇异值分布的「拐点」,我们只关注最重要的主成分。惊人的发现是:

✨ 截断矩阵熵随着层数加深,呈现出明显的逐层递减趋势!

这不仅完美解释了深层网络的稀疏化现象,也为我们的压缩策略提供了坚实的理论基础。熵的减少意味着信息变得更加集中和稀疏,为压缩创造了空间。

从理论到实践:

信息流的指引

这个理论工具让我们能「看透」模型的内部运作:



  • 识别关键结构:中间层信息熵的异常波动点,精准地对应了负责信息聚合的检索层 (Retrieval Layers)和负责长程记忆的检索头 (Retrieval Heads)。我们不再是盲目压缩,而是有理论指导的结构化剪枝。



  • 最优压缩的奥秘:我们进一步分析发现,最佳的压缩性能和最终的准确率的权衡并非来自于寻找最优的累计注意力分布,而是来自于对「信息流模式」的模仿。我们用皮尔逊相关系数证明:当压缩后 KV Cache 的逐层熵变趋势,与原始全尺寸 Cache 的趋势高度相似时,模型性能最好。这意味着,我们的压缩策略成功地保留了模型原有的信息压缩模式。



  • Group Query Attention 结构中呈现出明显的头共享的稀疏模式。

首创:

从隐藏状态压缩到 KV Cache 优化

基于以上理论,我们设计了 UNCOMP 框架,并首次通过直接压缩 Prefill 阶段的隐藏状态,来间接优化 KV Cache,实现了计算与内存的联合优化。

  • 层级压缩 (Layer-wise):在 Prefill 阶段压缩隐藏状态,加速计算。

  • 头级压缩 (Head-wise):在 Decoding 阶段压缩流式头的 KV Cache,保留检索头,节省内存。



实验结果亮点

  • Prefill 阶段加速60%
  • 吞吐量提升6.4倍
  • KV Cache 压缩至4.74%



  • 极端压缩率下依旧保证模型的性能



  • 通过合并检索层和最后的层大海捞针性能几乎无损,在特定任务上超越全尺寸基线。

我们相信,UNCOMP 不仅是一个工具,更是一扇窗口,帮助我们理解 LLM 内部复杂的信息压缩行为。

欢迎大家深入探讨、引用和 star!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
出身名门却因被骗,拍了70部情色片:她的自传入围日本最高文学奖

出身名门却因被骗,拍了70部情色片:她的自传入围日本最高文学奖

慕姑娘的读行生活
2025-11-12 11:00:05
54岁陈松伶和45岁李琳同框,一个脸肿一个皮松,幸不幸福一目了然

54岁陈松伶和45岁李琳同框,一个脸肿一个皮松,幸不幸福一目了然

春秋论娱
2025-11-12 21:27:53
继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

继德国之后,英国也开始贴出“中文标语”?中国游客:不能够接受

古事寻踪记
2025-08-13 07:37:39
抢断率3%+三分命中率48%!谢泼德复制库里神迹,蜕变火箭第三巨头

抢断率3%+三分命中率48%!谢泼德复制库里神迹,蜕变火箭第三巨头

奕辰说球
2025-11-13 11:03:28
大瓜!涉案2.77万亿大佬佘智江引渡回国,表哥竟是赵薇前夫黄有龙

大瓜!涉案2.77万亿大佬佘智江引渡回国,表哥竟是赵薇前夫黄有龙

公子麦少
2025-11-13 14:59:55
瑟尔斯基宣布控制住红军城局势,歼敌3万多人,425团表现出色

瑟尔斯基宣布控制住红军城局势,歼敌3万多人,425团表现出色

环球热点快评
2025-11-10 08:41:36
朝鲜人民的“救命鱼”:中国人不太吃,却让吉林大发其财

朝鲜人民的“救命鱼”:中国人不太吃,却让吉林大发其财

东方寻史
2025-10-31 18:09:08
又“赢了”?美财长手持稀土磁铁,高调宣布摆脱中方“卡脖子”

又“赢了”?美财长手持稀土磁铁,高调宣布摆脱中方“卡脖子”

袁周院长
2025-11-13 14:55:35
大连公交在上个月10月份,21个代表,代表729万大连市民

大连公交在上个月10月份,21个代表,代表729万大连市民

岁月有情1314
2025-11-13 01:02:03
拿600万顶薪,全场0分0板0助,连续梦游2场,辽蜜:比高铁还铁

拿600万顶薪,全场0分0板0助,连续梦游2场,辽蜜:比高铁还铁

南海浪花
2025-11-12 18:33:05
东部第一!活塞拒23分逆转复仇公牛豪取8连胜 里德28+13+6

东部第一!活塞拒23分逆转复仇公牛豪取8连胜 里德28+13+6

醉卧浮生
2025-11-13 10:34:23
《唐诡3》出圈理由:杨志刚的演技,许佳琪的身材,孙雪宁的脸蛋

《唐诡3》出圈理由:杨志刚的演技,许佳琪的身材,孙雪宁的脸蛋

八卦南风
2025-11-10 17:54:25
恭喜!中国女乒13岁新版孙颖莎全运会夺冠:决赛大闪耀又萌又能打

恭喜!中国女乒13岁新版孙颖莎全运会夺冠:决赛大闪耀又萌又能打

李喜林篮球绝杀
2025-11-13 16:52:50
高市拒绝撤回谬论,不到48小时,中方深切哀悼,日本重要人物逝世

高市拒绝撤回谬论,不到48小时,中方深切哀悼,日本重要人物逝世

博览历史
2025-11-12 16:50:23
40天一艘,印度造舰快过泡面!

40天一艘,印度造舰快过泡面!

李荣茂
2025-11-13 18:51:12
NBA今日焦点:约基奇创历史,库里再刷纪录

NBA今日焦点:约基奇创历史,库里再刷纪录

大昆说台球
2025-11-13 18:24:29
何穗在别墅晒产后美照!哺乳期特征很明显,小腹平到内凹光脚踩地

何穗在别墅晒产后美照!哺乳期特征很明显,小腹平到内凹光脚踩地

嫹笔牂牂
2025-11-13 07:26:23
意大利想要直接晋级美加墨世界杯,今晚至少要进摩尔多瓦15个球!

意大利想要直接晋级美加墨世界杯,今晚至少要进摩尔多瓦15个球!

田先生篮球
2025-11-13 17:46:15
“交不起服务费,就能把4个娃撵回家?”家长哭穷无果后选择举报

“交不起服务费,就能把4个娃撵回家?”家长哭穷无果后选择举报

妍妍教育日记
2025-11-12 19:44:34
今年前十月对美出口重回2018年以前规模

今年前十月对美出口重回2018年以前规模

每日经济新闻
2025-11-12 22:46:09
2025-11-13 19:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11712文章数 142504关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

荒野求生"刀疤哥"每天吃30多个猕猴桃:一次性采摘40斤

头条要闻

荒野求生"刀疤哥"每天吃30多个猕猴桃:一次性采摘40斤

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

房产
家居
手机
教育
本地

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

家居要闻

莫奈时间 重构先锋概念

手机要闻

博主称华为Mate 80风扇版已取消:剩四款产品,本月发布

教育要闻

曾被预警“自杀倾向”的自闭症少年,考上了985博士:这位妈妈的做法值得所有赞美!

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

无障碍浏览 进入关怀版