网易首页 > 网易号 > 正文 申请入驻

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

0
分享至



我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释。为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?

我们非常荣幸地宣布,我们试图回答这些问题的论文 UNCOMP 已被 EMNLP 2025 主会接收!我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解 LLM 内部的信息动态。



  • 论文标题:UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective
  • 论文地址:https://arxiv.org/abs/2410.03090
  • GitHub:https://github.com/menik1126/UNComp





核心洞察:

一个关于熵的悖论与新解

传统的矩阵熵 (Matrix Entropy)分析存在一个悖论:它显示信息熵随着层数加深是逐层增加的。这与我们观察到的「模型越深越稀疏」的现象相矛盾。如果信息在不断累积,又何来稀疏一说?

我们的关键突破在于引入了截断矩阵熵 (Truncated Matrix Entropy)。通过分析 Token 矩阵协方差奇异值分布的「拐点」,我们只关注最重要的主成分。惊人的发现是:

✨ 截断矩阵熵随着层数加深,呈现出明显的逐层递减趋势!

这不仅完美解释了深层网络的稀疏化现象,也为我们的压缩策略提供了坚实的理论基础。熵的减少意味着信息变得更加集中和稀疏,为压缩创造了空间。

从理论到实践:

信息流的指引

这个理论工具让我们能「看透」模型的内部运作:



  • 识别关键结构:中间层信息熵的异常波动点,精准地对应了负责信息聚合的检索层 (Retrieval Layers)和负责长程记忆的检索头 (Retrieval Heads)。我们不再是盲目压缩,而是有理论指导的结构化剪枝。



  • 最优压缩的奥秘:我们进一步分析发现,最佳的压缩性能和最终的准确率的权衡并非来自于寻找最优的累计注意力分布,而是来自于对「信息流模式」的模仿。我们用皮尔逊相关系数证明:当压缩后 KV Cache 的逐层熵变趋势,与原始全尺寸 Cache 的趋势高度相似时,模型性能最好。这意味着,我们的压缩策略成功地保留了模型原有的信息压缩模式。



  • Group Query Attention 结构中呈现出明显的头共享的稀疏模式。

首创:

从隐藏状态压缩到 KV Cache 优化

基于以上理论,我们设计了 UNCOMP 框架,并首次通过直接压缩 Prefill 阶段的隐藏状态,来间接优化 KV Cache,实现了计算与内存的联合优化。

  • 层级压缩 (Layer-wise):在 Prefill 阶段压缩隐藏状态,加速计算。

  • 头级压缩 (Head-wise):在 Decoding 阶段压缩流式头的 KV Cache,保留检索头,节省内存。



实验结果亮点

  • Prefill 阶段加速60%
  • 吞吐量提升6.4倍
  • KV Cache 压缩至4.74%



  • 极端压缩率下依旧保证模型的性能



  • 通过合并检索层和最后的层大海捞针性能几乎无损,在特定任务上超越全尺寸基线。

我们相信,UNCOMP 不仅是一个工具,更是一扇窗口,帮助我们理解 LLM 内部复杂的信息压缩行为。

欢迎大家深入探讨、引用和 star!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
女人其实比男人更开放、更大胆、更热烈、更需要刺激

女人其实比男人更开放、更大胆、更热烈、更需要刺激

加油丁小文
2026-03-24 11:55:30
东契奇43+6+7无缘今日最佳球员!因为约基奇23+21+19创4项纪录!

东契奇43+6+7无缘今日最佳球员!因为约基奇23+21+19创4项纪录!

Tracy的篮球博物馆
2026-03-26 13:49:54
网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

网友吐槽别糊弄老百姓了,又是天才少年发国际论文,谁家的公子?

眼光很亮
2026-03-08 01:43:40
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
真不识货 被邱彪弃用之人 如今场均22.8分6.8助攻 得分全联盟第3

真不识货 被邱彪弃用之人 如今场均22.8分6.8助攻 得分全联盟第3

男足的小球童
2026-03-26 16:08:26
回旋镖来了?大疆被曝“像素级”抄袭

回旋镖来了?大疆被曝“像素级”抄袭

蓝字计划
2026-03-26 09:38:42
胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

胖东来再立功,自选眼镜超市火爆,7亿近视人配镜应花多少钱?

匀枫财技大兜底
2026-03-25 10:26:15
油价暴涨100%,越南开启“地狱”生存模式:车停着不开,肉按片买

油价暴涨100%,越南开启“地狱”生存模式:车停着不开,肉按片买

温读史
2026-03-26 05:53:39
CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

CBA焦点战今夜打响!CCTV5不直播!青岛争前4,北控广州冲季后赛

老吴说体育
2026-03-26 09:53:13
养生|大便后你用几张纸?用纸量判断你的身体情况

养生|大便后你用几张纸?用纸量判断你的身体情况

A活着
2026-03-24 19:25:23
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
内塔尼亚胡:48小时内加紧摧毁伊朗军工设施

内塔尼亚胡:48小时内加紧摧毁伊朗军工设施

参考消息
2026-03-26 15:47:05
给机关事业单位退休人员发生活补贴合理合规,看看这些地方的做法

给机关事业单位退休人员发生活补贴合理合规,看看这些地方的做法

郭爱华追问教育
2026-03-25 06:25:09
李鑫姐夫身份后续:别猜了!不是体制内领导,真实身份很接地气

李鑫姐夫身份后续:别猜了!不是体制内领导,真实身份很接地气

潮鹿逐梦
2026-03-26 11:54:35
烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

烧了18.6万美元让AI连轴肝了17天,它产出了166篇论文

酷玩实验室
2026-03-25 18:25:49
徐州正在严查!多一个都不行

徐州正在严查!多一个都不行

无线徐州
2026-03-26 17:35:28
外媒:扎哈罗娃警告称,俄将严厉回应西方国家针对有关船只采取的不友好行为

外媒:扎哈罗娃警告称,俄将严厉回应西方国家针对有关船只采取的不友好行为

环球网资讯
2026-03-26 18:05:41
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
旧手机回收迎涨价潮?记者实探:先别扔,涨得最多的是这一类

旧手机回收迎涨价潮?记者实探:先别扔,涨得最多的是这一类

小兔子发现大事情
2026-03-26 13:37:06
2026-03-26 19:03:01
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
艺术
房产
旅游
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

艺术要闻

哪一座桥不是风景?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版