网易首页 > 网易号 > 正文 申请入驻

对抗KV Cache压缩脆弱性:两行代码最坏风险控制防御底层假设崩塌

0
分享至



作者介绍:中科大团队包括共一作者冯源(博二)、郭浩宇(硕一)以及通讯作者谢希科(研究员),致力于以简洁算法优化大模型长文本推理,曾提出 AdaKV、CriticalKV 等主流 KV Cache 压缩方法,仅需数行代码显著提升压缩效果。新作 DefensiveKV 延续这一理念,仅需两行算法改动,显著降低 KV Cache 压缩损失。

随着大模型长上下文能力快速增长,海量 KV Cache 存储需求急剧增加,各类 KV Cache 压缩方法如雨后春笋般涌现。然而,这些方案在真实场景中的工程落地却常常陷入困境。



  • 论文标题:DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference
  • 论文链接:https://openreview.net/forum?id=nJgS06sX3O
  • 代码链接:https://github.com/FFY0/DefensiveKV/tree/main

中科大研究团队在 ICLR 2026 的论文 DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference 中给出了答案:KV Cache 压缩领域的底层假设存在根本性缺陷!当前主流方法都基于一个核心假设:KV Cache 的重要性在不同时间段是稳定的。因此它们不约而同地选择观测一段历史窗口内的平均重要性,并据此淘汰 "不重要" 的 cache。然而,研究团队惊讶地发现,这一看似合理的稳定性假设在真实场景中十分脆弱!

通过深入分析大模型在真实长文本任务上的行为,团队观察到一个令人震惊的现象:尽管平均观测重要性指标在绝大多数时候能够准确反映 cache 的真实重要性,但在某些特定区间却会显著失效,甚至完全反转!

图 1:稳定性假设失效现象



如上图所示,蓝色曲线代表按照平均重要性保留的一半 "重要" Cache。虽然绝大部分时刻这一半的 cache 能保持整体 90% 以上的真实重要性,但在特定时刻(如第 200-300 时间步),保留的 cache 甚至无法达到全部 cache 50% 的真实重要性!这种” 稳定性崩溃 " 绝非偶发,在单次回复中竟出现高达 65 次之多。

图 2:稳定性崩溃统计



这揭示了一个深刻的认知盲区:以往工作过分信任 "平均情况",却忽视了真实部署中最致命的最坏风险。正如金融领域的经典教训 —— 只优化平均收益而忽视极端风险的策略注定失败。当稳定性假设在关键时刻失效时,使用平均值作为压缩指示器就像在薄冰上行走,随时可能坠入深渊。

针对这一根本性缺陷,团队提出了革命性的防御性聚合(Defensive Aggregation)策略。这一策略彻底颠覆了传统的 "平均优化" 范式,转而采用 "最坏风险控制" 的防御性思维 —— 不再关注平均损失,而是将全部注意力投入到 worst-case 的预防中。

在重塑关注点之后,团队提出了一个极简的优雅设计 —— 核心算法仅需两行代码即可实现:



图 3:核心算法仅需两行代码

第一步:最坏风险估计(Worst-case Risk Estimation)

团队从风险控制角度重新思考驱逐策略 —— 驱逐一个 KV cache 的最大风险等价于它在未来可能达到的最大重要性。由于未来不可知,团队巧妙地用历史观察中的最大值来估计这一风险:只要一个 cache 在任一历史时刻表现重要,就将其视为高风险而保留。这个看似简单的 "取最大" 操作,却能精准捕获那些可能在未来关键时刻大放异彩的 token。

第二步:自适应先验风险修正(Adaptive Prior-Risk Correction)

考虑到最坏风险估计中的观测次数有限(通常仅 32 次),可能遗漏一些关键的风险。团队受贝叶斯估计中 Laplace 平滑启发,提出了一种基于先验的观测风险修正机制:计算每个注意力头中所有 KV cache 的平均观测风险作为先验风险。当某个 cache 的观测风险低于该注意力头中所有 cache 的平均风险时,自动用先验风险进行修正,防止因观测不足而遗漏高风险 cache,提供更保守的保护。

这两步操作均为线性时间,计算复杂度与传统平均值聚合相同,却带来了质的飞跃:图中防御性聚合(红色曲线)相较于之前的平均值聚合(蓝色曲线),几乎完全消除了离群点,将最坏情况下保留的重要性分数从 0.45 提升至 0.65。



图 4:Defensive Aggregation(红色曲线)有效对抗脆弱假设,消除离群点

研究团队将之前的 SOTA 压缩方法 CriticalKV 中的平均聚合替换为防御性聚合,实现了全新的压缩方法DefensiveKV及其层间调度增强版Layer-DefensiveKV。实验结果令人震撼:仅需两行代码的修改,就实现了显著的性能飞跃。



图 5:DefensiveKV 和 Layer-DefensiveKV 展示了领先的性能

文章中的测评横跨 7 个任务领域、18 个数据集、3 个不同规模的主流开源模型,一致性地刷新了 KV Cache 压缩的性能边界。例如,在 Llama-3.1-8B 模型 20% cache 预算的严苛压缩条件下,相比最强基线 CriticalKV(质量损失 9.6%),DefensiveKV 将损失降至 4.1%(2.3 倍提升),而 Layer-DefensiveKV 更是仅为 2.1%(4.6 倍提升)。



图 6:DefensiveKV 和 Layer-DefensiveKV 平均压缩损失极低

这项工作的重要价值不仅在于算法性能提升,更在于重新定义了 KV Cache 压缩的优化目标。它首次揭示了现有算法底层稳定性假设的本质脆弱性,开创性地将最坏风险控制思想引入该领域,为后续研究指明了全新方向:与其设计更精密的重要性指标,不如构建更具防御性的策略来对抗底层假设的脆弱性。这种防御性思维 —— 宁可错留、不可错删 —— 或许是通往真正鲁棒长上下文推理的关键钥匙。

DefensiveKV 的全部代码已经开源,提供了完整的实验环境配置、打包数据集、评测代码以及详细的使用文档。团队额外特别提供了一个一小时内完成的迷你复现 Demo,感受防御性聚合带来的强大性能。

  • 一小时极速验证:基于 10% RULER benchmark 的快速评测脚本,在单张 RTX 4090 上即可在 1 小时内完成 DefensiveKV 和 Layer-DefensiveKV 在 20% cache size 下的性能验证。
  • 性能真相揭秘:通过纠正先前 benchmark 的评测缺陷,团队发现 SnapKV 在 20% 压缩率下的真实得分仅为 39.0,彻底打破了此前 "无损压缩" 的幻象。
  • 算法持续提升:感受 KV Cache 压缩领域近一年来从 AdaKV 到 CriticalKV 再到 DefensiveKV 的迭代提升,性能从 39.0 一路提升至 91.4。
  • 可叠加增益:Defensive Aggregation 作为正交化方法,可与现有各类 KV Cache 压缩技术无缝结合,实现性能的持续提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你要仔细检查了,当家里出现这种虫子,很可能会有健康隐患

你要仔细检查了,当家里出现这种虫子,很可能会有健康隐患

爆炸营养彭鑫蕊
2026-05-20 16:55:48
21岁拍三级片,30岁被出轨,38岁嫁大佬,如今51岁没孩子被宠为宝

21岁拍三级片,30岁被出轨,38岁嫁大佬,如今51岁没孩子被宠为宝

傲傲讲历史
2026-05-13 02:40:45
贾冰这一身肌肉藏得太深了....

贾冰这一身肌肉藏得太深了....

健身S叔
2026-05-25 10:59:28
广州白云机场停车每天18元攻略,白云机场停车新模式:18元/天!

广州白云机场停车每天18元攻略,白云机场停车新模式:18元/天!

车旅纵横
2026-05-27 23:22:07
四个省会城市市政府领导班子调整

四个省会城市市政府领导班子调整

上观新闻
2026-05-27 10:08:07
中国半导体的阳谋

中国半导体的阳谋

虎嗅APP
2026-05-27 17:33:06
尼克斯11连胜横扫骑士进军总决赛 这支球队怎么突然不折磨人了?

尼克斯11连胜横扫骑士进军总决赛 这支球队怎么突然不折磨人了?

慢享生活集
2026-05-28 00:30:24
iPhone 18 Pro Max今年稳了,续航可能封神

iPhone 18 Pro Max今年稳了,续航可能封神

搞机小帝
2026-05-27 00:09:26
越南披露中越战争内幕,坦言中国若迟撤军五日,谅山主力将被全歼

越南披露中越战争内幕,坦言中国若迟撤军五日,谅山主力将被全歼

磊子讲史
2026-02-04 12:02:50
越闹越大!庾澄庆公开内涵《歌手》节目组,淘汰真相彻底藏不住了

越闹越大!庾澄庆公开内涵《歌手》节目组,淘汰真相彻底藏不住了

胡一舸南游y
2026-05-27 13:43:47
“不靠贷款活已经是趋势了”,新增贷款罕见转负后,中小银行加速转型谋求破局

“不靠贷款活已经是趋势了”,新增贷款罕见转负后,中小银行加速转型谋求破局

财联社
2026-05-27 21:15:15
外界热议华为“韬定律”:美国要更担忧了

外界热议华为“韬定律”:美国要更担忧了

观察者网
2026-05-26 17:10:44
我毕业后娶了曾经的女老师,洞房夜她说:你果然没让我失望

我毕业后娶了曾经的女老师,洞房夜她说:你果然没让我失望

千秋文化
2026-05-21 20:18:04
特朗普给欧洲上眼药、削弱北约;俄罗斯未必笑得出来

特朗普给欧洲上眼药、削弱北约;俄罗斯未必笑得出来

山河路口
2026-05-27 19:53:44
越闹越大!庾澄庆不满自己被淘汰,公开内涵《歌手》节目组引争议

越闹越大!庾澄庆不满自己被淘汰,公开内涵《歌手》节目组引争议

孤芳自赏的小李
2026-05-27 06:52:27
这家公司囤了84.4万枚比特币,股价比币还疯

这家公司囤了84.4万枚比特币,股价比币还疯

爬虫饲养员
2026-05-26 02:16:52
薛小婉任权官宣分手导火索任权擅自替薛小婉向前女友褒姒公开道歉

薛小婉任权官宣分手导火索任权擅自替薛小婉向前女友褒姒公开道歉

星河不入我
2026-05-27 14:12:09
我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

我一直纠结刘涛的长相很久了,昨天拿去让老人家帮忙看看面相。

小光侃娱乐
2026-05-13 11:59:03
西方正制造一个可怕的共识:对华战争,可无视道德底线和伦理原则

西方正制造一个可怕的共识:对华战争,可无视道德底线和伦理原则

小噎论事
2026-04-04 07:22:13
半个月1篇论文、10万奖金:中国的学术造假是一项系统工程

半个月1篇论文、10万奖金:中国的学术造假是一项系统工程

必记本
2026-05-27 18:53:36
2026-05-28 01:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13097文章数 142653关注度
往期回顾 全部

科技要闻

韬定律:全球在卷纳米数 华为换了一把尺子

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

头条要闻

女子称车祸住院遭男医生侵犯 送检的纸巾检出医生精斑

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

中国半导体的阳谋

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
本地
数码
时尚
公开课

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

雷鸟GT系列AR眼镜发布 267英寸巨幕+杜比视界 1899起

这几件单品太火了,今年流行的风格都离不开它

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版