网易首页 > 网易号 > 正文 申请入驻

对抗KV Cache压缩脆弱性:两行代码最坏风险控制防御底层假设崩塌

0
分享至



作者介绍:中科大团队包括共一作者冯源(博二)、郭浩宇(硕一)以及通讯作者谢希科(研究员),致力于以简洁算法优化大模型长文本推理,曾提出 AdaKV、CriticalKV 等主流 KV Cache 压缩方法,仅需数行代码显著提升压缩效果。新作 DefensiveKV 延续这一理念,仅需两行算法改动,显著降低 KV Cache 压缩损失。

随着大模型长上下文能力快速增长,海量 KV Cache 存储需求急剧增加,各类 KV Cache 压缩方法如雨后春笋般涌现。然而,这些方案在真实场景中的工程落地却常常陷入困境。



  • 论文标题:DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference
  • 论文链接:https://openreview.net/forum?id=nJgS06sX3O
  • 代码链接:https://github.com/FFY0/DefensiveKV/tree/main

中科大研究团队在 ICLR 2026 的论文 DefensiveKV: Taming the Fragility of KV Cache Eviction in LLM Inference 中给出了答案:KV Cache 压缩领域的底层假设存在根本性缺陷!当前主流方法都基于一个核心假设:KV Cache 的重要性在不同时间段是稳定的。因此它们不约而同地选择观测一段历史窗口内的平均重要性,并据此淘汰 "不重要" 的 cache。然而,研究团队惊讶地发现,这一看似合理的稳定性假设在真实场景中十分脆弱!

通过深入分析大模型在真实长文本任务上的行为,团队观察到一个令人震惊的现象:尽管平均观测重要性指标在绝大多数时候能够准确反映 cache 的真实重要性,但在某些特定区间却会显著失效,甚至完全反转!

图 1:稳定性假设失效现象



如上图所示,蓝色曲线代表按照平均重要性保留的一半 "重要" Cache。虽然绝大部分时刻这一半的 cache 能保持整体 90% 以上的真实重要性,但在特定时刻(如第 200-300 时间步),保留的 cache 甚至无法达到全部 cache 50% 的真实重要性!这种” 稳定性崩溃 " 绝非偶发,在单次回复中竟出现高达 65 次之多。

图 2:稳定性崩溃统计



这揭示了一个深刻的认知盲区:以往工作过分信任 "平均情况",却忽视了真实部署中最致命的最坏风险。正如金融领域的经典教训 —— 只优化平均收益而忽视极端风险的策略注定失败。当稳定性假设在关键时刻失效时,使用平均值作为压缩指示器就像在薄冰上行走,随时可能坠入深渊。

针对这一根本性缺陷,团队提出了革命性的防御性聚合(Defensive Aggregation)策略。这一策略彻底颠覆了传统的 "平均优化" 范式,转而采用 "最坏风险控制" 的防御性思维 —— 不再关注平均损失,而是将全部注意力投入到 worst-case 的预防中。

在重塑关注点之后,团队提出了一个极简的优雅设计 —— 核心算法仅需两行代码即可实现:



图 3:核心算法仅需两行代码

第一步:最坏风险估计(Worst-case Risk Estimation)

团队从风险控制角度重新思考驱逐策略 —— 驱逐一个 KV cache 的最大风险等价于它在未来可能达到的最大重要性。由于未来不可知,团队巧妙地用历史观察中的最大值来估计这一风险:只要一个 cache 在任一历史时刻表现重要,就将其视为高风险而保留。这个看似简单的 "取最大" 操作,却能精准捕获那些可能在未来关键时刻大放异彩的 token。

第二步:自适应先验风险修正(Adaptive Prior-Risk Correction)

考虑到最坏风险估计中的观测次数有限(通常仅 32 次),可能遗漏一些关键的风险。团队受贝叶斯估计中 Laplace 平滑启发,提出了一种基于先验的观测风险修正机制:计算每个注意力头中所有 KV cache 的平均观测风险作为先验风险。当某个 cache 的观测风险低于该注意力头中所有 cache 的平均风险时,自动用先验风险进行修正,防止因观测不足而遗漏高风险 cache,提供更保守的保护。

这两步操作均为线性时间,计算复杂度与传统平均值聚合相同,却带来了质的飞跃:图中防御性聚合(红色曲线)相较于之前的平均值聚合(蓝色曲线),几乎完全消除了离群点,将最坏情况下保留的重要性分数从 0.45 提升至 0.65。



图 4:Defensive Aggregation(红色曲线)有效对抗脆弱假设,消除离群点

研究团队将之前的 SOTA 压缩方法 CriticalKV 中的平均聚合替换为防御性聚合,实现了全新的压缩方法DefensiveKV及其层间调度增强版Layer-DefensiveKV。实验结果令人震撼:仅需两行代码的修改,就实现了显著的性能飞跃。



图 5:DefensiveKV 和 Layer-DefensiveKV 展示了领先的性能

文章中的测评横跨 7 个任务领域、18 个数据集、3 个不同规模的主流开源模型,一致性地刷新了 KV Cache 压缩的性能边界。例如,在 Llama-3.1-8B 模型 20% cache 预算的严苛压缩条件下,相比最强基线 CriticalKV(质量损失 9.6%),DefensiveKV 将损失降至 4.1%(2.3 倍提升),而 Layer-DefensiveKV 更是仅为 2.1%(4.6 倍提升)。



图 6:DefensiveKV 和 Layer-DefensiveKV 平均压缩损失极低

这项工作的重要价值不仅在于算法性能提升,更在于重新定义了 KV Cache 压缩的优化目标。它首次揭示了现有算法底层稳定性假设的本质脆弱性,开创性地将最坏风险控制思想引入该领域,为后续研究指明了全新方向:与其设计更精密的重要性指标,不如构建更具防御性的策略来对抗底层假设的脆弱性。这种防御性思维 —— 宁可错留、不可错删 —— 或许是通往真正鲁棒长上下文推理的关键钥匙。

DefensiveKV 的全部代码已经开源,提供了完整的实验环境配置、打包数据集、评测代码以及详细的使用文档。团队额外特别提供了一个一小时内完成的迷你复现 Demo,感受防御性聚合带来的强大性能。

  • 一小时极速验证:基于 10% RULER benchmark 的快速评测脚本,在单张 RTX 4090 上即可在 1 小时内完成 DefensiveKV 和 Layer-DefensiveKV 在 20% cache size 下的性能验证。
  • 性能真相揭秘:通过纠正先前 benchmark 的评测缺陷,团队发现 SnapKV 在 20% 压缩率下的真实得分仅为 39.0,彻底打破了此前 "无损压缩" 的幻象。
  • 算法持续提升:感受 KV Cache 压缩领域近一年来从 AdaKV 到 CriticalKV 再到 DefensiveKV 的迭代提升,性能从 39.0 一路提升至 91.4。
  • 可叠加增益:Defensive Aggregation 作为正交化方法,可与现有各类 KV Cache 压缩技术无缝结合,实现性能的持续提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

日本士兵闯入中国使馆,意图刺杀中国大使。高市:降级中日关系

清欢百味
2026-03-25 06:26:23
张雪峰登上这份死亡名单,他们有一个很玄的共同特点

张雪峰登上这份死亡名单,他们有一个很玄的共同特点

田先生研究室
2026-03-25 06:05:11
特朗普称已向伊朗提出和平方案,中方回应

特朗普称已向伊朗提出和平方案,中方回应

中国网
2026-03-25 16:04:21
“霍尔木兹决战”,不打了

“霍尔木兹决战”,不打了

中国新闻周刊
2026-03-25 18:43:08
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
张雪峰,倒在上市前夜

张雪峰,倒在上市前夜

帅真商业
2026-03-25 11:31:43
张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

张雪峰8亿遗产如何分?法定继承vs遗嘱继承,妻子女儿份额大不同

别人都叫我阿螫
2026-03-25 17:35:23
伊朗称向美林肯号航母发射导弹

伊朗称向美林肯号航母发射导弹

财联社
2026-03-25 17:44:07
人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

人民日报转发,三大巧合坐实“遗言”,猝死前说的话全应验了!

奇思妙想草叶君
2026-03-25 12:40:13
国务院令!3月30日起全国施行,土葬合法,殡葬业暴利彻底凉凉!

国务院令!3月30日起全国施行,土葬合法,殡葬业暴利彻底凉凉!

今朝牛马
2026-03-24 22:13:12
辗转4队!C罗15岁儿子赴皇马试训:有望加盟U16 子承父业

辗转4队!C罗15岁儿子赴皇马试训:有望加盟U16 子承父业

叶青足球世界
2026-03-25 19:08:47
75岁刘晓庆发文:这么想我死啊

75岁刘晓庆发文:这么想我死啊

都市快报橙柿互动
2026-03-25 15:21:36
前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

前女友缅怀张雪峰,呼吁大家嘴下留德,曾自曝遭家暴污蔑才分手!

古希腊掌管松饼的神
2026-03-25 15:38:23
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
遗憾!3次活命机会都没抓住!张雪峰去世前,倒地30分钟才被发现

遗憾!3次活命机会都没抓住!张雪峰去世前,倒地30分钟才被发现

晚雾空青
2026-03-25 17:38:26
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
张雪峰经典名言 100 条(完整版)

张雪峰经典名言 100 条(完整版)

新浪财经
2026-03-25 06:17:25
张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

古希腊掌管松饼的神
2026-03-25 14:28:44
斩首成瘾?拉里贾尼和哈提卜之后,以色列又刺杀了革命卫队发言人

斩首成瘾?拉里贾尼和哈提卜之后,以色列又刺杀了革命卫队发言人

合赞历史
2026-03-25 13:14:43
2026-03-25 19:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12598文章数 142592关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

"军工虎"谭瑞松获死缓:搞权色交易 多次泄露内幕信息

头条要闻

"军工虎"谭瑞松获死缓:搞权色交易 多次泄露内幕信息

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

家居
艺术
旅游
本地
公开课

家居要闻

轻奢堇天府 小资情调

艺术要闻

《百花谱》,这个春天画花不用愁!

旅游要闻

从“China Travel”到“Becoming Chinese”:外国人在开封沉浸式体验中国生活

本地新闻

来永泰同安 赴一场春天的约会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版