网易首页 > 网易号 > 正文 申请入驻

10% KV无损数学推理!开源方法解决推理大模型「记忆过载」难题

0
分享至

R-KV团队 投稿
量子位 | 公众号 QbitAI

推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的“废话”,找不到重点……

一种可以把大模型的“碎碎念”转化为可控记忆条目的高效压缩方法,出现了!

R-KV开源登场:显存↓90%、吞吐×6.6、准确率=100%。

它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。

让“长时间推理”不再是奢侈品。



项目详情可见文末链接。

R-KV三步走:冗余识别+重要性评估+动态淘汰

链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。

以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出3.2万个Token:模型权重15.5GB,KV缓存再吃4.1GB——显存瞬间见底。

现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对长输入设计,可一旦模型在输出端开始“碎碎念”,相似句子之间互相打高分注意力,反而让“按注意力删低分”策略失灵:

造成关键步骤被误删、重复内容却被保留、准确率断崖式下跌等问题。

而R-KV通过以下步骤,在模型解码时实时压缩KV缓存来处理冗余的键/值(KV)标记,仅保留重要且非冗余的标记:



  • 边生成边压缩(Decoding-Time Compression)
  • Token还没写进KV,就先判断“去留”,彻底阻断显存膨胀。
  • 重要性打分(Importance)
  • 多头注意力综合评估,每个Token对后续答案的贡献度。
  • 冗余打分(Redundancy)
  • 计算Key向量余弦相似度,找出“复读机”式内容。
  • 联合淘汰(Joint Eviction)
  • 按「高重要+低冗余」优先级实时调度KV配额,λ≈0.1时效果最佳。

整个流程训练-free模型-agnostic,无需改动模型结构,直接“即插即用”。因此可以直接被用到强化学习的采样过程中,非常灵活。

可视化:R-KV vs. SnapKV



上图展示了R-KV和纯注意力基线SnapKV在相同解码步骤中选择了哪些token。灰色=未选;由浅到深红=被越多注意力头选中。

可以看到,SnapKV关注点集中在离当前Query最近的局部片段,甚至重复保留多次「3 students are leaving early…」等无用自述。

而R-KV选出的Token横跨整段推理:题目关键词30 students,关键中间值24,12及最终答案全部被保留,此外语义覆盖面更广。

通过结合注意力强度与冗余过滤,R-KV保留了重要上下文并去除噪声,成功完成任务;而SnapKV误删关键信息导致答案错误。

得到结果:R-KV有更广泛的覆盖范围、更高的信息多样性和更显著的去冗余能力。

性能测试:准确率不降反升





可以看到,R-KV在具有挑战性的数学基准测试中大幅超越了基线,甚至超过了完整的KV。



在计算开销上,R-KV引入了重要性评分和冗余评分的额外计算,但总体开销适中,通常会被压缩KV缓存带来的注意力成本降低所抵消。随着序列长度的增加,这种权衡变得越来越有利。

对内存节省和端到端吞吐量提升进行实时分析,可以看到,当批处理大小为1时,R-KV在吞吐量上略优于FullKV。这表明R-KV通过减少注意力计算所实现的加速效果超过了R-KV自身的计算开销。

然而,这种直接的速度提升仅占整体收益的一小部分,R-KV带来的主要吞吐量提升来自于KV缓存压缩,使模型能够支持显著更大的推理批处理大小。



对基于比例和固定KV缓存预算的端到端吞吐量进行评估,发现R-KV始终能够实现比FullKV大得多的批处理大小和更高的吞吐量,同时不损失任务性能。

R-KV的适用场景如下:

  • 边端设备长链推理
  • 显存断崖缩减,让消费级GPU甚至手机NPU也能跑
  • 多轮Agent
  • 反思-重写-自评等复杂流程不再受显存限制。
  • 直接用于加速强化学习的采样过程
  • training-free的方法即插即用。

论文PDF:https://arxiv.org/pdf/2505.24133.pdf
项目主页:https://zefan-cai.github.io/R-KV.page/
代码仓库:https://github.com/Zefan-Cai/R-KV

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵丽颖户外散步被偶遇,网友吐槽身材五五分,和我们普通人差不多

赵丽颖户外散步被偶遇,网友吐槽身材五五分,和我们普通人差不多

草莓解说体育
2025-11-16 01:07:59
天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

天呐!巩俐这身材太惊艳了,胸围几乎到肚脐,状态却依旧十分亮眼

TVB的四小花
2025-10-22 02:25:03
42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

42岁刘翔近况曝光,长期在国外旅游,靠终身合同吸金,远离喷子!

姩姩有娱
2025-11-10 17:49:18
一场2:0验出锋线希望星真实力 一到国家队就爆发 邵佳一最大发现

一场2:0验出锋线希望星真实力 一到国家队就爆发 邵佳一最大发现

零度眼看球
2025-11-16 06:58:45
《四喜》7对情侣7种结局,大倪赢了美奇,沈明珠和王景哲有缘无分

《四喜》7对情侣7种结局,大倪赢了美奇,沈明珠和王景哲有缘无分

宇林网络
2025-11-15 22:15:33
泽连斯基喊话欧盟:赶快给钱,这关乎乌克兰生存

泽连斯基喊话欧盟:赶快给钱,这关乎乌克兰生存

观察者网
2025-11-13 22:03:08
暴跌了50%!中国第一睡城成鬼城,十年前上车“燕郊”的人都哭了

暴跌了50%!中国第一睡城成鬼城,十年前上车“燕郊”的人都哭了

墨兰史书
2025-10-24 13:25:03
不接受“美芯中造”,EUV光刻机迅速落地,刘德音跑不掉了!

不接受“美芯中造”,EUV光刻机迅速落地,刘德音跑不掉了!

别人都叫我阿腈
2025-11-15 14:30:15
那只黑猫已离世!对峙8年的黑猫攻防战落幕,保安大叔再等不到它来闯关……

那只黑猫已离世!对峙8年的黑猫攻防战落幕,保安大叔再等不到它来闯关……

日本物语
2025-11-13 21:25:34
金建希有多漂亮?尹锡悦本想单身,52岁时改变主意:非她不娶!

金建希有多漂亮?尹锡悦本想单身,52岁时改变主意:非她不娶!

说历史的女人
2025-11-13 14:31:51
今起十天,提前闭园!广州知名景区最新通知

今起十天,提前闭园!广州知名景区最新通知

番禺台
2025-11-16 00:07:27
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

翰飞观事
2025-11-10 19:47:08
广东女篮全运会夺冠军,李月汝、杜锋、赵睿等多人送上祝福!

广东女篮全运会夺冠军,李月汝、杜锋、赵睿等多人送上祝福!

笑一个吧
2025-11-16 00:19:08
出门吃饭总在被直播,谁允许的?

出门吃饭总在被直播,谁允许的?

雷斯林
2025-11-15 18:13:35
鲁能制造闪耀熊猫杯,梅开二度加助攻,青春风暴击碎“恐韩”阴霾

鲁能制造闪耀熊猫杯,梅开二度加助攻,青春风暴击碎“恐韩”阴霾

老周观体育
2025-11-15 23:37:18
设计院8个月不发工资,没人离职:比没钱更可怕的是“不敢走”

设计院8个月不发工资,没人离职:比没钱更可怕的是“不敢走”

悟话八门
2025-10-15 11:06:51
势在必行!全运会结束后,国乒主席王励勤应尽快做这3件事!

势在必行!全运会结束后,国乒主席王励勤应尽快做这3件事!

田先生篮球
2025-11-15 10:51:13
彻底凉透!从闭着眼睛点到无人问津,西贝为何会走到今天这一步?

彻底凉透!从闭着眼睛点到无人问津,西贝为何会走到今天这一步?

热风追逐者
2025-10-21 19:50:07
0度光脚、礼仪“焊死”:西班牙王后的体面与坚守

0度光脚、礼仪“焊死”:西班牙王后的体面与坚守

述家娱记
2025-11-15 11:02:06
一旦爆发核战争,只有10分钟自救!14亿中国人,必须学会自救方法

一旦爆发核战争,只有10分钟自救!14亿中国人,必须学会自救方法

史纪文谭
2025-10-26 19:41:26
2025-11-16 09:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

日本外相:高市早苗的发言未违反国际法 没有必要收回

头条要闻

日本外相:高市早苗的发言未违反国际法 没有必要收回

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

健康
教育
旅游
房产
公开课

血液科专家揭秘白血病七大误区

教育要闻

孩子自我设限的3大原因,如何破解?

旅游要闻

新疆阜康:天山天池景区迎客来

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版