网易首页 > 网易号 > 正文 申请入驻

10% KV无损数学推理!开源方法解决推理大模型「记忆过载」难题

0
分享至

R-KV团队 投稿
量子位 | 公众号 QbitAI

推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的“废话”,找不到重点……

一种可以把大模型的“碎碎念”转化为可控记忆条目的高效压缩方法,出现了!

R-KV开源登场:显存↓90%、吞吐×6.6、准确率=100%。

它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。

让“长时间推理”不再是奢侈品。



项目详情可见文末链接。

R-KV三步走:冗余识别+重要性评估+动态淘汰

链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。

以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出3.2万个Token:模型权重15.5GB,KV缓存再吃4.1GB——显存瞬间见底。

现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对长输入设计,可一旦模型在输出端开始“碎碎念”,相似句子之间互相打高分注意力,反而让“按注意力删低分”策略失灵:

造成关键步骤被误删、重复内容却被保留、准确率断崖式下跌等问题。

而R-KV通过以下步骤,在模型解码时实时压缩KV缓存来处理冗余的键/值(KV)标记,仅保留重要且非冗余的标记:



  • 边生成边压缩(Decoding-Time Compression)
  • Token还没写进KV,就先判断“去留”,彻底阻断显存膨胀。
  • 重要性打分(Importance)
  • 多头注意力综合评估,每个Token对后续答案的贡献度。
  • 冗余打分(Redundancy)
  • 计算Key向量余弦相似度,找出“复读机”式内容。
  • 联合淘汰(Joint Eviction)
  • 按「高重要+低冗余」优先级实时调度KV配额,λ≈0.1时效果最佳。

整个流程训练-free模型-agnostic,无需改动模型结构,直接“即插即用”。因此可以直接被用到强化学习的采样过程中,非常灵活。

可视化:R-KV vs. SnapKV



上图展示了R-KV和纯注意力基线SnapKV在相同解码步骤中选择了哪些token。灰色=未选;由浅到深红=被越多注意力头选中。

可以看到,SnapKV关注点集中在离当前Query最近的局部片段,甚至重复保留多次「3 students are leaving early…」等无用自述。

而R-KV选出的Token横跨整段推理:题目关键词30 students,关键中间值24,12及最终答案全部被保留,此外语义覆盖面更广。

通过结合注意力强度与冗余过滤,R-KV保留了重要上下文并去除噪声,成功完成任务;而SnapKV误删关键信息导致答案错误。

得到结果:R-KV有更广泛的覆盖范围、更高的信息多样性和更显著的去冗余能力。

性能测试:准确率不降反升





可以看到,R-KV在具有挑战性的数学基准测试中大幅超越了基线,甚至超过了完整的KV。



在计算开销上,R-KV引入了重要性评分和冗余评分的额外计算,但总体开销适中,通常会被压缩KV缓存带来的注意力成本降低所抵消。随着序列长度的增加,这种权衡变得越来越有利。

对内存节省和端到端吞吐量提升进行实时分析,可以看到,当批处理大小为1时,R-KV在吞吐量上略优于FullKV。这表明R-KV通过减少注意力计算所实现的加速效果超过了R-KV自身的计算开销。

然而,这种直接的速度提升仅占整体收益的一小部分,R-KV带来的主要吞吐量提升来自于KV缓存压缩,使模型能够支持显著更大的推理批处理大小。



对基于比例和固定KV缓存预算的端到端吞吐量进行评估,发现R-KV始终能够实现比FullKV大得多的批处理大小和更高的吞吐量,同时不损失任务性能。

R-KV的适用场景如下:

  • 边端设备长链推理
  • 显存断崖缩减,让消费级GPU甚至手机NPU也能跑
  • 多轮Agent
  • 反思-重写-自评等复杂流程不再受显存限制。
  • 直接用于加速强化学习的采样过程
  • training-free的方法即插即用。

论文PDF:https://arxiv.org/pdf/2505.24133.pdf
项目主页:https://zefan-cai.github.io/R-KV.page/
代码仓库:https://github.com/Zefan-Cai/R-KV

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视选了合资车,行业炸锅了,标准革命悄悄来了

央视选了合资车,行业炸锅了,标准革命悄悄来了

三农老历
2025-11-15 01:40:27
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
F-16昨夜发射45枚导弹!乌克兰测试新技术:一人控制100架无人机

F-16昨夜发射45枚导弹!乌克兰测试新技术:一人控制100架无人机

鹰眼Defence
2025-11-15 17:23:04
为什么首富必须死?

为什么首富必须死?

汉周读书
2024-05-20 09:52:50
玉渊谭天:中方已做好对日实质反制准备

玉渊谭天:中方已做好对日实质反制准备

澎湃新闻
2025-11-15 18:18:09
中央军委副主席:中国必须着眼国际军事竞争战略制高点抢占先机

中央军委副主席:中国必须着眼国际军事竞争战略制高点抢占先机

俄罗斯卫星通讯社
2025-11-12 15:09:26
楼上大爷偷我快递不认,我换地址把寄去公司,几天后物业打来电话

楼上大爷偷我快递不认,我换地址把寄去公司,几天后物业打来电话

秋风专栏
2025-10-06 11:43:21
俄罗斯发出警告:战争爆发中国将被围攻,不过最危险的不止战争

俄罗斯发出警告:战争爆发中国将被围攻,不过最危险的不止战争

扶苏聊历史
2025-11-15 14:24:02
陕西985女生火了!情趣内衣用完就退,商家公开讨伐,曝更多猛料

陕西985女生火了!情趣内衣用完就退,商家公开讨伐,曝更多猛料

阿纂看事
2025-11-15 15:40:48
网红“峰哥亡命天涯”多平台账号被禁止关注

网红“峰哥亡命天涯”多平台账号被禁止关注

极目新闻
2025-11-14 18:38:00
沙特拒歼35选F35,五角大楼操心技术泄露,中国军工最大伏笔出现

沙特拒歼35选F35,五角大楼操心技术泄露,中国军工最大伏笔出现

窥史
2025-11-15 18:05:31
大哥狂刷55年纪录大礼包,三弟41+14+11,新秀8次抢断也徒劳

大哥狂刷55年纪录大礼包,三弟41+14+11,新秀8次抢断也徒劳

体育新角度
2025-11-15 18:27:04
9比0才能晋级!最惨冠军诞生,连续三届跌入附加赛,世界杯又难了

9比0才能晋级!最惨冠军诞生,连续三届跌入附加赛,世界杯又难了

篮球圈里的那些事
2025-11-15 15:35:18
日本男足新海报因酷似韩国太极旗引发轩然大波,设计师意图何在?

日本男足新海报因酷似韩国太极旗引发轩然大波,设计师意图何在?

大眼瞄世界
2025-11-15 09:52:15
男子56万购入300块和田玉,搁置10年后,急用钱才发现其真实价值

男子56万购入300块和田玉,搁置10年后,急用钱才发现其真实价值

兰姐说故事
2025-11-14 17:15:03
荒野求生风波升级!官媒出手锐评,言辞犀利,句句戳到打工人心坎

荒野求生风波升级!官媒出手锐评,言辞犀利,句句戳到打工人心坎

白浅娱乐聊
2025-11-14 09:52:18
香港结业潮继续,“一毛不拔”的业主终于妥协了!

香港结业潮继续,“一毛不拔”的业主终于妥协了!

港漂圈
2025-11-14 20:21:01
吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

小虎新车推荐员
2025-11-14 14:54:30
1.5亿欧元,切尔西拟报价皇马巨星,组巴西超豪华三叉戟!

1.5亿欧元,切尔西拟报价皇马巨星,组巴西超豪华三叉戟!

老籣说体育
2025-11-15 16:22:10
振奋人心!中国海军抵达日本,且是最敏感处

振奋人心!中国海军抵达日本,且是最敏感处

超级学爸蛋总
2025-11-14 20:34:38
2025-11-15 19:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
11682文章数 176330关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

健康
本地
数码
房产
公开课

金振口服液助力科学应对呼吸道疾病

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

数码要闻

10月全球电视ODM工厂出货量榜单出炉 京东方第三

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版