网易首页 > 网易号 > 正文 申请入驻

AI 术语通俗词典:KV Cache

0
分享至

KV Cache 是大语言模型、Transformer、文本生成、推理加速和大模型部署中非常重要的一个术语。KV 是 Key-Value 的缩写,Cache 表示缓存,因此 KV Cache 可以理解为“键值缓存”。它用来描述一种在大语言模型生成文本时,把已经计算过的 Key 和 Value 保存下来、后续生成时直接复用的机制。换句话说,KV Cache 是在回答:模型为什么能更快地一个 token 一个 token 生成文本。

在 GPT 这类自回归模型中,文本不是一次性全部生成出来的,而是每次生成一个 token。每生成一个新 token,模型都需要根据已有上下文计算注意力。如果每一步都重新计算所有历史 token 的注意力表示,计算量会非常大。KV Cache 的作用,就是把历史 token 的 Key 和 Value 缓存起来,避免重复计算。

因此,KV Cache 常用于大语言模型推理、对话生成、长文本生成、流式输出、本地部署和推理服务优化中,是理解大模型推理性能的重要基础概念。

一、基本概念:什么是 KV Cache

KV Cache 是 Transformer 自注意力机制中的一种缓存技术。

在注意力机制中,每个 token 通常会被映射成三类向量:Query、Key、Value。

它们常简写为 Q、K、V,其中:

• Q 表示当前 token 发出的查询

• K 表示各 token 可被匹配的键

• V 表示各 token 携带的信息内容

注意力机制可以简化表示为:

其中:

• Q 表示查询矩阵

• K 表示键矩阵

• V 表示值矩阵

• d_k 表示 Key 向量维度

• softmax 用于把相似度转换为注意力权重

在自回归生成中,历史 token 的 K 和 V 一旦计算出来,在后续步骤中通常不会改变。于是可以把它们保存起来。这就是 KV Cache。

从通俗角度看:KV Cache 就像模型的“上下文计算笔记”。前面已经读过的内容,不必每次都重新读一遍,而是把关键结果保存下来,后面继续生成时直接查用。

二、为什么需要 KV Cache

大语言模型生成文本时,通常是逐 token 生成。

例如:人工智能 → 正在 → 改变 → 世界。

当模型生成“改变”时,需要参考前面的“人工智能 正在”。

当模型继续生成“世界”时,又需要参考“人工智能 正在 改变”。

如果没有 KV Cache,每一步都要重新计算所有历史 token 的 K 和 V。生成越长,重复计算越多。

可以简单理解为:

• 无 KV Cache:每生成一步,都重新计算全部上下文

• 有 KV Cache:历史 K、V 复用,只计算新 token


图 1:无缓存与有 KV Cache 对比

从通俗角度看:没有 KV Cache,模型像每写一个字都重新通读全文。有了 KV Cache,模型像保留了阅读笔记,每次只处理新加入的内容。

这能明显提升生成速度,尤其是在长文本、长对话和流式输出场景中。

三、KV Cache 如何工作

KV Cache 的基本工作流程可以分为两部分。


图 2:KV Cache 生成步骤解析

1、首轮输入:建立缓存

用户输入提示词后,模型会一次性处理这些 token。

例如:

请解释什么是机器学习

模型会为每一层、每个注意力头计算对应的 K 和 V,并把它们保存到缓存中。

可以简单表示为:输入 token → 计算 K、V → 写入 KV Cache。

2、逐步生成:复用缓存

当模型生成新 token 时,只需要计算这个新 token 的 Q、K、V。

然后:

• 新 token 的 Q 会和缓存中的历史 K 做注意力匹配

• 注意力权重会作用在缓存中的历史 V 上

• 新 token 的 K、V 会追加到 KV Cache 中

可以概括为:新 token → 计算新 K、V → 读取历史 K、V → 生成下一个 token → 更新缓存。

从通俗角度看:KV Cache 不是保存最终答案,而是保存注意力机制已经计算好的历史上下文信息。

四、没有 KV Cache 与有 KV Cache 的区别

1、没有 KV Cache

假设已经生成了 1000 个 token,要生成第 1001 个 token。

如果没有 KV Cache,模型需要重新处理前面 1000 个 token,重新计算它们在各层中的 K 和 V。这会造成大量重复计算。

2、有 KV Cache

如果有 KV Cache,前面 1000 个 token 的 K 和 V 已经保存。

生成第 1001 个 token 时,只需要计算新 token 的 K 和 V,并与历史缓存交互。

因此,KV Cache 可以把重复计算显著减少。

可以概括为:

• 无缓存:重复算历史

• 有缓存:只算新增 token

3、速度与显存的交换

KV Cache 的本质是一种“用显存换速度”的技术。它减少了重复计算,但需要保存大量 K 和 V。因此,它会增加显存占用。

从工程角度看:KV Cache 提升生成速度,但会消耗更多显存。

这也是长上下文推理时显存压力很大的重要原因之一。

五、KV Cache 为什么会占显存

KV Cache 需要为每一层、每个注意力头、每个历史 token 保存 K 和 V。


图 3:KV Cache 与显存、上下文长度的关系

因此,它的大小与以下因素有关:

• batch size

• 上下文长度

• 模型层数

• 注意力头数量

• 每个头的维度

• 数据精度

可以简化理解为:

其中:

• B 表示 batch size

• L 表示上下文长度

• N 表示层数

• H 表示注意力头数

• D 表示每个头的维度

从通俗角度看:

• 上下文越长,要保存的历史 K、V 越多

• 并发越高,要为更多请求保存缓存

• 模型越大,每个 token 对应的缓存也越大

因此,长上下文和高并发服务常常会受到 KV Cache 显存占用限制。

六、KV Cache 与上下文窗口

上下文窗口越长,KV Cache 越重要,也越占显存。

例如,一个模型支持 8K、32K、128K 甚至更长上下文时,模型需要保存更多历史 token 的 K 和 V。

这带来两个影响。

1、长上下文生成更依赖缓存

如果没有 KV Cache,长文本生成会非常慢。

因为每一步都要重新计算大量历史 token。

2、长上下文占用更多显存

KV Cache 会随上下文长度增长而增长。

因此,长上下文模型虽然能处理更多内容,但部署时需要更大的显存预算。

从通俗角度看:上下文窗口像模型能同时参考的“阅读范围”。KV Cache 像为这段阅读范围保存的“计算笔记”。阅读范围越大,笔记也越厚。

七、KV Cache 与量化

KV Cache 也可以量化。

在大模型部署中,除了量化模型权重,也可以尝试量化 KV Cache。

例如:FP16 KV Cache → INT8 KV Cache。

这样可以减少显存占用。

不过,KV Cache 量化可能影响生成质量,尤其在长上下文和复杂推理中需要谨慎评估。

可以概括为:

• 权重量化:减少模型参数占用

• KV Cache 量化:减少生成过程中的上下文缓存占用

从实践角度看,KV Cache 优化是长上下文推理、高并发服务和本地部署中的重要方向。

八、KV Cache 的优势、局限与常见误解

1、KV Cache 的主要优势

KV Cache 最大的优势是加速自回归生成。

它可以:

• 减少重复计算

• 提高生成速度

• 支持流式输出

• 提升长文本生成效率

• 改善对话系统响应体验

从通俗角度看:KV Cache 让模型不用反复“重读历史”,所以生成更快。

2、KV Cache 的主要局限

KV Cache 也有明显局限。

首先,它会增加显存占用。

尤其在长上下文、高并发、多轮对话中,KV Cache 可能成为显存瓶颈。

其次,它主要适用于自回归生成。

对于一次性编码任务,KV Cache 的作用并不相同。

再次,KV Cache 不会提高模型本身的知识水平或推理能力。

它只是推理加速机制,不是训练方法,也不是模型能力增强方法。

3、常见误解

误解一:KV Cache 会让模型更聪明。

不对。它主要让模型生成更快,不会直接提高模型质量。

误解二:KV Cache 可以减少所有显存。

不对。它减少重复计算,但会额外保存 K、V,因此通常增加缓存显存。

误解三:上下文越长,速度一定越快。

不对。KV Cache 能避免重复计算,但长上下文仍会带来更大的注意力计算和缓存开销。

误解四:KV Cache 和模型参数是一回事。

不对。模型参数是训练得到的权重;KV Cache 是推理过程中根据当前上下文临时生成的缓存。

九、Python 示例

下面用简化示例帮助理解 KV Cache 的思想。

示例 1:用字典模拟缓存

这个例子表示:历史 token 的 K 和 V 被保存起来,后续可以复用。

示例 2:生成新 token 时追加缓存

生成新 token 后,它的 K 和 V 会追加到 KV Cache 中。

示例 3:复用历史 K、V

这个例子展示了:当前 token 的 Q 会与历史 K、V 交互,从而利用已有上下文。

示例 4:缓存长度随生成增长

    

随着生成继续,KV Cache 会不断增长。这说明:生成越长,缓存越大。

小结

KV Cache 是大语言模型推理中的键值缓存机制,用来保存历史 token 在注意力机制中的 Key 和 Value。它可以避免每一步生成时重复计算历史上下文,从而显著加快自回归生成速度。但 KV Cache 会占用额外显存,并且随着上下文长度和并发数量增加而增长。对初学者而言,可以把 KV Cache 理解为:模型生成文本时保存的“上下文计算笔记”。

点赞有美意,赞赏是鼓励

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国国民党主席郑丽文发表声明

中国国民党主席郑丽文发表声明

果妈聊娱乐
2026-06-27 16:41:11
国泰海通总裁李俊杰,拟任市级机关正职

国泰海通总裁李俊杰,拟任市级机关正职

21世纪经济报道
2026-06-27 11:50:06
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

王医生健康讲坛
2026-05-31 05:20:08
5支球队积分垫底!球迷:亚洲足联会脸红不?

5支球队积分垫底!球迷:亚洲足联会脸红不?

体育哲人
2026-06-27 09:40:23
人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

琴音缭绕回
2026-06-26 15:44:25
中国不给脸,新加坡就是个县!英媒:中国富人正集体逃离新加坡

中国不给脸,新加坡就是个县!英媒:中国富人正集体逃离新加坡

到此为止的印象
2026-06-26 21:57:26
别聊阿根廷赢几个了!这场唯一看点:梅西上不上,刷不刷新射手王

别聊阿根廷赢几个了!这场唯一看点:梅西上不上,刷不刷新射手王

砚底沉香
2026-06-27 15:32:44
人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

老稝科普君
2026-06-27 16:50:24
韩国再降一名就出局,世界杯小组第三排名跌至第八!网友:出线仅剩理论可能

韩国再降一名就出局,世界杯小组第三排名跌至第八!网友:出线仅剩理论可能

极目新闻
2026-06-27 18:08:21
比洞洞鞋更令人着魔的鞋,来了!

比洞洞鞋更令人着魔的鞋,来了!

英国那些事儿
2026-06-27 02:12:25
蔡朝晖已任中央政法委专职主任

蔡朝晖已任中央政法委专职主任

界面新闻
2026-06-27 11:08:17
韩红“走个面”翻车事件升级!其戒指、手串、腕表被网友追问价格

韩红“走个面”翻车事件升级!其戒指、手串、腕表被网友追问价格

火山詩话
2026-06-24 15:26:03
挤破头的985突然不香了!这届家长集体转向,抢着给孩子报211专业

挤破头的985突然不香了!这届家长集体转向,抢着给孩子报211专业

户外阿毽
2026-06-27 07:53:55
为何美国现在要拼命围攻中国?五年后,中国将不再忌惮任何国家!

为何美国现在要拼命围攻中国?五年后,中国将不再忌惮任何国家!

老灯爱野史
2026-06-27 11:47:36
马云前往俄罗斯观赛与杨受成及容祖儿 蔡卓妍 谢霆锋聚餐的留影。

马云前往俄罗斯观赛与杨受成及容祖儿 蔡卓妍 谢霆锋聚餐的留影。

陈意小可爱
2026-06-27 13:28:32
今年夏天太反常!六月不热早晚凉,老话预兆别不当回事!

今年夏天太反常!六月不热早晚凉,老话预兆别不当回事!

爱下厨的阿酾
2026-06-24 16:45:27
最后的疯狂:许家印被抓捕的失控三秒钟

最后的疯狂:许家印被抓捕的失控三秒钟

财经保探长
2026-04-09 22:30:38
中业岛被占数十载,台当局束手无策?大陆强势出手:一寸不让!

中业岛被占数十载,台当局束手无策?大陆强势出手:一寸不让!

米师傅安装
2026-06-20 01:04:16
下半年开始,央国企员工要面临严峻问题

下半年开始,央国企员工要面临严峻问题

三农老历
2026-06-27 15:35:30
世界杯32强收官!6场生死战开打,C罗梅西冲击史诗纪录

世界杯32强收官!6场生死战开打,C罗梅西冲击史诗纪录

兰亭墨未干
2026-06-27 16:55:49
2026-06-27 19:15:00
MediaTea
MediaTea
专业的数字媒体、新媒体技术
1909文章数 80关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

两不满14岁女孩称被强奸警方立案后撤案 办案刑警回应

头条要闻

两不满14岁女孩称被强奸警方立案后撤案 办案刑警回应

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

旅游
数码
艺术
公开课
军事航空

旅游要闻

上海小囡集合!美影厂变身开放式园区!2家文创店+3大主题展超好逛!打卡攻略

数码要闻

贝尔金14合1雷电5拓展坞开售:支持140W PD供电,2299元

艺术要闻

这才是草书的“天花板”,水平高过王羲之

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版