如果你用大模型跑聊天机器人、RAG应用或AI代理,提示缓存是唯一一个不牺牲质量,就能把输入成本砍掉50%到90%、首token延迟压到原来的十分之一到三分之一的优化。它不是凭空堆上去的补丁,而是注意力机制定义本身跑出来的必然结果。一旦你把这层关系想通,剩下的TTL策略、不同服务商的差异、提示结构怎么排,都会变得特别顺。
这份指南是整个四篇系列文章的总索引,从原理一直拉到生产环境里的决策矩阵。根据你已有的知识储备,挑着看就行。这四篇各自独立,但按顺序通读能拼出一张完整地图,而且不啰嗦。
![]()
第1篇:提示缓存到底是怎么工作的
讲架构的那篇。开篇就是用一条公式把自注意力走通,然后解释为什么一个固定前缀的K向量和V向量在数学上可以复用,再顺着往下讲记忆和计算的权衡,最终逼出每个开发者都躲不开的TTL行为。
核心要点拆开来看:
1. 提示缓存不是什么“上层优化”,而是因果遮蔽注意力直接推导出来的副产品。位置i的K/V只由第1到i个token决定,完全相同的前缀,产出的K/V一定比特级一致。
2. 缓存省掉的是“预填充”阶段——这是计算密集型的活,复杂度O(N²);而“解码”阶段本是显存带宽受限,每token O(N),推理引擎早就把能做优化的地方做满了。
3. TTL之所以存在,完全因为KV缓存体量惊人。一个70B模型开着32K上下文,KV缓存大约会吃掉10GB显存。5分钟是在GPU显存压力下逼出的存活窗口;能做到小时级、天级缓存,只能靠磁盘后备方案,比如DeepSeek的MLA架构。
4. 只要命中缓存,成本能打掉50%到90%,同时TTFT在5K到10K token范围内能降3到10倍,上下文拉大到100K以上降幅更可观。
第2篇:主流服务商的提示缓存横评
采购指南。五个厂商把提示缓存开放成五种截然不同的形状:Claude强依赖明确标记,GPT-5和DeepSeek-v4走全自动路线,Gemini、Qwen则是隐式加显式的混合派,只有DeepSeek用MLA达成规模化磁盘后备缓存。文章不但做了特性逐项对照,还给出一个五维评估框架,让你能按自己的具体负载来打分。
记住这几条,横向对比才不容易被价格标签带偏:
1. 别只看基准价,你要算的是用命中率加权后的有效成本,公式在第4.1节。
2. Claude把单次调用的折扣压到最深,约90%,但要求开发者主动放cache_control标记。
3. DeepSeek-v4是当前唯一实现规模化磁盘后备缓存的选手;而且它的匹配粒度是64个token,远小于常见的1024个token,因此部分前缀匹配也能拿到折扣。
4. Gemini那种显式缓存会按小时收存储费,划不划算取决于调用频率。
5. 把命中率控制住之后,真正让供应商拉开身位的,是API易用性、命中率可预测性、TTL匹配度、未命中时的延迟损耗以及迁移成本这五个维度。
把这层原理吃透,再去挑缓存方案就会清楚很多:能省多少钱、能快多少,早就写在注意力机制里了,剩下的只是工程取舍而已。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.