网易首页 > 网易号 > 正文 申请入驻

提示缓存凭什么省90%费用?看完变换器原理就懂了

0
分享至

如果你用大模型跑聊天机器人、RAG应用或AI代理,提示缓存是唯一一个不牺牲质量,就能把输入成本砍掉50%到90%、首token延迟压到原来的十分之一到三分之一的优化。它不是凭空堆上去的补丁,而是注意力机制定义本身跑出来的必然结果。一旦你把这层关系想通,剩下的TTL策略、不同服务商的差异、提示结构怎么排,都会变得特别顺。

这份指南是整个四篇系列文章的总索引,从原理一直拉到生产环境里的决策矩阵。根据你已有的知识储备,挑着看就行。这四篇各自独立,但按顺序通读能拼出一张完整地图,而且不啰嗦。


第1篇:提示缓存到底是怎么工作的

讲架构的那篇。开篇就是用一条公式把自注意力走通,然后解释为什么一个固定前缀的K向量和V向量在数学上可以复用,再顺着往下讲记忆和计算的权衡,最终逼出每个开发者都躲不开的TTL行为。

核心要点拆开来看:

1. 提示缓存不是什么“上层优化”,而是因果遮蔽注意力直接推导出来的副产品。位置i的K/V只由第1到i个token决定,完全相同的前缀,产出的K/V一定比特级一致。

2. 缓存省掉的是“预填充”阶段——这是计算密集型的活,复杂度O(N²);而“解码”阶段本是显存带宽受限,每token O(N),推理引擎早就把能做优化的地方做满了。

3. TTL之所以存在,完全因为KV缓存体量惊人。一个70B模型开着32K上下文,KV缓存大约会吃掉10GB显存。5分钟是在GPU显存压力下逼出的存活窗口;能做到小时级、天级缓存,只能靠磁盘后备方案,比如DeepSeek的MLA架构。

4. 只要命中缓存,成本能打掉50%到90%,同时TTFT在5K到10K token范围内能降3到10倍,上下文拉大到100K以上降幅更可观。

第2篇:主流服务商的提示缓存横评

采购指南。五个厂商把提示缓存开放成五种截然不同的形状:Claude强依赖明确标记,GPT-5和DeepSeek-v4走全自动路线,Gemini、Qwen则是隐式加显式的混合派,只有DeepSeek用MLA达成规模化磁盘后备缓存。文章不但做了特性逐项对照,还给出一个五维评估框架,让你能按自己的具体负载来打分。

记住这几条,横向对比才不容易被价格标签带偏:

1. 别只看基准价,你要算的是用命中率加权后的有效成本,公式在第4.1节。

2. Claude把单次调用的折扣压到最深,约90%,但要求开发者主动放cache_control标记。

3. DeepSeek-v4是当前唯一实现规模化磁盘后备缓存的选手;而且它的匹配粒度是64个token,远小于常见的1024个token,因此部分前缀匹配也能拿到折扣。

4. Gemini那种显式缓存会按小时收存储费,划不划算取决于调用频率。

5. 把命中率控制住之后,真正让供应商拉开身位的,是API易用性、命中率可预测性、TTL匹配度、未命中时的延迟损耗以及迁移成本这五个维度。

把这层原理吃透,再去挑缓存方案就会清楚很多:能省多少钱、能快多少,早就写在注意力机制里了,剩下的只是工程取舍而已。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宝妈吐槽女儿同学来家玩没有边界感,很晚也不回家,评论区炸锅!

宝妈吐槽女儿同学来家玩没有边界感,很晚也不回家,评论区炸锅!

另子维爱读史
2026-06-02 20:59:16
帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

帕克:在曼联没人规劝加纳乔吗?他现在600次传球有555次回传

懂球帝
2026-06-02 20:59:08
闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

闹大了!中方驱逐美国记者后,不到24小时,美吊销新华社记者许可

娱乐的宅急便
2026-06-02 14:59:09
两岸军机刚在澎湖空前对峙,台飞行员就出事了,台空军雪上加霜

两岸军机刚在澎湖空前对峙,台飞行员就出事了,台空军雪上加霜

DS北风
2026-06-02 14:51:24
俄罗斯突然断供,航油不卖中国,欧盟只剩6周库存,中国呢?

俄罗斯突然断供,航油不卖中国,欧盟只剩6周库存,中国呢?

一个有灵魂的作者
2026-06-02 17:37:54
“卷王”中产妈妈:“我每天只花10块钱、睡3小时,打4份工供女儿学琴。老公在家躺平,如今过成这样……”

“卷王”中产妈妈:“我每天只花10块钱、睡3小时,打4份工供女儿学琴。老公在家躺平,如今过成这样……”

阅读第一
2026-06-02 10:10:59
史上首次!中国海警霸气踏入台湾岛东海域,信号前所未有硬核

史上首次!中国海警霸气踏入台湾岛东海域,信号前所未有硬核

面包夹知识
2026-06-02 21:09:35
台积电日本3nm量产线核心负责人辞职归国!

台积电日本3nm量产线核心负责人辞职归国!

新浪财经
2026-06-02 00:05:18
张爱萍巡查酒泉基地,凭经验察觉战士背包暗藏问题

张爱萍巡查酒泉基地,凭经验察觉战士背包暗藏问题

磊子讲史
2026-05-28 12:38:11
中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

影孖看世界
2026-06-01 23:22:26
乌克兰首都基辅等地遇袭 已致100多人伤亡

乌克兰首都基辅等地遇袭 已致100多人伤亡

中国网
2026-06-02 16:56:32
男子称距离登顶珠峰仅剩77米但因冲顶线路拥堵需等待两小时,无奈决定全员下撤;此前珠峰被指“很堵”,南侧创下单日274人登顶新纪录

男子称距离登顶珠峰仅剩77米但因冲顶线路拥堵需等待两小时,无奈决定全员下撤;此前珠峰被指“很堵”,南侧创下单日274人登顶新纪录

大风新闻
2026-06-02 11:54:10
女人一旦出轨,肯定就不止一个情人

女人一旦出轨,肯定就不止一个情人

加油丁小文
2026-05-31 12:08:49
2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

2亿灵活就业者,正在集体放弃社保:不是不想养老,是真的赌不起

职场资深秘书
2026-05-29 15:54:56
卖到供不应求!这款平价小车要给中国品牌上一课?

卖到供不应求!这款平价小车要给中国品牌上一课?

硅屿手记
2026-06-01 23:06:42
顶着50℃的极端高温,印度一边抵制中国空调,一边又偷中国的技术

顶着50℃的极端高温,印度一边抵制中国空调,一边又偷中国的技术

商业财经风向
2026-06-02 23:02:45
上海交大研究证实:糖尿病人每周饿两天,效果竟不输降糖药?

上海交大研究证实:糖尿病人每周饿两天,效果竟不输降糖药?

白宸侃片
2026-06-02 13:40:28
随着卢卡库破门+2-0完胜世界第11,比利时连续12场保持不败

随着卢卡库破门+2-0完胜世界第11,比利时连续12场保持不败

侧身凌空斩
2026-06-03 02:06:50
76岁的万科创始人王石,最近彻底成了全网焦点。

76岁的万科创始人王石,最近彻底成了全网焦点。

梦录的西方史话
2026-04-23 14:36:39
“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

“耿同学”永久限流后,南开大学、中山大学趁周末接连通报:多人遭免职

药识局
2026-05-30 21:11:23
2026-06-03 06:12:49
Ping值焦虑
Ping值焦虑
有态度网友ytd
4409文章数 57关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

健康
艺术
数码
时尚
教育

违规干细胞应用,暗藏致命隐患!

艺术要闻

二十年前割麦的场景

数码要闻

HPB散热加持!三星HBM5预计2028年实现量产

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

教育要闻

今天是6月3日,农历四月十八。距离高考还有四天,专属于你的考前祝福一定要收下

无障碍浏览 进入关怀版