网易首页 > 网易号 > 正文 申请入驻

OpenAI把30%算力浪费在重复劳动上?KV缓存复用技术正改写大模型架构

0
分享至

大模型推理的账本上,有一笔隐形开销很少被公开讨论。同一批上下文被反复计算,像餐厅后厨每天重新切同一筐土豆——不是技术做不到保鲜,而是系统没设计好流转。

重复计算正在吃掉你的推理预算

当前生产环境的痛点并非算力不足,而是算力错配。三个主流架构路线各自应对:独立副本横向扩展,接受冗余;共享缓存加智能路由,保留计算结果;或者把大模型拆分到多卡运行。选型关键不在规模,而在一个被低估的变量——请求之间的上下文复用率。

复用率低,KV缓存只是锦上添花;复用率高,它直接决定架构成败。这个判断标准正在重塑开源推理系统的设计优先级。

架构一:独立副本,用冗余换简单

最直白的方案是堆机器。每个请求独占一份模型实例,上下文来了从头算,走了就扔。部署简单,故障隔离干净,适合上下文高度分散的场景。

代价也赤裸:相同前缀被重复编码成百上千次。某头部厂商的内部数据显示,对话类应用中系统提示词(system prompt)的重复计算可占推理开销的20%-40%。这笔钱花得冤枉,但架构上确实省事。

架构二:共享缓存,用复杂度换效率

vLLM和SGLang代表的路线更激进:把KV缓存从GPU显存里解放出来,变成可寻址、可复用的资源。请求到来时先查"有没有算过这段",命中直接跳过前缀计算。

这要求系统在三个层面协同:缓存存储层管理显存和内存的层级置换;路由层把相似请求导向同一实例;调度层处理前缀匹配的粒度——字符级、token级还是语义级。每一层都增加工程复杂度,但收益在对话、RAG、Agent等多轮场景里立竿见影。

架构三:模型并行,先解决能跑起来的问题

第三条路暂时搁置复用问题,专注把超大模型塞进现有硬件。张量并行、流水线并行把层和块拆开分布,让单卡显存不再成为瓶颈。

这类方案通常假设上下文相对独立,或者复用收益不足以抵消通信开销。但当模型大到一定规模,"能跑"和"跑得快"的优先级自然分层——先解决存在性问题,再谈优化。

选型没有标准答案,只有上下文指纹

三类架构并非互斥,实际部署常混合使用。关键判断依据是业务的请求模式:用户对话占比多少?系统提示词多长且固定?是否存在大量模板化输入?

一个未被充分讨论的细节是,KV缓存复用对延迟分布的影响。缓存命中时首token时间(Time To First Token, TTFT)断崖式下降,但缓存未命中时可能因存储竞争而更差。这种长尾抖动对实时性敏感的产品可能是致命伤。

开源社区正在用代码投票。vLLM的PagedAttention把KV缓存块化管理,SGLang引入RadixAttention实现树状复用,Mooncake把分离式架构推到极端。每条路线都在回答同一个问题:当上下文成为比参数更重的负载,推理系统该如何重新组织?

你的业务里,有多少计算是在重复加热昨天的剩菜?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

送走马蓉又来冯清,43岁的"老实人"王宝强,还是没逃出"女人圈"

趣知史馆
2026-03-10 20:20:03
招行发布公告:王小青任招商银行行长

招行发布公告:王小青任招商银行行长

生活新鲜市
2026-05-01 14:43:56
我国农民工平均月收入超5000元

我国农民工平均月收入超5000元

农民日报
2026-04-30 16:58:09
72年周总理正批阅文件,听到消息后厉声问:他死了,为什么瞒着我

72年周总理正批阅文件,听到消息后厉声问:他死了,为什么瞒着我

兴趣知识
2026-05-01 19:01:48
余承东在华为权力排名

余承东在华为权力排名

生活新鲜市
2026-04-27 18:30:53
46岁汤唯自曝意外怀上二胎!胎儿性别已确认,56岁老公深藏不露

46岁汤唯自曝意外怀上二胎!胎儿性别已确认,56岁老公深藏不露

洲洲影视娱评
2026-04-30 17:10:16
05后小妹“崩老头”,尺度炸裂全网

05后小妹“崩老头”,尺度炸裂全网

李东阳朋友圈
2026-04-30 13:43:51
海关查获7个女王凤凰螺,内藏宝珠曾卖2400万!至今人工无法养殖

海关查获7个女王凤凰螺,内藏宝珠曾卖2400万!至今人工无法养殖

狸猫之一的动物圈
2026-04-30 11:45:54
特斯拉无人车队:25辆 vs 3000辆

特斯拉无人车队:25辆 vs 3000辆

算力游侠
2026-04-30 18:34:47
魔术队史首人!班凯罗季后赛狂砍45+9+7

魔术队史首人!班凯罗季后赛狂砍45+9+7

北青网-北京青年报
2026-04-30 20:53:10
2万个充电宝没人要,罗马仕库存五折拍卖

2万个充电宝没人要,罗马仕库存五折拍卖

薛定谔的BUG
2026-04-28 22:25:59
男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知出现惊人现象

诡谲怪谈
2025-04-01 17:37:59
20年前的2006德国世界杯,才是真正的诸神黄昏!

20年前的2006德国世界杯,才是真正的诸神黄昏!

球叮足球
2026-05-01 09:56:08
两次内战中,国民党军队为何从未对共产党军队打出过大的歼灭战?

两次内战中,国民党军队为何从未对共产党军队打出过大的歼灭战?

鸢飞九天
2025-02-11 14:13:42
火湖官方更新G6伤情:杜兰特升级为小概率出战 东契奇继续缺阵

火湖官方更新G6伤情:杜兰特升级为小概率出战 东契奇继续缺阵

罗说NBA
2026-05-01 06:50:13
女子200万买下废弃四合院,当晚院中槐树一夜开花,道士网友:快跑

女子200万买下废弃四合院,当晚院中槐树一夜开花,道士网友:快跑

古怪奇谈录
2025-08-05 15:36:06
队史第19位!雄鹿官宣任命詹金斯为主教练 相信他能打造赢球文化

队史第19位!雄鹿官宣任命詹金斯为主教练 相信他能打造赢球文化

罗说NBA
2026-05-01 06:39:00
朝鲜名将方虎山,不听劝将3000日俘踹下冰河,他说:我愿背上骂名

朝鲜名将方虎山,不听劝将3000日俘踹下冰河,他说:我愿背上骂名

史之铭
2026-05-01 01:18:20
1994年,哈萨克斯坦为什么把紧挨中国的首都,迁到1000公里外?

1994年,哈萨克斯坦为什么把紧挨中国的首都,迁到1000公里外?

孤云朗境
2026-04-13 02:17:59
今年发生强厄尔尼诺的概率增大!这个夏天 你可能真的会被热哭

今年发生强厄尔尼诺的概率增大!这个夏天 你可能真的会被热哭

闪电新闻
2026-05-01 10:04:40
2026-05-01 20:12:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
2068文章数 20关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

特朗普发了张图 伊朗外长回应:犯了个"可怕的错误"

头条要闻

特朗普发了张图 伊朗外长回应:犯了个"可怕的错误"

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

时尚
教育
游戏
旅游
亲子

她们看起来气血好足,每套搭配我都想抄

教育要闻

26届高考生“撞大运”了!截至目前,今年高考已有9个好消息!

Switch国行即将永久关闭服务器!不想变砖就做好这些

旅游要闻

民宿以“蛇很多”为由劝退预订客户,官方:双倍赔付

亲子要闻

宝蓝和爸爸比赛吹气球,吹成各种各样的形状,快来看看谁赢了~

无障碍浏览 进入关怀版