网易首页 > 网易号 > 正文 申请入驻

Kimi新论文:把KVCache玩成新商业模式了

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

把长上下文做到极致的Kimi又发新成果!

这一次瞄准的是大模型推理架构跨机房调度沉疴。

他们提出了一套全新范式,Prefill-as-a-Service(简称PrFaaS),预填充即服务。

其核心突破是让KV Cache可以跨数据中心传输,把Prefill和Decode彻底解耦到不同的异构集群。

有了PrFaaS,Prefill和Decode之间可以跨越城市、跨地域调度。

而且,面对长文本场景,上下文越长,它的优势越明显。

可以说是长上下文场景天生圣体(doge)!



这项工作由月之暗面和清华大学清华大学郑纬民院士、武永卫教授团队联合推出

在内部1T参数混合注意力模型的实测验证下,这套PrFaaS-PD架构交出了极具说服力的数据。

相比传统同构PD部署,吞吐量提升54%,P90延迟大幅降低64%;即便对比未做智能调度的朴素异构方案,吞吐量依然提升32%。

而跨数据中心传输仅占用13Gbps带宽,远低于100Gbps的以太网上限,也就是说普通商用以太网即可稳定承载

这背后是怎么做到的?

为什么必须跨数据中心?

Prefill-Decode分离是大模型推理服务的行业标配。

但这让KV Cache传输高度依赖RDMA网络,牢牢地把Prefill和Decode两个阶段强行绑定在单一集群内

解绑单飞不了,压根儿解绑单飞不了。

于是,如果最适合做Prefill的算力芯片和最适合做Decode的带宽芯片不在一个机房,是异地恋的状态,就根本没办法一起用。

但强行把异构硬件塞到一起,必然导致资源配比完全僵死。

大家都知道流量是波动的。配比如果定死,很容易出现一边忙到飞起,一边闲成狗的情况出现,算力利用率大打折扣。

导致这个情况的“病灶”,就是就是KV Cache的带宽墙

研究团队在这项工作中给出了量化数据。

以MiniMax-M2.5这款典型的dense GQA架构模型为例——

在32K上下文时,单实例产生KV Cache的速率达到60Gbps,而跨数据中心以太网带宽通常只有10-100Gbps,相当于后者试图用家用小水管来扛消防水带的流量,根本带不动。



因此,为了保证推理不被卡住、不出现等待延迟,Prefill与Decode 之间必须使用高带宽、低时延的RDMA网络进行通信。

这就是传统PD分离架构只能被限制在RDMA域内的根本原因。

不过,新一代混合注意力架构带来了转机

近期,Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齐刷刷用上 了线性注意力+全注意力混合架构。

在这种混合架构下,线性层只产出固定大小的循环状态,不随上下文变长而膨胀;只有全注意力层才会生成和长度相关的KV Cache。

它带来了喜人的效果。在32K上下文下:

  • MiMo-V2-Flash的KV吞吐量仅4.66Gbps,比起MiniMax-M2.5来降了13倍;
  • Qwen3.5-397B的8.25Gbps相比同规dense模型的33.35Gbps,降低4倍;
  • Ring-2.5-1T的MLA压缩叠加7:1混合比例,整体KV内存节省约36倍。

“线性注意力+全注意力”混合架构把KV吞吐量从RDMA级别降到了以太网级别。

跨数据中心做PD分离,终于从不可能变成了可能。

推出破局方案“PrFaaS ”

光有模型架构还不够,想真正落地跨数据中心推理,还需要一套能把 “有可能” 变成 “能用” 的系统架构。

针对这一点,清华联合月之暗面团队推出了PrFaas

PrFaaS即Prefill-as-a-Service,翻译过来叫预填充即服务。

它是一种跨数据中心的大模型推理服务架构,核心是将长上下文请求的Prefill计算,选择性卸载到独立的、算力密集型的专用集群完成,再把生成的KV Cache通过普通以太网传输到本地PD集群执行Decode。



具体来说,系统会设一个动态长度阈值t。

如果是短请求(未缓存长度≤t),就老老实实留在本地PD集群跑完整个流程。

只有长请求(未缓存长度 > t)才会被送到专门的PrFaaS集群做Prefill,生成的KV Cache再通过以太网传回本地做 Decode。

值得注意的是,阈值t会跟着实时带宽、请求长度分布自动调整。



整套架构由三大子系统紧密配合。

第一,计算层。

PrFaaS集群上,H200这类高端芯片,只啃长上下文Prefill硬骨头;而本地PD集群去用H20这类带宽优化芯片,专心做Decode、处理短请求。

术业有专攻,两类硬件各自独立扩容,不再强行配对。

第二,网络层。

集群内部用RDMA保证低延迟,跨数据中心就用VPC或专线,走通用以太网传KV Cache,以此大幅降低部署难度和成本。

研究人员表示实测环境是100Gbps VPC。这虽然远低于RDMA的800Gbps,但足够用了。

第三,存储层,这也是最有意思的子系统。

团队设计了一个混合前缀缓存池,把KV Cache分成两类。

一类是prefix-cache块,另一类是transfer-cache块。

prefix-cache块在集群内复用,必须块对齐才能命中;transfer-cache块则专门用于跨集群传输,传完即弃,不占用长期存储。



为什么这样设计?

因为混合模型的KV Cache是heterogeneous的。

线性层的recurrent state是request-level,大小固定,必须完全匹配才能复用;全注意力层的KV Cache是block-level,支持部分前缀匹配。

而统一池化管理,既能高效复用本地缓存,又能灵活支持跨集群传输。

此外,为了稳住生产环境,PrFaaS还设计了双时间尺度调度算法

简单理解一下,就是短期毫秒级做带宽+缓存感知路由,长期分钟级做流量驱动的资源重分配。

短期调度监控PrFaaS出口利用率,接近阈值时提高t、减少跨中心流量。

对于带前缀缓存的请求,调度器会权衡缓存命中位置和带宽可用性。如果带宽紧张,优先用本地缓存;如果带宽充裕,可以从远程集群拉缓存来减少重复计算。

长期调度观察各阶段的队列深度和利用率。

当Prefill成为瓶颈时,把PD集群的节点从Decode角色转为Prefill角色;当Decode成为瓶颈时,反向调整。

这种动态重分配让系统能适应流量模式的缓慢变化。

理论可行,同时工程可用

为了验证跨数据中心 KV Cache传输与PrFaaS架构的真实落地能力,研究团队基于生产级配置开展了严格的对照实验,完整还原了异构硬件、跨域网络与真实长上下文流量的组合场景,让方案从架构设想变为可量化、可复用的工程实践。

实验选用团队内部自研的1T参数混合注意力架构模型,整体设计对齐Kimi Linear架构,采用线性注意力层与全注意力层7:1的混合配比。

此外,在保持模型能力的同时实现KV Cache的高效压缩,为跨数据中心传输奠定基础。



硬件层面,团队采用了典型异构组合。

专门负责长上下文Prefill的PrFaaS集群配备32张H200,凭借更强算力吞吐处理高负载计算;本地PD集群配备64张H20 GPU,面向Decode阶段优化内存带宽,兼顾短请求Prefill与全流程推理。

网络层面,团队采用跨数据中心通用方案,通过VPC对等连接提供约100Gbps的跨集群带宽,完全贴合主流云厂商与多数据中心部署环境。

实验workload采用截断对数正态分布的请求长度,均值约27K tokens,高度贴近线上长上下文服务的真实流量特征。



实验结果证明了PrFaaS-PD架构的工程有效性。

在核心性能指标上,相比同等硬件规模的同构PD集群,PrFaaS-PD架构将服务吞吐量提升54%;相比未做智能调度的简单异构部署,吞吐量仍有32%的提升。

在端到端延迟上,PrFaaS-PD架构带来的优化效果更为显著,P90 TTFT(首词时延)降低幅度达64%,长请求不再与短请求争抢本地Prefill资源,排队阻塞与计算拥堵问题大幅缓解。

更关键的是工程可行性指标。

PrFaaS集群的平均出口带宽仅13Gbps,在100Gbps的跨集群链路中占比仅13%,留有充足的带宽冗余,完全不会出现拥塞与链路抢占。

实验结果证实,在混合模型与PrFaaS调度的协同下,KV Cache传输可以不再依赖 RDMA,普通商用以太网即可稳定支撑。

论文团队成员介绍

这项研究由月之暗面与清华大学联合完成

作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通讯作者)。



其中,研究团队成员中来自月之暗面的,有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。

一作Ruoyu Qin(秦若愚),是清华大学计算机科学与技术系MADSys实验室在读博士生,师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang(章明星),后者长期面向KV Cache架构与分布式推理。

同时,Qin也在月之暗面工作,还是Mooncake分布式推理系统的一作。



月之暗面工程副总裁Xinran Xu(许欣然)也在作者名单之列。

量子位发现,作者名单中月之暗面的五位,同样也是Mooncake架构的核心贡献者。

除上述的教授章明星外,研究团队中来自清华大学的作者还有Yongwei Wu和Weimin Zheng。

Weimin Zheng(郑纬民),中国工程院院士,清华大学计算机系教授,长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。



Yongwei Wu(武永卫)是清华大学计算机科学与技术系副主任、教授、博士生导师,此外还担任AI Infra公司趋境科技的首席科学家。

此前,月之暗面与清华大学MADSys实验室联合主导研发并开源了Mooncake项目,趋境科技是该项目核心共建单位与深度贡献者。

参考链接:
[1]
https://arxiv.org/abs/2604.15039
[2]
https://madsys.cs.tsinghua.edu.cn/people/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界正在发生一个极其恶心的变化!印度最终可能会成为地球大患

世界圈
2026-05-04 16:42:27
加里·内维尔建议曼联在击败利物浦后“交易”这位6000万英镑引援

加里·内维尔建议曼联在击败利物浦后“交易”这位6000万英镑引援

绿茵情报局
2026-05-04 05:01:49
瓜岛战役日军为何会惨败?美国军医:他们人均排便量是美军1.5倍

瓜岛战役日军为何会惨败?美国军医:他们人均排便量是美军1.5倍

小莜读史
2026-04-28 07:14:32
俄罗斯军事专家:美国所有总统都不敢打伊朗,只有特朗普不信邪

俄罗斯军事专家:美国所有总统都不敢打伊朗,只有特朗普不信邪

共工之锚
2026-05-04 23:48:51
广东耀明糖厂喊话“求互相体谅”:不要再送带叶、带根的甘蔗来了;此前曾有甘蔗夹杂铁管沙泥造成设备损坏停工

广东耀明糖厂喊话“求互相体谅”:不要再送带叶、带根的甘蔗来了;此前曾有甘蔗夹杂铁管沙泥造成设备损坏停工

大象新闻
2026-05-03 10:14:05
美军称悬挂美国国旗商船通过霍尔木兹海峡,原油直线回落,黄金、白银飘绿

美军称悬挂美国国旗商船通过霍尔木兹海峡,原油直线回落,黄金、白银飘绿

新浪财经
2026-05-04 22:15:42
余承东在华为权力排名

余承东在华为权力排名

生活新鲜市
2026-04-27 18:30:53
现在黑社会去哪了?原来都藏在这4个地方,老百姓干万别惹!

现在黑社会去哪了?原来都藏在这4个地方,老百姓干万别惹!

牛锅巴小钒
2026-05-04 23:12:07
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
不要错把艾滋病当皮肤病,身体出现3种情况,或是艾滋病“信号”

不要错把艾滋病当皮肤病,身体出现3种情况,或是艾滋病“信号”

芹姐说生活
2026-05-04 15:29:11
全球首家AI妓院,革了成人行业的命

全球首家AI妓院,革了成人行业的命

广告案例精选
2026-04-02 14:49:22
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
马英九之女:全台湾男人的梦中情人,被日媒称“全球第四美千金”

马英九之女:全台湾男人的梦中情人,被日媒称“全球第四美千金”

探源历史
2026-04-26 08:40:52
本以为退休享福的她,原来早已悄然离世,临终前还是不愿透露病因

本以为退休享福的她,原来早已悄然离世,临终前还是不愿透露病因

夏末moent
2026-03-25 06:03:10
越看越诡异!小S具俊晔日本亲密照疯传,背景墙藏玄机,细节细思极恐

越看越诡异!小S具俊晔日本亲密照疯传,背景墙藏玄机,细节细思极恐

八卦王者
2026-05-03 11:21:00
他家砸了芒果台的心都有了吧...

他家砸了芒果台的心都有了吧...

毒舌一姐
2026-05-01 17:03:47
中国向联合国发出警告:东京具有提取武器级钚能力,足以制造约5500枚核弹头,任由其右翼势力推动发展强力进攻性武器,将再次为祸国际社会

中国向联合国发出警告:东京具有提取武器级钚能力,足以制造约5500枚核弹头,任由其右翼势力推动发展强力进攻性武器,将再次为祸国际社会

鲁中晨报
2026-05-04 07:53:05
Mac mini M5彻底曝光!小方盒直接上M5,太猛了

Mac mini M5彻底曝光!小方盒直接上M5,太猛了

小兔子发现大事情
2026-05-04 14:41:56
伊朗伊斯兰革命卫队:过去数小时无商船或油轮通过霍尔木兹海峡

伊朗伊斯兰革命卫队:过去数小时无商船或油轮通过霍尔木兹海峡

环球网资讯
2026-05-04 23:16:54
现货黄金跌超2%

现货黄金跌超2%

财联社
2026-05-04 23:25:05
2026-05-05 00:39:00
量子位 incentive-icons
量子位
追踪人工智能动态
12573文章数 176461关注度
往期回顾 全部

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

头条要闻

媒体:霍尔木兹海峡一声惊雷炸响 战争的引信已经点燃

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

亲子
时尚
本地
健康
公开课

亲子要闻

高锌食物是个宝,孩子吃了记性好,胃口棒少生病

谁说每年都要穿新衣服?准备一些基础款,百搭耐看又不过时

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版