当你的AI请求发出去,后台到底在发生什么?Cloudflare最近把这套流程彻底拆开看了——结果发现,处理输入和生成答案,根本是两回事。
把一台活拆成两台
![]()
Cloudflare团队的新架构做了一件反直觉的事:把大语言模型的推理过程,硬生生拆到两台不同的机器上。
这不是为了复杂而复杂。Michelle Chen、Kevin Flansburg和Vlad Krasnov三位工程师在博客中解释,LLM请求其实只有两个阶段——prefill(预填充)处理输入文本并填充KV缓存,decode(解码)则负责生成输出token。前者吃算力,后者吃内存,硬件瓶颈完全不同。
「Prefill通常是计算受限的,而decode是内存受限的。」
传统做法把两个阶段塞在同一台机器上,结果就是GPU要么算力闲置、要么内存爆满。Cloudflare的解法是disaggregated prefill(分离式预填充):一台机器专门啃输入,另一台专门吐答案。两台机器各自优化,互不拖累。
这个思路的代价是机器数量翻倍,但收益是每台机器的利用率可以逼近极限。对于按秒计费的云厂商来说,这账算得过来。
自研推理引擎的野心
拆机只是第一步。Cloudflare在2025年Birthday Week发布了自研AI推理引擎Infire,目标很明确:让超大模型在多GPU环境下跑得更顺。
Infire要解决的具体问题,从Kimi K2.5的体量就能看出来——超过1万亿参数,模型文件约560GB。这意味着什么?光是把它加载进内存,就至少需要8张H100。还没开始推理,硬件门槛已经卡死一堆玩家。
Infire的解法分两层。Chen、Flansburg和Krasnov提到,对于流水线并行(pipeline parallelism),引擎会尽量平衡各阶段的负载,防止某些GPU空等;对于张量并行(tensor parallelism),则优先压缩跨GPU通信的延迟。两者一起用,才能在吞吐和延迟之间找到平衡点。
更细的操作层面,Infire还压缩了内部进程的GPU内存占用。结果是:Llama 4 Scout现在只需2张H200就能跑,而且给上下文token留足了空间;Kimi K2.5在8张H100上运行时,KV缓存仍有富余。
从「至少需要8张H100才能加载」到「8张H100还有余量」,内存效率的提升直接转化成了成本空间。
模型压缩的隐藏牌
Cloudflare还留了一张牌叫Unweight——一个声称能把大语言模型权重压缩15-22%的系统。原文信息到这里戛然而止,但结合Infire的内存优化来看,这套组合拳的指向很清晰:在硬件军备竞赛里,用软件效率换硬件成本。
这个策略的聪明之处在于避开了正面硬刚。当其他云厂商比拼谁能囤更多H100时,Cloudflare选择让每张卡干更多活。对于边缘云网络来说,这几乎是唯一可行的路径——它的全球节点数量是优势,但单点算力不可能与超大规模数据中心抗衡。
把模型拆碎、把内存榨干、把通信压缩,本质上是把「分布式」这个基因刻进推理架构的底层。
为什么是现在?
Cloudflare的动作需要放在两个背景下看。
一是模型尺寸的膨胀速度。Kimi K2.5的1万亿参数已经不是特例,Llama 3.1 405B、GPT-4级别的模型都在这个量级。参数增长倒逼基础设施重构,单纯的堆卡模式在经济性上难以为继。
二是边缘推理的需求崛起。Cloudflare的全球网络覆盖300多个城市,延迟优势在实时交互场景里不可替代。但边缘节点的物理限制摆在那里——空间、电力、散热都受限,必须在软件层面极致优化才能塞下大模型。
Infire和分离式预填充,本质上是为边缘场景量身定制的解法。它不是通用最优解,而是在特定约束条件下的帕累托改进。
一个值得注意的细节是,Cloudflare选择先支持Kimi K2.5和Llama 4 Scout,而非最热门的GPT-4或Claude系列。这背后是开源模型的可定制性——权重公开才能做深度优化,黑盒API只能调参数。对于想做基础设施差异化的玩家,绑定开源生态是更务实的选择。
行业影响的三个信号
Cloudflare这套架构的发布,至少传递了三个值得关注的信号。
第一,推理优化的重心正在从「单卡效率」转向「集群效率」。当模型大到单卡装不下,怎么调度多卡、怎么减少卡间通信、怎么平衡流水线的气泡,这些系统级问题变得比内核优化更关键。Infire的负载均衡和通信优化,正是这个趋势的体现。
第二,云厂商的自研推理引擎开始形成护城河。Infire不是第一个(AWS有Inferentia、Google有TPU、Azure有Maia),但Cloudflare的差异化在于边缘场景的深度适配。未来模型推理可能会分化出「数据中心版」和「边缘版」两套优化路径。
第三,开源模型的基础设施红利正在释放。Kimi K2.5能被Cloudflare深度优化,前提是权重可获取、架构可分析。这反过来会强化开源生态的吸引力——对于需要定制推理栈的企业,开源模型的可控性是API无法替代的。
当然,这些判断都有前提。Unweight的压缩率能否泛化到更多模型?分离式预填充的网络延迟在跨地域场景下是否可控?Infire对非Transformer架构的适配性如何?原文没有给出答案,这些会成为观察后续进展的关键指标。
数据收束
560GB的模型文件、8张H100的起步门槛、15-22%的权重压缩率、2张H200跑Llama 4 Scout——这些数字勾勒出一个正在发生的转变:大模型推理正在从「谁能买到更多卡」转向「谁能让每张卡更高效」。Cloudflare的赌注是,在边缘场景里,软件优化的复利会超过硬件堆叠的线性增长。这个赌局的结果,可能决定下一代AI基础设施的格局分布。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.