千亿参数模型怎么跑？Cloudflare拆了两台机器|内存|推理|开源模型|cloudflare

千亿参数模型怎么跑？Cloudflare拆了两台机器

2026-05-05 10:26:27　来源: 爬虫饲养员

北京举报

分享至

当你的AI请求发出去，后台到底在发生什么？Cloudflare最近把这套流程彻底拆开看了——结果发现，处理输入和生成答案，根本是两回事。

把一台活拆成两台

Cloudflare团队的新架构做了一件反直觉的事：把大语言模型的推理过程，硬生生拆到两台不同的机器上。

这不是为了复杂而复杂。Michelle Chen、Kevin Flansburg和Vlad Krasnov三位工程师在博客中解释，LLM请求其实只有两个阶段——prefill（预填充）处理输入文本并填充KV缓存，decode（解码）则负责生成输出token。前者吃算力，后者吃内存，硬件瓶颈完全不同。

「Prefill通常是计算受限的，而decode是内存受限的。」

传统做法把两个阶段塞在同一台机器上，结果就是GPU要么算力闲置、要么内存爆满。Cloudflare的解法是disaggregated prefill（分离式预填充）：一台机器专门啃输入，另一台专门吐答案。两台机器各自优化，互不拖累。

这个思路的代价是机器数量翻倍，但收益是每台机器的利用率可以逼近极限。对于按秒计费的云厂商来说，这账算得过来。

自研推理引擎的野心

拆机只是第一步。Cloudflare在2025年Birthday Week发布了自研AI推理引擎Infire，目标很明确：让超大模型在多GPU环境下跑得更顺。

Infire要解决的具体问题，从Kimi K2.5的体量就能看出来——超过1万亿参数，模型文件约560GB。这意味着什么？光是把它加载进内存，就至少需要8张H100。还没开始推理，硬件门槛已经卡死一堆玩家。

Infire的解法分两层。Chen、Flansburg和Krasnov提到，对于流水线并行（pipeline parallelism），引擎会尽量平衡各阶段的负载，防止某些GPU空等；对于张量并行（tensor parallelism），则优先压缩跨GPU通信的延迟。两者一起用，才能在吞吐和延迟之间找到平衡点。

更细的操作层面，Infire还压缩了内部进程的GPU内存占用。结果是：Llama 4 Scout现在只需2张H200就能跑，而且给上下文token留足了空间；Kimi K2.5在8张H100上运行时，KV缓存仍有富余。

从「至少需要8张H100才能加载」到「8张H100还有余量」，内存效率的提升直接转化成了成本空间。

模型压缩的隐藏牌

Cloudflare还留了一张牌叫Unweight——一个声称能把大语言模型权重压缩15-22%的系统。原文信息到这里戛然而止，但结合Infire的内存优化来看，这套组合拳的指向很清晰：在硬件军备竞赛里，用软件效率换硬件成本。

这个策略的聪明之处在于避开了正面硬刚。当其他云厂商比拼谁能囤更多H100时，Cloudflare选择让每张卡干更多活。对于边缘云网络来说，这几乎是唯一可行的路径——它的全球节点数量是优势，但单点算力不可能与超大规模数据中心抗衡。

把模型拆碎、把内存榨干、把通信压缩，本质上是把「分布式」这个基因刻进推理架构的底层。

为什么是现在？

Cloudflare的动作需要放在两个背景下看。

一是模型尺寸的膨胀速度。Kimi K2.5的1万亿参数已经不是特例，Llama 3.1 405B、GPT-4级别的模型都在这个量级。参数增长倒逼基础设施重构，单纯的堆卡模式在经济性上难以为继。

二是边缘推理的需求崛起。Cloudflare的全球网络覆盖300多个城市，延迟优势在实时交互场景里不可替代。但边缘节点的物理限制摆在那里——空间、电力、散热都受限，必须在软件层面极致优化才能塞下大模型。

Infire和分离式预填充，本质上是为边缘场景量身定制的解法。它不是通用最优解，而是在特定约束条件下的帕累托改进。

一个值得注意的细节是，Cloudflare选择先支持Kimi K2.5和Llama 4 Scout，而非最热门的GPT-4或Claude系列。这背后是开源模型的可定制性——权重公开才能做深度优化，黑盒API只能调参数。对于想做基础设施差异化的玩家，绑定开源生态是更务实的选择。

行业影响的三个信号

Cloudflare这套架构的发布，至少传递了三个值得关注的信号。

第一，推理优化的重心正在从「单卡效率」转向「集群效率」。当模型大到单卡装不下，怎么调度多卡、怎么减少卡间通信、怎么平衡流水线的气泡，这些系统级问题变得比内核优化更关键。Infire的负载均衡和通信优化，正是这个趋势的体现。

第二，云厂商的自研推理引擎开始形成护城河。Infire不是第一个（AWS有Inferentia、Google有TPU、Azure有Maia），但Cloudflare的差异化在于边缘场景的深度适配。未来模型推理可能会分化出「数据中心版」和「边缘版」两套优化路径。

第三，开源模型的基础设施红利正在释放。Kimi K2.5能被Cloudflare深度优化，前提是权重可获取、架构可分析。这反过来会强化开源生态的吸引力——对于需要定制推理栈的企业，开源模型的可控性是API无法替代的。

当然，这些判断都有前提。Unweight的压缩率能否泛化到更多模型？分离式预填充的网络延迟在跨地域场景下是否可控？Infire对非Transformer架构的适配性如何？原文没有给出答案，这些会成为观察后续进展的关键指标。

数据收束

560GB的模型文件、8张H100的起步门槛、15-22%的权重压缩率、2张H200跑Llama 4 Scout——这些数字勾勒出一个正在发生的转变：大模型推理正在从「谁能买到更多卡」转向「谁能让每张卡更高效」。Cloudflare的赌注是，在边缘场景里，软件优化的复利会超过硬件堆叠的线性增长。这个赌局的结果，可能决定下一代AI基础设施的格局分布。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.