网易首页 > 网易号 > 正文 申请入驻

千亿参数模型怎么跑?Cloudflare拆了两台机器

0
分享至

当你的AI请求发出去,后台到底在发生什么?Cloudflare最近把这套流程彻底拆开看了——结果发现,处理输入和生成答案,根本是两回事。

把一台活拆成两台


Cloudflare团队的新架构做了一件反直觉的事:把大语言模型的推理过程,硬生生拆到两台不同的机器上。

这不是为了复杂而复杂。Michelle Chen、Kevin Flansburg和Vlad Krasnov三位工程师在博客中解释,LLM请求其实只有两个阶段——prefill(预填充)处理输入文本并填充KV缓存,decode(解码)则负责生成输出token。前者吃算力,后者吃内存,硬件瓶颈完全不同。

「Prefill通常是计算受限的,而decode是内存受限的。」

传统做法把两个阶段塞在同一台机器上,结果就是GPU要么算力闲置、要么内存爆满。Cloudflare的解法是disaggregated prefill(分离式预填充):一台机器专门啃输入,另一台专门吐答案。两台机器各自优化,互不拖累。

这个思路的代价是机器数量翻倍,但收益是每台机器的利用率可以逼近极限。对于按秒计费的云厂商来说,这账算得过来。

自研推理引擎的野心

拆机只是第一步。Cloudflare在2025年Birthday Week发布了自研AI推理引擎Infire,目标很明确:让超大模型在多GPU环境下跑得更顺。

Infire要解决的具体问题,从Kimi K2.5的体量就能看出来——超过1万亿参数,模型文件约560GB。这意味着什么?光是把它加载进内存,就至少需要8张H100。还没开始推理,硬件门槛已经卡死一堆玩家。

Infire的解法分两层。Chen、Flansburg和Krasnov提到,对于流水线并行(pipeline parallelism),引擎会尽量平衡各阶段的负载,防止某些GPU空等;对于张量并行(tensor parallelism),则优先压缩跨GPU通信的延迟。两者一起用,才能在吞吐和延迟之间找到平衡点。

更细的操作层面,Infire还压缩了内部进程的GPU内存占用。结果是:Llama 4 Scout现在只需2张H200就能跑,而且给上下文token留足了空间;Kimi K2.5在8张H100上运行时,KV缓存仍有富余。

从「至少需要8张H100才能加载」到「8张H100还有余量」,内存效率的提升直接转化成了成本空间。

模型压缩的隐藏牌

Cloudflare还留了一张牌叫Unweight——一个声称能把大语言模型权重压缩15-22%的系统。原文信息到这里戛然而止,但结合Infire的内存优化来看,这套组合拳的指向很清晰:在硬件军备竞赛里,用软件效率换硬件成本。

这个策略的聪明之处在于避开了正面硬刚。当其他云厂商比拼谁能囤更多H100时,Cloudflare选择让每张卡干更多活。对于边缘云网络来说,这几乎是唯一可行的路径——它的全球节点数量是优势,但单点算力不可能与超大规模数据中心抗衡。

把模型拆碎、把内存榨干、把通信压缩,本质上是把「分布式」这个基因刻进推理架构的底层。

为什么是现在?

Cloudflare的动作需要放在两个背景下看。

一是模型尺寸的膨胀速度。Kimi K2.5的1万亿参数已经不是特例,Llama 3.1 405B、GPT-4级别的模型都在这个量级。参数增长倒逼基础设施重构,单纯的堆卡模式在经济性上难以为继。

二是边缘推理的需求崛起。Cloudflare的全球网络覆盖300多个城市,延迟优势在实时交互场景里不可替代。但边缘节点的物理限制摆在那里——空间、电力、散热都受限,必须在软件层面极致优化才能塞下大模型。

Infire和分离式预填充,本质上是为边缘场景量身定制的解法。它不是通用最优解,而是在特定约束条件下的帕累托改进。

一个值得注意的细节是,Cloudflare选择先支持Kimi K2.5和Llama 4 Scout,而非最热门的GPT-4或Claude系列。这背后是开源模型的可定制性——权重公开才能做深度优化,黑盒API只能调参数。对于想做基础设施差异化的玩家,绑定开源生态是更务实的选择。

行业影响的三个信号

Cloudflare这套架构的发布,至少传递了三个值得关注的信号。

第一,推理优化的重心正在从「单卡效率」转向「集群效率」。当模型大到单卡装不下,怎么调度多卡、怎么减少卡间通信、怎么平衡流水线的气泡,这些系统级问题变得比内核优化更关键。Infire的负载均衡和通信优化,正是这个趋势的体现。

第二,云厂商的自研推理引擎开始形成护城河。Infire不是第一个(AWS有Inferentia、Google有TPU、Azure有Maia),但Cloudflare的差异化在于边缘场景的深度适配。未来模型推理可能会分化出「数据中心版」和「边缘版」两套优化路径。

第三,开源模型的基础设施红利正在释放。Kimi K2.5能被Cloudflare深度优化,前提是权重可获取、架构可分析。这反过来会强化开源生态的吸引力——对于需要定制推理栈的企业,开源模型的可控性是API无法替代的。

当然,这些判断都有前提。Unweight的压缩率能否泛化到更多模型?分离式预填充的网络延迟在跨地域场景下是否可控?Infire对非Transformer架构的适配性如何?原文没有给出答案,这些会成为观察后续进展的关键指标。

数据收束

560GB的模型文件、8张H100的起步门槛、15-22%的权重压缩率、2张H200跑Llama 4 Scout——这些数字勾勒出一个正在发生的转变:大模型推理正在从「谁能买到更多卡」转向「谁能让每张卡更高效」。Cloudflare的赌注是,在边缘场景里,软件优化的复利会超过硬件堆叠的线性增长。这个赌局的结果,可能决定下一代AI基础设施的格局分布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗:如果阿联酋“采取不理智的行动” 其所有利益“都将成为伊朗的目标”、任何设施“都不会安全”

伊朗:如果阿联酋“采取不理智的行动” 其所有利益“都将成为伊朗的目标”、任何设施“都不会安全”

财联社
2026-05-05 10:07:16
辽宁男篮今日早报!乌戈卸任总教练职位,赵继伟新工作安排,杨鸣接触新下家

辽宁男篮今日早报!乌戈卸任总教练职位,赵继伟新工作安排,杨鸣接触新下家

凯丰侃球
2026-05-05 09:26:17
94年单亲爸爸征婚贴,为何纷纷说避雷!网友:讲话云山雾罩

94年单亲爸爸征婚贴,为何纷纷说避雷!网友:讲话云山雾罩

另子维爱读史
2026-05-04 21:41:29
浏阳烟花厂爆炸事故:大量火药一时难以转运威胁救援人员安全,厂区墙体等基本坍塌形成大量废墟,人员被埋,烟花爆竹生产企业全面停产整顿

浏阳烟花厂爆炸事故:大量火药一时难以转运威胁救援人员安全,厂区墙体等基本坍塌形成大量废墟,人员被埋,烟花爆竹生产企业全面停产整顿

大象新闻
2026-05-05 15:50:04
奇瑞全新中型轿车,外观媲美奥迪,配大屏+氛围灯,2.0T/261马力

奇瑞全新中型轿车,外观媲美奥迪,配大屏+氛围灯,2.0T/261马力

红涛说車
2026-05-05 17:26:00
爷爷是万里,前男友是李云迪,赴美却只能挤地下室,名媛万宝宝的人生究竟有多生猛?

爷爷是万里,前男友是李云迪,赴美却只能挤地下室,名媛万宝宝的人生究竟有多生猛?

史海孤雁
2026-04-24 22:24:12
张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

张军被查创下多个尴尬“纪录”,18年前曾因酒驾被查

元芳有看法
2026-04-30 09:25:44
干倒KTV的,可能是洗浴中心?用“白菜价”做成的暴利生意

干倒KTV的,可能是洗浴中心?用“白菜价”做成的暴利生意

世界圈
2026-05-05 13:37:18
一把输掉十几亿,欠200亿跑路,今在印尼发财,手下人个个不一般

一把输掉十几亿,欠200亿跑路,今在印尼发财,手下人个个不一般

潋滟晴方DAY
2026-04-17 22:01:07
西安事变死的人有谁?看到名单,就明白蒋介石为何关张学良一辈子

西安事变死的人有谁?看到名单,就明白蒋介石为何关张学良一辈子

老范谈史
2026-05-04 10:24:47
中国造不出光刻机?中科大副院长:美国造不出,中国永远都不可能

中国造不出光刻机?中科大副院长:美国造不出,中国永远都不可能

小兰聊历史
2026-03-21 18:17:07
补肝血最快的方式之一,不花钱,不占时间

补肝血最快的方式之一,不花钱,不占时间

神奇故事
2026-05-04 23:55:31
关羽为什么要“月下斩貂蝉”,因为关羽发现了貂蝉的一个秘密

关羽为什么要“月下斩貂蝉”,因为关羽发现了貂蝉的一个秘密

千秋文化
2026-03-05 23:19:21
为什么整个亚洲只有中国有山姆超市?

为什么整个亚洲只有中国有山姆超市?

流苏晚晴
2026-04-30 18:50:00
开国十大元帅的另类排名:在党的七大中央委员会的排名

开国十大元帅的另类排名:在党的七大中央委员会的排名

阿器谈史
2026-05-04 14:19:29
吴宜泽:奥沙利文发短信助我决赛第三阶段反超,他真的帮了我很多

吴宜泽:奥沙利文发短信助我决赛第三阶段反超,他真的帮了我很多

世界体坛观察家
2026-05-05 19:39:56
工人说下岗就下岗了,为什么多余的老师要转岗而不是下岗?

工人说下岗就下岗了,为什么多余的老师要转岗而不是下岗?

李老师讲最真教育
2026-05-05 19:42:56
上海火车站揪心一幕!老人在自动扶梯上摔倒,下一秒他们都出手了…

上海火车站揪心一幕!老人在自动扶梯上摔倒,下一秒他们都出手了…

上海法治声音
2026-05-03 23:20:17
你以为麻豆传媒是卖片的,其实它是卖人的

你以为麻豆传媒是卖片的,其实它是卖人的

创始人笔记
2026-04-23 21:44:50
新加坡外长通告全球:如果被迫选边站队,不选美方也不会选中方

新加坡外长通告全球:如果被迫选边站队,不选美方也不会选中方

厉羽萱
2026-05-06 00:14:11
2026-05-06 03:16:49
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
2144文章数 23关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

时尚
房产
游戏
亲子
本地

衣服不用准备太多,找到一些实用的单品才最重要,百搭又有性价比

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

全新类魂3A美女角色盔甲太性感!外媒锐评像劣质手游

亲子要闻

这个五一,带宝宝来北海看海啦~银滩细沙海浪,是小朋友最爱的天

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版