网易首页 > 网易号 > 正文 申请入驻

Cloudflare 构建了面向 LLM 的高性能基础设施

0
分享至


作者 | Renato Losio

译者 | 张卫滨

Cloudflare 最近发布了全新的 基础设施,可以在其全球边缘网络上运行大型的 AI 大语言模型。由于这类模型依赖昂贵的硬件,并且需要处理海量的输入和输出文本数据,Cloudflare 将模型输入处理与输出生成拆分到不同的专用优化系统中,并自研推理引擎实现 GPU 资源的更高效调度。

Cloudflare 团队表示,其中的一个核心优化是把模型推理拆分为两个阶段,由不同服务器分别进行处理,一个阶段负责读取并预处理输入文本,另一阶段专注生成输出内容。Cloudflare 首席产品经理 Michelle Chen、高级工程经理 Kevin Flansburg 和首席系统工程师 Vlad Krasnov 撰文指出:

我们用来提升性能与资源效率的硬件架构叫做解耦预填充(disaggregated prefill)。LLM 请求处理分为两个阶段,预填充阶段处理输入 Token 并填充 KV 缓存,解码阶段逐一生成输出 Token。预填充通常属于计算密集型负载,而解码则是内存密集型负载。

Cloudflare 还自研了名为 Infire 的 AI 推理引擎。该引擎在 2025 年 Cloudflare 周年庆活动期间正式发布,它可以跨多 GPU 更高效地运行大语言模型,降低内存占用、缩短模型启动时间,最终实现更低的响应延迟。

像 Kimi K2.5 这类大语言模型体量极其庞大(参数规模超万亿、模型大小约 560GB),必须拆分部署到多块 GPU 上,仅加载模型到内存就至少需要 8 块 H100 显卡,这还未计入推理过程额外占用的内存开销。当谈及 Infire 引擎与硬件优化为何能高效支撑超大规模的模型、并为用户提供更快的响应时,Chen、Flansburg 和 Krasnov 补充说:

在流水线并行方面,Infire 会对流水线所有阶段做合理的负载均衡,避免某一阶段 GPU 空闲等待而其他阶段满载执行的资源饥饿问题。在张量(tensor)并行方面,Infire 以减少 GPU 间通信开销为优化目标,尽可能提升通信效率。对绝大多数模型而言,流水线并行与张量并行结合使用,就能在吞吐量和延迟之间取得最优平衡。

Cloudflare 此前曾发文介绍如何在自己的 AI 推理平台部署开源模型,率先在 Workers AI 上线了 Moonshot AI 的 Kimi K2.5 模型,并透露团队正在采用多样化的硬件配置,适配各类大模型的最优运行需求。


图片来源:Cloudflare 的博客文章

Cloudflare 表示,团队进一步对 Infire 做了内存优化,缩减内部流程的 GPU 内存开销,如今仅需 2 块 H200 GPU 即可运行 Llama 4 Scout,并且仍留有充足容量支撑上下文 Token,8 块 H100GPU 便可运行 Kimi K2.5,同时预留出足够内存用于 KV 缓存。

Cloudflare 近期还推出了 Unweight 模型压缩系统,官方称可在无损精度的前提下,将大语言模型权重压缩了 15%–22%,减少推理时 GPU 加载与传输的数据量,让模型运行更快、资源效率更高。

并不是只有 Cloudflare 在关注大模型生产落地方面的基础设施挑战。Cockroach Labs 最新“AI 基础设施现状”报告 指出,随着企业将 AI 系统投入日常业务,大量企业发现现有基础设施无法承载 AI 负载所需的规模与可靠性要求:

传统基础设施围绕间歇性的人机交互而设计,无法承受 AI 这种高压力的负载。想要适配 AI 业务的高并发与不可预测性,企业不能只做性能升级,更需要从系统架构层面进行根本性的重构。

Cloudflare 还分享了他们在 提示词缓存(prompt caching)层面的效率优化方案。

Cloudflare Builds High-Performance Infrastructure for Running LLMs(https://www.infoq.com/news/2026/05/cloudflare-llm-infrastructure/)

声明:本文由 InfoQ 翻译,未经许可禁止转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最神秘雇佣兵:人数维持34人,专门猎杀特种兵,美国黑水也不敢惹

最神秘雇佣兵:人数维持34人,专门猎杀特种兵,美国黑水也不敢惹

闻识
2026-05-14 16:40:54
美战略大佬劝特朗普:台海问题该“准备后事”,两字之差天壤之别

美战略大佬劝特朗普:台海问题该“准备后事”,两字之差天壤之别

叹知
2026-05-14 22:20:12
空军一号上,特朗普放下汉堡可乐,改吃牛肉面,旁边还有两个春卷

空军一号上,特朗普放下汉堡可乐,改吃牛肉面,旁边还有两个春卷

魔都姐姐杂谈
2026-05-14 08:17:51
印度,第一个被AI撕碎的国家?

印度,第一个被AI撕碎的国家?

美第奇效应
2026-05-14 00:02:54
南审研究生案后续,同学再曝恶行,比偷拍更恶心,落此下场不冤!

南审研究生案后续,同学再曝恶行,比偷拍更恶心,落此下场不冤!

奇思妙想草叶君
2026-05-14 13:32:44
性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

医学原创故事会
2026-05-12 15:34:03
相亲要1000万彩礼的“泡面姐姐”露真容,网友很失望劝她戴上面罩

相亲要1000万彩礼的“泡面姐姐”露真容,网友很失望劝她戴上面罩

汉史趣闻
2026-05-13 10:21:50
如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

蜉蝣说
2026-05-14 18:33:50
美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

华史谈
2026-05-13 08:49:26
丧心病狂!因感情问题,重庆男子10天内,3次想方设法杀害女友!

丧心病狂!因感情问题,重庆男子10天内,3次想方设法杀害女友!

川渝视觉
2026-05-13 22:31:31
评论 | 首次允许外国驻军,印度在下一盘什么棋?

评论 | 首次允许外国驻军,印度在下一盘什么棋?

南亚研究通讯
2026-05-13 22:45:44
天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

千言娱乐记
2026-05-14 23:30:52
雷军宴会上“追星”马斯克,握手并自拍合影,马斯克配合做出Wink表情

雷军宴会上“追星”马斯克,握手并自拍合影,马斯克配合做出Wink表情

每日经济新闻
2026-05-14 21:28:06
央视军事官宣:中国首艘核动力航母正式确认!

央视军事官宣:中国首艘核动力航母正式确认!

科学知识点秀
2026-05-14 08:00:14
这跟不穿有啥区别?赵露思演唱会内衣外穿:被众嘲一套比一套辣眼

这跟不穿有啥区别?赵露思演唱会内衣外穿:被众嘲一套比一套辣眼

胡一舸南游y
2026-05-13 15:23:56
“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

妍妍教育日记
2026-05-14 13:30:26
50岁后还能轻松做到这两件事,恭喜你,大概率会长寿

50岁后还能轻松做到这两件事,恭喜你,大概率会长寿

方舟健客科普
2026-05-14 18:13:44
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
事态升级了!四川凌晨追打案后续:6人全带走,女子袭警细节被扒

事态升级了!四川凌晨追打案后续:6人全带走,女子袭警细节被扒

小鋭有话说
2026-05-13 15:41:41
闪电夺权!马科斯刚把刀架到莎拉脖子上,下一秒自己却被斩首了!

闪电夺权!马科斯刚把刀架到莎拉脖子上,下一秒自己却被斩首了!

菁菁子衿
2026-05-13 21:48:49
2026-05-15 00:28:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12377文章数 51886关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

手机
艺术
亲子
数码
军事航空

手机要闻

OPPO ColorOS流体云&小布建议支持美的美居

艺术要闻

成都“第三高楼”大缩水,396米砍到250米以下!

亲子要闻

监控下的幼儿园小可爱,主动帮老师搬桌开门,逻辑超在线

数码要闻

鑫谷推出昆仑山海MU-850GD金牌全模组电源,859元

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版