网易首页 > 网易号 > 正文 申请入驻

中国团队突破瓶颈!不加GPU,万卡集群算力暴涨15%

0
分享至


新智元报道


【新智元导读】GPU一块没加,代码一行没改,仅靠重构组网架构就让推理集群多挤出15%的算力!中美大模型厂商不约而同押注同一个判断:网络,才是AI基础设施的下一个主战场。

Vibe Coding太火了!

几乎所有人都一夜之间进入了「说人话就写代码」的新纪元。

问题来了,如何打造更极致的算力支持?

有人开始对网络动刀了。

就在本月,OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨头发布了MRC(Multipath Reliable Connection)网络协议,已部署在其最大规模的GB200超算集群上。


国内这边,智谱联合驭驯网络与清华大学,在GLM-5.1线上生产集群中完成了新一代组网架构ZCube的规模化落地——GPU一块没加,服务器一台没换,代码一行没改,推理吞吐直接多了15%!


更加夸张的是,交换机和光模块的硬件成本还砍掉了三分之一。

而且集群规模越大,这个优势越猛。万卡级别的集群,光网络硬件就能省下2.1亿到6.4亿元。

提出并在真实生产环境中验证这项技术的,是中国团队。

ZCube架构发表于网络领域最顶级学术会议ACM SIGCOMM 2025,被评价为「significantly change the way we think about and understand networking」——显著改变整个行业对网络的认知方式。


地址:https://z.ai/blog/zcube

一月之间,国内外一个在协议层发力,一个在架构层动刀。殊途同归,指向同一个判断:网络,已经成为超大规模AI基础设施的下一个主战场。

ZCube:推翻二十年的

「堆交换机」逻辑

过去几年,AI基础设施的军备竞赛只有一个维度:堆GPU。

更多、更快、更猛。

但当推理集群规模突破千卡、万卡,一个反直觉的现象开始出现——GPU的利用率不升反降。

原因很简单:大模型推理不是单兵作战,是协同打仗。

每处理一个用户请求,集群中的GPU需要高频、大量地互相传递中间数据(尤其是KV Cache)。

随着Prefill(处理输入)与Decode(生成输出)分离部署成为主流,数据在GPU之间的流向变得高度动态、不对称——有的链路挤满数据,有的链路空空如也。

智谱的线上实测数据给出了量化证据:在一个32卡规模的推理服务上做控制变量实验,仅把网络带宽从100Gbps提升到200Gbps,推理吞吐就提升了约19%,首Token响应时延下降了约22%。



而且这个规律随着集群规模扩大,会越来越显著——GPU的性能天花板,其实是被网络「锁住」的。

过去二十多年,全球数据中心普遍采用Fat-Tree / Clos架构组网。

这套方案的核心思路非常朴素:多层交换机一层一层堆上去,规模不够就加层。

互联网流量时代,这套逻辑运行良好。AI训练集群里,也基本够用。

但大模型推理是一种全新的流量模式。

在PD分离部署场景中,Prefill节点和Decode节点之间需要频繁传递KV Cache,不同请求的长度千变万化,数据流向毫无规律。

传统Clos架构面对这种流量时,一个结构性的死穴暴露了出来:流量会被拓扑关系天然地推向同几台交换机和同几条链路,形成热点堆积、队列反压、链路拥塞。


ROFT架构中,Leaf交换机之间容易出现流量负载不均

这是路网设计本身的问题。

ZCube的做法,简单说就是三个字:拆掉它。

设计的精妙之处在于:全网任意两张GPU之间,有且仅有一条最优路径。没有多路径选路的冲突,没有「车流挤到同一个路口」的结构性隐患。

拥塞不是被控制了,而是从架构层面大幅降低了结构性拥塞产生的概率

打个比方:传统Clos是给一座已经堵死的城市装更多红绿灯;ZCube是重新规划了整张路网,让每辆车都有自己专属的最优路线——从源头上大幅减少了堵车的可能。


更值得关注的是网络直径。

ZCube的网络直径仅为2跳,全网GPU经过两台交换机即可互达,介于一层组网(1跳,规模受限)和传统二层组网(3跳,延迟高)之间——兼顾了低延迟与高扩展性。

硬件不换,代码不改,吞吐多15%

理论再漂亮,要看真刀真枪的生产数据。

智谱在运行GLM-5.1 Coding推理服务的千卡集群中,将原本部署的ROFT(Rail Optimized Fat-Tree)网络架构直接升级为ZCube。

这次改造并不是简单的「换根网线」——ZCube取消了传统Clos的Spine层,原有的布线模式、IP编址策略、路由策略和交换机配置全部无法复用,需要从头设计。

驭驯网络团队为此开发了ZCube控制器、机房布局设计工具和连线正确性检测程序等一整套自动化工具,才在极短时间内完成了大规模生产集群的改造。

控制变量极其干净:GPU型号不变、软件栈不变、业务代码一行不改,唯一的区别就是组网架构。

结果是这样的:

  • GPU平均推理吞吐提升15%以上——同样的硬件,每秒多服务15%的用户请求

  • TTFT P99(首Token尾延迟)下降40.6%——用户等待的「」最坏情况「」大幅改善

  • 交换机与光模块硬件成本减少三分之一——花更少的钱,反而跑得更快



在当前算力紧缺、推理需求持续暴增的背景下,同样一堆硬件凭空多挤出15%的产能,这哪里是「优化」,这是「存量资产的效率重估」!

目前,该ZCube集群已在GLM-5.1 coding推理服务中稳定运行超过两周。

MRC vs ZCube

回到开头提到的MRC。

OpenAI联合五大芯片与云计算巨头发布的这套协议,本质上是一种多路径并发传输方案。

MRC和ZCube的关系,可以用一个比喻说清楚:

MRC优化的是「交通规则」——车已经上路了,通过更聪明的调度让车流更均匀,遇到事故能瞬间绕行。它在协议层发力,解决的是「已经出现拥塞后怎么办」。

ZCube重新规划的是「路网本身」——从拓扑设计上降低拥塞产生的概率,让每辆车都有唯一最优路线,从源头减少拥塞出现的机会。它在架构层动刀,解决的是「为什么会出现拥塞」。

前者是治病,后者是防病。技术路线不同,但双方同时在这个月发力,传递的信号高度一致:算力军备竞赛的下半场,不再只是比谁的GPU多,而是比谁能让这些GPU真正跑起来。

值得一提的是,MRC的发布还推动了另一个行业趋势:以太网正在加速替代InfiniBand成为AI集群的主流网络选择。

分析机构Dell'Oro Group的数据显示,2025年以太网在AI后端网络中的销售额和出货量已经全面超越InfiniBand。


MRC作为开放协议通过OCP发布,NVIDIA、AMD、Broadcom等厂商的800Gb/s网卡均已原生支持。

这意味着整个AI网络生态正在从封闭走向开放,从单一供应商走向多元竞争。

对于资本市场而言,这两大事件密集释放的信号同样值得关注:未来超大规模AI集群的组网采购逻辑将发生结构性变化——对高端交换机的需求将向「更少层级、更大端口密度」演进,对光模块的需求将向更高速率集中。

800G光模块、高密度以太网交换机相关产业链,有望迎来新一轮需求释放。

ZCube的扩展能力:一层交换机,连接数万GPU

ZCube还有一个被低估的特性:扩展性。

以当前主流配置计算(一层容量51.2T的交换机,128个400Gbps端口),ZCube仅用一层Leaf交换机就能构建连接16384块400Gbps网卡的完全连接网络。

如果使用更高容量的交换机,或者将ZCube网络划分为更多平面,可支持数万甚至数十万块GPU互联——仍然只需要一层交换机。

规模越大,ZCube相比传统架构省下的交换机和光模块就越多,性能优势也越明显——这是一条规模越大、越划算的曲线。

从「堆算力」到「挖效率」

过去几年,大模型行业最大的共识是Scaling Law——堆更多数据、更多算力、更大参数,模型就会更强。这个逻辑催生了万卡集群的军备竞赛。

但在2026年,一个新的共识正在浮现:与其无限堆GPU,不如让现有的GPU跑得更顺。

ZCube的实践证明,仅仅通过网络架构层面的系统性创新,就能在不增加任何GPU的前提下,撬动15%的推理吞吐提升。

随着推理规模继续向十万卡迈进,网络瓶颈只会随集群规模指数级加剧,而扁平化架构的优势也将同步放大。

更深层的变化在于:网络设计正在从「通用互联」走向「模型流量驱动的系统协同」。

网络不再只是连接GPU的底层管道,而正在升级为提升Token生产效率、系统稳定性和成本效率的核心能力。

智谱表示,未来将继续面向更大规模推理与训练集群探索新型智算网络架构。OpenAI的MRC也在持续迭代,其规格已通过OCP开放,正在成为行业基础标准。

一场关于AI基础设施底层架构的重构,正在全球范围内同步展开。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
兰州马拉松出事了!两老人街头搬补给水,遭全网谩骂,彻底吵翻天

兰州马拉松出事了!两老人街头搬补给水,遭全网谩骂,彻底吵翻天

谭谈社会
2026-05-24 16:31:34
北京首钢耻辱出局,许利民很可怜,球迷对前中国男篮主帅无比愤怒

北京首钢耻辱出局,许利民很可怜,球迷对前中国男篮主帅无比愤怒

姜大叔侃球
2026-05-24 10:18:43
凭啥是它!连续两月拿下中大型SUV销量第一,买它都不怕挨骂?

凭啥是它!连续两月拿下中大型SUV销量第一,买它都不怕挨骂?

小李车评李建红
2026-05-23 08:00:03
中国正在成为全球第一个集体抛弃电话的国家。

中国正在成为全球第一个集体抛弃电话的国家。

维纳斯的眼泪
2026-05-22 12:15:47
蓝营集体跳船,郑丽文想不到,大戏没上演,等来了蒋万安6字绝杀

蓝营集体跳船,郑丽文想不到,大戏没上演,等来了蒋万安6字绝杀

闻识
2026-05-24 05:03:07
三人小组调查结果出炉:马英九自己把钱用了!

三人小组调查结果出炉:马英九自己把钱用了!

达文西看世界
2026-05-24 16:28:11
54岁袁立住院,已做手术!颈外静脉穿刺疑似患重病,余生不再演戏

54岁袁立住院,已做手术!颈外静脉穿刺疑似患重病,余生不再演戏

一盅情怀
2026-05-24 15:44:39
网红车商卷走千万购车款,携女助手潜逃塞尔维亚

网红车商卷走千万购车款,携女助手潜逃塞尔维亚

新浪财经
2026-05-23 05:54:27
女子从就诊到去世仅10分钟!这种病千万别认为是上火!

女子从就诊到去世仅10分钟!这种病千万别认为是上火!

医路向前巍子
2026-05-24 10:20:44
从皮卡司机到突击队员:这份追杀名单,让参与者们无处遁形?

从皮卡司机到突击队员:这份追杀名单,让参与者们无处遁形?

寰球经纬所
2026-05-24 16:10:07
女飞行员突破12G过载, 无氧气面罩肉身硬抗, 满脸轻松笑晕网友

女飞行员突破12G过载, 无氧气面罩肉身硬抗, 满脸轻松笑晕网友

扮猫骑老虎
2026-05-22 21:19:32
跌97%横盘4年!2.21元低价股被高盛摩根集体重仓

跌97%横盘4年!2.21元低价股被高盛摩根集体重仓

慧眼看世界哈哈
2026-05-24 16:36:29
他解不开你的内衣扣,不是笨,是真的很慌

他解不开你的内衣扣,不是笨,是真的很慌

时光慢邮啊
2026-05-24 00:00:40
美媒集体震惊:这次访华,才真正见识到中国温度!

美媒集体震惊:这次访华,才真正见识到中国温度!

福建睿平
2026-05-18 11:56:20
日媒:日本今年春季毕业的大学生就业率高达98%!

日媒:日本今年春季毕业的大学生就业率高达98%!

随波荡漾的漂流瓶
2026-05-22 11:24:06
82死2失联!山西矿难老板任铁柱身价80亿,曾花重金投资重建寺庙

82死2失联!山西矿难老板任铁柱身价80亿,曾花重金投资重建寺庙

火山詩话
2026-05-24 08:39:23
山西告急!湖南告急!天灾人祸双重拷问,我们不能再无动于衷

山西告急!湖南告急!天灾人祸双重拷问,我们不能再无动于衷

融通天下
2026-05-24 11:12:10
刘銮雄又拍卖佳酿卖了3685万,最贵一瓶65万,五年卖酒成交2.75亿

刘銮雄又拍卖佳酿卖了3685万,最贵一瓶65万,五年卖酒成交2.75亿

好贤观史记
2026-05-24 13:21:38
2025-2026赛季CBA联赛总决赛对阵及日程安排确定

2025-2026赛季CBA联赛总决赛对阵及日程安排确定

新京报
2026-05-24 16:36:29
天津中到大雨,局地大到暴雨!新一轮明显降雨马上到...

天津中到大雨,局地大到暴雨!新一轮明显降雨马上到...

全接触狐狐
2026-05-24 14:08:06
2026-05-24 23:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15296文章数 66884关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

房产
本地
健康
家居
公开课

房产要闻

疯狂周末,海口楼市突然爆了!

本地新闻

用云锦的方式,打开江苏南京

外泌体 ≠ 生长因子!它们之间究竟有何区别?

家居要闻

低调传承 温润沉静

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版