网易首页 > 网易号 > 正文 申请入驻

全球AI算力大战变天!十万卡算力集群爆表,国产IB真香?

0
分享至


新智元报道

编辑:Aeneas

【新智元导读】在万卡、十万卡的训练时代,算力不再是唯一的瓶颈,网络已成全新掣肘!当AI训练进入十万卡时代,InfiniBand竟突然翻红,重新被追捧了?

大模型竞赛进入万卡乃至十万卡时代,网络正在取代算力成为新的瓶颈。

当GPT-4的参数规模突破万亿,当Llama 3的训练集群规模达到数万卡,一个潜在问题浮出水面:通信耗时正在吞噬算力红利。

据统计,在大规模AI集群训练中,通信时间占比可达30%以上。且规模越大,占比越高。

「算力竞赛已进入网络决胜期。」这是近期产业界的普遍共识。

过去几年,RoCE(RDMA over Converged Ethernet)凭借「以太网兼容、成本可控」的优势,成为不少智算中心的选择。

但当集群规模从千卡向十万卡跃升时,RoCE的调优复杂度貌似已接近临界点。而曾被诟病「封闭昂贵」的IB(InfiniBand)架构,正迎来新的价值重估。

规模放大后的「网络尴尬」

RoCE的本质,是在标准以太网上「嫁接」RDMA能力。尽管这种方式很难做到高性能无损互联,但在中小规模计算主导期,RoCE一直是国产算力厂商的关键平替。

然而,随着计算集群规模扩张到万卡级别,RoCE与原生RDMA的差异被快速放大。

核心症结在于流控机制的根本性区别。

RoCE依赖基于优先级的流控机制(PFC)。这套机制的逻辑是:当接收端缓冲区紧张时,发送暂停帧通知上游暂停发送。问题在于,PFC是一种粗粒度、反应式的流控——当暂停帧发出时,意味着接收端已经面临压力,丢包风险已然存在。

更棘手的是,PFC的「刹车-油门」机制在多级网络中极易引发连锁反应。一旦某个节点出现拥塞,PFC暂停信号会逐级向上传导,形成所谓的「PFC风暴」,导致整个网络瘫痪。

某互联网大厂的内部数据显示,在万卡级RoCE集群中,PFC风暴导致的训练中断每月可达数次,每次恢复耗时数分钟到数十分钟。

为应对这一问题,RoCE厂商普遍要求开启拥塞控制,并持续调整「水线」参数

但水线调整高度依赖经验和网络流量模型,调得太高,降速不及时导致丢包;调得太低,链路带宽无法充分利用。

这意味着,运维团队需要针对不同应用、不同流量特征进行持续的手动调优。

「在大型互联网公司,确实有专门的团队做这件事,但对于大多数用户而言,这种调优门槛几乎不可逾越。」一位资深网络架构师坦言。

原生架构的「规模红利」

面向「大算力」时代考验,以InfiniBand(IB)路线为主的原生RDMA网络,表现得比RoCE更加游刃有余。


IB采用基于信用的精细化流控发送端在发送数据前,必须确认接收端有足够的缓冲区空间。这种「先确认、后发送」的机制,从根源上杜绝了因资源不足导致的丢包,实现了真正意义上的无损网络。

这套机制带来的直接好处是:拥塞控制在IB网络中并非必需用户无需像RoCE那样持续调整水线参数,也无需组建专门的网络优化团队。

当规模放大到万卡以上,网络技术细节中的反馈非常明显。

IB的集中式管理架构可以进行全网路规划,从根本上消除死锁风险;而RoCE的分布式管理依赖广播、协商和收敛,随着节点增加,路由收敛时间呈指数级上升,死锁概率随之暴增。

链路故障恢复能力是另一个分水岭在大规模集群中,链路故障是常态而非例外。某头部厂商的统计显示,在数万卡规模下,日均链路故障可达数十次。

IB架构通过快速容错路由技术,可将故障恢复时间压缩至毫秒级,且这一时间不随网络规模增长而增加。这意味着,对于运行其上的大模型训练任务,底层链路故障几乎「无感」。

而RoCE的故障恢复通常需要秒级,足以触发训练中断和检查点回滚,造成数十分钟的算力浪费。

这种稳定性差异,已经开始呈现在TCO成本账单上。

被重新审视的「成本账」

长期以来,RoCE的核心吸引力在于成本。「IB太贵」几乎是行业共识。但当规模放大后,这笔账需要重新计算。

首先是运维成本的隐性膨胀。某智算服务商的测算显示,在万卡级RoCE集群中,专职网络优化团队的人力成本、因网络问题导致的算力闲置成本、故障排查时间成本,综合下来已接近甚至超过IB方案的硬件差价。

其次是组网效率的规模效应。IB的协议地址空间原本被诟病为扩展性瓶颈,但新一代国产IB方案已在单子网层面支持超过11万卡,较传统方案提升133%。更高的端口密度意味着更少的交换机层级、更低的光模块成本和功耗。

更重要的是,对于真正的高端计算场景,RoCE存在难以逾越的性能天花板

传统HPC业务中包含大量小消息通信,对延迟极为敏感。RoCE的「存储-转发」交换机制导致动态时延易受网络拥堵影响,而IB的VCT交换可实现边收边转,交换时延控制在300ns以内——这是物理层面的代差。

在追求效率成本的AI训练中,这笔账已足以撼动头部用户的选型决策。

市场格局的微妙变化

市场数据正在印证这一趋势。Dell'Oro Group在《数据中心长期预测报告》中指出,尽管以太网在整体市场占据不小,但在AI后端网络领域,InfiniBand长期占据头部份额。

「这并非偶然。」一位行业观察人士指出,「AI训练对网络丢包是零容忍的,而IB是唯一从设计之初就为此场景优化的原生方案。RoCE本质是用通用网络跑专用负载,能跑和跑好是两回事。」

在国内市场,这一认知也在加速落地。随着大模型竞赛从「拼参数」转向「拼落地」,从「千卡试点」走向「万卡标配」,用户对网络稳定性的权重正在上升。

「去年我们还在讨论RoCE能不能用,今年客户问得更多的是:万卡以上到底稳不稳?」

一位网络设备厂商的销售总监表示,「当训练任务动辄跑几十天,一次网络抖动带来的损失就足以覆盖IB的差价。这时候,原生架构的稳定性就变成了硬通货。」

国产化技术的新变量

过去,讨论IB与RoCE的路线选择,很大程度上是在「性能」与「自主可控」之间做取舍——IB性能强但依赖海外,RoCE触手可及但性能妥协。

这一局面正在迎来变数。

今天,中科曙光推出首款国产原生无损RDMA高速网络scaleFabric。据说该产品实现了从112G SerDes IP、交换芯片、网卡到软件平台的100%全栈自研。



核心指标非常抢眼:scaleFabric端到端时延低于1微秒,转发时延260纳秒,单子网支持超11万卡扩展,性能对标国际顶尖IB产品NVIDIA NDR。

「这不是简单的国产替代,而是从技术路线层面给出了新的选项。」有分析认为,国产IB方案的落地,意味着用户可以不再在「性能」与「安全」之间二选一,而是可以兼得。

更重要的是,这套方案已在国家超算互联网郑州核心节点实现3万卡商用部署,累计运行作业超10万项,完成了国产最大规模的真实负载验证

「以前选RoCE,多少有点无奈——想要国产,只能选它。现在有了真正能打的国产IB,路线选择的逻辑也将发生变化。」一位智算中心规划负责人表示。


网络成为算力竞争「胜负手」

当大模型进入万卡时代,网络已不再是算力的配角,而是决定集群效率的核心变量。

中国工程院院士邬贺铨指出,大模型训练、智算集群规模化部署,对网络提出「超低延迟、超高带宽、全程无损」的严苛要求,RDMA高速网络已成为智算集群的「算力大动脉」。


RoCE在过去几年功不可没,它以较低门槛推动了RDMA技术的普及。但当规模从千卡放大到十万卡,嫁接式架构的运维复杂度大幅上升。这条「动脉」的韧性和宽广度都迎来挑战。

IB作为原生RDMA方案,凭借基于信用的精确流控、集中式管理架构、毫秒级故障恢复等技术特性,在极限规模下展现出不可替代的稳定性优势,但此前长期受制于海外供应。

国产IB方案的突破,显然正在消除自主可控层面的顾虑。

「scaleFabric是国内首款全栈自主研发的400G原生RDMA高速网络系统,性能对标国际主流,且经规模化实践验证」。邬院士认为,这将打破国外技术垄断,补齐国产高速网络短板。


今年两会期间,高层提出要着眼高水平科技自立自强,加强原始创新和关键核心技术攻关。并且部署了超大规模智算集群等新基建工程。未来的万卡级算力基础设施将成为新常态。

可以预见,随着智算集群向十万卡乃至更大规模演进,RDMA技术路线的选择或将跳出安全考量和成本计算,真正锚定未来集群「能否真正跑起来」的需求做出战略决策。

无论如何,在这场算力规模化竞速中,网络已经成为新的胜负手。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-0胜南美劲旅,中国男足在法国获国际赛事第7名,刘凯源远程炮制胜

1-0胜南美劲旅,中国男足在法国获国际赛事第7名,刘凯源远程炮制胜

侧身凌空斩
2026-04-06 18:17:35
绿营瑟瑟发抖?拼连任的蒋万安最新民调出炉,比上次还高4.4%

绿营瑟瑟发抖?拼连任的蒋万安最新民调出炉,比上次还高4.4%

海峡导报社
2026-04-06 10:57:02
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
伊朗革命卫队前指挥官苏莱曼尼亲属在美隐秘生活:车内堆满奢侈品

伊朗革命卫队前指挥官苏莱曼尼亲属在美隐秘生活:车内堆满奢侈品

梁濆爱玩车
2026-04-06 09:09:52
首秀!高诗岩燃尽了,合砍58分,赢球三个原因找到,对手38分也输

首秀!高诗岩燃尽了,合砍58分,赢球三个原因找到,对手38分也输

海阔山遥YAO
2026-04-07 04:03:40
金价要重现历史了!要有心理准备,月初金价或许将重现2015年历史

金价要重现历史了!要有心理准备,月初金价或许将重现2015年历史

坠入二次元的海洋
2026-04-06 05:43:24
以色列至今都不敢相信,一场战争打掉了自己未来50年的国运

以色列至今都不敢相信,一场战争打掉了自己未来50年的国运

农夫史记
2026-04-04 20:18:25
惊悚!一摩天轮因超载倒塌瞬间!底座撕裂!近80人被压或甩出→

惊悚!一摩天轮因超载倒塌瞬间!底座撕裂!近80人被压或甩出→

特种设备安全科普
2026-04-05 21:43:49
从鸦片战争到孟晚舟,这个犹太家族跟中国死磕187年,结局怎么样

从鸦片战争到孟晚舟,这个犹太家族跟中国死磕187年,结局怎么样

凡人侃史
2026-04-01 22:52:46
赵心童夺冠感谢女友!特鲁姆普:中国球员崛起很棒 他可能100冠

赵心童夺冠感谢女友!特鲁姆普:中国球员崛起很棒 他可能100冠

念洲
2026-04-06 06:13:51
变天了!伊朗,七寸被掐住了!

变天了!伊朗,七寸被掐住了!

财经要参
2026-04-06 22:54:33
伊朗披露挫败美军营救行动细节:美军为遮羞轰炸被击落军机

伊朗披露挫败美军营救行动细节:美军为遮羞轰炸被击落军机

澎湃新闻
2026-04-06 08:25:03
为什么一个普通羽毛球,能让月薪两万的人都不敢随便打?

为什么一个普通羽毛球,能让月薪两万的人都不敢随便打?

流苏晚晴
2026-04-06 17:03:42
天天吃二甲双胍,这5个问题一定要弄清楚,否则吃不对等于白吃

天天吃二甲双胍,这5个问题一定要弄清楚,否则吃不对等于白吃

袁医生课堂
2026-04-06 11:53:03
解放军报通告全球:5500枚核弹原料已备好,日本拥核在即

解放军报通告全球:5500枚核弹原料已备好,日本拥核在即

时光在作祟
2026-04-06 11:36:40
南太行徒步大军“转战”胖东来,超市寄存柜堆满旅行装备,网友调侃“南太行的终点是胖东来”,客服回应

南太行徒步大军“转战”胖东来,超市寄存柜堆满旅行装备,网友调侃“南太行的终点是胖东来”,客服回应

极目新闻
2026-04-06 19:52:05
反对派对欧尔班釜底抽薪:上台后修改宪法,欧尔班无法再担任总理

反对派对欧尔班釜底抽薪:上台后修改宪法,欧尔班无法再担任总理

史行途
2026-04-07 03:42:49
杜月笙面馆吃饭,一伙地痞流氓找他要保护费,杜月笙:嫌命长吗?

杜月笙面馆吃饭,一伙地痞流氓找他要保护费,杜月笙:嫌命长吗?

千秋文化
2026-04-01 20:35:51
河南一大叔的院子火了,意外圈粉百万,网友:这才是“人间仙境”

河南一大叔的院子火了,意外圈粉百万,网友:这才是“人间仙境”

小李子体育
2026-04-07 02:08:05
暖光侧颜杀,东方美人的温柔暴击

暖光侧颜杀,东方美人的温柔暴击

喜欢历史的阿繁
2026-04-06 22:19:57
2026-04-07 05:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14910文章数 66753关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普:7日是最后期限 否则伊朗每座桥梁将被摧毁

头条要闻

特朗普:7日是最后期限 否则伊朗每座桥梁将被摧毁

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

房产
教育
亲子
旅游
数码

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

教育要闻

高中坚持阅读外刊,为啥英语成绩没突破词汇没增加,如何上140?

亲子要闻

一定要告诉孩子什么是教养,

旅游要闻

春日泛舟北小河 水岸花溪美如画

数码要闻

玄派玄机16 2026笔记本上架:锐龙AI Max+ 395,128GB + 2TB

无障碍浏览 进入关怀版