网易首页 > 网易号 > 正文 申请入驻

博通70%数据扎心英伟达:InfiniBand正在输掉这场战争

0
分享至


70%的新建AI基础设施正在抛弃InfiniBand。这是博通2026年3月财报电话会上的数字,不是预测,是已经发生的事实。

过去三年,数据中心网络的选择题被简化为一道是非题:要延迟,选InfiniBand;要灵活,选以太网。现在这道题被 hyperscaler(超大规模云服务商)们重新出卷——答案是以太网,而且不是因为以太网变快了,是因为InfiniBand的路走到了头。

技术优势的边界:InfiniBand困在自己的舒适区

先承认一件事:InfiniBand在特定场景下仍然是更好的技术。 tightly coupled(紧耦合)、同构、单供应商GPU集群,运行大规模分布式训练,环境可控——这些条件下,InfiniBand的延迟特性和RDMA(远程直接内存访问)实现确实有差异化优势。

问题在于,这个"特定场景"正在收缩。

英伟达把InfiniBand打包成平台承诺,而非单纯的网络选项。GPU、网卡、交换机、软件栈深度耦合,性能是真的,锁-in也是真的。对于考虑多供应商GPU采购或异构推理环境的组织,今天的fabric(网络架构)选择会锁定未来多年的硅片决策。

一位在两家头部云厂商都做过网络架构的工程师跟我形容这种困境:"InfiniBand像一台精密的手动变速箱,赛道上是神,堵车时是灾难。而企业AI的现实是,你既要在赛道上跑训练,又要在市区里做推理,还要应付早晚高峰的突发流量。"

更隐蔽的成本是人力。InfiniBand需要独立的工具链、独立的技能栈、独立的运维模型。你的网络工程师懂以太网,你的云工程师懂以太网。InfiniBand专家是专项招聘——而大多数组织的招聘预算早已捉襟见肘。

超大规模云厂商的集体转向

AWS、Google、Microsoft——三家最大的AI训练环境——全部基于以太网架构构建或正在构建其后端fabric。这不是巧合,是生态系统的复利效应。

当全球最大的AI训练环境收敛到同一种fabric模型,工具链、运维经验和生态系统会自我强化。团队在云上训练后,回到本地部署AI集群时,如果选择InfiniBand,会遭遇剧烈的操作断层。

这种断层有多痛?一位从AWS跳槽到某头部量化机构的ML工程师告诉我:"我们在SageMaker上训模型,习惯了CloudWatch、熟悉的CLI、能Google到的错误日志。回到公司发现是InfiniBand,第一件事是发邮件问'你们有没有Mellanox的FAE联系方式'——那种落差,像从iOS换到功能机。"

Ultra Ethernet Consortium(超以太网联盟)把这种趋势正式化了。UEC由AMD、博通、思科、HPE、Intel、Meta、微软共同支持,正在为以太网构建AI优化的扩展,以缩小与InfiniBand在分布式训练上的差距。

拥塞控制、按序交付、多路径能力——这些InfiniBand的原生特性,正在被工程化为开放标准。不是复制,是重新设计为更松耦合的形态。

生态系统的终局:为什么性能不是决定性因素

这场战争的关键认知是:InfiniBand的失利不是性能判决,是生态系统判决。

博通70%的数字背后,是三个结构性力量的汇合:

第一,云原生工作流的惯性。现代AI团队的基础设施认知建立在以太网之上,从开发环境到生产部署,以太网是默认假设。任何偏离这个假设的选择都需要额外的论证成本和组织摩擦。

第二,多供应商策略的崛起。企业越来越不愿意把AI基础设施的全部赌注押在单一供应商身上。AMD MI300系列、Intel Gaudi、自研ASIC的选项在增多,而InfiniBand的紧密耦合让这些选项的集成变得复杂。

第三,推理工作负载的权重上升。训练需要低延迟fabric,推理更需要灵活调度、弹性扩展、与现有基础设施的兼容。以太网在这些维度上的优势正在放大。

一位思科企业网络部门的VP在内部沟通中用了个精妙的类比:"InfiniBand是F1赛车——在特定赛道上无可匹敌,但需要专属车队、专属赛道、专属燃料。以太网是改装过的性能轿车,95%的场景够快,而且能开去超市接孩子。"

架构师的现实选择:你的下一个集群用什么

对于正在规划AI基础设施的架构师,这个转变意味着什么?

如果你正在构建一个纯粹的、大规模的、单一供应商GPU训练集群,且团队有InfiniBand运维经验,InfiniBand仍然是合理选择。延迟优势真实存在,英伟达的集成优化也确实到位。


但如果你需要支持多供应商GPU、异构推理硬件、云-边-端混合部署,或者团队技能栈以以太网为主,RoCEv2(基于融合以太网的RDMA)的生态优势会随时间放大。

更长期的考量是供应商锁定。选择InfiniBand不仅是选择一种网络技术,是选择一种采购路径、一种组织能力建设方向、一种未来硅片决策的约束条件。

博通CEO Hock Tan在财报电话会上的原话值得细品:「客户想要选择,他们不想被锁定在单一架构中。」这句话的指向很明确。

一位在三家不同规模AI公司做过基础设施的CTO跟我总结了他的决策框架:"延迟敏感的训练任务,我会租英伟达的DGX Cloud;需要长期持有的基础设施,我选UEC兼容的以太网方案。不是InfiniBand不好,是我赌不起那个锁定。"

这种"混合策略"正在成为主流。用云上的InfiniBand处理峰值训练负载,用本地的以太网fabric支撑日常推理和开发——不是二选一,是分层解耦。

UEC的进度条:差距还有多大

批评者会指出,UEC的完整规范尚未落地,以太网在极端延迟场景下仍有差距。这是事实,但需要放在时间维度上看。

UEC 1.0规范预计2026年发布,首批兼容产品已在2025年下半年出货。博通、思科、Arista的交换机,Intel、AMD的网卡,都在这个生态中。

更重要的是,"足够好"的阈值正在移动。对于大多数企业AI工作负载,RoCEv2的延迟特性已经满足需求,而运维简化和供应商灵活性的价值在累积。

一位参与UEC标准制定的工程师透露了个细节:「我们在拥塞控制算法上花了18个月,不是抄InfiniBand,是重新设计为更适合以太网异步特性的方案。最终的性能差距在训练场景下会缩小到10%以内,但部署灵活性完全不在一个维度。」

10%的性能差距,换多供应商选择、现有团队技能复用、与云环境的无缝衔接——这个trade-off(权衡)对大多数企业来说是正向的。

英伟达的应对:平台防御战

英伟达并非坐以待毙。InfiniBand的演进路线仍在推进,NVIDIA Spectrum-X作为以太网替代方案也在布局。但Spectrum-X的定位微妙——它既是以太网,又带有英伟达特有的优化和锁定。

这种"半开放"策略反映了英伟达的两难:完全拥抱开放以太网会侵蚀InfiniBand的差异化价值;坚持封闭又会加速客户向纯开放方案流失。

黄仁勋在GTC 2026上的演讲有个值得玩味的表述:「我们支持客户的选择,无论他们选择InfiniBand还是以太网。」这句话的公关成分大于实质——英伟达的财务数据清晰显示,网络业务的增长正在从InfiniBand向Spectrum-X转移。

一位前Mellanox工程师(2019年英伟达收购后加入)在离职后写道:「我们曾以为InfiniBand会成为AI基础设施的TCP/IP。现在看,它更可能成为AI时代的Fibre Channel——在特定垂直领域保持存在,但不再是通用标准。」

这个类比刺耳,但准确。Fibre Channel在存储网络中仍有份额,却不再是新部署的默认选项。InfiniBand可能走上类似路径。

企业部署的真实图景

把视角从巨头博弈拉回企业现场,能看到更复杂的决策矩阵。

某头部制药公司的AI基础设施负责人告诉我,他们2024年的集群选择了InfiniBand,2025年的扩建却转向了RoCEv2。"不是对英伟达有意见,是我们买了AMD的MI300做部分推理,发现InfiniBand的集成成本太高。两套网络并行运行了6个月,最后决定统一走以太网。"

这种"混合遗产"正在成为常态。早期押注InfiniBand的企业,现在面临迁移或并行的选择;新建集群则越来越多地跳过InfiniBand,直接从RoCEv2起步。

金融行业的案例更有代表性。某顶级投行的量化交易基础设施团队,2023年为了微秒级延迟选了InfiniBand,2025年却发现推理端的模型服务需要与现有Kubernetes平台深度集成。"训练那部分还留着InfiniBand,但推理全切到以太网了。现在一个模型从训练到上线,要跨两种网络,运维复杂度是我们没预料到的。"

这些碎片拼凑出的图景是:InfiniBand不会消失,但正在从"默认选项"退化为"特定场景选项"。这个退化的速度,比大多数技术预测更快。

工具链与人才市场的连锁反应


基础设施选择的涟漪效应,正在重塑人才市场和工具链生态。

招聘市场上,"InfiniBand工程师"的薪资溢价在2024年达到峰值后开始回落。某头部猎头的数据显示,2025年Q1,具备RoCEv2和UEC经验的候选人简历数量同比增长340%,而InfiniBand专项职位的发布量下降了28%。

工具链侧,开源监控、可观测性、自动化工具正在向以太网优先倾斜。Prometheus、Grafana的InfiniBand插件维护活跃度明显低于以太网生态。一位做数据中心可观测性创业的创始人直言:「我们为InfiniBand做支持是因为客户要求,但内部优先级是以太网为先。UEC的开放标准让工具集成更容易,这是飞轮效应。」

培训和教育市场也在响应。Coursera、Udacity上的数据中心网络课程,2024年后新增的模块几乎全是RoCEv2和UEC相关。InfiniBand内容被标记为"legacy"(遗留技术)或完全省略。

这种生态系统的倾斜是自我强化的。新入行者学习以太网,企业招聘以太网专家,工具厂商优化以太网支持——InfiniBand的护城河从外部被侵蚀。

延迟崇拜的终结

这场fabric战争有个更深层的启示:AI基础设施的决策逻辑正在从"延迟优先"转向"效率优先"。

过去三年,行业被一种简单叙事主导——延迟决定一切,所以InfiniBand必胜。这个叙事忽略了运维复杂度、团队技能、供应商灵活性、长期锁定成本等维度。

博通70%的数字标志着这种叙事的破产。不是延迟不重要,是"延迟是唯一重要指标"的假设不成立。

一位在Google Borg团队和OpenAI都工作过的工程师,现在在创业做AI基础设施优化。他的观察是:「人们高估了训练延迟对总成本的影响,低估了运维摩擦对迭代速度的拖累。一个每周能全量训练3次的团队,比一个每周能训练4次但部署需要2天的团队,实际产出更高。」

这种"端到端效率"视角,正是以太网生态的优势所在。它不是某个单点的最优,是系统层面的更优解。

未来18个月的观察清单

对于需要跟踪这个趋势的技术决策者,有几个关键节点值得关注:

UEC 1.0规范的最终发布(预计2026年Q2),以及首批大规模部署的实测数据。这将是验证"10%差距"承诺的关键。

英伟达Spectrum-X的市场表现。如果英伟达自己的以太网方案能获得显著份额,说明InfiniBand的退潮速度会加快;如果Spectrum-X也遇冷,则意味着客户想要的是真正开放的以太网,而非英伟达风格的"开放"。

AMD和Intel在UEC生态中的投入力度。GPU市场的多极化是打破InfiniBand锁定的核心变量,而网络fabric的选择会反向影响GPU采购决策。

云厂商的定价策略。如果AWS、Azure、GCP开始在InfiniBand实例上收取显著溢价(反映其运维成本),而RoCEv2实例成为默认选项,这将是市场转向的明确信号。

一位在三家公有云都做过网络产品规划的PM给了我一个简洁的判断框架:「看英伟达财报中网络业务的增速与GPU业务的增速对比。如果网络持续跑输,说明锁定策略在失效;如果网络跑赢,说明InfiniBand的护城河还在。」

回到那个70%

博通的70%数字发布于2026年3月,覆盖的是"new AI infrastructure deployments"(新建AI基础设施部署)。这个口径值得细究——它不包括存量集群的扩展,不包括非AI工作负载的网络升级,也不包括超大规模云厂商内部的自研fabric。

即便如此,这个数字的冲击力足够真实。它标志着行业共识的形成:对于新建AI基础设施,以太网是默认假设,InfiniBand需要额外论证。

这种默认假设的转移,比任何技术benchmark都更具决定性。它影响采购流程、预算审批、团队组建、供应商谈判的每一个环节。

一位在两家Fortune 500公司做过CTO的顾问告诉我,他现在的客户询价时,「网络部分默认是以太网RoCEv2,除非有明确的延迟敏感训练需求才会考虑InfiniBand。三年前是反过来的。」

这种反转的完成,意味着战争的结果已经基本确定。剩下的只是打扫战场的时间。

你的下一个AI集群,还会考虑InfiniBand吗?还是说,那个需要额外论证的选项,已经从以太网变成了它?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

刘亦菲真空上阵宝格丽!身形肥硕但事业线干瘪,一个动作全网怒赞

涵豆说娱
2026-03-24 10:41:07
伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

伊朗格斗冠军被捕!或被截肢+判处死刑 曾来中国参赛 击败5大高手

念洲
2026-03-25 17:59:21
6岁男童被弃酒店半个月,妈妈终于现身!孩子紧紧抱住不愿松手,网友:这孩子懂事得让人心疼

6岁男童被弃酒店半个月,妈妈终于现身!孩子紧紧抱住不愿松手,网友:这孩子懂事得让人心疼

大风新闻
2026-03-25 15:43:11
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

曝信达证券所长猥亵员工,长得很老实,女方颜值出众,合影曝光

180视角
2026-03-25 17:34:12
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

王二哥老搞笑
2026-03-25 16:44:29
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
送检4个LV包均为假!消费者:都是在专柜买的,LV专柜回应

送检4个LV包均为假!消费者:都是在专柜买的,LV专柜回应

福建第一帮帮团
2026-03-24 19:32:34
只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

只剩6天!医保全国统一,41-61岁抓紧办这几件事,否则就晚了!

另子维爱读史
2026-03-25 22:09:07
斩首”让一将功成万骨枯成为历史

斩首”让一将功成万骨枯成为历史

昊轩看世界
2026-03-23 18:50:52
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
信达证券所长被曝猥亵女员工,抚摸私密处,正脸照被扒,警方介入

信达证券所长被曝猥亵女员工,抚摸私密处,正脸照被扒,警方介入

180视角
2026-03-25 15:58:41
女子称找高铁乘务员投诉一名男子在列车口抽烟,被发了一个口罩,当事人:乘务员的态度很好,但自己对这种情况无语,希望高铁全面禁烟

女子称找高铁乘务员投诉一名男子在列车口抽烟,被发了一个口罩,当事人:乘务员的态度很好,但自己对这种情况无语,希望高铁全面禁烟

洪观新闻
2026-03-25 14:56:54
多名大学校长炮轰机器人跳舞是哗众取宠

多名大学校长炮轰机器人跳舞是哗众取宠

上峰视点
2026-03-25 19:07:57
太夸张的说,这颜值在整个亚洲都是数一数二的

太夸张的说,这颜值在整个亚洲都是数一数二的

可乐谈情感
2026-03-23 01:19:36
真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

真的太孤独了!山东47岁母亲称已怀胎8月,两女远嫁却极力反对…

火山詩话
2026-03-25 13:41:56
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
张雪峰遗产分割复杂!11岁女儿面临跟后妈争产,是否立遗嘱成关键

张雪峰遗产分割复杂!11岁女儿面临跟后妈争产,是否立遗嘱成关键

萌神木木
2026-03-25 18:56:27
2026-03-26 07:12:51
固件更新中
固件更新中
有态度网友ytd
428文章数 3关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗军方称击落美军F-18战机 现场画面披露

头条要闻

伊朗军方称击落美军F-18战机 现场画面披露

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

房产
游戏
亲子
公开课
军事航空

房产要闻

41亿!259亩!建学校…三亚这个大城更,最新方案曝光!

PS6升级动力遭质疑!玩家或当“PS5钉子户”

亲子要闻

从食材到餐盘,全链条守护幼儿舌尖安全 | 新京报快评

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗重申非交战国家船只可安全通过霍尔木兹海峡

无障碍浏览 进入关怀版