![]()
70%的新建AI基础设施正在抛弃InfiniBand。这是博通2026年3月财报电话会上的数字,不是预测,是已经发生的事实。
过去三年,数据中心网络的选择题被简化为一道是非题:要延迟,选InfiniBand;要灵活,选以太网。现在这道题被 hyperscaler(超大规模云服务商)们重新出卷——答案是以太网,而且不是因为以太网变快了,是因为InfiniBand的路走到了头。
技术优势的边界:InfiniBand困在自己的舒适区
先承认一件事:InfiniBand在特定场景下仍然是更好的技术。 tightly coupled(紧耦合)、同构、单供应商GPU集群,运行大规模分布式训练,环境可控——这些条件下,InfiniBand的延迟特性和RDMA(远程直接内存访问)实现确实有差异化优势。
问题在于,这个"特定场景"正在收缩。
英伟达把InfiniBand打包成平台承诺,而非单纯的网络选项。GPU、网卡、交换机、软件栈深度耦合,性能是真的,锁-in也是真的。对于考虑多供应商GPU采购或异构推理环境的组织,今天的fabric(网络架构)选择会锁定未来多年的硅片决策。
一位在两家头部云厂商都做过网络架构的工程师跟我形容这种困境:"InfiniBand像一台精密的手动变速箱,赛道上是神,堵车时是灾难。而企业AI的现实是,你既要在赛道上跑训练,又要在市区里做推理,还要应付早晚高峰的突发流量。"
更隐蔽的成本是人力。InfiniBand需要独立的工具链、独立的技能栈、独立的运维模型。你的网络工程师懂以太网,你的云工程师懂以太网。InfiniBand专家是专项招聘——而大多数组织的招聘预算早已捉襟见肘。
超大规模云厂商的集体转向
AWS、Google、Microsoft——三家最大的AI训练环境——全部基于以太网架构构建或正在构建其后端fabric。这不是巧合,是生态系统的复利效应。
当全球最大的AI训练环境收敛到同一种fabric模型,工具链、运维经验和生态系统会自我强化。团队在云上训练后,回到本地部署AI集群时,如果选择InfiniBand,会遭遇剧烈的操作断层。
这种断层有多痛?一位从AWS跳槽到某头部量化机构的ML工程师告诉我:"我们在SageMaker上训模型,习惯了CloudWatch、熟悉的CLI、能Google到的错误日志。回到公司发现是InfiniBand,第一件事是发邮件问'你们有没有Mellanox的FAE联系方式'——那种落差,像从iOS换到功能机。"
Ultra Ethernet Consortium(超以太网联盟)把这种趋势正式化了。UEC由AMD、博通、思科、HPE、Intel、Meta、微软共同支持,正在为以太网构建AI优化的扩展,以缩小与InfiniBand在分布式训练上的差距。
拥塞控制、按序交付、多路径能力——这些InfiniBand的原生特性,正在被工程化为开放标准。不是复制,是重新设计为更松耦合的形态。
生态系统的终局:为什么性能不是决定性因素
这场战争的关键认知是:InfiniBand的失利不是性能判决,是生态系统判决。
博通70%的数字背后,是三个结构性力量的汇合:
第一,云原生工作流的惯性。现代AI团队的基础设施认知建立在以太网之上,从开发环境到生产部署,以太网是默认假设。任何偏离这个假设的选择都需要额外的论证成本和组织摩擦。
第二,多供应商策略的崛起。企业越来越不愿意把AI基础设施的全部赌注押在单一供应商身上。AMD MI300系列、Intel Gaudi、自研ASIC的选项在增多,而InfiniBand的紧密耦合让这些选项的集成变得复杂。
第三,推理工作负载的权重上升。训练需要低延迟fabric,推理更需要灵活调度、弹性扩展、与现有基础设施的兼容。以太网在这些维度上的优势正在放大。
一位思科企业网络部门的VP在内部沟通中用了个精妙的类比:"InfiniBand是F1赛车——在特定赛道上无可匹敌,但需要专属车队、专属赛道、专属燃料。以太网是改装过的性能轿车,95%的场景够快,而且能开去超市接孩子。"
架构师的现实选择:你的下一个集群用什么
对于正在规划AI基础设施的架构师,这个转变意味着什么?
如果你正在构建一个纯粹的、大规模的、单一供应商GPU训练集群,且团队有InfiniBand运维经验,InfiniBand仍然是合理选择。延迟优势真实存在,英伟达的集成优化也确实到位。
![]()
但如果你需要支持多供应商GPU、异构推理硬件、云-边-端混合部署,或者团队技能栈以以太网为主,RoCEv2(基于融合以太网的RDMA)的生态优势会随时间放大。
更长期的考量是供应商锁定。选择InfiniBand不仅是选择一种网络技术,是选择一种采购路径、一种组织能力建设方向、一种未来硅片决策的约束条件。
博通CEO Hock Tan在财报电话会上的原话值得细品:「客户想要选择,他们不想被锁定在单一架构中。」这句话的指向很明确。
一位在三家不同规模AI公司做过基础设施的CTO跟我总结了他的决策框架:"延迟敏感的训练任务,我会租英伟达的DGX Cloud;需要长期持有的基础设施,我选UEC兼容的以太网方案。不是InfiniBand不好,是我赌不起那个锁定。"
这种"混合策略"正在成为主流。用云上的InfiniBand处理峰值训练负载,用本地的以太网fabric支撑日常推理和开发——不是二选一,是分层解耦。
UEC的进度条:差距还有多大
批评者会指出,UEC的完整规范尚未落地,以太网在极端延迟场景下仍有差距。这是事实,但需要放在时间维度上看。
UEC 1.0规范预计2026年发布,首批兼容产品已在2025年下半年出货。博通、思科、Arista的交换机,Intel、AMD的网卡,都在这个生态中。
更重要的是,"足够好"的阈值正在移动。对于大多数企业AI工作负载,RoCEv2的延迟特性已经满足需求,而运维简化和供应商灵活性的价值在累积。
一位参与UEC标准制定的工程师透露了个细节:「我们在拥塞控制算法上花了18个月,不是抄InfiniBand,是重新设计为更适合以太网异步特性的方案。最终的性能差距在训练场景下会缩小到10%以内,但部署灵活性完全不在一个维度。」
10%的性能差距,换多供应商选择、现有团队技能复用、与云环境的无缝衔接——这个trade-off(权衡)对大多数企业来说是正向的。
英伟达的应对:平台防御战
英伟达并非坐以待毙。InfiniBand的演进路线仍在推进,NVIDIA Spectrum-X作为以太网替代方案也在布局。但Spectrum-X的定位微妙——它既是以太网,又带有英伟达特有的优化和锁定。
这种"半开放"策略反映了英伟达的两难:完全拥抱开放以太网会侵蚀InfiniBand的差异化价值;坚持封闭又会加速客户向纯开放方案流失。
黄仁勋在GTC 2026上的演讲有个值得玩味的表述:「我们支持客户的选择,无论他们选择InfiniBand还是以太网。」这句话的公关成分大于实质——英伟达的财务数据清晰显示,网络业务的增长正在从InfiniBand向Spectrum-X转移。
一位前Mellanox工程师(2019年英伟达收购后加入)在离职后写道:「我们曾以为InfiniBand会成为AI基础设施的TCP/IP。现在看,它更可能成为AI时代的Fibre Channel——在特定垂直领域保持存在,但不再是通用标准。」
这个类比刺耳,但准确。Fibre Channel在存储网络中仍有份额,却不再是新部署的默认选项。InfiniBand可能走上类似路径。
企业部署的真实图景
把视角从巨头博弈拉回企业现场,能看到更复杂的决策矩阵。
某头部制药公司的AI基础设施负责人告诉我,他们2024年的集群选择了InfiniBand,2025年的扩建却转向了RoCEv2。"不是对英伟达有意见,是我们买了AMD的MI300做部分推理,发现InfiniBand的集成成本太高。两套网络并行运行了6个月,最后决定统一走以太网。"
这种"混合遗产"正在成为常态。早期押注InfiniBand的企业,现在面临迁移或并行的选择;新建集群则越来越多地跳过InfiniBand,直接从RoCEv2起步。
金融行业的案例更有代表性。某顶级投行的量化交易基础设施团队,2023年为了微秒级延迟选了InfiniBand,2025年却发现推理端的模型服务需要与现有Kubernetes平台深度集成。"训练那部分还留着InfiniBand,但推理全切到以太网了。现在一个模型从训练到上线,要跨两种网络,运维复杂度是我们没预料到的。"
这些碎片拼凑出的图景是:InfiniBand不会消失,但正在从"默认选项"退化为"特定场景选项"。这个退化的速度,比大多数技术预测更快。
工具链与人才市场的连锁反应
![]()
基础设施选择的涟漪效应,正在重塑人才市场和工具链生态。
招聘市场上,"InfiniBand工程师"的薪资溢价在2024年达到峰值后开始回落。某头部猎头的数据显示,2025年Q1,具备RoCEv2和UEC经验的候选人简历数量同比增长340%,而InfiniBand专项职位的发布量下降了28%。
工具链侧,开源监控、可观测性、自动化工具正在向以太网优先倾斜。Prometheus、Grafana的InfiniBand插件维护活跃度明显低于以太网生态。一位做数据中心可观测性创业的创始人直言:「我们为InfiniBand做支持是因为客户要求,但内部优先级是以太网为先。UEC的开放标准让工具集成更容易,这是飞轮效应。」
培训和教育市场也在响应。Coursera、Udacity上的数据中心网络课程,2024年后新增的模块几乎全是RoCEv2和UEC相关。InfiniBand内容被标记为"legacy"(遗留技术)或完全省略。
这种生态系统的倾斜是自我强化的。新入行者学习以太网,企业招聘以太网专家,工具厂商优化以太网支持——InfiniBand的护城河从外部被侵蚀。
延迟崇拜的终结
这场fabric战争有个更深层的启示:AI基础设施的决策逻辑正在从"延迟优先"转向"效率优先"。
过去三年,行业被一种简单叙事主导——延迟决定一切,所以InfiniBand必胜。这个叙事忽略了运维复杂度、团队技能、供应商灵活性、长期锁定成本等维度。
博通70%的数字标志着这种叙事的破产。不是延迟不重要,是"延迟是唯一重要指标"的假设不成立。
一位在Google Borg团队和OpenAI都工作过的工程师,现在在创业做AI基础设施优化。他的观察是:「人们高估了训练延迟对总成本的影响,低估了运维摩擦对迭代速度的拖累。一个每周能全量训练3次的团队,比一个每周能训练4次但部署需要2天的团队,实际产出更高。」
这种"端到端效率"视角,正是以太网生态的优势所在。它不是某个单点的最优,是系统层面的更优解。
未来18个月的观察清单
对于需要跟踪这个趋势的技术决策者,有几个关键节点值得关注:
UEC 1.0规范的最终发布(预计2026年Q2),以及首批大规模部署的实测数据。这将是验证"10%差距"承诺的关键。
英伟达Spectrum-X的市场表现。如果英伟达自己的以太网方案能获得显著份额,说明InfiniBand的退潮速度会加快;如果Spectrum-X也遇冷,则意味着客户想要的是真正开放的以太网,而非英伟达风格的"开放"。
AMD和Intel在UEC生态中的投入力度。GPU市场的多极化是打破InfiniBand锁定的核心变量,而网络fabric的选择会反向影响GPU采购决策。
云厂商的定价策略。如果AWS、Azure、GCP开始在InfiniBand实例上收取显著溢价(反映其运维成本),而RoCEv2实例成为默认选项,这将是市场转向的明确信号。
一位在三家公有云都做过网络产品规划的PM给了我一个简洁的判断框架:「看英伟达财报中网络业务的增速与GPU业务的增速对比。如果网络持续跑输,说明锁定策略在失效;如果网络跑赢,说明InfiniBand的护城河还在。」
回到那个70%
博通的70%数字发布于2026年3月,覆盖的是"new AI infrastructure deployments"(新建AI基础设施部署)。这个口径值得细究——它不包括存量集群的扩展,不包括非AI工作负载的网络升级,也不包括超大规模云厂商内部的自研fabric。
即便如此,这个数字的冲击力足够真实。它标志着行业共识的形成:对于新建AI基础设施,以太网是默认假设,InfiniBand需要额外论证。
这种默认假设的转移,比任何技术benchmark都更具决定性。它影响采购流程、预算审批、团队组建、供应商谈判的每一个环节。
一位在两家Fortune 500公司做过CTO的顾问告诉我,他现在的客户询价时,「网络部分默认是以太网RoCEv2,除非有明确的延迟敏感训练需求才会考虑InfiniBand。三年前是反过来的。」
这种反转的完成,意味着战争的结果已经基本确定。剩下的只是打扫战场的时间。
你的下一个AI集群,还会考虑InfiniBand吗?还是说,那个需要额外论证的选项,已经从以太网变成了它?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.