博通70%数据扎心英伟达：InfiniBand正在输掉这场战争|思科|交换机|gpu|新模型|博通有限|知名企业|infiniband

分享至

70%的新建AI基础设施正在抛弃InfiniBand。这是博通2026年3月财报电话会上的数字，不是预测，是已经发生的事实。

过去三年，数据中心网络的选择题被简化为一道是非题：要延迟，选InfiniBand；要灵活，选以太网。现在这道题被 hyperscaler（超大规模云服务商）们重新出卷——答案是以太网，而且不是因为以太网变快了，是因为InfiniBand的路走到了头。

技术优势的边界：InfiniBand困在自己的舒适区

先承认一件事：InfiniBand在特定场景下仍然是更好的技术。 tightly coupled（紧耦合）、同构、单供应商GPU集群，运行大规模分布式训练，环境可控——这些条件下，InfiniBand的延迟特性和RDMA（远程直接内存访问）实现确实有差异化优势。

问题在于，这个"特定场景"正在收缩。

英伟达把InfiniBand打包成平台承诺，而非单纯的网络选项。GPU、网卡、交换机、软件栈深度耦合，性能是真的，锁-in也是真的。对于考虑多供应商GPU采购或异构推理环境的组织，今天的fabric（网络架构）选择会锁定未来多年的硅片决策。

一位在两家头部云厂商都做过网络架构的工程师跟我形容这种困境："InfiniBand像一台精密的手动变速箱，赛道上是神，堵车时是灾难。而企业AI的现实是，你既要在赛道上跑训练，又要在市区里做推理，还要应付早晚高峰的突发流量。"

更隐蔽的成本是人力。InfiniBand需要独立的工具链、独立的技能栈、独立的运维模型。你的网络工程师懂以太网，你的云工程师懂以太网。InfiniBand专家是专项招聘——而大多数组织的招聘预算早已捉襟见肘。

超大规模云厂商的集体转向

AWS、Google、Microsoft——三家最大的AI训练环境——全部基于以太网架构构建或正在构建其后端fabric。这不是巧合，是生态系统的复利效应。

当全球最大的AI训练环境收敛到同一种fabric模型，工具链、运维经验和生态系统会自我强化。团队在云上训练后，回到本地部署AI集群时，如果选择InfiniBand，会遭遇剧烈的操作断层。

这种断层有多痛？一位从AWS跳槽到某头部量化机构的ML工程师告诉我："我们在SageMaker上训模型，习惯了CloudWatch、熟悉的CLI、能Google到的错误日志。回到公司发现是InfiniBand，第一件事是发邮件问'你们有没有Mellanox的FAE联系方式'——那种落差，像从iOS换到功能机。"

Ultra Ethernet Consortium（超以太网联盟）把这种趋势正式化了。UEC由AMD、博通、思科、HPE、Intel、Meta、微软共同支持，正在为以太网构建AI优化的扩展，以缩小与InfiniBand在分布式训练上的差距。

拥塞控制、按序交付、多路径能力——这些InfiniBand的原生特性，正在被工程化为开放标准。不是复制，是重新设计为更松耦合的形态。

生态系统的终局：为什么性能不是决定性因素

这场战争的关键认知是：InfiniBand的失利不是性能判决，是生态系统判决。

博通70%的数字背后，是三个结构性力量的汇合：

第一，云原生工作流的惯性。现代AI团队的基础设施认知建立在以太网之上，从开发环境到生产部署，以太网是默认假设。任何偏离这个假设的选择都需要额外的论证成本和组织摩擦。

第二，多供应商策略的崛起。企业越来越不愿意把AI基础设施的全部赌注押在单一供应商身上。AMD MI300系列、Intel Gaudi、自研ASIC的选项在增多，而InfiniBand的紧密耦合让这些选项的集成变得复杂。

第三，推理工作负载的权重上升。训练需要低延迟fabric，推理更需要灵活调度、弹性扩展、与现有基础设施的兼容。以太网在这些维度上的优势正在放大。

一位思科企业网络部门的VP在内部沟通中用了个精妙的类比："InfiniBand是F1赛车——在特定赛道上无可匹敌，但需要专属车队、专属赛道、专属燃料。以太网是改装过的性能轿车，95%的场景够快，而且能开去超市接孩子。"

架构师的现实选择：你的下一个集群用什么

对于正在规划AI基础设施的架构师，这个转变意味着什么？

如果你正在构建一个纯粹的、大规模的、单一供应商GPU训练集群，且团队有InfiniBand运维经验，InfiniBand仍然是合理选择。延迟优势真实存在，英伟达的集成优化也确实到位。

但如果你需要支持多供应商GPU、异构推理硬件、云-边-端混合部署，或者团队技能栈以以太网为主，RoCEv2（基于融合以太网的RDMA）的生态优势会随时间放大。

更长期的考量是供应商锁定。选择InfiniBand不仅是选择一种网络技术，是选择一种采购路径、一种组织能力建设方向、一种未来硅片决策的约束条件。

博通CEO Hock Tan在财报电话会上的原话值得细品：「客户想要选择，他们不想被锁定在单一架构中。」这句话的指向很明确。

一位在三家不同规模AI公司做过基础设施的CTO跟我总结了他的决策框架："延迟敏感的训练任务，我会租英伟达的DGX Cloud；需要长期持有的基础设施，我选UEC兼容的以太网方案。不是InfiniBand不好，是我赌不起那个锁定。"

这种"混合策略"正在成为主流。用云上的InfiniBand处理峰值训练负载，用本地的以太网fabric支撑日常推理和开发——不是二选一，是分层解耦。

UEC的进度条：差距还有多大

批评者会指出，UEC的完整规范尚未落地，以太网在极端延迟场景下仍有差距。这是事实，但需要放在时间维度上看。

UEC 1.0规范预计2026年发布，首批兼容产品已在2025年下半年出货。博通、思科、Arista的交换机，Intel、AMD的网卡，都在这个生态中。

更重要的是，"足够好"的阈值正在移动。对于大多数企业AI工作负载，RoCEv2的延迟特性已经满足需求，而运维简化和供应商灵活性的价值在累积。

一位参与UEC标准制定的工程师透露了个细节：「我们在拥塞控制算法上花了18个月，不是抄InfiniBand，是重新设计为更适合以太网异步特性的方案。最终的性能差距在训练场景下会缩小到10%以内，但部署灵活性完全不在一个维度。」

10%的性能差距，换多供应商选择、现有团队技能复用、与云环境的无缝衔接——这个trade-off（权衡）对大多数企业来说是正向的。

英伟达的应对：平台防御战

英伟达并非坐以待毙。InfiniBand的演进路线仍在推进，NVIDIA Spectrum-X作为以太网替代方案也在布局。但Spectrum-X的定位微妙——它既是以太网，又带有英伟达特有的优化和锁定。

这种"半开放"策略反映了英伟达的两难：完全拥抱开放以太网会侵蚀InfiniBand的差异化价值；坚持封闭又会加速客户向纯开放方案流失。

黄仁勋在GTC 2026上的演讲有个值得玩味的表述：「我们支持客户的选择，无论他们选择InfiniBand还是以太网。」这句话的公关成分大于实质——英伟达的财务数据清晰显示，网络业务的增长正在从InfiniBand向Spectrum-X转移。

一位前Mellanox工程师（2019年英伟达收购后加入）在离职后写道：「我们曾以为InfiniBand会成为AI基础设施的TCP/IP。现在看，它更可能成为AI时代的Fibre Channel——在特定垂直领域保持存在，但不再是通用标准。」

这个类比刺耳，但准确。Fibre Channel在存储网络中仍有份额，却不再是新部署的默认选项。InfiniBand可能走上类似路径。

企业部署的真实图景

把视角从巨头博弈拉回企业现场，能看到更复杂的决策矩阵。

某头部制药公司的AI基础设施负责人告诉我，他们2024年的集群选择了InfiniBand，2025年的扩建却转向了RoCEv2。"不是对英伟达有意见，是我们买了AMD的MI300做部分推理，发现InfiniBand的集成成本太高。两套网络并行运行了6个月，最后决定统一走以太网。"

这种"混合遗产"正在成为常态。早期押注InfiniBand的企业，现在面临迁移或并行的选择；新建集群则越来越多地跳过InfiniBand，直接从RoCEv2起步。

金融行业的案例更有代表性。某顶级投行的量化交易基础设施团队，2023年为了微秒级延迟选了InfiniBand，2025年却发现推理端的模型服务需要与现有Kubernetes平台深度集成。"训练那部分还留着InfiniBand，但推理全切到以太网了。现在一个模型从训练到上线，要跨两种网络，运维复杂度是我们没预料到的。"

这些碎片拼凑出的图景是：InfiniBand不会消失，但正在从"默认选项"退化为"特定场景选项"。这个退化的速度，比大多数技术预测更快。

工具链与人才市场的连锁反应

基础设施选择的涟漪效应，正在重塑人才市场和工具链生态。

招聘市场上，"InfiniBand工程师"的薪资溢价在2024年达到峰值后开始回落。某头部猎头的数据显示，2025年Q1，具备RoCEv2和UEC经验的候选人简历数量同比增长340%，而InfiniBand专项职位的发布量下降了28%。

工具链侧，开源监控、可观测性、自动化工具正在向以太网优先倾斜。Prometheus、Grafana的InfiniBand插件维护活跃度明显低于以太网生态。一位做数据中心可观测性创业的创始人直言：「我们为InfiniBand做支持是因为客户要求，但内部优先级是以太网为先。UEC的开放标准让工具集成更容易，这是飞轮效应。」

培训和教育市场也在响应。Coursera、Udacity上的数据中心网络课程，2024年后新增的模块几乎全是RoCEv2和UEC相关。InfiniBand内容被标记为"legacy"（遗留技术）或完全省略。

这种生态系统的倾斜是自我强化的。新入行者学习以太网，企业招聘以太网专家，工具厂商优化以太网支持——InfiniBand的护城河从外部被侵蚀。

延迟崇拜的终结

这场fabric战争有个更深层的启示：AI基础设施的决策逻辑正在从"延迟优先"转向"效率优先"。

过去三年，行业被一种简单叙事主导——延迟决定一切，所以InfiniBand必胜。这个叙事忽略了运维复杂度、团队技能、供应商灵活性、长期锁定成本等维度。

博通70%的数字标志着这种叙事的破产。不是延迟不重要，是"延迟是唯一重要指标"的假设不成立。

一位在Google Borg团队和OpenAI都工作过的工程师，现在在创业做AI基础设施优化。他的观察是：「人们高估了训练延迟对总成本的影响，低估了运维摩擦对迭代速度的拖累。一个每周能全量训练3次的团队，比一个每周能训练4次但部署需要2天的团队，实际产出更高。」

这种"端到端效率"视角，正是以太网生态的优势所在。它不是某个单点的最优，是系统层面的更优解。

未来18个月的观察清单

对于需要跟踪这个趋势的技术决策者，有几个关键节点值得关注：

UEC 1.0规范的最终发布（预计2026年Q2），以及首批大规模部署的实测数据。这将是验证"10%差距"承诺的关键。

英伟达Spectrum-X的市场表现。如果英伟达自己的以太网方案能获得显著份额，说明InfiniBand的退潮速度会加快；如果Spectrum-X也遇冷，则意味着客户想要的是真正开放的以太网，而非英伟达风格的"开放"。

AMD和Intel在UEC生态中的投入力度。GPU市场的多极化是打破InfiniBand锁定的核心变量，而网络fabric的选择会反向影响GPU采购决策。

云厂商的定价策略。如果AWS、Azure、GCP开始在InfiniBand实例上收取显著溢价（反映其运维成本），而RoCEv2实例成为默认选项，这将是市场转向的明确信号。

一位在三家公有云都做过网络产品规划的PM给了我一个简洁的判断框架：「看英伟达财报中网络业务的增速与GPU业务的增速对比。如果网络持续跑输，说明锁定策略在失效；如果网络跑赢，说明InfiniBand的护城河还在。」

回到那个70%

博通的70%数字发布于2026年3月，覆盖的是"new AI infrastructure deployments"（新建AI基础设施部署）。这个口径值得细究——它不包括存量集群的扩展，不包括非AI工作负载的网络升级，也不包括超大规模云厂商内部的自研fabric。

即便如此，这个数字的冲击力足够真实。它标志着行业共识的形成：对于新建AI基础设施，以太网是默认假设，InfiniBand需要额外论证。

这种默认假设的转移，比任何技术benchmark都更具决定性。它影响采购流程、预算审批、团队组建、供应商谈判的每一个环节。

一位在两家Fortune 500公司做过CTO的顾问告诉我，他现在的客户询价时，「网络部分默认是以太网RoCEv2，除非有明确的延迟敏感训练需求才会考虑InfiniBand。三年前是反过来的。」

这种反转的完成，意味着战争的结果已经基本确定。剩下的只是打扫战场的时间。

你的下一个AI集群，还会考虑InfiniBand吗？还是说，那个需要额外论证的选项，已经从以太网变成了它？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.