网易首页 > 网易号 > 正文 申请入驻

Meta与Oracle“押注”Spectrum-X “AI Factory” 感知中枢成形

0
分享至

作者:毛烁

如果说GPU是AI的“肌肉”,模型是“意识”,那么网络就是让其产生协同与感知的“神经”。

过去几十年,以太网一直是非常成熟可靠的网络,也是应用最广泛的选择。但随着AI的出现,这一共识出现了“松动”。

如今,AI的演进之下,微软、Meta、特斯拉、字节跳动等行业巨头纷纷以“模型生产线”的思路重构基础设施,从算力调度、数据流转,到模型训练与部署,形成了一条端到端的体系。

而这,正是“AI Factory”理念的具象化实践。


这一理念下,随之而来的问题是,以太网的核心设计逻辑强调通用性与成本效率,而AI训练要求的则是:高带宽、低延迟、确定性通信。

试想,在数千张GPU并行计算的场景中,任何流量抖动(jitter)或带宽竞争(bandwidth contention),都将拖慢整个训练流程,使GPU无法满负荷计算,造成算力浪费。

AI的高负载之下,以太网的弱点被逐渐放大,带宽、延迟、隔离、跨域扩展等问题,将传统以太网一次次拉到“边界”。

01 传统以太网“四重边界”

具体而言,在超高并发、海量数据交换的场景下,以太网的“边界”体现在四个层面。

其一是带宽利用率低下。分布式训练中的通信操作(如用All-reduce来实现数据聚合与分发),会产生大规模、高并发的“多对一”流量,即“Incast”(拥塞)。而传统网络依赖的等价多路径(ECMP)负载均衡机制,常常基于静态Hash算法分配流量,无法感知网络的瞬时状态,极易导致部分路径拥塞,但其他路径闲置的情况。

这种流量分配的不均衡性,造成了交换机内部缓冲区的极大压力,导致丢包和重传,最终将端到端的网络吞吐效率限制在较低水平,形成“宽路窄用”的局面。

其二是性能缺乏确定性。在AI训练过程中,对网络延迟及其稳定性(不稳定会出现Jitter)极为敏感。然而,不可预测的网络延迟、Jitter,都会拖慢整个计算集群的进度,从而影响模型的收敛速度和训练总成本。

所以,追求鲁棒性和通用性的以太网,并不能提供可预测、确定性的性能保障。而这种不确定性,无法满足 AI训练和推理对精确控制和高效调度的要求。

其三,多租户环境下的性能隔离问题。在云原生环境,多个AI任务或租户共享网络基础设施是常态。一个高强度的训练任务,其突发流量很容易对其他任务造成干扰,形成“嘈杂邻居”效应(“嘈杂邻居”即在共享托管条件下,一方使用比最初分配更多的资源,另一方则受到暂时限制)。

而传统的QoS机制,虽然能提供一定的优先级划分,但在应对AI任务流量复杂的动态特性时,往往颗粒度过粗,难以实现精细化、无损的性能隔离。

其四是规模化扩展下的限制。随着AI模型参数规模的指数级增长,单一数据中心已无法满足算力需求。将分散的多个数据中心整合成一个逻辑统一的“超级计算机”,成为必然趋势。

然而,跨地域的长距离链路带来了显著的延迟增加和不稳定性,传统的RDMA(远程直接内存访问)协议和拥塞控制算法在这一环境下性能急剧下降,构建统一、高效的跨域AI网络成为艰巨的技术挑战。

这些挑战共同指向一个结论——对网络的优化,不能再停留在修补式的改良,而必须进行一场自下而上的、系统性的重构。

02 Spectrum-X重写“连接秩序”跨越以太网“临界点”


截取自NVIDIA官网

与传统以太网相比,Spectrum-X可提供卓越的NCCL(NVIDIA集合通信库)。

作为业界首款专为满足AI云需求而打造的高性能以太网网络平台。旨在为万亿参数级别的大规模生成式AI模型提供性能、效率和可扩展性,通过将数百万个GPU高效互联,为AI工作负载提供前所未有的加速。

Spectrum-X通过软硬件协同设计,使得传统的以太网在AI应用场景下的性能实现了质的飞跃。根据NVIDIA官方数据显示,其可将AI网络性能提升高达1.6倍,并在多租户云环境中实现一致且可预测的性能。


截取自NVIDIA官网

目前,Spectrum-X已经获得了业界的广泛认可。在近期的2025 OCP APAC Summit科技巨头 Meta 已宣布将采用基于NVIDIA Spectrum-X以太网的交换机,用于其Facebook开放交换系统(FBOSS)平台。

同时,甲骨文(Oracle)也计划采用Spectrum-X以太网交换机构建十亿瓦级(Giga-Scale)AI 超级计算机。

先聚焦于Spectrum-X本身,其真正革命性创新,在于开放的RoCEv2 (RDMA over Converged Ethernet) 标准,通过创新的软件和协议层增强,实现了对AI工作负载的深度优化。

具体来看,针对带宽利用率低下的拥塞问题,利用Spectrum-X的“ROCE动态路由”可使得大型 AI流远离拥塞点,从而避免发生拥塞。其通过Spectrum-4 交换机采用的细颗粒度负载均衡和动态重新路由等技术以消除拥塞,主动地将流量引导至非拥塞路径。同时,Spectrum-X平台的BlueField-3 SuperNIC 协同处理可能产生的乱序数据包。


NVIDIA Spectrum-4(截取自NVIDIA官网)


NVIDIA BlueField-3(截取自NVIDIA官网)

这一方案可提高网络资源的利用率、叶/脊节点的效率和性能,从根本上解决了“宽路窄用”的局面。

目前Spectrum-X 以太网网络已经展现出创纪录的效率,以其先进的拥塞控制技术,助力全球最大的 AI 超级计算机实现了95% 的数据吞吐量。相比之下,通用以太网在规模部署中,会发生不计其数的流量冲突,导致吞吐量降低至大约 60% 的水平。

针对AI训练带来的网络延迟和抖动等性能缺失确定性问题,Spectrum-X通过提供深度的网络可视性,为实现性能确定性提供了基础。

Spectrum-X平台拥有更好的AI网络架构可视性,可通过实时监控和识别潜在的性能瓶颈(如即将发生拥塞的队列),网络可以进行主动干预和优化(如通过动态路由和拥塞控制),从而避免了不可预测的延迟和抖动,保障了AI训练所需的性能确定性。

面对多租户环境下的性能隔离问题在共享的云环境中“嘈杂邻居”效应,Spectrum-X也提供了直接且明确的解决方案。

一方面是Spectrum-X增强多租户性能可确保每个租户的工作负载以最佳方式持续执行,从而提高客户满意度和服务质量。

另一方面,借助Spectrum-X的BlueField-3 SuperNIC,可为每个租户的安全虚拟私有云 (VPC) 提供增强的工作负载隔离,在保障隔离的彻底性和高效性前提下,确保不同租户间互不干扰。

而对于规模化扩展下的限制问题,NVIDIA也针对 Spectrum-X以太网平台的进行了全新拓展,推出Spectrum-XGS,旨在解决跨数据中心的超大规模AI集群互联问题,其能够将Spectrum-X以太网的超高性能与弹性,延伸至多个分布式数据中心,并整合为具备“十亿瓦级”的超级AI Factory。


截取自NVIDIA官网

03 Meta与Oracle同时押注 开启“AI Factory”“神经觉醒

说回到Meta 与Oracle均宣布将采用NVIDIA Spectrum-X平台,作为其AI数据中心网络升级的核心技术。

具体来说,Oracle将构建由 NVIDIA Vera Rubin 架构提供加速并通过Spectrum-X以太网进行互连的十亿瓦级(Giga-Scale)AI 工厂。

Oracle云基础设施(OCI)执行副总裁Mahesh Thiagarajan指出,通过采用Spectrum-X,他们能够“以突破性的效率实现数百万块GPU的互联”,从而让其云客户能够更快地训练和部署新一代生成式AI模型,这充分体现了其将AI能力作为核心服务的战略。

与此同时,Meta将把Spectrum-X以太网平台集成至其Facebook开放交换系统(FBOSS)的网络基础设施中。

Meta网络工程副总裁Gaya Nagarajan表示,此举既能延续Meta的开放网络战略,又能获得训练更大规模模型、向数十亿用户提供生成式AI应用所需的“效率与稳定性”。

这也表明,Spectrum-X不仅性能强大,其开放性也足以融入并增强行业领先的、定制化的网络环境。

这一举措的背后,其实也标志着行业头部正将Spectrum-X视为构建未来AI基础设施的标准化、开放式网络架构。是行业巨头对“AI Factory”理念的认同。

随着万亿参数大模型的普及,数据中心正在从传统的计算中心演变为能够高效、大规模生产智能的“AI Factory”。

正如NVIDIA创始人兼首席执行官黄仁勋所言:“Spectrum-X不仅是更快的以太网,更是AI 工厂的神经系统,帮助超大规模企业将数百万个GPU连接到一起,构建成一台巨型计算机,从而训练有史以来规模最大的模型。”

Meta与甲骨文的战略决策,代表了AI行业发展的清晰方向。无论是为公有云客户构建强大的AI基础设施,还是为支撑全球最大社交平台的AI应用,他们都选择了Spectrum-X作为实现其“AI Factory”愿景的关键一环。

而这些重量级的合作,连同越来越多加入该生态系统的合作伙伴,共同印证了Spectrum-X已成为推动这场变革的核心技术力量。


Spectrum-X有关合作伙伴(截取自NVIDIA官网)

04 写在最后

NVIDIA Spectrum-X平台的技术创新,以及其和Meta、Oracle等顶级伙伴中的成功合作实践,其实也预示着数据中心网络正进入下一个阶段的开端。这场变革的核心,是网络范式的转变。

具体来看,在三个层面:

从“通用”,转向“专用”。网络不再是对上层应用一无所知的通用管道,而是为特定关键应用(如AI)深度定制、能够提供可预测性能保障的精密架构。

从“组件各自为政”,转向“系统协同智能”。网络的性能不再仅仅取决于单个硬件的指标,而更多地依赖于从终端到交换机、从硬件到软件的全局协同和闭环智能控制。

从“被动传输”,转向“主动感知与调度”。基于实时、全面的遥测数据,网络具备了自我感知和自我调节的能力,能够主动规避拥塞、优化路径,实现资源的最佳利用。

在下一个以AI作为第一生产力的时代,对极致计算效率的追求,将不可避免地推动基础设施向着更专业化、更智能化的方向演进。

而Spectrum-X正成为这场演进的“先行者”。其所开启的,更是一个关乎未来“AI Factory”如何构建其“神经中枢”的深刻命题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5-1!勇士神级操作!谢谢你,库明加!

5-1!勇士神级操作!谢谢你,库明加!

篮球实战宝典
2026-01-01 23:57:49
10年跟踪100多个孩子, 杜克教授发现:照这个趋势, 滑落的中产只会越来越多

10年跟踪100多个孩子, 杜克教授发现:照这个趋势, 滑落的中产只会越来越多

二胎妈妈圈
2025-12-25 22:14:35
海上发生激烈对峙!为拦截美军火船入台,解放军已做好充分准备

海上发生激烈对峙!为拦截美军火船入台,解放军已做好充分准备

霹雳炮
2026-01-02 18:28:00
1499元飞天茅台秒售罄?别急,每人每天都有机会抢12瓶!

1499元飞天茅台秒售罄?别急,每人每天都有机会抢12瓶!

证券时报e公司
2026-01-01 17:49:58
殷秀梅:遗憾没生孩子,一心培养弟弟,替弟弟养女儿值吗?

殷秀梅:遗憾没生孩子,一心培养弟弟,替弟弟养女儿值吗?

细品名人
2025-12-11 07:16:50
安宫牛黄丸为何成了中国最昂贵的假药?

安宫牛黄丸为何成了中国最昂贵的假药?

微评社
2025-12-15 15:38:28
"灯神"长泽梓:14岁出道却成时代遗憾,她到底输在哪?

"灯神"长泽梓:14岁出道却成时代遗憾,她到底输在哪?

素然追光
2026-01-01 03:20:03
美媒:短短1年不到,从存亡边缘到超级大国,中国是怎么做到的?

美媒:短短1年不到,从存亡边缘到超级大国,中国是怎么做到的?

楠楠自语
2025-12-26 15:41:17
原中山一院副院长张弩已任广东省人民医院院长,今年44岁

原中山一院副院长张弩已任广东省人民医院院长,今年44岁

南方都市报
2026-01-01 23:12:21
中国3大禁地,个个重兵把守,无论哪一个被偷袭,都将视为宣战

中国3大禁地,个个重兵把守,无论哪一个被偷袭,都将视为宣战

范櫳舍长
2026-01-01 19:59:03
封关后海南迎首个小长假:游客在免税店扫货到凌晨,三亚五星级酒店再现10万房价

封关后海南迎首个小长假:游客在免税店扫货到凌晨,三亚五星级酒店再现10万房价

时代财经
2026-01-01 15:14:09
快船主帅泰伦卢解读末节DNP哈登:伦纳德与替补应得的奖励

快船主帅泰伦卢解读末节DNP哈登:伦纳德与替补应得的奖励

老税系戏精北鼻
2026-01-02 17:23:06
30秒售罄,黄牛被茅台打哭了

30秒售罄,黄牛被茅台打哭了

品牌头版
2026-01-02 18:48:58
刘伯承晚年评价:军中有2人最懂三教九流,一是贺龙,二是陈赓

刘伯承晚年评价:军中有2人最懂三教九流,一是贺龙,二是陈赓

雍亲王府
2026-01-02 12:25:03
中国不接盘之后,美债压垮帝国体面!三条路都是慢性死法?

中国不接盘之后,美债压垮帝国体面!三条路都是慢性死法?

社会日日鲜
2026-01-02 01:15:45
溥仪9岁仍在吃奶,给他当乳娘有2规矩:一是喂奶,另一个毫无人性

溥仪9岁仍在吃奶,给他当乳娘有2规矩:一是喂奶,另一个毫无人性

小豫讲故事
2025-12-27 06:00:06
1200元节日补助确认到账!6类人春节前能领钱

1200元节日补助确认到账!6类人春节前能领钱

李博世财经
2026-01-01 17:04:41
扫地出门,俩儿子被婆家“控制”?张嘉倪官宣喜讯,彻底打脸买超

扫地出门,俩儿子被婆家“控制”?张嘉倪官宣喜讯,彻底打脸买超

距离距离
2025-12-19 19:38:42
乒超联赛:申裕斌4胜5负,陈熠、钱天一爆冷输球!

乒超联赛:申裕斌4胜5负,陈熠、钱天一爆冷输球!

老牛体育解说
2026-01-02 19:07:41
嗑药过度的年轻白人女孩躺街上,是谁在消费这些明码标价的人生?

嗑药过度的年轻白人女孩躺街上,是谁在消费这些明码标价的人生?

诗意世界
2026-01-01 16:53:08
2026-01-02 19:56:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15206文章数 49682关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

媒体:赖清德叫嚣"中共不敢越雷池" 转头就被狠抽耳光

头条要闻

媒体:赖清德叫嚣"中共不敢越雷池" 转头就被狠抽耳光

体育要闻

英超离谱夜?4战全平3场0-0 曼城红军翻车

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

8200亿扩产潮下的锂电供应链之战

汽车要闻

奇瑞汽车12月销量超23万辆 全年超263万辆

态度原创

亲子
教育
旅游
房产
公开课

亲子要闻

这是所有奶奶的梦中情孙,饭渣妈妈的梦中情孩吗? 杨雪呀

教育要闻

一年级数学思维题,在方框里填上合适的数

旅游要闻

旋转木马、城市冰场同步开放,冰雪与童话交织在陆家嘴商圈

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版