网易首页 > 网易号 > 正文 申请入驻

NVIDIA Spectrum-X 网络平台和合作伙伴提升 AI 存储性能达 48%

0
分享至

AI 工厂依靠的不仅仅是计算网。当然,连接 GPU 的东西向网络对于 AI 应用的性能至关重要,而连接高速存储阵列的存储网也不容忽视。存储性能在运行 AI 业务过程中的多个阶段中发挥着关键作用,包括训练过程中的 Checkpoint 操作、推理过程中的检索增强生成(RAG)等。

为了满足这些需求,NVIDIA 和存储生态合作伙伴正在将NVIDIA Spectrum-X 网络平台扩展到数据存储网,从而带来更高的性能和更快的实现 AI 的时间。由于 Spectrum-X 动态路由技术能够缓解网络中的流量冲突并增加有效带宽,从而使存储性能远高于 RoCE v2,RoCE v2 是大多数数据中心用于 AI 计算网和存储网的以太网网络协议。

Spectrum-X 将读取带宽加速了高达 48%,写入带宽加速了高达 41%。带宽的增加可以更快地完成 AI 工作流中与存储相关的操作,从而缩短训练业务的完成时间,并降低推理过程中的 Token 分配延迟。

Spectrum-X 的主要存储合作伙伴

随着 AI 工作负载的规模和复杂性不断增加,存储解决方案也必须不断发展,以跟上现代 AI 工厂的需求。DDNVAST DataWEKA等领先的存储供应商正与 NVIDIA 合作,利用 Spectrum-X 集成和优化其解决方案,为 AI 存储网带来先进的功能。

Spectrum-X 对 Israel-1 超级计算机的大规模影响

NVIDIA 已经搭建了生成式 AI 超级计算机 Israel-1,用于对各种 AI 网络解决方案进行预测试和验证以优化 Spectrum-X 性能和简化网络部署。这使 Israel-1 成为测试 Spectrum-X 如何影响存储工作负载的良好平台,展示了网络在现实的超级计算机运行状态下对存储性能的影响。

为了了解 Spectrum-X 对存储网络的影响,Israel-1 团队测量了从 NVIDIA HGX  GPU 服务器客户端访问存储时的读写带宽。该测试(Flexible I/O Tester 基准测试)在将网络配置为标准 RoCE v2 网络的情况下执行一次,然后在启用 Spectrum-X 的动态路由和拥塞控制后重新运行。

这些测试使用了不同数量的 GPU 服务器作为客户端运行,覆盖了从 40 个 GPU 到 800 个 GPU。在所有的测试中,Spectrum-X 都表现得更好。读带宽提升幅度在 20%到 48%之间,写带宽提升幅度在 9%到 41%之间,这些结果与 DDN、VAST 和 WEKA 等生态合作伙伴测到的加速性能一致。

存储网络性能对于 AI 性能至关重要

要想知道 Spectrum-X 为何会带来如此大的影响,需要先了解存储在 AI 业务中的重要性。AI 性能不仅仅受大语言模型(LLM)每一步完成时间的影响,还与许多其他因素有关。例如,由于模型训练通常需要几天、几周或几个月才能完成,因此设置 Checkpoint 或保存部分训练模型的中间结果到存储非常重要,通常需要每隔几个小时操作一次。这意味着,万一系统出现问题,训练进度不会丢失。

对于具有数十亿至数万亿参数的模型,这些 Checkpoint 的状态变得越来越大,现在最大型 LLM 模型会生成高达数 TB 的数据,保存数据或恢复数据会产生多条“大象流”,这些突发的大象流,可能会淹没交换机的缓冲和链路,所以网络必须保证为训练工作负载提供最佳利用率。

检索增强生成(RAG)是另一个存储网可以影响工作负载性能的例子,借助 RAG,LLM 与不断增长的知识库相结合,为模型添加特定领域的上下文,从而提供更快的响应时间,而无需额外的模型训练或微调。RAG 的工作原理是获取额外的内容或知识,并将其嵌入到向量数据库中,从而使其成为可搜索到的知识库。

输入推理提示时,系统会解析(嵌入)提示并搜索数据库,检索到的内容会向提示添加上下文,以帮助 LLM 制定最佳答案。向量数据库是多维的,可能非常庞大,尤其是由图像和视频组成的知识库。

这些数据库通过存储网连接到推理节点,网络必须确保快速通信以尽可能降低延迟。对于多租户生成式 AI 工厂而言,这一点变得尤为重要,因为这些工厂每秒要处理大量的查询。

存储中动态路由和拥塞控制的应用

Spectrum-X 平台引入了 InfiniBand 网络上的关键创新技术,例如RoCE Adaptive Routing(动态路由)RoCE Congestion Control(拥塞控制)。NVIDIA 通过采用这些创新技术并将其与存储网相结合,提高了存储工作负载的性能和网络利用率。

动态路由

为了消除大象流之间的碰撞并减轻 Checkpoint 过程中产生的网络流量,动态路由可以对于网络上的流进行逐包的动态负载平衡,Spectrum-4 以太网交换机根据实时拥塞状况来选择拥塞最低的路径。由于数据包被喷洒到整个网络中,到达目的地时它们可能会出现乱序,在传统的以太网下,这将需要重新传输许多数据包。

借助 Spectrum-X,接收端主机里的 SuperNIC 或数据处理器(DPU)知道数据包的正确顺序,可以在主机内存中按序放置数据包,从而使动态路由对应用程序透明。这可提高网络利用率,为 Checkpoint、数据获取等实现更高的有效带宽以及提供可预测、一致的结果。

拥塞控制

Checkpoints 和其它存储操作通常会导致 Incast 拥塞,也称为多对一拥塞。当多个客户端尝试向单个存储节点写入数据时,就会出现这种情况。Spectrum-X 引入了一种基于遥测的拥塞控制技术,使用交换机中硬件遥测技术来通知 SuperNIC 或 DPU,以降低发送端的数据注入速率(即 RDMA 写和读)。从而防止出现拥塞热点,这些热点可能会反向传播,导致相邻作业或进程受到拥塞的不公平影响。

增强弹性

由于 AI 工厂通常由大量交换机、线缆和收发器组成,任何链路中断都可能导致网络性能的大幅下降,因此网络弹性对于维护基础设施的健康至关重要。Spectrum-X 全局动态路由可在链路中断时实现优化、快速的重新收敛,从而充分利用存储网。

NVIDIA 全栈集成

除了 Spectrum-X 为存储网带来的创新之外,NVIDIA 还提供并推荐使用多种 SDK、库和软件产品,以加速存储到 GPU 数据通路,其中包括但不限于以下内容:

  • NVIDIA Air:一款基于云的网络仿真工具,用于对交换机、SuperNIC 和存储进行建模,可加速 Day 0、Day 1 和 Day 2 对于存储网的操作。
  • NVIDIA Cumulus Linux:基于自动化部署和 API 构建的网络操作系统,可确保大规模网络的平稳运营和管理。
  • NVIDIA DOCA:面向 NVIDIA SuperNIC 和 DPU 的 SDK,可在存储、安全等方面提供出色的可编程性和性能。
  • NVIDIA NetQ:一款网络验证工具集,集成了交换机遥测技术,可提供网络的实时可见性。
  • NVIDIA GPUDirect Storage:一项在存储和 GPU 显存之间建立直接数据路径的技术,可提高数据传输效率。

开始使用 Spectrum-X

随着模型越来越大,数据走向更多的多模态,存储将一直是生成式 AI 训练和操作的关键要素。

有关更多信息请扫描下方二维码,参阅 NVIDIA 白皮书,并从 NVIDIA 合作伙伴生态系统中了解更多信息:

NVIDIA 白皮书:优化 AI 存储网:NVIDIA Spectrum-X 加速 AI 存储网络

DDN 博客文章:借助 DDN 和 NVIDIA Spectrum-X 加速 AI 存储网络

DDN 白皮书:借助 DDN 的数据智能平台和 NVIDIA Spectrum-X 加速 AI 存储网络

VAST 博客文章:NVIDIA Spectrum-X 和 VAST 数据平台:开创 AI 基础架构的未来

VAST 白皮书:NVIDIA Spectrum-X Technology 适用于 AI 存储矩阵和 VAST Data Platform

WEKA 博客文章:WEKA 如何使用 NVIDIA Spectrum-X 重新定义 AI 和 HPC 工作负载的网络

扫描下方二维码,立即注册NVIDIA GTC 2025并预约 Storage Innovations for AI Workloads 会议,了解该领域更多新闻。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
麦当劳堕落成这样!上海顾客怒斥,大量餐盘没人收,取餐随便叫号

麦当劳堕落成这样!上海顾客怒斥,大量餐盘没人收,取餐随便叫号

火山詩话
2026-06-16 06:27:41
我57岁,突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

我57岁,突然发现一个残忍真相:极度自律,每天锻炼的人,不一定能长寿,但是,极度自私,不为任何人、任何事操心的人很可能长寿

背包旅行
2026-06-16 11:28:44
王毅将出席国新办新闻发布会

王毅将出席国新办新闻发布会

新京报
2026-06-16 16:46:29
董路荷兰赛后当众宣布:取消66号队员戴宥哲巴西资格

董路荷兰赛后当众宣布:取消66号队员戴宥哲巴西资格

林子说事
2026-06-16 05:28:43
人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

人大代表建议机关事业单位双休制调整为“大周休3天,小周休2天”

职场资深秘书
2026-06-16 10:32:28
阿里飞猪启动大幅裁员?传最高比例超50%

阿里飞猪启动大幅裁员?传最高比例超50%

i黑马
2026-06-16 15:20:22
19号端午节,无论多忙,牢记:1不出,2不说,3不送,别犯忌讳

19号端午节,无论多忙,牢记:1不出,2不说,3不送,别犯忌讳

周哥一影视
2026-06-16 12:12:59
受贿数额特别巨大 检察机关依法对倪强涉嫌受贿案提起公诉

受贿数额特别巨大 检察机关依法对倪强涉嫌受贿案提起公诉

每日经济新闻
2026-06-15 14:17:19
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
处理干净的牛蛙放进冰箱,第二天竟长出细长“白线”,网友:是裂头蚴,要煮熟

处理干净的牛蛙放进冰箱,第二天竟长出细长“白线”,网友:是裂头蚴,要煮熟

大象新闻
2026-06-16 15:29:09
迪丽热巴"不雅"手机壳曝光!带货女王天塌了

迪丽热巴"不雅"手机壳曝光!带货女王天塌了

新浪财经
2026-06-15 19:32:22
特朗普大发雷霆后,内塔尼亚胡回应:以军不撤

特朗普大发雷霆后,内塔尼亚胡回应:以军不撤

澎湃新闻
2026-06-16 10:55:03
天皇当着全世界的面给高市早苗上了一课:你再狂,能狂得过天皇?

天皇当着全世界的面给高市早苗上了一课:你再狂,能狂得过天皇?

晓帝爱八卦
2026-06-15 11:32:28
印度高官自己喊话“该关出境的门了”,中国民宿已经把门关上了

印度高官自己喊话“该关出境的门了”,中国民宿已经把门关上了

众生的世界观
2026-06-15 22:23:00
为什么失业这么严重,社会却安静得可怕,没有乱起来?答案扎心又现实

为什么失业这么严重,社会却安静得可怕,没有乱起来?答案扎心又现实

经济学教授V
2026-06-16 18:18:47
理想汽车基座模型负责人:“除了特斯拉 FSD,国内没有智驾第一梯队”,太强了!

理想汽车基座模型负责人:“除了特斯拉 FSD,国内没有智驾第一梯队”,太强了!

新浪财经
2026-06-16 01:30:09
比2008更恐怖!84岁罗杰斯终极预言:今年爆发一生最惨烈危机

比2008更恐怖!84岁罗杰斯终极预言:今年爆发一生最惨烈危机

流苏晚晴
2026-06-14 19:47:58
LG杯王星昊2-1申旻埈两世冠在手 正本清源!中国棋手拿赛会第13冠

LG杯王星昊2-1申旻埈两世冠在手 正本清源!中国棋手拿赛会第13冠

劲爆体坛
2026-06-16 13:32:08
100%癌细胞被清除!2026年ASCO发布,这款神仙疗法让癌症患者沸腾

100%癌细胞被清除!2026年ASCO发布,这款神仙疗法让癌症患者沸腾

无癌家园i
2026-06-16 16:06:34
马上扔掉家里这1种调料,不仅有毒还致癌!很多人还天天吃

马上扔掉家里这1种调料,不仅有毒还致癌!很多人还天天吃

名医在线网
2026-06-14 10:40:10
2026-06-16 19:07:00
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3575文章数 1459关注度
往期回顾 全部

科技要闻

DeepSeek融资500亿,梁文锋牢牢握住控制权

头条要闻

国际足联主席鼓舞没过多久 伊朗队突然被要求打包离开

头条要闻

国际足联主席鼓舞没过多久 伊朗队突然被要求打包离开

体育要闻

身价5万的门将,挡住了12亿欧元的狂轰滥炸

娱乐要闻

吴文忻葬礼:2个女儿在灵堂内茫然失措

财经要闻

2万亿存款去哪儿了?

汽车要闻

smart #6上市后 竟然很少被讨论参数

态度原创

健康
本地
游戏
时尚
公开课

粽子一次吃多少不伤胃?专家讲解

本地新闻

这届年轻人为什么都在找心流时刻?

猎魂世界:闪光唐舞桐VS残血唐晨!7月周年庆到底谁能最终应验?

2026最流行的4种色彩,配牛仔蓝太好看了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版