网易首页 > 网易号 > 正文 申请入驻

NVIDIA Spectrum-X 网络平台和合作伙伴提升 AI 存储性能达 48%

0
分享至

AI 工厂依靠的不仅仅是计算网。当然,连接 GPU 的东西向网络对于 AI 应用的性能至关重要,而连接高速存储阵列的存储网也不容忽视。存储性能在运行 AI 业务过程中的多个阶段中发挥着关键作用,包括训练过程中的 Checkpoint 操作、推理过程中的检索增强生成(RAG)等。

为了满足这些需求,NVIDIA 和存储生态合作伙伴正在将NVIDIA Spectrum-X 网络平台扩展到数据存储网,从而带来更高的性能和更快的实现 AI 的时间。由于 Spectrum-X 动态路由技术能够缓解网络中的流量冲突并增加有效带宽,从而使存储性能远高于 RoCE v2,RoCE v2 是大多数数据中心用于 AI 计算网和存储网的以太网网络协议。

Spectrum-X 将读取带宽加速了高达 48%,写入带宽加速了高达 41%。带宽的增加可以更快地完成 AI 工作流中与存储相关的操作,从而缩短训练业务的完成时间,并降低推理过程中的 Token 分配延迟。

Spectrum-X 的主要存储合作伙伴

随着 AI 工作负载的规模和复杂性不断增加,存储解决方案也必须不断发展,以跟上现代 AI 工厂的需求。DDNVAST DataWEKA等领先的存储供应商正与 NVIDIA 合作,利用 Spectrum-X 集成和优化其解决方案,为 AI 存储网带来先进的功能。

Spectrum-X 对 Israel-1 超级计算机的大规模影响

NVIDIA 已经搭建了生成式 AI 超级计算机 Israel-1,用于对各种 AI 网络解决方案进行预测试和验证以优化 Spectrum-X 性能和简化网络部署。这使 Israel-1 成为测试 Spectrum-X 如何影响存储工作负载的良好平台,展示了网络在现实的超级计算机运行状态下对存储性能的影响。

为了了解 Spectrum-X 对存储网络的影响,Israel-1 团队测量了从 NVIDIA HGX  GPU 服务器客户端访问存储时的读写带宽。该测试(Flexible I/O Tester 基准测试)在将网络配置为标准 RoCE v2 网络的情况下执行一次,然后在启用 Spectrum-X 的动态路由和拥塞控制后重新运行。

这些测试使用了不同数量的 GPU 服务器作为客户端运行,覆盖了从 40 个 GPU 到 800 个 GPU。在所有的测试中,Spectrum-X 都表现得更好。读带宽提升幅度在 20%到 48%之间,写带宽提升幅度在 9%到 41%之间,这些结果与 DDN、VAST 和 WEKA 等生态合作伙伴测到的加速性能一致。

存储网络性能对于 AI 性能至关重要

要想知道 Spectrum-X 为何会带来如此大的影响,需要先了解存储在 AI 业务中的重要性。AI 性能不仅仅受大语言模型(LLM)每一步完成时间的影响,还与许多其他因素有关。例如,由于模型训练通常需要几天、几周或几个月才能完成,因此设置 Checkpoint 或保存部分训练模型的中间结果到存储非常重要,通常需要每隔几个小时操作一次。这意味着,万一系统出现问题,训练进度不会丢失。

对于具有数十亿至数万亿参数的模型,这些 Checkpoint 的状态变得越来越大,现在最大型 LLM 模型会生成高达数 TB 的数据,保存数据或恢复数据会产生多条“大象流”,这些突发的大象流,可能会淹没交换机的缓冲和链路,所以网络必须保证为训练工作负载提供最佳利用率。

检索增强生成(RAG)是另一个存储网可以影响工作负载性能的例子,借助 RAG,LLM 与不断增长的知识库相结合,为模型添加特定领域的上下文,从而提供更快的响应时间,而无需额外的模型训练或微调。RAG 的工作原理是获取额外的内容或知识,并将其嵌入到向量数据库中,从而使其成为可搜索到的知识库。

输入推理提示时,系统会解析(嵌入)提示并搜索数据库,检索到的内容会向提示添加上下文,以帮助 LLM 制定最佳答案。向量数据库是多维的,可能非常庞大,尤其是由图像和视频组成的知识库。

这些数据库通过存储网连接到推理节点,网络必须确保快速通信以尽可能降低延迟。对于多租户生成式 AI 工厂而言,这一点变得尤为重要,因为这些工厂每秒要处理大量的查询。

存储中动态路由和拥塞控制的应用

Spectrum-X 平台引入了 InfiniBand 网络上的关键创新技术,例如RoCE Adaptive Routing(动态路由)RoCE Congestion Control(拥塞控制)。NVIDIA 通过采用这些创新技术并将其与存储网相结合,提高了存储工作负载的性能和网络利用率。

动态路由

为了消除大象流之间的碰撞并减轻 Checkpoint 过程中产生的网络流量,动态路由可以对于网络上的流进行逐包的动态负载平衡,Spectrum-4 以太网交换机根据实时拥塞状况来选择拥塞最低的路径。由于数据包被喷洒到整个网络中,到达目的地时它们可能会出现乱序,在传统的以太网下,这将需要重新传输许多数据包。

借助 Spectrum-X,接收端主机里的 SuperNIC 或数据处理器(DPU)知道数据包的正确顺序,可以在主机内存中按序放置数据包,从而使动态路由对应用程序透明。这可提高网络利用率,为 Checkpoint、数据获取等实现更高的有效带宽以及提供可预测、一致的结果。

拥塞控制

Checkpoints 和其它存储操作通常会导致 Incast 拥塞,也称为多对一拥塞。当多个客户端尝试向单个存储节点写入数据时,就会出现这种情况。Spectrum-X 引入了一种基于遥测的拥塞控制技术,使用交换机中硬件遥测技术来通知 SuperNIC 或 DPU,以降低发送端的数据注入速率(即 RDMA 写和读)。从而防止出现拥塞热点,这些热点可能会反向传播,导致相邻作业或进程受到拥塞的不公平影响。

增强弹性

由于 AI 工厂通常由大量交换机、线缆和收发器组成,任何链路中断都可能导致网络性能的大幅下降,因此网络弹性对于维护基础设施的健康至关重要。Spectrum-X 全局动态路由可在链路中断时实现优化、快速的重新收敛,从而充分利用存储网。

NVIDIA 全栈集成

除了 Spectrum-X 为存储网带来的创新之外,NVIDIA 还提供并推荐使用多种 SDK、库和软件产品,以加速存储到 GPU 数据通路,其中包括但不限于以下内容:

  • NVIDIA Air:一款基于云的网络仿真工具,用于对交换机、SuperNIC 和存储进行建模,可加速 Day 0、Day 1 和 Day 2 对于存储网的操作。
  • NVIDIA Cumulus Linux:基于自动化部署和 API 构建的网络操作系统,可确保大规模网络的平稳运营和管理。
  • NVIDIA DOCA:面向 NVIDIA SuperNIC 和 DPU 的 SDK,可在存储、安全等方面提供出色的可编程性和性能。
  • NVIDIA NetQ:一款网络验证工具集,集成了交换机遥测技术,可提供网络的实时可见性。
  • NVIDIA GPUDirect Storage:一项在存储和 GPU 显存之间建立直接数据路径的技术,可提高数据传输效率。

开始使用 Spectrum-X

随着模型越来越大,数据走向更多的多模态,存储将一直是生成式 AI 训练和操作的关键要素。

有关更多信息请扫描下方二维码,参阅 NVIDIA 白皮书,并从 NVIDIA 合作伙伴生态系统中了解更多信息:

NVIDIA 白皮书:优化 AI 存储网:NVIDIA Spectrum-X 加速 AI 存储网络

DDN 博客文章:借助 DDN 和 NVIDIA Spectrum-X 加速 AI 存储网络

DDN 白皮书:借助 DDN 的数据智能平台和 NVIDIA Spectrum-X 加速 AI 存储网络

VAST 博客文章:NVIDIA Spectrum-X 和 VAST 数据平台:开创 AI 基础架构的未来

VAST 白皮书:NVIDIA Spectrum-X Technology 适用于 AI 存储矩阵和 VAST Data Platform

WEKA 博客文章:WEKA 如何使用 NVIDIA Spectrum-X 重新定义 AI 和 HPC 工作负载的网络

扫描下方二维码,立即注册NVIDIA GTC 2025并预约 Storage Innovations for AI Workloads 会议,了解该领域更多新闻。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
福建漳州杨梅泡药风波持续发酵,无人收购,果农欲哭无泪,被害惨

福建漳州杨梅泡药风波持续发酵,无人收购,果农欲哭无泪,被害惨

魔都姐姐杂谈
2026-05-17 09:52:03
网友们这几天都在吃著名毛巾集团洁丽雅的瓜,讽刺其家族“丑闻”

网友们这几天都在吃著名毛巾集团洁丽雅的瓜,讽刺其家族“丑闻”

网络易不易
2026-05-17 12:29:12
随着卫冕冠军2-3落败,沙特联最新积分榜出炉

随着卫冕冠军2-3落败,沙特联最新积分榜出炉

侧身凌空斩
2026-05-18 04:58:01
丰田亚洲龙落地价12.68万元?一车主团购买车比4S店还贵,代购方称超低价有前提条件

丰田亚洲龙落地价12.68万元?一车主团购买车比4S店还贵,代购方称超低价有前提条件

半岛官网
2026-05-18 17:11:59
三星堆竟不属于任何朝代?考古学家颤抖:中华文明源头要改写!

三星堆竟不属于任何朝代?考古学家颤抖:中华文明源头要改写!

抽象派大师
2026-05-19 00:44:23
特朗普警告伊朗:美军48小时后将全面打击不留情

特朗普警告伊朗:美军48小时后将全面打击不留情

春之韵
2026-05-18 11:58:59
血管好不好,看排汗量就知道?提醒:血管有病的人排汗多有异常

血管好不好,看排汗量就知道?提醒:血管有病的人排汗多有异常

芹姐说生活
2026-05-17 23:30:46
来了!首个冠军点!阿森纳最快两天内夺冠,每输一场,或丢一冠

来了!首个冠军点!阿森纳最快两天内夺冠,每输一场,或丢一冠

嗨皮看球
2026-05-18 12:19:47
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
“他们求我不要曝光,我说没有办法”

“他们求我不要曝光,我说没有办法”

南风窗
2026-05-18 13:36:18
鳌拜倒台,康熙审问其女:“你父亲罪孽深重,该当何罪?”

鳌拜倒台,康熙审问其女:“你父亲罪孽深重,该当何罪?”

卡西莫多的故事
2025-12-25 09:43:53
心理学上有个词叫:逆火效应(永远不要指出你身边人的任何问题,包括你的亲戚朋友。成年人的最大清醒就是不介入他人的生活)

心理学上有个词叫:逆火效应(永远不要指出你身边人的任何问题,包括你的亲戚朋友。成年人的最大清醒就是不介入他人的生活)

德鲁克博雅管理
2026-05-18 17:11:20
院士忧心青年择业观:年轻人应该多想着为国家做贡献

院士忧心青年择业观:年轻人应该多想着为国家做贡献

映射生活的身影
2026-05-17 21:45:58
马斯克和范冰冰什么关系?偷税8亿的范冰冰,如今在国外重回巅峰

马斯克和范冰冰什么关系?偷税8亿的范冰冰,如今在国外重回巅峰

追风小狗
2024-11-12 21:52:56
约会时女人说去厕所,其实是在给你两个暗示,听懂的都不是凡人

约会时女人说去厕所,其实是在给你两个暗示,听懂的都不是凡人

心理观察局
2026-05-18 09:11:14
教育改革,正在成为“毒草”毁掉基础教育

教育改革,正在成为“毒草”毁掉基础教育

现实的声音
2026-05-12 08:23:50
陈道明没说谎!被张艺谋力捧,致女孩瘫痪的刘浩存,证实他的评价

陈道明没说谎!被张艺谋力捧,致女孩瘫痪的刘浩存,证实他的评价

动物奇奇怪怪
2026-05-19 01:40:47
驸马一脚踢死康熙五公主,康熙得知后震怒,惩罚手段令人胆寒

驸马一脚踢死康熙五公主,康熙得知后震怒,惩罚手段令人胆寒

卡西莫多的故事
2025-11-19 10:57:09
“普京语录”卫衣在中国热销,“俄罗斯”国家中心正版授权,可印制普京本人签名

“普京语录”卫衣在中国热销,“俄罗斯”国家中心正版授权,可印制普京本人签名

极目新闻
2026-05-18 16:25:24
马斯克这次访华,万万没想到,居然把联想CEO杨元庆带火了!

马斯克这次访华,万万没想到,居然把联想CEO杨元庆带火了!

趣味萌宠的日常
2026-05-17 22:00:06
2026-05-19 03:24:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3521文章数 1449关注度
往期回顾 全部

科技要闻

苹果WWDC26定档6月9日凌晨:iOS27将亮相

头条要闻

69名中国公民在菲律宾被突击查扣 中使馆通报

头条要闻

69名中国公民在菲律宾被突击查扣 中使馆通报

体育要闻

58顺位的保罗,最强第三中锋

娱乐要闻

票房会破14亿!口碑第一电影出现了

财经要闻

中国芯片,怎么突然不便宜了?

汽车要闻

40.98万起!充电5分钟纯电续航420km 腾势N9闪充版胜算有多少?

态度原创

艺术
数码
旅游
家居
公开课

艺术要闻

震惊!日本80后画家画少女,超写实美到窒息!

数码要闻

TOPPING拓品推出DX1 II游戏HiFi解码耳放一体机,769元

旅游要闻

红色文旅升级 沉浸式表达获年轻人点赞

家居要闻

观山隐秀 心灵沉淀

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版