网易首页 > 网易号 > 正文 申请入驻

阿里云与 NVIDIA 合作测试以太网络新架构

0
分享至

全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座

随着生成式 AI 的热潮席卷全球,用于训练生成式 AI 的大型高性能网络基础设施开始受到客户和行业的关注。这不仅仅是因为巨大的市场潜力,更因为生成式 AI 应用对当前网络的技术与产品带来的巨大挑战。

由于生成式 AI 训练任务的特性,其对网络的要求与传统的 DC 网络在多方面存在差异。主要体现在:

  • 性能至上,对于网络带宽及通信效率的要求高,需要实现从 GPU 到网络,再到其它 GPU 的端到端带宽平衡,从而达到最大化集群训练性能的目的。
  • AI 网络流量并发性高和突发性流量多,对于数据的完整性要求极高,依赖于 RDMA 转发保证带宽最大化和数据的完整性,降低对 CPU 资源消耗。
  • 模型并行加数据并行共存的通信机制导致对于网络时延敏感,网络中的任何额外的时延都可能影响数以百计的 GPU 之间的通信效率。
  • 需要无收敛的网络拓扑保证各种通信场景下的网络带宽没有瓶颈。

由于传统的网络解决方案无法满足这些需求,NVIDIA 依靠多年在 AI 和高速通信邻域的积累,推出了 Spectrum-X 以太网解决方案,以推动以太网技术可以更好的适配生成式 AI 基础设施的要求。

NVIDIA Spectrum™-X 是首个专为基于以太网的 AI 云提高性能和效率而设计的平台。NVIDIA Spectrum-X 依托于 NVIDIA Spectrum™-4 以太网交换机和 NVIDIA BlueField-3 DPU 的紧密结合,专为 AI 工作负载构建了端到端的创新网络平台,大幅提升了以太网在大规模、可扩展环境中的通信效率,并在多租户环境中实现了一致的、可预测的性能,提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 网络平台还包括 Cumulus Linux、NetQ 、Air 和 DOCA 加速软件等,以及 NVIDIA 的 LinkX 系列线缆和光模块产品,共同助力该网络平台实现绝佳的性能。

NVIDIA Spectrum-X 网络平台集成了 NVIDIA Spectrum-4 以太网交换机、NVIDIA BlueField-3 DPU、NVIDIA LinkX 线缆及加速软件和 SDK,通过无损以太网的端到端动态路由、基于可编程拥塞控制的性能隔离技术等先进的 RoCE 扩展功能,构建了一个专为 AI 云而优化和加速的端到端 高性能 400GbE 以太网络。测试显示,与传统以太网相比,采用 NVIDIA Spectrum-X 网络平台可将大规模 AI 工作负载的性能提高到 1.7 倍,并将网络的有效通信带宽提升到 1.6 倍。

NVIDIA Spectrum-X 网络平台,实现了 GPU 到 GPU 直接的端到端加速和优化,大幅减少了大规模生成式 AI 模型的运行时间,提升了 GPU 的效率,优化了 AI 平台的总体拥有成本(TCO)和降低了基础设施的整体功耗。同时,它还具有高度的通用性,有力的支撑了各种生成式 AI 应用,由于它也是标准的以太网,实现了与已有的基于以太网堆栈的云架构和云服务互通。

阿里云作为全球领先的云供应商,拥有巨型的通用计算平台。同时,阿里云也持续向加速计算领域扩张,建成并持续扩张以 “PAI 灵骏” 算力服务为代表大型的 GPU 集群。阿里云基础设施网络团队从 2017 年开始构建端网融合的可预期高性能 RDMA 网络架构,过去几年已经在高性能存储领域实现了大规模部署,目前正在大规模 AI 计算领域持续创新迭代和规模部署,以适配 AI 计算对高性能网络的诉求。阿里云也充分认识到技术创新对以太网方案持续支持高性能网络,尤其是生成式 AI 基础设施的重要性。为此,阿里云联合 NVIDIA 对 Spectrum-X 解决方案进行测试,以评估新技术对高性能网络的适应能力。

测试的主要内容和结果

阿里云测试环境配置

测试环境使用了 2 台 Spine 交换机,4 台 ToR 交换机,16 台 HGX GPU 服务器并配置了 NVIDIA BlueField-3 DPU,基于NVIDIA 51.2T Spectrum-4 交换芯片的 SN5600,以太网交换机,支持 128*400G 或者 64*800G 端口。每台 GPU 服务器配置 8 张 BlueField-3 DPU,每 4 台 GPU 服务器为一组连接到一台 ToR 交换机,共 4 组连接到 4 台 ToR 交换机。ToR 交换机通过 200G 网络连接到 BlueField-3 DPU,4 台 ToR 交换机通过 2 台 Spine 交换机连接在一起,构成无阻塞胖树网络。

主要的测试内容

这些测试由多个级别的工作负载组成,从简单到复杂:

  • RDMA 基准性能测试,覆盖带宽和延迟。
  • 孤立场景下的 All to All 和 All Reduce 集合通信测试,专注于 NCCL 性能基准。
  • 在共享资源和有背景噪声环境下的性能测试。
  • 故障场景的测试。

测试结果显示,由于使用了端到端的逐包负载均衡优化技术(Adaptive Routing)和零配置 RoCE 拥塞控制(ZTR CC)使得网络利用率显著提升,并显著减少由于网络拥塞和 In-Cast 问题带来的时延和抖动。网络带宽利用率在各种测试场景下均可超过 90%。这种逐包负载均衡技术也可以对多种故障情况(本端和远端)做出响应,合理的利用网络内的带宽资源。在真实训练任务的测试过程中,Spectrum-X 可以降低 20% 以上的训练时间。在获得这一切收益的同时,网络的配置工作量大大降低,运维人员不再需要进行复杂的配置和频繁的调优工作。

这些测试结果表明 NVIDIA Spectrum-X 加速网络平台的突破性技术可大幅提升大规模生成式 AI 工作负载的性能,并大幅缩短生成式 AI 模型的运行时间。通过采用 NVIDIA Spectrum-X 网络平台,客户可进一步为千行百业的客户提供极具性能和成本优势的生成式 AI 云服务,将 AI 通用大模型和行业大模型赋能和融合各种应用场景。NVIDIA 和阿里云的开发人员将基于 NVIDIA Spectrum-X 网络平台的加速软件和 SDK 进一步在虚拟化、定制化可编程拥塞控制、遥测、快速故障响应等方面展开合作,推动这一新解决方案的进一步发展和应用。

针对这一联合测试,阿里云基础设施网络研发事业部总经理蔡德忠表示:“高性能网络技术是 AI 计算 Scaling Law 的关键所在,这个领域需要持续不断的创新迭代,阿里云始终坚持网络的开放性,也是网络开源生态的领导者和积极贡献者,阿里云与 NVIDIA 在 AI 计算和高性能存储领域合作多年,将持续探索创新基于 Open Ethernet 的高性能网络方案,助力 AI 计算集群的大规模高效扩展。”

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI(Generative AI)是面向下一代业务需求的典型代表,为了支撑成千上万的用户的需求,生成式 AI 云需要最先进及最可靠的网络基础架构满足各种 AI 业务的平滑增长。阿里云和 NVIDIA 在 Spectrum-X 以太网平台上的策略合作,可以充分利用 Spectrum-X 的先进路由技术和云上业务性能隔离技术,使阿里云及其广大用户可以尽情享受生成式 AI 的服务。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贵阳花果园闪婚骗局调查:娶妻流水线,女子上午离婚下午结婚

贵阳花果园闪婚骗局调查:娶妻流水线,女子上午离婚下午结婚

上游新闻
2026-05-31 14:46:25
我国最大遗憾!1994年将领土划给俄罗斯,如今还能再收回来吗?

我国最大遗憾!1994年将领土划给俄罗斯,如今还能再收回来吗?

凉州辞
2026-05-30 10:15:03
我国的省委书记和“另有任用”

我国的省委书记和“另有任用”

向青春微调
2026-05-31 15:49:06
央媒调查稻城亚丁“道路设卡摆渡收费”:收的什么费?景区有权设卡吗?

央媒调查稻城亚丁“道路设卡摆渡收费”:收的什么费?景区有权设卡吗?

澎湃新闻
2026-05-31 07:54:04
解放军代表质问日防卫大臣:日本何时向亚洲受害国道歉?小泉进次郎这样说

解放军代表质问日防卫大臣:日本何时向亚洲受害国道歉?小泉进次郎这样说

环球网资讯
2026-05-31 12:01:18
罗马尼亚遭袭后,梅德韦杰夫警告:欧盟已进入与俄罗斯的战争

罗马尼亚遭袭后,梅德韦杰夫警告:欧盟已进入与俄罗斯的战争

澎湃新闻
2026-05-31 11:04:28
吴官正:难忘那夜的秋雨

吴官正:难忘那夜的秋雨

坦腹斋
2018-09-01 16:32:58
韩国国脚狂喜:决赛1分钟未出场 连续2年躺拿欧冠冠军 789万奖金

韩国国脚狂喜:决赛1分钟未出场 连续2年躺拿欧冠冠军 789万奖金

侃球熊弟
2026-05-31 04:02:10
七年统治梦碎!乌克兰民众亲手选出的总统,终于将国家拖入深渊?

七年统治梦碎!乌克兰民众亲手选出的总统,终于将国家拖入深渊?

阿器谈史
2026-05-29 14:13:01
下馆子千万别点这10道菜!全是预制菜“重灾区”,很多人天天在吃

下馆子千万别点这10道菜!全是预制菜“重灾区”,很多人天天在吃

房产衫哥
2026-05-31 14:01:04
“没穿几次坏到离谱!”知名品牌淘宝旗舰店,上海消费者质疑买到“陈年老鞋”,客服:库存信息属店铺隐私,无法提供

“没穿几次坏到离谱!”知名品牌淘宝旗舰店,上海消费者质疑买到“陈年老鞋”,客服:库存信息属店铺隐私,无法提供

新民晚报
2026-05-31 11:03:40
降价2万!上汽大众官宣:全新SUV,价格下调

降价2万!上汽大众官宣:全新SUV,价格下调

科技堡垒
2026-05-31 09:34:47
“结婚22年后发现两儿子均非亲生”当事人发声:我对他们恨之入骨!

“结婚22年后发现两儿子均非亲生”当事人发声:我对他们恨之入骨!

新民周刊
2026-05-30 17:32:14
王者归来 29岁樊振东率队3-1进决赛:出任一单独取2分 与新主争冠

王者归来 29岁樊振东率队3-1进决赛:出任一单独取2分 与新主争冠

风过乡
2026-05-31 07:09:45
特斯拉突然宣布六月份降价优惠!

特斯拉突然宣布六月份降价优惠!

XCiOS俱乐部
2026-05-31 14:55:11
香会现场反差拉满:美国不敢提台湾,我方直接点名敲打日本

香会现场反差拉满:美国不敢提台湾,我方直接点名敲打日本

南宗历史
2026-05-31 06:51:48
别墅搜出23件国宝,全家集体失联!整整17年,徐湖平案终于落幕

别墅搜出23件国宝,全家集体失联!整整17年,徐湖平案终于落幕

鉴史录
2026-05-31 12:57:55
道心破碎?帕金斯:霍姆格伦不仅遭文班碾压,还被夺走了灵魂

道心破碎?帕金斯:霍姆格伦不仅遭文班碾压,还被夺走了灵魂

懂球帝
2026-05-31 15:38:12
破“唯论文”桎梏:南京大学首位没有“毕业论文”的博士答辩通过

破“唯论文”桎梏:南京大学首位没有“毕业论文”的博士答辩通过

澎湃新闻
2026-05-31 17:18:31
打赢黑哨!文班亚马泪流满面进总决赛!哈珀牛逼,亚历山大35+4+9

打赢黑哨!文班亚马泪流满面进总决赛!哈珀牛逼,亚历山大35+4+9

Tracy的篮球博物馆
2026-05-31 11:01:53
2026-05-31 19:04:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3533文章数 1453关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

时尚
数码
本地
旅游
公开课

梓渝:慢下来,也很好

数码要闻

399美元笔记本,敢和苹果叫板?

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

蜀葵盛开,太白湖景区“莫奈花园”上线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版