网易首页 > 网易号 > 正文 申请入驻

阿里云与 NVIDIA 合作测试以太网络新架构

0
分享至

全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座

随着生成式 AI 的热潮席卷全球,用于训练生成式 AI 的大型高性能网络基础设施开始受到客户和行业的关注。这不仅仅是因为巨大的市场潜力,更因为生成式 AI 应用对当前网络的技术与产品带来的巨大挑战。

由于生成式 AI 训练任务的特性,其对网络的要求与传统的 DC 网络在多方面存在差异。主要体现在:

  • 性能至上,对于网络带宽及通信效率的要求高,需要实现从 GPU 到网络,再到其它 GPU 的端到端带宽平衡,从而达到最大化集群训练性能的目的。
  • AI 网络流量并发性高和突发性流量多,对于数据的完整性要求极高,依赖于 RDMA 转发保证带宽最大化和数据的完整性,降低对 CPU 资源消耗。
  • 模型并行加数据并行共存的通信机制导致对于网络时延敏感,网络中的任何额外的时延都可能影响数以百计的 GPU 之间的通信效率。
  • 需要无收敛的网络拓扑保证各种通信场景下的网络带宽没有瓶颈。

由于传统的网络解决方案无法满足这些需求,NVIDIA 依靠多年在 AI 和高速通信邻域的积累,推出了 Spectrum-X 以太网解决方案,以推动以太网技术可以更好的适配生成式 AI 基础设施的要求。

NVIDIA Spectrum™-X 是首个专为基于以太网的 AI 云提高性能和效率而设计的平台。NVIDIA Spectrum-X 依托于 NVIDIA Spectrum™-4 以太网交换机和 NVIDIA BlueField-3 DPU 的紧密结合,专为 AI 工作负载构建了端到端的创新网络平台,大幅提升了以太网在大规模、可扩展环境中的通信效率,并在多租户环境中实现了一致的、可预测的性能,提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 网络平台还包括 Cumulus Linux、NetQ 、Air 和 DOCA 加速软件等,以及 NVIDIA 的 LinkX 系列线缆和光模块产品,共同助力该网络平台实现绝佳的性能。

NVIDIA Spectrum-X 网络平台集成了 NVIDIA Spectrum-4 以太网交换机、NVIDIA BlueField-3 DPU、NVIDIA LinkX 线缆及加速软件和 SDK,通过无损以太网的端到端动态路由、基于可编程拥塞控制的性能隔离技术等先进的 RoCE 扩展功能,构建了一个专为 AI 云而优化和加速的端到端 高性能 400GbE 以太网络。测试显示,与传统以太网相比,采用 NVIDIA Spectrum-X 网络平台可将大规模 AI 工作负载的性能提高到 1.7 倍,并将网络的有效通信带宽提升到 1.6 倍。

NVIDIA Spectrum-X 网络平台,实现了 GPU 到 GPU 直接的端到端加速和优化,大幅减少了大规模生成式 AI 模型的运行时间,提升了 GPU 的效率,优化了 AI 平台的总体拥有成本(TCO)和降低了基础设施的整体功耗。同时,它还具有高度的通用性,有力的支撑了各种生成式 AI 应用,由于它也是标准的以太网,实现了与已有的基于以太网堆栈的云架构和云服务互通。

阿里云作为全球领先的云供应商,拥有巨型的通用计算平台。同时,阿里云也持续向加速计算领域扩张,建成并持续扩张以 “PAI 灵骏” 算力服务为代表大型的 GPU 集群。阿里云基础设施网络团队从 2017 年开始构建端网融合的可预期高性能 RDMA 网络架构,过去几年已经在高性能存储领域实现了大规模部署,目前正在大规模 AI 计算领域持续创新迭代和规模部署,以适配 AI 计算对高性能网络的诉求。阿里云也充分认识到技术创新对以太网方案持续支持高性能网络,尤其是生成式 AI 基础设施的重要性。为此,阿里云联合 NVIDIA 对 Spectrum-X 解决方案进行测试,以评估新技术对高性能网络的适应能力。

测试的主要内容和结果

阿里云测试环境配置

测试环境使用了 2 台 Spine 交换机,4 台 ToR 交换机,16 台 HGX GPU 服务器并配置了 NVIDIA BlueField-3 DPU,基于NVIDIA 51.2T Spectrum-4 交换芯片的 SN5600,以太网交换机,支持 128*400G 或者 64*800G 端口。每台 GPU 服务器配置 8 张 BlueField-3 DPU,每 4 台 GPU 服务器为一组连接到一台 ToR 交换机,共 4 组连接到 4 台 ToR 交换机。ToR 交换机通过 200G 网络连接到 BlueField-3 DPU,4 台 ToR 交换机通过 2 台 Spine 交换机连接在一起,构成无阻塞胖树网络。

主要的测试内容

这些测试由多个级别的工作负载组成,从简单到复杂:

  • RDMA 基准性能测试,覆盖带宽和延迟。
  • 孤立场景下的 All to All 和 All Reduce 集合通信测试,专注于 NCCL 性能基准。
  • 在共享资源和有背景噪声环境下的性能测试。
  • 故障场景的测试。

测试结果显示,由于使用了端到端的逐包负载均衡优化技术(Adaptive Routing)和零配置 RoCE 拥塞控制(ZTR CC)使得网络利用率显著提升,并显著减少由于网络拥塞和 In-Cast 问题带来的时延和抖动。网络带宽利用率在各种测试场景下均可超过 90%。这种逐包负载均衡技术也可以对多种故障情况(本端和远端)做出响应,合理的利用网络内的带宽资源。在真实训练任务的测试过程中,Spectrum-X 可以降低 20% 以上的训练时间。在获得这一切收益的同时,网络的配置工作量大大降低,运维人员不再需要进行复杂的配置和频繁的调优工作。

这些测试结果表明 NVIDIA Spectrum-X 加速网络平台的突破性技术可大幅提升大规模生成式 AI 工作负载的性能,并大幅缩短生成式 AI 模型的运行时间。通过采用 NVIDIA Spectrum-X 网络平台,客户可进一步为千行百业的客户提供极具性能和成本优势的生成式 AI 云服务,将 AI 通用大模型和行业大模型赋能和融合各种应用场景。NVIDIA 和阿里云的开发人员将基于 NVIDIA Spectrum-X 网络平台的加速软件和 SDK 进一步在虚拟化、定制化可编程拥塞控制、遥测、快速故障响应等方面展开合作,推动这一新解决方案的进一步发展和应用。

针对这一联合测试,阿里云基础设施网络研发事业部总经理蔡德忠表示:“高性能网络技术是 AI 计算 Scaling Law 的关键所在,这个领域需要持续不断的创新迭代,阿里云始终坚持网络的开放性,也是网络开源生态的领导者和积极贡献者,阿里云与 NVIDIA 在 AI 计算和高性能存储领域合作多年,将持续探索创新基于 Open Ethernet 的高性能网络方案,助力 AI 计算集群的大规模高效扩展。”

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI(Generative AI)是面向下一代业务需求的典型代表,为了支撑成千上万的用户的需求,生成式 AI 云需要最先进及最可靠的网络基础架构满足各种 AI 业务的平滑增长。阿里云和 NVIDIA 在 Spectrum-X 以太网平台上的策略合作,可以充分利用 Spectrum-X 的先进路由技术和云上业务性能隔离技术,使阿里云及其广大用户可以尽情享受生成式 AI 的服务。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马云斥巨资在沙漠里种树,承诺每年1亿棵,10年过去了,情况如何

马云斥巨资在沙漠里种树,承诺每年1亿棵,10年过去了,情况如何

混沌录
2026-05-30 11:26:16
不受梅西待见的意甲金靴,沦为阿根廷队边缘人,那是纯属咎由自取

不受梅西待见的意甲金靴,沦为阿根廷队边缘人,那是纯属咎由自取

足篮大世界
2026-05-30 22:20:47
“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

“都把儿子养雌化了!”初中男孩出现雌化现象,家长却执迷不悟

妍妍教育日记
2026-05-29 07:55:13
因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

品读时刻
2026-05-24 09:01:06
NBA公布G7裁判名单:戴维斯执法生涯最关键一战

NBA公布G7裁判名单:戴维斯执法生涯最关键一战

赛场速报局
2026-06-01 01:20:45
食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

罪案洞察者
2025-11-03 13:59:03
1-0爆冷!天津津门虎掀翻中超第3名,于根伟把4队拖入保级军团

1-0爆冷!天津津门虎掀翻中超第3名,于根伟把4队拖入保级军团

何老师呀
2026-05-31 21:04:48
“人再笨还学不会微积分吗”,钱学森之子辟谣:父亲从未说过

“人再笨还学不会微积分吗”,钱学森之子辟谣:父亲从未说过

澎湃新闻
2026-05-30 15:50:13
印度热浪停电后,人们才发现:中国能“像点外卖”一样千里调电

印度热浪停电后,人们才发现:中国能“像点外卖”一样千里调电

南风不及你温柔
2026-06-01 00:16:48
600636,终止上市“倒计时”

600636,终止上市“倒计时”

中国基金报
2026-05-31 21:14:06
在丹麦工作的华人感慨:不要信媒体吹牛,丹麦相当于我国二线城市

在丹麦工作的华人感慨:不要信媒体吹牛,丹麦相当于我国二线城市

记录生活日常阿蜴
2026-05-31 22:18:19
瞒不住了?比亚迪发布4nm芯片被全网扒,大家其实都弄错了重点!

瞒不住了?比亚迪发布4nm芯片被全网扒,大家其实都弄错了重点!

李将平老师
2026-05-29 20:24:30
不听大陆给的忠告,郑丽文坚持要访美!喊话大陆:美国是台湾恩人

不听大陆给的忠告,郑丽文坚持要访美!喊话大陆:美国是台湾恩人

离离言几许
2026-05-31 00:21:58
你的公积金是什么段位?

你的公积金是什么段位?

职场资深秘书
2026-05-26 16:25:54
美媒:中国004航母进度超70%,2035年将拥9艘航母

美媒:中国004航母进度超70%,2035年将拥9艘航母

龙隐天下
2026-05-30 20:31:23
上海队遇到了大麻烦!

上海队遇到了大麻烦!

体育哲人
2026-05-31 18:44:17
联合国爆发激战,英国打第一枪后,美国也跟上,日本入常倒计时?

联合国爆发激战,英国打第一枪后,美国也跟上,日本入常倒计时?

共工之锚
2026-05-31 14:50:44
不出意外!2026年下半年,房子、车子、存款或将迎来“大变局”?

不出意外!2026年下半年,房子、车子、存款或将迎来“大变局”?

猫叔东山再起
2026-05-31 11:20:08
周朝国都西岐,商朝的国都朝歌,现如今这两大名城位于什么位置?

周朝国都西岐,商朝的国都朝歌,现如今这两大名城位于什么位置?

铭记历史呀
2026-05-31 00:52:02
48岁小唐纳德·特朗普二婚秘娶39岁名媛,婚礼视频曝光,缺了总统老爸却甜到骨子里

48岁小唐纳德·特朗普二婚秘娶39岁名媛,婚礼视频曝光,缺了总统老爸却甜到骨子里

生活观察员啊
2026-05-31 00:03:05
2026-06-01 01:32:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3533文章数 1453关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

头条要闻

媒体:印度多个领域面临严重问题 莫迪发出罕见的号召

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

游戏
教育
本地
亲子
公开课

《巫师3》资料片“血与酒”发售十周年 纪念贺图发布

教育要闻

“根本夸不出口”,女同学展示初学的拉丁舞,服装成了最大减分项

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

青少年哪个品牌DHA好?藻油组合易吸收,纯净配方无负担,学习状态更稳定

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版