网易首页 > 网易号 > 正文 申请入驻

阿里云与 NVIDIA 合作测试以太网络新架构

0
分享至

全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 云底座

随着生成式 AI 的热潮席卷全球,用于训练生成式 AI 的大型高性能网络基础设施开始受到客户和行业的关注。这不仅仅是因为巨大的市场潜力,更因为生成式 AI 应用对当前网络的技术与产品带来的巨大挑战。

由于生成式 AI 训练任务的特性,其对网络的要求与传统的 DC 网络在多方面存在差异。主要体现在:

  • 性能至上,对于网络带宽及通信效率的要求高,需要实现从 GPU 到网络,再到其它 GPU 的端到端带宽平衡,从而达到最大化集群训练性能的目的。
  • AI 网络流量并发性高和突发性流量多,对于数据的完整性要求极高,依赖于 RDMA 转发保证带宽最大化和数据的完整性,降低对 CPU 资源消耗。
  • 模型并行加数据并行共存的通信机制导致对于网络时延敏感,网络中的任何额外的时延都可能影响数以百计的 GPU 之间的通信效率。
  • 需要无收敛的网络拓扑保证各种通信场景下的网络带宽没有瓶颈。

由于传统的网络解决方案无法满足这些需求,NVIDIA 依靠多年在 AI 和高速通信邻域的积累,推出了 Spectrum-X 以太网解决方案,以推动以太网技术可以更好的适配生成式 AI 基础设施的要求。

NVIDIA Spectrum™-X 是首个专为基于以太网的 AI 云提高性能和效率而设计的平台。NVIDIA Spectrum-X 依托于 NVIDIA Spectrum™-4 以太网交换机和 NVIDIA BlueField-3 DPU 的紧密结合,专为 AI 工作负载构建了端到端的创新网络平台,大幅提升了以太网在大规模、可扩展环境中的通信效率,并在多租户环境中实现了一致的、可预测的性能,提高了生成式 AI 云的性能和能效。NVIDIA Spectrum-X 网络平台还包括 Cumulus Linux、NetQ 、Air 和 DOCA 加速软件等,以及 NVIDIA 的 LinkX 系列线缆和光模块产品,共同助力该网络平台实现绝佳的性能。

NVIDIA Spectrum-X 网络平台集成了 NVIDIA Spectrum-4 以太网交换机、NVIDIA BlueField-3 DPU、NVIDIA LinkX 线缆及加速软件和 SDK,通过无损以太网的端到端动态路由、基于可编程拥塞控制的性能隔离技术等先进的 RoCE 扩展功能,构建了一个专为 AI 云而优化和加速的端到端 高性能 400GbE 以太网络。测试显示,与传统以太网相比,采用 NVIDIA Spectrum-X 网络平台可将大规模 AI 工作负载的性能提高到 1.7 倍,并将网络的有效通信带宽提升到 1.6 倍。

NVIDIA Spectrum-X 网络平台,实现了 GPU 到 GPU 直接的端到端加速和优化,大幅减少了大规模生成式 AI 模型的运行时间,提升了 GPU 的效率,优化了 AI 平台的总体拥有成本(TCO)和降低了基础设施的整体功耗。同时,它还具有高度的通用性,有力的支撑了各种生成式 AI 应用,由于它也是标准的以太网,实现了与已有的基于以太网堆栈的云架构和云服务互通。

阿里云作为全球领先的云供应商,拥有巨型的通用计算平台。同时,阿里云也持续向加速计算领域扩张,建成并持续扩张以 “PAI 灵骏” 算力服务为代表大型的 GPU 集群。阿里云基础设施网络团队从 2017 年开始构建端网融合的可预期高性能 RDMA 网络架构,过去几年已经在高性能存储领域实现了大规模部署,目前正在大规模 AI 计算领域持续创新迭代和规模部署,以适配 AI 计算对高性能网络的诉求。阿里云也充分认识到技术创新对以太网方案持续支持高性能网络,尤其是生成式 AI 基础设施的重要性。为此,阿里云联合 NVIDIA 对 Spectrum-X 解决方案进行测试,以评估新技术对高性能网络的适应能力。

测试的主要内容和结果

阿里云测试环境配置

测试环境使用了 2 台 Spine 交换机,4 台 ToR 交换机,16 台 HGX GPU 服务器并配置了 NVIDIA BlueField-3 DPU,基于NVIDIA 51.2T Spectrum-4 交换芯片的 SN5600,以太网交换机,支持 128*400G 或者 64*800G 端口。每台 GPU 服务器配置 8 张 BlueField-3 DPU,每 4 台 GPU 服务器为一组连接到一台 ToR 交换机,共 4 组连接到 4 台 ToR 交换机。ToR 交换机通过 200G 网络连接到 BlueField-3 DPU,4 台 ToR 交换机通过 2 台 Spine 交换机连接在一起,构成无阻塞胖树网络。

主要的测试内容

这些测试由多个级别的工作负载组成,从简单到复杂:

  • RDMA 基准性能测试,覆盖带宽和延迟。
  • 孤立场景下的 All to All 和 All Reduce 集合通信测试,专注于 NCCL 性能基准。
  • 在共享资源和有背景噪声环境下的性能测试。
  • 故障场景的测试。

测试结果显示,由于使用了端到端的逐包负载均衡优化技术(Adaptive Routing)和零配置 RoCE 拥塞控制(ZTR CC)使得网络利用率显著提升,并显著减少由于网络拥塞和 In-Cast 问题带来的时延和抖动。网络带宽利用率在各种测试场景下均可超过 90%。这种逐包负载均衡技术也可以对多种故障情况(本端和远端)做出响应,合理的利用网络内的带宽资源。在真实训练任务的测试过程中,Spectrum-X 可以降低 20% 以上的训练时间。在获得这一切收益的同时,网络的配置工作量大大降低,运维人员不再需要进行复杂的配置和频繁的调优工作。

这些测试结果表明 NVIDIA Spectrum-X 加速网络平台的突破性技术可大幅提升大规模生成式 AI 工作负载的性能,并大幅缩短生成式 AI 模型的运行时间。通过采用 NVIDIA Spectrum-X 网络平台,客户可进一步为千行百业的客户提供极具性能和成本优势的生成式 AI 云服务,将 AI 通用大模型和行业大模型赋能和融合各种应用场景。NVIDIA 和阿里云的开发人员将基于 NVIDIA Spectrum-X 网络平台的加速软件和 SDK 进一步在虚拟化、定制化可编程拥塞控制、遥测、快速故障响应等方面展开合作,推动这一新解决方案的进一步发展和应用。

针对这一联合测试,阿里云基础设施网络研发事业部总经理蔡德忠表示:“高性能网络技术是 AI 计算 Scaling Law 的关键所在,这个领域需要持续不断的创新迭代,阿里云始终坚持网络的开放性,也是网络开源生态的领导者和积极贡献者,阿里云与 NVIDIA 在 AI 计算和高性能存储领域合作多年,将持续探索创新基于 Open Ethernet 的高性能网络方案,助力 AI 计算集群的大规模高效扩展。”

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI(Generative AI)是面向下一代业务需求的典型代表,为了支撑成千上万的用户的需求,生成式 AI 云需要最先进及最可靠的网络基础架构满足各种 AI 业务的平滑增长。阿里云和 NVIDIA 在 Spectrum-X 以太网平台上的策略合作,可以充分利用 Spectrum-X 的先进路由技术和云上业务性能隔离技术,使阿里云及其广大用户可以尽情享受生成式 AI 的服务。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

咣当地球
2026-06-23 15:59:08
美飞行员曝伊朗“创新武器”,“简直是外星来的东西”

美飞行员曝伊朗“创新武器”,“简直是外星来的东西”

环球时报国际
2026-06-24 16:38:47
翻脸!韩国热帖怒骂孙兴慜:史上最被高估球员 不然怎会一直待热刺

翻脸!韩国热帖怒骂孙兴慜:史上最被高估球员 不然怎会一直待热刺

风过乡
2026-06-24 21:45:47
森保一不拿笔记本不是自信!FIFA 警告他:再记就取消日本队成绩

森保一不拿笔记本不是自信!FIFA 警告他:再记就取消日本队成绩

酷侃体坛
2026-06-24 22:10:25
中国银行逃税23.67亿被通报

中国银行逃税23.67亿被通报

虎视财经
2026-06-24 14:37:55
价格战之下,千亿补贴也救不了的车市真相

价格战之下,千亿补贴也救不了的车市真相

大佬灼见
2026-06-22 11:18:11
勇士选秀争吵视频全网爆火!邓利维揭秘:只是等不及选伦德博格

勇士选秀争吵视频全网爆火!邓利维揭秘:只是等不及选伦德博格

夜白侃球
2026-06-24 22:05:12
最新动态!山东泰山名宿王永珀现身世界杯,长期居住海外原因曝光

最新动态!山东泰山名宿王永珀现身世界杯,长期居住海外原因曝光

王大发不懂球
2026-06-24 20:19:13
运城13岁女孩称被强奸,“他们逼我去撤案”

运城13岁女孩称被强奸,“他们逼我去撤案”

中国新闻周刊
2026-06-24 22:25:05
向太小儿子直播带货首秀!被怀疑有唐氏综合症,向太又遭质疑!

向太小儿子直播带货首秀!被怀疑有唐氏综合症,向太又遭质疑!

情感大头说说
2026-06-24 18:32:58
小米紧急致歉:研发人员测试时操作失误!网友普法:根据《中华人民共和国突发事件应对法》和《治安管理处罚法》 ...

小米紧急致歉:研发人员测试时操作失误!网友普法:根据《中华人民共和国突发事件应对法》和《治安管理处罚法》 ...

大白聊IT
2026-06-24 14:08:52
中国罕见谴责乌克兰!进行严肃表态,泽连斯基别把中国真惹毛了!

中国罕见谴责乌克兰!进行严肃表态,泽连斯基别把中国真惹毛了!

墨印斋
2026-06-24 00:05:29
在乌克兰最后通牒仅剩三天之际,卢卡申科将离开白俄罗斯

在乌克兰最后通牒仅剩三天之际,卢卡申科将离开白俄罗斯

山河路口
2026-06-24 19:41:46
无缘八强!郑钦文1-2遭逆转决胜盘2-6崩盘 连两站止步次轮

无缘八强!郑钦文1-2遭逆转决胜盘2-6崩盘 连两站止步次轮

醉卧浮生
2026-06-24 21:16:07
李金羽:C罗进球让葡萄牙找回团结氛围,他已经是天生赢家了

李金羽:C罗进球让葡萄牙找回团结氛围,他已经是天生赢家了

懂球帝
2026-06-24 21:22:13
将11只私募基金包装成公募基金、逃避税23.67亿元,中行回应

将11只私募基金包装成公募基金、逃避税23.67亿元,中行回应

澎湃新闻
2026-06-24 21:38:31
争议!英格兰1.3亿帝星捂嘴交流未染红 巴拉圭愤怒上诉:质疑双标

争议!英格兰1.3亿帝星捂嘴交流未染红 巴拉圭愤怒上诉:质疑双标

我爱英超
2026-06-24 20:08:56
几小时内大逆转,莫斯科一定有事发生!乌克兰愿意谈判但耐心有限

几小时内大逆转,莫斯科一定有事发生!乌克兰愿意谈判但耐心有限

鹰眼Defence
2026-06-24 17:15:20
丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

丧妻不到三月,74岁“唐僧”被拍与年轻女子同行,原因很简单

潋滟晴方DAY
2026-06-24 13:19:04
看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

看完看台上的七位大神,再看场上的巴西队员,巴西球迷心凉了半截

合赞历史
2026-06-24 16:00:09
2026-06-24 23:12:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3579文章数 1459关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

在走廊"罚站"时看到怀孕老师摔倒 两名小学生飞奔搀扶

头条要闻

在走廊"罚站"时看到怀孕老师摔倒 两名小学生飞奔搀扶

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

逃税23亿:审计署年报直指七家机构

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

时尚
艺术
家居
公开课
军事航空

“这个风格”越来越火,比老钱风更高级,比高智风更气质

艺术要闻

第三届“ART南京”当代艺术博览会圆满收官

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版