网易首页 > 网易号 > 正文 申请入驻

利用 NVIDIA SHARP 网络计算提升系统性能

0
分享至

AI 和科学计算是分布式计算问题的典型示例。这些问题通常计算量巨大,计算很密集,无法在单台机器上完成。于是,这些计算被分解为并行任务,由分布在数千个 CPU 或 GPU 的计算引擎上运行。

为了实现可扩展的性能,需要把工作负载划分在多个节点,如训练数据、模型参数或两者一起划分。然后,这些节点之间需要频繁交换信息,例如模型训练中反向传播期间新处理的模型计算的梯度。这些通信往往需要高效的集合通信,如 all-reduce、broadcast 以及 gather 和 scatter 等操作。

这些集合通信模式可确保整个分布式计算中模型参数的同步和收敛。这些操作的效率对于最大限度地减少通信开销和最大限度地提高并行计算效率至关重要,优化不佳的集合通信可能会导致瓶颈,限制可扩展性。

瓶颈源于以下几个因素:

  • 延迟和带宽限制:集合操作依赖于节点间的高速数据传输,而这些高速数据传输受到物理网络延迟和带宽的限制。随着系统规模的增加,要交换的数据量也随之增加,通信所花费的时间成为至关重要的因素。

  • 同步开销:许多集合操作需要同步点,确保所有参与的节点必须先达到相同的状态,才能继续下一步操作。如果某些节点速度较慢,将拖累整个系统延迟,从而导致效率低下,被称为 stragglers。

  • 网络争用:随着越来越多的节点试图同时通信,网络变得更加拥塞,对带宽和网络资源的争夺也在增加,这进一步降低了集合操作的性能。

  • 非优化通信模式:一些集合通信算法(例如基于树的归约操作或基于 Ring 的 all-reduce 操作)并非始终针对大规模系统进行了良好优化,导致可用资源的低效利用和延迟增加。

克服这一瓶颈需要先进的网络技术(例如 InfiniBand 和 RDMA)和算法优化(例如分层 all-reduce 或流水线技术),以最大限度地减少同步延迟、减少资源争用并优化分布式系统之间的数据流。

创建 NVIDIA SHARP

关键的集合通信使所有计算引擎能够相互交换数据。在网卡或服务器上管理这类通信需要交换大量数据,并且会受到延迟或集合性能差异的影响,称为服务器抖动。

将管理和执行这些集合通信的任务迁移到网络交换机上,可以将传输的数据量减半,并最大限度地减少抖动。NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)技术实现了这一理念,并引入了网络计算概念。它集成在交换机 ASIC 中,旨在加速分布式计算系统中的集合通信。

SHARP 已随着NVIDIA InfiniBand 网络一起推出,可将集合通信操作(如 all-reduce、reduce 和 broadcast 等)从服务器的计算引擎卸载到网络交换机。通过直接在网络中执行归约(如求和、平均等),SHARP 可以显著改进这些操作并提升整体应用程序性能。

NVIDIA SHARP 代际演进

第一代 SHARP 专为科学计算应用而设计,侧重于小消息归约操作。它随着NVIDIA EDR 100Gb/s 交换机产品推出,并迅速得到行业领先 MPI 通讯库的支持。SHARPv1 小消息归约可以并行支持多个科学计算应用。

MVAPICH2 是 MPI 标准的开源实现,专为 HPC 场景而设计。负责 MVAPICH MPI 通信库的俄亥俄州立大学团队在德克萨斯先进计算中心 Frontera 超级计算机上验证了 SHARP 的性能。MPI AllReduce 的性能提高了 5 倍,而 MPI Barrier 集合通信的性能则提高了 9 倍。

第二代 SHARP 随着NVIDIA HDR 200Gb/s Quantum InfiniBand 交换机推出,增加了对 AI 工作负载的支持。SHARPv2 支持大消息规约操作,每次支持一个工作负载。这一版本进一步提升了该技术的可扩展性和灵活性,支持更复杂的数据类型和集合操作。

2021 年 6 月 NVIDIA MLPerf 提交的结果展示了 SHARPv2 的性能优势,其中 BERT 的训练性能提高了 17%。扫描二维码,参阅技术博客:

NVIDIA 副总裁兼人工智能系统首席架构师 Michael Houston在加州大学伯克利分校的机器学习系统课程中介绍了 SHARPv2 的 AllReduce 性能优势 。

SHARPv2 将 AllReduce 的带宽性能提高了一倍,将 BERT 训练性能提高了 17%。

图 1.加州大学伯克利分校机器学习系统课程示例(来源:分布式深度学习,第 II 部分:扩展约束)

第三代 SHARP 随着NVIDIA Quantum-2 NDR 400G InfiniBand 平台推出。SHARPv3 支持多租户 AI 工作负载网络计算,与 SHARPv2 的单工作负载相比,可同时支持多个 AI 工作负载的并行使用。

Microsoft Azure 首席软件工程师 Jithin Jose 在“Transforming Clouds to Cloud-Native Supercomputing:Best Practices with Microsoft Azure”专题会议上展示了 SHARPv3 性能。Jithin 介绍了 InfiniBand 网络计算技术在 Azure 上的应用,并展示了 AllReduce 在延迟方面取得数量级的性能优势。

图 2. SHARPv3 的 AllReduce 延迟性能 图 2. SHARPv3 的 AllReduce 延迟性能

端到端 AI 系统优化

SHARP 强大功能的经典示例是 allreduce 运算。在模型训练期间,多个 GPU 或节点之间需要进行梯度求和,SHARP 在网络中实现梯度求和,从而无需在 GPU 之间或节点之间进行完整的数据集传送。这缩短了通信时间,从而加快 AI 工作负载的迭代速度并提高吞吐量。

在网络计算和 SHARP 时代到来之前,NVIDIA Collective Communication Library(NCCL)通信软件会从图中复制所有模型权重,执行 all-reduce 运算来计算权重之和,然后将更新的权重写回图,从而产生多次数据复制。

2021 年,NCCL 团队开始集成 SHARP,引入了用户缓冲区注册。这使 NCCL 集合操作能够直接使用指针,从而消除了在此过程中来回复制数据的需求,提高了效率。

如今,SHARP 已与广泛用于分布式 AI 训练框架的 NCCL 紧密集成。经过优化的 NCCL 充分利用 SHARP 的能力,将关键的集合通信操作卸载到网络,从而显著提高分布式深度学习工作负载的可扩展性和性能。

SHARP 技术有助于提高分布式计算应用程序的性能。SHARP 正被 HPC 超级计算中心用于科学计算工作负载,也被人工智能(AI)超级计算机用于 AI 应用程序。SHARP 已成为实现竞争优势的“秘诀”。一家大型服务提供商使用 SHARP 将其内部 AI 工作负载的性能提高了 10% 到 20%。

SHARPv4

SHARPv4 引入了新算法,可支持更多种类的集合通信,这些通信类型已用于领先的人工智能训练应用。

SHARPv4 将随着NVIDIA Quantum-X800 XDR InfiniBand 交换机平台一起发布,从而将网络计算能力提升至更高水平。

有关更多信息,请扫描二维码,参阅以下资源:

NVIDIA 大幅缩短 BERT 训练和推理时间(技术博客)

借助全栈优化提升 NVIDIA MLPerf Training v1.1 性能(技术博客)

借助 NVIDIA SHARP 进行网络计算(视频教程)

使用 SHARP 的可扩展 MPI 集合通信:TACC Frontera 系统上的大规模性能评估(技术文档)

在 GPU 上运行 NCCL 测试以检查性能和配置(代码示例)

可扩展分层聚合协议:一种用于高效数据归约的硬件架构(技术文档)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香港一男子在机场停车场遭伏击,大腿及前臂被斩伤,6公斤黄金被抢,歹徒随后驾车往东涌方向逃走,暂未有人被捕,警方正追缉涉案3名男子

香港一男子在机场停车场遭伏击,大腿及前臂被斩伤,6公斤黄金被抢,歹徒随后驾车往东涌方向逃走,暂未有人被捕,警方正追缉涉案3名男子

三湘都市报
2026-06-18 12:38:28
覆铜板正成为AI PCB 最暴力的增量

覆铜板正成为AI PCB 最暴力的增量

未来半导体
2026-06-18 11:12:10
DIY玩家买不到硬盘:零售SSD市场已几近消失!

DIY玩家买不到硬盘:零售SSD市场已几近消失!

快科技
2026-06-17 11:01:25
李嘉诚预言要成真了?我国41.5%的城镇家庭,或将面对这三个难题

李嘉诚预言要成真了?我国41.5%的城镇家庭,或将面对这三个难题

阿尢说历史
2026-06-14 13:30:57
85年67军总部食堂遭遇枪击,5位首长生死一线,凶手身份令人太意外

85年67军总部食堂遭遇枪击,5位首长生死一线,凶手身份令人太意外

睡前讲故事
2026-01-09 13:44:42
万斯敲打以色列:只有900万人口的国家,别想靠杀解决一切

万斯敲打以色列:只有900万人口的国家,别想靠杀解决一切

桂系007
2026-06-19 06:57:19
否认欺负杨思琦!香港老戏骨公开霸凌者身份:是商天娥和姓陈的

否认欺负杨思琦!香港老戏骨公开霸凌者身份:是商天娥和姓陈的

奇怪的鲨鱼们
2026-06-17 13:13:35
在我国拆除黄岩岛设施和军方表态后,菲律宾立场软了,菲防长怂了

在我国拆除黄岩岛设施和军方表态后,菲律宾立场软了,菲防长怂了

晰知
2026-06-19 04:34:52
魏建军造了台“怪车”,让MPV彻底变天

魏建军造了台“怪车”,让MPV彻底变天

汽车现场AS
2026-06-17 22:14:48
同学聚会,发现一个扎心的现实:年过40的女同学中,1/3没有工作,1/3做着低薪但没前途工作,剩下的1/3基本都在体制内

同学聚会,发现一个扎心的现实:年过40的女同学中,1/3没有工作,1/3做着低薪但没前途工作,剩下的1/3基本都在体制内

品读时刻
2026-06-13 09:03:28
印度男子空身闯广州机场想白吃白住,遣返钱不用国人买单

印度男子空身闯广州机场想白吃白住,遣返钱不用国人买单

泠泠说史
2026-06-17 21:16:37
一印度女子做完美甲不付钱,口出狂言:我来自印度,你不能收钱

一印度女子做完美甲不付钱,口出狂言:我来自印度,你不能收钱

魔都姐姐杂谈
2026-06-08 12:05:42
破防了!82年同学猝然离世,戳痛所有80后:我们根本没资格倒下

破防了!82年同学猝然离世,戳痛所有80后:我们根本没资格倒下

市井大实话
2026-06-18 09:10:44
徐帆回应离婚9个月后,冯小刚再陷争议,养女徐朵成导火索

徐帆回应离婚9个月后,冯小刚再陷争议,养女徐朵成导火索

枯蝶
2026-05-21 22:22:13
李书福不愧中国最顶尖的企业家之一

李书福不愧中国最顶尖的企业家之一

砺石商业评论
2026-06-16 11:23:39
别再问科技牛走到哪,先看看谁在悄悄起身离席

别再问科技牛走到哪,先看看谁在悄悄起身离席

雪球
2026-06-10 16:13:16
向佐透露弟弟向佑近况:和父母断联,回不了家,靠他提供经济支持

向佐透露弟弟向佑近况:和父母断联,回不了家,靠他提供经济支持

一盅情怀
2026-06-17 06:17:55
限行通知又来了,又把所有油车隔绝在外了,新能源汽车又笑了

限行通知又来了,又把所有油车隔绝在外了,新能源汽车又笑了

娱乐圈的笔娱君
2026-06-18 12:26:35
2026世界杯第三名晋级规则解析:3分是生死线

2026世界杯第三名晋级规则解析:3分是生死线

晚风知我意21
2026-06-19 01:09:17
苏联是世界最大威胁 西欧必须提高警惕 1976年4月3日《人民日报》

苏联是世界最大威胁 西欧必须提高警惕 1976年4月3日《人民日报》

那些看得见的老照片
2026-05-22 06:50:07
2026-06-19 08:55:00
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3576文章数 1459关注度
往期回顾 全部

科技要闻

Anthropic被禁,智谱却涨疯了

头条要闻

23岁双胞胎被拖进戒网瘾机构:弟弟瘫了 哥哥吞钉自残

头条要闻

23岁双胞胎被拖进戒网瘾机构:弟弟瘫了 哥哥吞钉自残

体育要闻

英格兰不再九子夺嫡,凯恩才是唯一真神

娱乐要闻

39岁梅西不愧是人生赢家!

财经要闻

Token低价陷阱

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

健康
时尚
本地
艺术
家居

吃粽子的3条保胃法则,消化科医生推荐

鞋子专场|| 有了它,衣柜里的衣服突然变得好搭了

本地新闻

世界杯黑马佛得角:河北人开超市,温州人当老板

艺术要闻

台北东区新门户!南港双星,像一道“城市裂痕”

家居要闻

绿意盎然 自然之境

无障碍浏览 进入关怀版