网易首页 > 网易号 > 正文 申请入驻

NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升

0
分享至

腾讯网络平台部与数据平台部,联合 NVIDIA 合作开发和优化 Spark UCX,最终实现 Spark Shuffle 稳定加速 15% - 20%,平均降低现网 Spark 任务 8% 的执行时间。

什么是 Spark 平台?

TDW-Spark 是腾讯公司级数据平台,是腾讯海量数据处理平台中最核心的模块,支持百 PB 级的数据存储和计算,业务涉及公司各个 BG,为腾讯公司提供海量、高效、稳定的大数据平台支撑和决策支持,是腾讯公司最大的离线数据处理平台。

Spark 业务所面临的挑战

Spark 网络目前的现状包括大规模部署 QP 连接数不够用,使用 RDMA DC 解决连接数过多的问题;Spark 不同应用场景需要不同的 EP 个数、RPC 调用次数、Spark UCX 线程数、 Block 大小等,需要联合调配;RDMA 和 TCP 混合部署,需要兼容和故障逃生;以及网络带宽低,需要提升带宽,降低延时。

Spark 原始的业务问题包括:

  • 通信耗时占比高:Spark Shuffle 时间占 Spark 运行总时间的 30% - 40%,造成 Spark 任务完成时间长。
  • 业务需求:网络 IO 和磁盘 IO 是 Spark Shuffle 的瓶颈,需要提高通信效 率,提高计算效率。
  • 降本增效:五万张已经部署的 NVIDIA ConnectX-5 网卡需要提高性能利用率,切换到 RDMA,提高业务带宽。

为了应对上述问题及挑战,腾讯进行了 Spark RDMA 大规模部署网络的工作,主要从两个方面着手:Spark RDMA 网络部署和优化,以及 Spark UCX / UCX 性能优化。

Spark RDMA 网络部署和调优

具体部署调优步骤:

  1. 搭建 37 节点 NVIDIA ConnectX-5 网卡和 26 节点 NVIDIA ConnectX-6 网卡 Spark 环境,部署 Spark、Spark UCX、UCX 代码进行长稳调优。
  2. 基于 GroupByTest 和现网 Spark 业务流量,在 UCX、Spark UCX、Spark 三个层次调优对比 DC、RC 和 TCP 效果。
  3. 优化 Spark UCX、UCX 代码,根据 Spark 业务调优网卡和交换机配置。
  4. 通过在 NVIDIA ConnectX-5 和 NVIDIA ConnectX-6 Dx bond 引入 DCT,提升 Spark 业务带宽利用率。
  5. RDMA 和 TCP 网络共存的情况下,保障长稳运行和 RDMA 故障逃生。

图 1:37 节点的 ConnectX-5 机群与 26 节点的 ConnectX-6 机群

RDMA 部署优化完成情况:

  • 大规模:使用 R&D Site Leader, NVIDIA DCT 技术共享 QP 连接,解决了大规模 QP 不够用 的问题。大规模仿真下 Spark 应用 RDMA 网络满足预期。
  • Spark 应用和网络联合调优:实现了最优的网卡和交换机配置,以 及 Spark 任务配置,降低了15% - 20% 左右的读完成时间。
  • 故障逃生:Spark UCX 和 UCX 代码层面实现了 RDMA 和 TCP 通道备份。确保 RDMA 故障逃生 TCP,保证稳定运行。
  • 稳定性保证:开发了驱动版本检测、网卡配置和检测、自动化安装升级检测功能。开发了测试网络性能模块,保证 Spark RDMA 各层带宽和延时满足预期。

Spark UCX 性能优化

1. 参数调优:通过调整 maxReqsInFlight、numListenerThreads 等 Spark / Spark UCX 参数,提升任务执行效率,获得最好传输速率,发挥最大系统效能。

2. CPU 利用率优化:启用 sleep / wakeup 特性,替代 busy waiting 模式。让出 CPU 给 Spark 计算任务,减少了 CPU 浪费,体现了 RDMA 的优势。

3. 网路 IO 优化:网路 IO 由阻塞模型改为非阻塞模型,数据接收由同步等待改为异步通知。避免了因为网路 IO 等待而 阻塞计算任务执行,提高了每个线程的任务吞吐量,提升了收发效率和带宽。

图 2:网络 IO 优化

4. 调度优化:worker 的调度方式改用全局 round-robin (RR) 调度模式,替代原有的按照 thread id 选择 worker 的 方式。避免了 thread id 不连续引起的多个线程选择同一 worker 的问题。

图 3:调度优化

5. 数据竞争优化:将 send / receive / progress 方法打包至独立线程运行,保证每个 worker 资源仅被单个线程 访问 / 修改,避免了数据竞争,提升了线程运行效率。

UCX 性能优化

1. 参数调优:使用 DC 替换 RC 模式,提升传输带宽,减少系统 CPU、内存资源消耗。开启 CQE zipping 和 PCI relax ordering 减少 PCI 负载。调整 UCX_ZCOPY_THRESH、UCX_RNDV_THRESH 和 UCX_RND_SCHEME,获得稳定高速的传输带宽。

2. 网络负载均衡优化:随机化 UDP 源端口取值,减轻由于固定端口,交换机对 5 元组哈希得到相同出端口而引起的 负载不均衡问题,优化网络传输带宽。

“Spark UCX 是 Apache Spark 的高性能 Shuffle Manager 插件,它使用 UCX 支持的 RDMA 和其他高性能传输来加速 Spark 作业中的 Shuffle 数据传输。RDMA DC(动态连接)是一种传输服务,旨在解决大型系统在使用可靠连接时的可扩展性问题。使用 DC,用户可以打开有限数量的资源,无论集群大小如何。这一优势对于 Spark 如此大规模的应用程序来说非常有好处,并且可以提高性能。”

—— Amit Krig

SVP, Software Engineering & Israel R&D Site Leader, NVIDIA

部署调优后性能提升明显

经过部署调优,NVIDIA ConnectX-6 环境 RDMA 传输性能比 TCP 平均有 18% 的提升;NVIDIA ConnectX-5 环境大部分场景 RDMA 传输性能比 TCP 平均有 16% 的提升。考虑到 Spark 任务有计算和本地 write,所以对 Spark 任务整体完成时间大概有 8% 的性能提升。

NVIDIA ConnetX-6 环境 RDMA 性能提升明显(RDMA read 通信 18% 左右提升,整体完成时间 8% 左右提升),可以大规模灰度部署 Spark 业务真实流量。NVIDIA ConnectX-5 环境大部分场景性能平均提升(RDMA read 通信 16% 左右提升,整体完成时间 6% 左右提升),部分场景 RDMA 性能较差还需要调测优化,可以灰度部署 Spark 业务,继续优化还有提升空间。

图 4:ConnectX-6 网卡 26 台规模 RDMA 完成时间比 TCP 低 20% 左右

图 5:ConnectX-5 网卡 37 台规模 RDMA 完成时间比 TCP 低 18% 左右

图 6:20 台规模 Spark 业务灰度测试,RDMA read 平均降低 20% 左右

后期计划

Spark 项目通过远程直接内存访问(RDMA)技术解决网络传输中服务器数据处理延迟问题,为腾讯 Spark 大数据平台业务提供高带宽、低延时的通信。该技术已在二十多台腾讯 Spark 大数据平台服务器完成灰度测试,运行稳定且 Spark Shuffle(数据读取速率)时间平均降低 15% - 18% 左右,减少了 Spark 任务完成时间(大约 8% 左右),节约了服务器资源。计划逐步部署到数千台 Spark 服务器。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

放弃40万镑周薪!28岁神锋无球可踢,一年身价狂跌5000万欧

锐评利物浦
2026-05-08 00:30:44
叶珂终于摊牌!生女两年无名分,分手真相扯出黄晓明私生活

叶珂终于摊牌!生女两年无名分,分手真相扯出黄晓明私生活

橙星文娱
2026-05-08 09:06:29
从知名女星到广州老板娘,一个女儿用皮肉苦力,买断了父亲的命

从知名女星到广州老板娘,一个女儿用皮肉苦力,买断了父亲的命

杰丝聊古今
2026-05-08 12:49:39
越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

越来越多人查出胰腺炎?提醒:冰箱这5样东西放久了可能是元凶

芹姐说生活
2026-05-08 19:03:26
难怪中方迟迟不表态,美媒道出扎心真相:原来中方早看不上我们了

难怪中方迟迟不表态,美媒道出扎心真相:原来中方早看不上我们了

十夏九漓
2026-05-08 14:56:10
于和伟越来越不对劲了,不是演技退步,而是整个人肉眼可见的变化

于和伟越来越不对劲了,不是演技退步,而是整个人肉眼可见的变化

喜欢历史的阿繁
2026-05-08 07:19:46
日本高层访华无果后,不甘心的高市决定亲自访华,中方态度坚决

日本高层访华无果后,不甘心的高市决定亲自访华,中方态度坚决

潋滟晴方DAY
2026-05-08 05:03:41
梅根发布阿奇王子7岁生日照,王室没有送祝福,和夏洛特差距明显

梅根发布阿奇王子7岁生日照,王室没有送祝福,和夏洛特差距明显

天马幸福的人生
2026-05-08 06:58:39
58岁大姐每天吃一把南瓜子,半年后去体检,医生问吃了啥?

58岁大姐每天吃一把南瓜子,半年后去体检,医生问吃了啥?

健康之光
2026-05-07 17:45:07
叔本华晚年顿悟:人一生最大的清醒,不是赚尽财富,不是高朋满座,而是看透这两个人性底牌

叔本华晚年顿悟:人一生最大的清醒,不是赚尽财富,不是高朋满座,而是看透这两个人性底牌

心理观察局
2026-05-08 08:49:19
美媒称美军袭击伊朗南部多地

美媒称美军袭击伊朗南部多地

财联社
2026-05-08 04:58:07
快讯!哈萨克斯坦害怕了!

快讯!哈萨克斯坦害怕了!

达文西看世界
2026-05-08 08:59:39
一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

老范谈史
2026-05-08 02:36:29
国际足联终于慌了!新方案紧急出炉,世界杯版权迎来重大转机

国际足联终于慌了!新方案紧急出炉,世界杯版权迎来重大转机

社会日日鲜
2026-05-08 04:12:52
医生提醒:立夏后这 4 种菜别再买了!第一种很多家庭餐桌上常有

医生提醒:立夏后这 4 种菜别再买了!第一种很多家庭餐桌上常有

橘子约定
2026-05-08 21:19:37
谁也没料到,被传“风流成性,绯闻不断”的左小青,如今成了这样

谁也没料到,被传“风流成性,绯闻不断”的左小青,如今成了这样

枫尘余往逝
2026-05-07 20:49:55
网友说出了美加墨世界杯转播权不得不买的理由

网友说出了美加墨世界杯转播权不得不买的理由

大张的自留地
2026-05-08 14:23:03
章子怡没想到,清空账号、划清界限的森林北,揭开汪峰仅剩的体面

章子怡没想到,清空账号、划清界限的森林北,揭开汪峰仅剩的体面

好贤观史记
2026-05-08 15:53:17
追踪24年,科学家发现一个人的“生物钟”走得越快,寿命就越短

追踪24年,科学家发现一个人的“生物钟”走得越快,寿命就越短

混沌录
2026-05-06 23:43:06
日媒:中国对日反制“正在产生影响”

日媒:中国对日反制“正在产生影响”

参考消息
2026-05-08 15:36:10
2026-05-08 22:32:49
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3514文章数 1445关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

"大衣哥"再度翻红:五一假期3天跑5场 累到"要保命"

头条要闻

"大衣哥"再度翻红:五一假期3天跑5场 累到"要保命"

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

特朗普全球关税又受阻,也能退款?

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

手机
本地
健康
游戏
公开课

手机要闻

大疆Osmo Pocket 4P开启预约

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

IGN满分游戏《混音青春》发售 Steam好评如潮

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版