网易首页 > 网易号 > 正文 申请入驻

RecSys’24:使用 EMBark 进行大规模推荐系统训练 Embedding 加速

0
分享至

简介

推荐系统是互联网行业的核心系统,如何高效训练推荐系统是各公司关注的核心问题。目前,推荐系统基本上都是基于深度学习的大规模 ID 类模型,模型包含数十亿甚至数百亿级别的 ID 特征,典型结构如图 1 所示。

图 1. 典型 DLRM 模型结构图

近年来,以 NVIDIA Merlin HugeCTR 和 TorchRec 为代表的 GPU 解决方案,通过将大规模 ID 类特征的 embedding 存放在 GPU 上,并对 embedding 进行模型并行处理,将其分片到不同 GPU 上,利用 GPU 内存带宽优势,大幅加速了深度推荐系统模型的训练,相较于 CPU 方案有显著提升。

同时,随着训练集群 GPU 使用数量增加(从 8 个 GPU 增加到 128 个 GPU),我们也发现,embedding 部分通信开销占整个训练开销比例越来越大。在一些大规模训练中(比如在 16 节点上)甚至超过一半(51%)。这主要是因为两个原因:

  1. 随着集群 GPU 数量增加,每个节点上的 embedding table 数量逐渐减少,导致不同节点负载不均衡,降低训练效率。
  2. 相比机内带宽,机间带宽小得多,因此 embedding 模型并行需要进行机间通信耗时较长。

为了帮助行业用户更好地理解问题、解决问题,NVIDIA HugeCTR 团队于今年的 RecSys 大会上提出了 EMBark,通过支持 3D 的自定义 sharding 策略和结合不同的通信压缩策略,能够细粒度的优化大规模集群下深度推荐模型训练的负载不均衡问题,以及减少 embedding 需要的通信时间,其相关代码[1] 和论文[2] 皆已开源。

图 2. 不同 cluster 配置下 DLRM 各部分训练耗时占比

EMBark 介绍

EMBark 旨在提高 DLRM 训练中 embedding 在不同集群配置下的性能,并加速整体训练吞吐量。EMBark 是在 NVIDIA Merlin HugeCTR 开源推荐系统框架的基础上实现的,但所描述的技术也可以应用于其他机器学习框架。

EMBark 有三个关键组件:embedding clusters、灵活的 3D 分片方案和分片规划器。下图展示了 EMBark 的整体架构。

图 3. EMBark 架构图

Embedding Clusters

Embedding clusters 旨在通过将具有相似特征的 embedding 进行分组并为每个 cluster 应用定制的压缩策略来高效地训练 embedding。每个 cluster 包括 data distributor、embedding storage 和 embedding operators,协同将 feature ID 转换为 embedding 向量。

有三种类型的 Embedding clusters:Data-parallel(DP)、Reduction-based(Reduction based)和基于 Unique-based(Unique Based)。每种类型在训练过程中采用不同的通信方法,适用于不同的 embedding。

  1. DP cluster 不压缩通信,因此简单高效,但是因为会将 embedding table 在每个 GPU 上重复,因此仅适用于小表格。
  2. RB cluster 使用归约操作,对于具有池化操作的多 feature 输入表格压缩效果显著。
  3. UB cluster 仅发送唯一向量,有利于处理具有明显访问热点的 embedding table。

灵活的 3D 分片方案

灵活的 3D 分片方案旨在解决 RB cluster 中的工作负载不平衡问题。与固定的分片策略比如 row-wise、table-wise、column-wise 不同,EMBark 使用一个 3D 元组(i, j, k)表示每个分片,其中 I 表示表格索引,j 表示行分片索引,k 表示列分片索引。这种方法允许每个 embedding 跨任意数量的 GPU 进行分片,提供灵活性并实现对工作负载平衡的精确控制。

分片规划器

为了找到最佳分片策略,EMBark 提供了一个分片规划器——一种成本驱动的贪婪搜索算法,根据硬件规格和 embedding 配置识别最佳分片策略。

Evaluation

所有实验均在一个集群上进行,该集群由 NVIDIA DGX-H100[3] 节点组成,每个节点配备 8 张 NVIDIA H100 GPU(总计 640GB HBM,带宽为每节点 24TB/s)。在每个节点内,所有 GPU 通过 NVLink(双向 900GB/s)互连。节点间通信使用 InfiniBand(8x400Gbps)。

为了展示 EMBark 可以高效训练任何规模的 DLRM 模型,我们测试了使用 MLPerf DLRM-DCNv2 模型并生成了几个具有更大嵌入表和不同属性的合成模型(参见上表)。我们的训练数据集表现出 α=1.2 的幂律偏斜。

图 4. EMBark evaluation 结果

Baseline 采用串行的 kernel 执行顺序,固定的 table-row-wise 分片策略,以及全部使用了 RB-clusters。实验依次使用了三种优化:overlap、更灵活的分片策略和更好的 clusters 配置。

在四种代表性 DLRM 变体(DLRM-DCNv2、T180、T200 和 T510)中,EMBark 实现了平均 1.5 倍的端到端训练吞吐量加速,比 baseline 快最多 1.77 倍。更详细的实验结果和相关的分析,可以参考论文。

结论

EMBark 针对大规模推荐系统模型训练中 embedding 部分耗时占比过高的问题,通过支持 3D 的自定义 sharding 策略和结合不同的通信压缩策略,能够细粒度的优化大规模集群下深度推荐模型训练的负载不均衡问题以及减少 embedding 需要的通信时间,提高大规模推荐系统模型的训练效率,在四种代表性 DLRM 变体(DLRM-DCNv2、T180、T200 和 T510)中,EMBark 实现了平均 1.5 倍的端到端训练吞吐量加速,比 baseline 快最多 1.77 倍。其中,相关代码论文皆已开源,希望我们的工作对大家有所帮助。同时,我们也在积极探索 embedding offloading 相关技术和进行 TorchRec 相关优化工作,未来也会及时和大家更新相关进展情况,如果您对这部分感兴趣,也可以联系我们,大家一起交流和探索。

[1] NVIDIA-Merlin/HugeCTR github 页面:

https://github.com/NVIDIA-Merlin/HugeCTR/tree/main/benchmarks/embedding_collection

[2] 学术论文-Embedding Optimization for Training Large-scale Deep Learning Recommendation Systems with EMBark:

https://dl.acm.org/doi/10.1145/3640457.3688111

[3] 此为 NVIDIA 技术团队所执行的测试环境,仅供学术论文之相关技术讨论。

作者简介

刘仕杰

刘仕杰于 2020 年加入 NVIDIA DevTech,主要专注于在 NVIDIA GPU 上性能优化和推荐系统加速。加入 NVIDIA 之后,他主要参与了 Merlin HugeCTR 开发和 MLPerf DLRM 优化等相关工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列的重大胜利黎巴嫩将彻底铲除真主党

以色列的重大胜利黎巴嫩将彻底铲除真主党

海子侃生活
2026-06-28 09:49:22
这两天,央媒密集重提十一届三中全会:预示什么信号?

这两天,央媒密集重提十一届三中全会:预示什么信号?

起喜电影
2026-06-29 12:47:32
内塔尼亚胡又赢一局:黎巴嫩签约,美以黎三方联手剿杀真主党

内塔尼亚胡又赢一局:黎巴嫩签约,美以黎三方联手剿杀真主党

民间胡扯老哥
2026-06-29 01:44:36
中国排协官宣!14人名单公布,袁志将带队,两人出局一人新入选

中国排协官宣!14人名单公布,袁志将带队,两人出局一人新入选

跑者排球视角
2026-06-28 17:03:49
有毒!江苏已有人中招,夏天很多人爱吃

有毒!江苏已有人中招,夏天很多人爱吃

江南晚报
2026-06-28 21:47:32
丈夫谎称外出打工,躲在纸箱3天,亲眼目睹妻子和邻居丑事大怒

丈夫谎称外出打工,躲在纸箱3天,亲眼目睹妻子和邻居丑事大怒

墨策史
2026-06-23 00:48:04
惊现“小六”!运-20最新大片彩蛋引爆全网

惊现“小六”!运-20最新大片彩蛋引爆全网

看看新闻Knews
2026-06-28 15:32:05
狂丢41次球权!英超名宿痛批阿森纳双星:自大又轻敌

狂丢41次球权!英超名宿痛批阿森纳双星:自大又轻敌

夜白侃球
2026-06-28 20:28:44
00批次第30架!沈飞大方展示第30架歼-35,军迷过年了

00批次第30架!沈飞大方展示第30架歼-35,军迷过年了

战争与帝国
2026-06-29 08:15:15
谁会成为党主席保卫战中郑丽文的最强护卫?出现了!非蒋亦非韩!

谁会成为党主席保卫战中郑丽文的最强护卫?出现了!非蒋亦非韩!

娱乐圈的笔娱君
2026-06-29 03:09:59
“每周末是我的噩梦! ”男子控诉妻子要求令人崩溃,吵过多次无果!网友:换个小房子吧

“每周末是我的噩梦! ”男子控诉妻子要求令人崩溃,吵过多次无果!网友:换个小房子吧

新民晚报
2026-06-28 19:41:42
中国男篮VS日本,直播频道有变,王治郅到沈阳,八村塁难拿40分

中国男篮VS日本,直播频道有变,王治郅到沈阳,八村塁难拿40分

体育大学僧
2026-06-29 12:38:13
二百名医生提醒:晨起一杯温水对糖尿病的影响,建议抽空看看

二百名医生提醒:晨起一杯温水对糖尿病的影响,建议抽空看看

徐医生健康讲坛
2026-06-29 10:55:09
江苏一位百岁老人,时隔60多年才发现,自己竟是中央特科重要人物

江苏一位百岁老人,时隔60多年才发现,自己竟是中央特科重要人物

人生录
2026-06-27 02:36:13
世界杯:阿根廷的轮换与斯卡的带队

世界杯:阿根廷的轮换与斯卡的带队

靴室笑谈社
2026-06-28 14:54:42
历史第二!梅西冲击任意球之王:仅逊儒尼尼奥,连续19年破门太神

历史第二!梅西冲击任意球之王:仅逊儒尼尼奥,连续19年破门太神

李喜林篮球绝杀
2026-06-29 14:01:13
14.1亿人里到底多少人在负债过日子?数据被揭开 结果比想象更扎心

14.1亿人里到底多少人在负债过日子?数据被揭开 结果比想象更扎心

时尚的弄潮
2026-06-28 21:55:21
A股:紧急提醒2.5亿股民!从今天6月29日起,A股或迎绝地反击大行情?

A股:紧急提醒2.5亿股民!从今天6月29日起,A股或迎绝地反击大行情?

趋势清风侠
2026-06-29 07:47:21
火车霸座咬人风波升级!大妈踢到铁板,受害者发声,估计要赔大了

火车霸座咬人风波升级!大妈踢到铁板,受害者发声,估计要赔大了

云景侃记
2026-06-28 10:17:53
2026年6月浙江省退休养老金计算公式,工龄42年,能领7000元吗?

2026年6月浙江省退休养老金计算公式,工龄42年,能领7000元吗?

云鹏叙事
2026-06-29 12:06:44
2026-06-29 14:47:00
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3583文章数 1459关注度
往期回顾 全部

科技要闻

OpenAI推迟上市,那“Kimi们”呢?

头条要闻

于北辰"210%拦截率"成大陆学校考题 台网红笑称恭喜

头条要闻

于北辰"210%拦截率"成大陆学校考题 台网红笑称恭喜

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

萧蔷宣布捐出参加“浪姐”所有收入

财经要闻

35岁职场人,又好找工作了?

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

本地
教育
健康
时尚
公开课

本地新闻

贵州小城的新目标:举办“村超”世界杯!

教育要闻

真是没想到,小学二年级的题目都这么难了

“无糖汤圆”是否隐藏着健康陷阱?

夏天裤子别总穿紧身的,试试这几款阔腿裤,百搭舒适又显瘦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版