网易首页 > 网易号 > 正文 申请入驻

TensorRT-LLM 的大规模专家并行架构设计与创新实现

0
分享至

之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。

上篇文章参考,点击阅读:

大规模专家并行 (EP) 在 TensorRT-LLM 的设计动机与系统分析

高层次设计介绍

根据引入大规模 EP 的初衷部分的详细分析与研究,可以明确观察到 EP 中的专家失衡是大规模 EP 的常见模式。这种 EP 失衡会通过以下方式显著降低整体系统性能:

  • 热门 EP rank 将消耗更多显存(用于激活值),这会限制推理过程中调度的有效最大批处理大小。

  • 更多数据将从热门 EP rank 被发送和接收。

这些问题将导致系统级拥塞效应,即热门 EP rank 将延迟整体端到端执行。

为确保大规模 EP 能稳定运行,需通过精心设计尽可能减少 EP 失衡问题。整体设计如下:



图 1. TensorRT-LLM 大规模 EP 的高层次设计

此设计同时包含 CPU 和 GPU 两侧逻辑:

  • CPU 侧

  • 使用复制与放置算法(复制与放置计算组件)实现更均衡的 EP 策略。这些算法是经典算法,更适合 CPU 计算。此外,将此计算卸载至 CPU 可减少对 GPU 的干扰。未来可探索基于机器学习的算法,并可能需要额外设计考量。复制与放置计算组件将生成“放置信息”,该信息将被 GPU路由逻辑和 CPU更新权重与放置组件共同使用。由 GPU 上运行的统计组件生成的统计数据将被用作复制与放置计算组件的输入。

  • 编排流程(更新权重与放置组件)将 MoE 权重从 CPU 内存更新并重新加载到 GPU 设备显存。该组件还将使用由复制与放置计算组件生成的放置信息。我们的可扩展设计允许通过 MNNVL 或 NIC 从远程 GPU 显存重新加载 MoE 权重。

  • GPU 侧

  • 这是推理的主要执行工作流。我们在设计中引入了以下新的 GPU 组件:

  • EP 通信内核,在上篇图 11 中为分发合并组件。

  • 在线流量数据统计采集器(统计组件)。该组件采集统计数据复制与放置计算组件使用。

  • MoE 路由逻辑(路由组件)。该组件将 Token 发送至激活的专家,并且需要进行调整以支持 MoE 权重的动态放置。它使用复制与放置计算组件生成的放置信息

  • MoE 计算逻辑 (MoE组件) 也需进行相应调整。

  • CPU 和 GPU 组件之间需要仔细同步,以确保整个执行过程的有效性,尤其是为了避免卡顿以及无效或次优执行。

我们为更新权重与放置组件提供了两种设计方案:

  • 批量方案

  • 在此方案中,当 MoE 权重重新分配逻辑启动时,当前服务实例上的推理过程将不得不暂停,直至 MoE 权重重新分配过程完成。我们估计这可能导致约0.5 至 1 秒的在线服务暂停,最坏情况下会引发请求超时。此类超时或暂停可通过系统级措施来缓解,例如将请求传送至其他服务实例或通过请求重试来应对。

  • 分层方案



图 2. 分层 MoE 权重重新分配示例

在当前系统中,我们选择采用分层方案以尽量减少对在线用户体验的影响。批量方案应更易于实现,但本文将不再讨论。为了正确实现分层方案,需仔细评估不同底层硬件的性能以确定具体实现方案。图 3 展示了系统节点中不同硬件组件的通信带宽。



图 3. 系统高层次拓扑结构

以 DeepSeek R1 模型为例,采用 FP4 精度时,每个 MoE 专家占用 24MiB 显存空间。每层包含 256 个专家,总共包含 58 个 MoE 层加 1 个 MTP 层。因此,为实现 EP 平衡所需重新分配的 MoE 权重最大总量为 348GiB。每个节点为每个 Grace CPU 提供 480GB LPDDR5X 显存。在 NUMA 域内,总计可提供 960GB Host 显存。一个节点可在其 CPU Host 显存中完整承载如 DeepSeek R1 LLM 等模型的全部 MoE 权重。基于此,MoE 权重重新分配可通过将对应的 MoE 权重从 CPU Host 显存移动至 GPU 设备显存来实现。

假设我们将50ms的跨 Token 延迟 (ITL) 作为主要延迟约束。通过粗略估算,可以计算出在每次解码迭代中,可从 MoE 权重池(可保存在 Grace CPU 显存或另一节点上的 GPU 显存中)移动到 Blackwell GPU(用于实际 MoE 推理)的专家权重数量为:



图 4. 在以下 50ms ITL 限制下,每次迭代理论上需要更新的专家数量(使用不同硬件作为存储完整 MoE 权重的池)

基于此分析,若依赖每个节点上的 Grace CPU 内存来存储 MoE 权重池,则每次解码迭代中,最多可将 300 个专家的权重重新分配至同一节点上的每个 GPU。假设目标是在 5 次解码迭代内完成整个模型 MoE 权重再平衡,以下为具体用例研究:

  • 用例 1(专家分配均衡,不进行专家复制)

  • 64 个 GPU,每个 GPU 分配 4 个专家

  • 58 层,每个 GPU 分配 232 个专家

  • 每次迭代需要 47 次专家更新,所有方法均可满足延迟目标。

  • 用例 2(专家分配均衡并进行复制)

  • 64 或 72 个 GPU,每个 GPU 分配 5 个专家

  • 58 层,每个 GPU 分配 290 个专家

  • 每次迭代需要 58 次专家更新,所有方法均可满足延迟目标。

  • 用例 3(专家分配均衡并进行复制)

  • 36 个 GPU,每个 GPU 分配 8 个专家

  • 58 层,每个 GPU 分配 464 个专家

  • 每次迭代需要 93 次专家更新,所有方法均可满足延迟目标。

综上所述,根据理论分析,采用 Grace CPU 内存作为存储完整大小 MoE 权重的池,应能使我们在 5 次解码迭代内实现 EP(专家并行)的再平衡。如果将要求放宽至 10 次或以上迭代,系统实现将变得更加灵活。

接下来我们将介绍大规模 EP 系统的详细实现方式。

EP 通信内核

我们评估了多种实现大规模 EP 所需 EP 通信内核的途径,包括 DeepEP、其他解决方案以及重新开发一种方法。

当前的技术决策是:

  • 我们实现了一组新的自定义 EP 通信内核。

  • 对于其他系统(如 Hopper),我们选择直接集成 DeepEP 并进行一些可能的增强。

考虑因素:

  • DeepEP 是由 DeepSeek 团队完成的一项出色成果。我们在启动 TensorRT-LLM 大规模 EP 工作时,最初把重点放在 Grace Blackwell 机架式系统上。我们选择实现自己的定制 EP 通信内核,因为这更便于引入需要 Grace Blackwell 机架式系统功能的优化措施。

  • 当我们开始在 Hopper 上启用大规模 EP 工作时,我们得出的结论是 DeepEP 可以适应并满足我们在该平台上的需求。

我们也在积极评估将通信内核整合为单一解决方案以简化系统架构的可能性,并将持续向社区更新进展。接下来,我们将进一步探讨自定义 EP 通信内核实现中引入的优化措施。

在系统中引入 EP 通信内核的初衷

在解码阶段与预填充解码 (PD) 分离的场景中,我们观察到批处理大小可能不会很大,因此延迟成为一个重要考虑因素。在此背景下,我们非常需要实现与 CUDA graph 的兼容。NCCL 是一个优秀的 GPU 通信库,为我们提供了高效的通信内核和基本操作。目前,其 Send 和 Recv 操作在调用 ncclSend / ncclRecv 时,需要显式指定数据大小。但在大规模专家并行 (large-EP) 场景中,待传输的数据大小根据模型在每次迭代中的输出动态确定。当前 NCCL 通信接口需要同步将通信大小发回 CPU,并以对应数据大小从 CPU 发起 NCCL 调用。这将破坏 CUDA graph 兼容性。这一限制迫使我们开发与 CUDA graph 兼容,且能直接从 GPU 显存接受通信大小的高性能通信内核。我们还希望这些内核能够充分利用 MNNVL 的显存带宽。

EP 通信内核的实现

我们的内核采用与 NCCL 的 LL128 原语类似的通信方法。由于这种方法在延迟和带宽之间取得了良好的平衡,因此非常适合 LLM 推理。我们的自定义内核可直接从 GPU 显存读取通信大小并兼容 CUDA graph,即使数据大小在不同运行中变化也不例外。

我们的实现方式是使用 CUDA 的驱动程序 API 通过 MNNVL 建立点对点 (P2P) 缓冲区作为工作区。每个 GPU 都可以访问其他 GPU 的工作区。工作区被划分为多个通道,每个通道分配给远程 GPU 作为写入缓冲区。这些写入缓冲区以 FIFO 方式使用,通过标志同步 FIFO 状态以避免数据损坏。详细信息请参见 PR 3504:

https://github.com/NVIDIA/TensorRT-LLM/pull/3504

下一篇我们将继续介绍 TensorRT-LLM 在线负载均衡策略与实测的解析。

作者



杨东旭

现任职于 NVIDIA Compute Arch 部门。主要负责 LLM 推理系统的开发和性能优化。加入 NVIDIA 之前,曾从事搜索系统的 GPU 加速和开发工作。



乔显杰

NVIDIA Compute Arch 部门高级架构师,主要负责 LLM 推理的性能评估和优化。加入 NVIDIA 之前,他曾从事推荐系统的 GPU 加速研发工作。



谢开宇

NVIDIA Compute Arch 部门高级架构师,主要负责 TensorRT-LLM 项目的开发,专注在系统性能和优化工作。



朱恩伟

NVIDIA DevTech 部门高级工程师,主要负责 TensorRT-LLM 项目的开发和性能优化。



陈晓明

NVIDIA Compute Arch 部门的首席架构师和高级经理,对深度学习模型的算法软硬件协同设计感兴趣,最近从事大语言模型推理的性能建模、分析和优化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙特富翁带7个儿子来中国旅游,下飞机众人疑惑:这居然是中国?

沙特富翁带7个儿子来中国旅游,下飞机众人疑惑:这居然是中国?

今天说故事
2025-09-10 18:03:28
赵露思带爸妈韩国度假被偶遇,网友:妈妈像富婆爸爸像日本大学生

赵露思带爸妈韩国度假被偶遇,网友:妈妈像富婆爸爸像日本大学生

小咪侃娱圈
2025-09-19 09:06:47
特朗普称对俄领导人失望,泽连斯基再度视察前线

特朗普称对俄领导人失望,泽连斯基再度视察前线

山河路口
2025-09-19 18:16:45
600376,尾盘跳水跌停,此前12天11板

600376,尾盘跳水跌停,此前12天11板

第一财经资讯
2025-09-19 14:58:56
曹髦为什么不趁上朝时做掉司马昭?而是选择自杀式讨伐

曹髦为什么不趁上朝时做掉司马昭?而是选择自杀式讨伐

掠影后有感
2025-09-19 14:56:46
紧急发布!苹果为 iPhone 17 推出 iOS 26 修订版

紧急发布!苹果为 iPhone 17 推出 iOS 26 修订版

简科技
2025-09-19 13:00:05
空调大王跌落神坛,巨亏14亿,叫板董明珠扬言造最好空调现成老赖

空调大王跌落神坛,巨亏14亿,叫板董明珠扬言造最好空调现成老赖

北纬的咖啡豆
2025-09-16 19:16:27
9000万欧新援!沃尔特马德替补席上边吃香蕉边看比赛

9000万欧新援!沃尔特马德替补席上边吃香蕉边看比赛

直播吧
2025-09-19 03:16:07
胜战红利!中国武器间接拿下史上最大军售,歼10红旗9将进驻沙特

胜战红利!中国武器间接拿下史上最大军售,歼10红旗9将进驻沙特

芳芳历史烩
2025-09-19 09:30:50
内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

爱意随风起呀
2025-09-18 14:17:06
复仇者联盟?波杰姆斯基亲笔:女武神全员都憋着一股劲要证明自己

复仇者联盟?波杰姆斯基亲笔:女武神全员都憋着一股劲要证明自己

直播吧
2025-09-19 20:20:05
封毅,被查

封毅,被查

新京报
2025-09-19 19:48:35
已成主力!罗马诺:曼联认为霍伊伦将被买断,5000万几乎确保进账

已成主力!罗马诺:曼联认为霍伊伦将被买断,5000万几乎确保进账

直播吧
2025-09-19 19:04:02
杨振宁的“长寿秘诀”,最核心的并不是多运动、喝水,而是这4点

杨振宁的“长寿秘诀”,最核心的并不是多运动、喝水,而是这4点

知鉴明史
2025-08-17 12:00:06
恶性度最高的肿瘤是那些?

恶性度最高的肿瘤是那些?

肿瘤医学论坛
2025-09-16 19:19:27
这场发布会,潘功胜、李云泽、吴清等将出席!

这场发布会,潘功胜、李云泽、吴清等将出席!

上观新闻
2025-09-19 19:16:06
梅拉尼娅偏爱宽檐帽,几乎遮住整张脸,肢体专家揭秘真实原因

梅拉尼娅偏爱宽檐帽,几乎遮住整张脸,肢体专家揭秘真实原因

红袖说事
2025-09-18 23:16:56
留洋又+1!17岁中国球员将前往欧洲,加盟荷兰知名球队

留洋又+1!17岁中国球员将前往欧洲,加盟荷兰知名球队

足球观察1
2025-09-18 16:27:39
8000 个家庭案例研究曝光:中国孩子已经变了,老师和家长却还没跟上!

8000 个家庭案例研究曝光:中国孩子已经变了,老师和家长却还没跟上!

心理提升课堂
2025-09-06 16:21:06
开国少将李伯秋:抗美援朝打满全场,为何86年被开除军籍党籍?

开国少将李伯秋:抗美援朝打满全场,为何86年被开除军籍党籍?

太傅言史
2025-09-10 09:31:00
2025-09-19 20:59:00
NVIDIA英伟达中国 incentive-icons
NVIDIA英伟达中国
英伟达(中国)官方账号
3249文章数 1418关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

一艘从中国出发的货轮将试航北方海路新路线 中方回应

头条要闻

一艘从中国出发的货轮将试航北方海路新路线 中方回应

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

684亿大牛股,把孕妇逼到胎停?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

艺术
旅游
家居
房产
游戏

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

家居要闻

公共艺术 限时体验打造

房产要闻

全民撑广州,不止于赛场!与“有态度”者共筑城市骄傲

IGN《仁王3》制作组访谈:通关流派任君挑选!

无障碍浏览 进入关怀版