CPU和CPU，是如何通信的？|内存|gpu|cpu|pcie|固态硬盘|nvlink

分享至

公众号记得加星标⭐️，第一时间看推送不会错过。

来源：内容来自知乎@马队之声。

由于人工智能的火热，在一个系统中集成CPU和GPU已经成为了常态。那么CPU和GPU之间是如何通信的？我们来看一下以下科普。

存储系统到GPU显存的数据流动

名词解释：

NVMe SSD： Non-Volatile Memory Express，即非易失性内存主机控制器接口规范 NVMe 是一种存储协议，基于该协议的SSD固态硬盘，能大幅提升读写性能。
Host Memory：指主机内存，是计算机中用于存储数据和程序，供 CPU 直接访问和处理的硬件组件。
System Memory：即系统内存，是计算机系统运行时用于临时存储数据和程序指令的硬件。
DMA：Direct Memory Access 即直接内存访问，是一种让外设直接与内存进行数据传输，而无需 CPU 干预的技术。
PCIe：Peripheral Component Interconnect Express，是一种高速串行计算机扩展总线标准，采用点对点串行连接，数据传输速率高、带宽大且可扩展性强。
PCIe Switch：即 PCIe 交换机，用于扩展接口数量，可让多个设备共享 PCIe 总线带宽，实现数据传输。
Bounce buffer：是一种数据缓冲区，用于在不同地址空间或不同设备之间临时存储和传输数据，以解决数据传输不匹配问题。
NIC：Network Interface Card 是计算机与网络连接的硬件设备，用于实现数据的发送与接收、网络信号的调制解调等。
Shared Pinned Memory ：共享固定内存，能在不同应用或进程间共享数据，且固定内存地址减少数据拷贝，提高数据访问效率和系统性能。
IB：InfiniBand 是一种高速网络互联技术，用于高性能计算等领域，能提供低延迟、高带宽的数据传输，实现节点间快速通信。
HPC：High Performance Computing 高性能计算，通过集群等技术整合计算资源，快速处理大规模复杂计算任务，特点是计算能力强、并行处理能力高、数据传输速度快。

1.1 GPU与存储系统的通信

经过系统内存中转的GPU数据加载流程，涉及两次数据拷贝。

第一次拷贝：存储系统 (NVMe) →系统内存(Host Memory)

原因：GPU无法直接访问存储设备（如NVMe SSD)，必须通过CPU和系统内存中转。

技术实现：使用 DMA 技术，通过PCl-e总线，由存储控制器直接将数据从NVMe 拷贝到系统内存，无需CPU干预。

第二次拷贝：系统内存 → GPU显存 (Device Memory)

原因：GPU只能访问自己的显存，需通过PCl-e总线从系统内存加载数据。

技术实现：使用 CUDA的cudaMemcpy拷贝函数，通过PCIe总线将系统内存中的数据，拷贝到GPU显存中。

问题：数据经过系统内存中转，明显存在冗余的数据拷贝过程。

1.2 优化版，GPUDirect Storage

GPUDirect Storage 是什么？

Storage 是GPUDirect 系列技术之一，GPUDirect 经过多年的发展，如今已经包含四种技术，分别是： 1）GPUDirect Storage 2）GPUDirect RDMA 3）GPUDirect P2P (peer to peer) 4）GPUDirect for Video

GPUDirect Storage 功能和优势？

GPUDirect Storage 提供本地存储 (NVMe) 或者远程存储 (NVMe over Fabric) 与GPU显存的直接通路，减少不必要的系统拷贝。它可应用网卡NIC和存储系统附近的DMA引擎，直接向GPU显存写入/读取数据。这种技术减少了CPU和系统内存的瓶颈，显著提升了数据密集型应用的性能。

2. GPU和GPU之间的数据流动

2.1. 有共享内存参与的GPU-GPU间数据流动：

1）GPU0 通过PCle将显存中的数据，拷贝到系统内存中的固定共享内存。

2）从共享内存通过PCIe总线，将数据拷贝到GPU1显存中。

利用此方案将数据从GPU0传送到GPU1，整个过程发生多次数据拷贝，直观上有些是冗余拷贝。

2.2. 优化版GPUDirect P2P(Peer-to-Peer)

GPUDirect P2P 是什么？

P2P是一种允许GPU 之间直接进行数据传输，绕过 CPU提高数据传输效率，加速大规模数据处理和并行计算的一种技术。使用CUDA Toolkit 和driver 就可以支持原生支持P2P技术，进而实现GPU之间直接通信。

GPUDirect P2P 功能和优势？

P2P支持GPU之间通过memory fabric (PCIe或NVLink) 直接进行数据拷贝。如果两个GPU连接到同一PCIe总线，P2P允许每个GPU直接访问自己与对方的GPU显存，而不用通过CPU辅助。即将数据从源GPU拷贝到目标GPU不需要系统内存缓存中间数据。此方法相比与之前方案，在执行相同任务时数据拷贝动作减少一半。

可优化问题：

P2P技术虽然实现了GPU到GPU之间（点对点）的直接数据拷贝，但是多个GPU通过PCIe总线直接与CPU相连，随着AI对HPC要求越来越高，PCIe的通信方式，逐渐成为数据流动的瓶颈。

PCl-e 通信带宽表格：全双工模式下，采用 128b/130b 编码。

PCI - e 版本

传输速率

单通道（x1）带宽

双通道（x2）带宽

四通道（x4）带宽

八通道（x8）带宽

十六通道（x16）

带宽

3.0

8 GT/s

0.98 GB/s

1.97 GB/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

4.0

16 GT/s

1.97 GB/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

5.0

32 GT/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

63.02 GB/s

6.0

64 GT/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

63.02 GB/s

2.3. 高配版NVLink+NVSwitch

什么是NVLink：

NVLink是一种高速、高带宽的互连技术，用于连接多个GPU 之间或连接 GPU 与其他设备（如CPU、内存等)之间的通信技术。

NVLink 功能和优势：

实现设备间的高速数据传输，支持 GPU 之间点对点直接通信和数据共享，可进行大规模并行计算。优势在于能提供极高的带宽，比如 NVIDIA A100 Tensor Core GPU 通过 NVLink 互联可达到 600GB/s 的双向带宽，远高于传统 PCIe 总线。同时具有极低的延迟，能让多 GPU 协作更紧密，显著提升计算性能。

NVLink 解决了单节点小规模计算设备之间的高效通信，比如8个GPU之间通过混合立方网格拓扑结构相连，保证了每两两个GPU之间的传输效率是一致的。

NVLink版本和带宽：

问题：当GPU个数大于NVLink最大连接数量时，这种的拓扑结构就cover不住了。大规模多GPU或者多节点之间的互联通信，需要NVSwitch上点硬科技。

NVSwitch 是什么?

NVSwitch 是NVIDIA 推出的一种高速互联芯片，专为多GPU系统设计，用以简化多GPU间实现全连接的拓扑设计，实现 GPU 之间的高效通信。它是 NVLink技术的扩展，旨在解决大规模多 GPU 系统中的通信瓶颈问题。

NVSwitch 功能和优势？

类似于PCIe使用PCIe Switch用于拓扑的扩展，Nvidia使用NVSwitch实现了NVLink的全连接。NVSwitch作为节点交换架构，支持单节点中16个GPU全互联，并且支持8对GPU同时通信。

高带宽：每条 NVLink的带宽可达300 GB/s （双向），远高于PCIe 的带宽(PCIe 4. 0 ×16的带宽为32GB/S)。全互联拓扑：NVSwitch 支持全互联拓扑，每个 GPU 都可以直接与其他 GPU通信，避免了通信瓶颈。可扩展性：NVSwitch 可以支持大规模多 GPU系统，并且随着 GPU 数量的增加，通信性能不会显著下降。

NVSwitch版本和带宽：

3.GPU之间的跨机通信

3.1 经典的跨机通信

如果涉及GPU的跨机通信，不支持RDMA的方法需要借助系统内存，才能完成数据传输，具体有5个步骤：

在源节点中把数据从源GPU拷贝到host-pinned系统内存中。
在源节点中把数据从host-pinned系统内存拷贝到网卡驱动缓冲区
通过网络传输把数据从源节点传送到目标节点的网卡驱动缓冲区
在目标节点将数据从网卡驱动缓冲区传送到host-pinned系统内存
在目标节点通过PCIe总线将数据从host-pinned系统内存拷贝到目标GPU显存

PS：(Host-Pinned 系统内存也称为 Pinned Memory 或Page-Locked Memory是主机内存Host Memory 中的一种特殊内存区域，它被”固定”在物理内存中，不会被操作系统换出到磁盘。因此GPU 可以通过DMA (Direct Memory Access) 直接从主机内存中读取或写入数据，而不需要 CPU的干预。长被用于频繁的 CPU-GPU数据传输）

3.2 GPUDirect RDMA 优化

GPUDirect RDMA 是什么？

GPUDirect 系列技术之一，该技术可减少在host-pinned系统内存中的中间数据拷贝，可极大提升通信效率。如果有GPUDirect RDMA加持，上述5个步骤可简化至一步完成。

GPUDirect RDMA 功能和优势？

GPUDirect RDMA 支持GPU间快速跨机通信，可使外围PCIe设备直接访问GPU显存。它能减轻CPU负载，同时也能减少不必要的通过系统内存进行的数据拷贝。

实现方式： 1）InfiniBand 是最早实现的RDMA协议，广泛应用于高性能计算中。2）RoCE (RDMA over Converged Ethernet) 是一种允许通过以太网进行 RDMA的网络协议。3）iWARP允许在TCP上执行RDMA的网络协议。

4. 总结

通过 GPUDirect Storage 技术实现了存储设备和GPU显存的直接访问，数据加载效率大大提升。通过GPUDirect P2P技术实现了GPU之间互联互通，可以快速访问。NVLink 用于改善PCIe带宽瓶颈问题，NVSwitch 解决多个GPU设备拓扑扩展问题。GPUDirect RDMA 解决多节点GPU之间通信问题。

Q/A：在GPUDirect 技术中 P2P和 RDMA都是实现GPU之间的高效通信，两者之间的区别和联系?

在实际系统中，两者可结合使用以最大化性能：

单节点内：通过 NVLink + GPUDirect P2P 实现 GPU 间高速通信。

跨节点间：通过 InfiniBand + GPUDirect RDMA 实现低延迟数据传输。

例如，在训练千亿参数模型时，节点内8个GPU 使用 NVLink P2P同步梯度；节点间通过 RDMA将聚合后的梯度广播到其他服务器。

所以：GPUDirect P2P 是单节点多 GPU 通信的基石，依赖高速直连硬件(NVLink/PCIe)优化本地协作。GPUDirect RDMA 是跨节点 GPU 通信的核心，依赖RDMA网络实现超低延迟的远程数据直达。两者共同支撑了从单机到超大规模集群的GPU高效协同，是AI训练、HPC等领域的关键技术。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4179期内容，欢迎关注。

加星标⭐️第一时间看推送，小号防走丢

求推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.