网易首页 > 网易号 > 正文 申请入驻

CPU和CPU,是如何通信的?

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

来源 : 内容来自知乎@马队之声 。

由于人工智能的火热,在一个系统中集成CPU和GPU已经成为了常态。那么CPU和GPU之间是如何通信的?我们来看一下以下科普。

  1. 存储系统到GPU显存的数据流动

名词解释:

  • NVMe SSD: Non-Volatile Memory Express,即非易失性内存主机控制器接口规范 NVMe 是一种存储协议,基于该协议的SSD固态硬盘 ,能大幅提升读写性能。

  • Host Memory:指主机内存,是计算机中用于存储数据和程序,供 CPU 直接访问和处理的硬件组件。

  • System Memory:即系统内存,是计算机系统运行时用于临时存储数据和程序指令的硬件。

  • DMA:Direct Memory Access 即直接内存访问,是一种让外设直接与内存进行数据传输,而无需 CPU 干预的技术。

  • PCIe:Peripheral Component Interconnect Express,是一种高速串行计算机扩展总线标准,采用点对点串行连接,数据传输速率高、带宽大且可扩展性强。

  • PCIe Switch:即 PCIe 交换机,用于扩展接口数量,可让多个设备共享 PCIe 总线带宽,实现数据传输。

  • Bounce buffer:是一种数据缓冲区,用于在不同地址空间或不同设备之间临时存储和传输数据,以解决数据传输不匹配问题。

  • NIC:Network Interface Card 是计算机与网络连接的硬件设备,用于实现数据的发送与接收、网络信号的调制解调等。

  • Shared Pinned Memory :共享固定内存,能在不同应用或进程间共享数据,且固定内存地址减少数据拷贝,提高数据访问效率和系统性能。

  • IB:InfiniBand 是一种高速网络互联技术,用于高性能计算等领域,能提供低延迟、高带宽的数据传输,实现节点间快速通信。

  • HPC:High Performance Computing 高性能计算,通过集群等技术整合计算资源,快速处理大规模复杂计算任务,特点是计算能力强、并行处理能力高、数据传输速度快。

1.1 GPU与存储系统的通信

经过系统内存中转的GPU数据加载流程,涉及两次数据拷贝。

第一次拷贝:存储系统 (NVMe) →系统内存(Host Memory)

原因:GPU无法直接访问存储设备(如NVMe SSD),必须通过CPU和系统内存中转。

技术实现:使用 DMA 技术,通过PCl-e总线,由存储控制器直接将数据从NVMe 拷贝到系统内存,无需CPU干预。

第二次拷贝:系统内存 → GPU显存 (Device Memory)

原因:GPU只能访问自己的显存,需通过PCl-e总线从系统内存加载数据。

技术实现:使用 CUDA的cudaMemcpy拷贝函数,通过PCIe总线将系统内存中的数据,拷贝到GPU显存中。

问题:数据经过系统内存中转,明显存在冗余的数据拷贝过程。

1.2 优化版,GPUDirect Storage

GPUDirect Storage 是什么?

Storage 是GPUDirect 系列技术之一,GPUDirect 经过多年的发展,如今已经包含四种技术,分别是: 1)GPUDirect Storage 2)GPUDirect RDMA 3)GPUDirect P2P (peer to peer) 4)GPUDirect for Video

GPUDirect Storage 功能和优势?

GPUDirect Storage 提供本地存储 (NVMe) 或者远程存储 (NVMe over Fabric) 与GPU显存的直接通路,减少不必要的系统拷贝。它可应用网卡NIC和存储系统附近的DMA引擎,直接向GPU显存写入/读取数据。这种技术减少了CPU和系统内存的瓶颈,显著提升了数据密集型应用的性能。

2. GPU和GPU之间的数据流动

2.1. 有共享内存参与的GPU-GPU间数据流动:

1)GPU0 通过PCle将显存中的数据,拷贝到系统内存中的固定共享内存。

2)从共享内存通过PCIe总线,将数据拷贝到GPU1显存中。

利用此方案将数据从GPU0传送到GPU1,整个过程发生多次数据拷贝,直观上有些是冗余拷贝。

2.2. 优化版GPUDirect P2P(Peer-to-Peer)

GPUDirect P2P 是什么?

P2P是一种允许GPU 之间直接进行数据传输,绕过 CPU提高数据传输效率,加速大规模数据处理和并行计算的一种技术。使用CUDA Toolkit 和driver 就可以支持原生支持P2P技术,进而实现GPU之间直接通信。

GPUDirect P2P 功能和优势?

P2P支持GPU之间通过memory fabric (PCIe或NVLink) 直接进行数据拷贝。如果两个GPU连接到同一PCIe总线,P2P允许每个GPU直接访问自己与对方的GPU显存,而不用通过CPU辅助。即将数据从源GPU拷贝到目标GPU不需要系统内存缓存中间数据。此方法相比与之前方案,在执行相同任务时数据拷贝动作减少一半。

可优化问题:

P2P技术虽然实现了GPU到GPU之间(点对点)的直接数据拷贝,但是多个GPU通过PCIe总线直接与CPU相连,随着AI对HPC要求越来越高,PCIe的通信方式,逐渐成为数据流动的瓶颈。

PCl-e 通信带宽表格:全双工模式下,采用 128b/130b 编码。

PCI - e 版本

传输速率

单通道(x1)带宽

双通道(x2)带宽

四通道(x4)带宽

八通道(x8)带宽

十六通道(x16)

带宽

3.0

8 GT/s

0.98 GB/s

1.97 GB/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

4.0

16 GT/s

1.97 GB/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

5.0

32 GT/s

3.94 GB/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

63.02 GB/s

6.0

64 GT/s

7.88 GB/s

15.75 GB/s

31.51 GB/s

63.02 GB/s

2.3. 高配版NVLink+NVSwitch

什么是NVLink:

NVLink是一种高速、高带宽的互连技术,用于连接多个GPU 之间或连接 GPU 与其他设备 (如CPU、内存等)之间的通信技术。

NVLink 功能和优势:

实现设备间的高速数据传输,支持 GPU 之间点对点直接通信和数据共享,可进行大规模并行计算。优势在于能提供极高的带宽,比如 NVIDIA A100 Tensor Core GPU 通过 NVLink 互联可达到 600GB/s 的双向带宽,远高于传统 PCIe 总线。同时具有极低的延迟,能让多 GPU 协作更紧密,显著提升计算性能。

NVLink 解决了单节点小规模计算设备之间的高效通信,比如8个GPU之间通过混合立方网格拓扑结构相连,保证了每两两个GPU之间的传输效率是一致的。

NVLink版本和带宽:

问题:当GPU个数大于NVLink最大连接数量时,这种的拓扑结构就cover不住了。大规模多GPU或者多节点之间的互联通信,需要NVSwitch上点硬科技。

NVSwitch 是什么?

NVSwitch 是NVIDIA 推出的一种高速互联芯片,专为多GPU系统设计,用以简化多GPU间实现全连接的拓扑设计,实现 GPU 之间的高效通信。它是 NVLink技术的扩展,旨在解决大规模多 GPU 系统中的通信瓶颈问题。

NVSwitch 功能和优势?

类似于PCIe使用PCIe Switch用于拓扑的扩展,Nvidia使用NVSwitch实现了NVLink的全连接。NVSwitch作为节点交换架构,支持单节点中16个GPU全互联,并且支持8对GPU同时通信。

高带宽:每条 NVLink的带宽可达300 GB/s (双向),远高于PCIe 的带宽(PCIe 4. 0 ×16的带宽为32GB/S)。 全互联拓扑:NVSwitch 支持全互联拓扑,每个 GPU 都可以直接与其他 GPU通信,避免了通信瓶颈。 可扩展性:NVSwitch 可以支持大规模多 GPU系统,并且随着 GPU 数量的增加,通信性能不会显著下降。

NVSwitch版本和带宽:

3.GPU之间的跨机通信

3.1 经典的跨机通信

如果涉及GPU的跨机通信,不支持RDMA的方法需要借助系统内存,才能完成数据传输,具体有5个步骤:

  1. 在源节点中把数据从源GPU拷贝到host-pinned系统内存中。

  2. 在源节点中把数据从host-pinned系统内存拷贝到网卡驱动缓冲区

  3. 通过网络传输把数据从源节点传送到目标节点的网卡驱动缓冲区

  4. 在目标节点将数据从网卡驱动缓冲区传送到host-pinned系统内存

  5. 在目标节点通过PCIe总线将数据从host-pinned系统内存拷贝到目标GPU显存

PS:(Host-Pinned 系统内存也称为 Pinned Memory 或Page-Locked Memory是主机内存Host Memory 中的一种特殊内存区域,它被”固定”在物理内存中,不会被操作系统换出到磁盘。因此GPU 可以通过DMA (Direct Memory Access) 直接从主机内存中读取或写入数据,而不需要 CPU的干预。长被用于频繁的 CPU-GPU数据传输)

3.2 GPUDirect RDMA 优化

GPUDirect RDMA 是什么?

GPUDirect 系列技术之一, 该技术可减少在host-pinned系统内存中的中间数据拷贝,可极大提升通信效率。如果有GPUDirect RDMA加持,上述5个步骤可简化至一步完成。

GPUDirect RDMA 功能和优势?

GPUDirect RDMA 支持GPU间快速跨机通信,可使外围PCIe设备直接访问GPU显存。它能减轻CPU负载,同时也能减少不必要的通过系统内存进行的数据拷贝。

实现方式: 1)InfiniBand 是最早实现的RDMA协议,广泛应用于高性能计算中。2)RoCE (RDMA over Converged Ethernet) 是一种允许通过以太网进行 RDMA的网络协议。3)iWARP允许在TCP上执行RDMA的网络协议。

4. 总结

通过 GPUDirect Storage 技术实现了存储设备和GPU显存的直接访问,数据加载效率大大提升。通过GPUDirect P2P技术实现了GPU之间互联互通,可以快速访问。NVLink 用于改善PCIe带宽瓶颈问题,NVSwitch 解决多个GPU设备拓扑扩展问题。GPUDirect RDMA 解决多节点GPU之间通信问题。

Q/A:在GPUDirect 技术中 P2P和 RDMA都是实现GPU之间的高效通信,两者之间的区别和联系?

在实际系统中,两者可结合使用以最大化性能:

  1. 单节点内:通过 NVLink + GPUDirect P2P 实现 GPU 间高速通信。

  1. 跨节点间:通过 InfiniBand + GPUDirect RDMA 实现低延迟数据传输。

例如,在训练千亿参数模型时,节点内8个GPU 使用 NVLink P2P同步梯度;节点间通过 RDMA将聚合后的梯度广播到其他服务器。

所以:GPUDirect P2P 是单节点多 GPU 通信的基石,依赖高速直连硬件(NVLink/PCIe)优化本地协作。GPUDirect RDMA 是跨节点 GPU 通信的核心,依赖RDMA网络实现超低延迟的远程数据直达。两者共同支撑了从单机到超大规模集群的GPU高效协同,是AI训练、HPC等领域的关键技术。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4179期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽2名干部主动投案!

安徽2名干部主动投案!

阜阳发布
2026-04-15 21:38:19
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
女子用滴露“宠物专用消毒液”拖地后 5只幼猫当晚全部死亡 品牌回应:需尸检报告确认因果关系

女子用滴露“宠物专用消毒液”拖地后 5只幼猫当晚全部死亡 品牌回应:需尸检报告确认因果关系

闪电新闻
2026-04-14 21:57:12
谢娜带娃现身环球影城,牵手女儿温馨有爱,驻足停留让粉丝拍照

谢娜带娃现身环球影城,牵手女儿温馨有爱,驻足停留让粉丝拍照

扒虾侃娱
2026-04-15 14:43:28
狠辣!克洛普敲定 5 人清洗名单,皇马大将在列

狠辣!克洛普敲定 5 人清洗名单,皇马大将在列

澜归序
2026-04-15 03:40:39
郑丽文与洪秀柱正面交锋:不是谁对谁错,而是两种逻辑在碰撞

郑丽文与洪秀柱正面交锋:不是谁对谁错,而是两种逻辑在碰撞

蓝色海边
2026-04-15 07:08:29
一场114-110!西部三组对决出炉:湖人有坏消息传来!

一场114-110!西部三组对决出炉:湖人有坏消息传来!

运筹帷幄的篮球
2026-04-15 13:56:03
八连鞭+五破百!张安达横扫舒尔蒂,中国名将闯进世锦赛32强!

八连鞭+五破百!张安达横扫舒尔蒂,中国名将闯进世锦赛32强!

世界体坛观察家
2026-04-16 01:23:24
随着马竞3-2,大巴黎4-0,欧冠最新夺冠赔率出炉:两队并列第一

随着马竞3-2,大巴黎4-0,欧冠最新夺冠赔率出炉:两队并列第一

侧身凌空斩
2026-04-15 05:51:16
机构发布“2026中国大学排名”

机构发布“2026中国大学排名”

澎湃新闻
2026-04-15 09:08:26
楼市“预言家”潘石屹再开金口,前两次全中,这次大概率又说对了

楼市“预言家”潘石屹再开金口,前两次全中,这次大概率又说对了

鉴史录
2026-04-13 16:32:08
围观!潮汕某市委副书记入股拟IPO公司后获利8300万!

围观!潮汕某市委副书记入股拟IPO公司后获利8300万!

潮州玩家
2026-04-16 00:03:07
“中方要求两大航运公司立即停止巴拿马港口运营”

“中方要求两大航运公司立即停止巴拿马港口运营”

观察者网
2026-04-15 16:28:22
文章上海开饭店爆火仅3天,担心的事发生,马伊琍“发力”了

文章上海开饭店爆火仅3天,担心的事发生,马伊琍“发力”了

白面书誏
2026-04-15 19:01:50
斯诺克世锦赛:中国00后10-5爆冷击败NO.18世界冠军

斯诺克世锦赛:中国00后10-5爆冷击败NO.18世界冠军

奇史怪谈
2026-04-16 03:11:48
闹大了!中介带看2800万独栋别墅,客户转身就跳单了,起诉!

闹大了!中介带看2800万独栋别墅,客户转身就跳单了,起诉!

金华范姐说房
2026-04-15 07:00:16
小伙80万开面馆6天倒闭又投40万开新店:这两年送外卖攒钱,宁睡地板也要当老板

小伙80万开面馆6天倒闭又投40万开新店:这两年送外卖攒钱,宁睡地板也要当老板

亿通电子游戏
2026-04-15 19:18:16
别抢石油了!美高官急呼特朗普大误判,中国砸千亿布局科技已超车

别抢石油了!美高官急呼特朗普大误判,中国砸千亿布局科技已超车

诗酒趁的年华
2026-04-15 08:29:50
预亏超11亿元,股价却连续3天涨停!002124,最新公告!

预亏超11亿元,股价却连续3天涨停!002124,最新公告!

证券时报e公司
2026-04-15 19:15:25
大摩:房东信心再度恶化

大摩:房东信心再度恶化

谭谈投研
2026-04-14 19:12:11
2026-04-16 03:56:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13406文章数 34874关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

法国全票通过 “将不义之财归还中国”

头条要闻

法国全票通过 “将不义之财归还中国”

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

教育
时尚
本地
房产
亲子

教育要闻

黄冈小升初招生题,求面积,方法思路太绝了

赫本爱穿的伞裙,好优雅!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

重磅调规!341亩商改住+中小学用地!宝龙城这把稳了?

亲子要闻

孕妇200买水果被骂后续:已终止妊娠,男方崩溃砸东西,网友炸锅

无障碍浏览 进入关怀版