网易首页 > 网易号 > 正文 申请入驻

PCIe、NVLink、CXL……谁才是芯片互联界的“真·海王”?

0
分享至

1. 痛点开头:算力堆得越多,卡在哪?

单颗芯片再猛,也是个孤狼。

真正决定系统性能天花板的,是这群“狼”能不能组队开黑。

这就是所谓的“互联墙”(Interconnect Wall)。翻译成人话就是:芯片之间连得爽不爽,比你芯片自己厉不厉害,更重要。

现在的局面是,搞互联的这帮人,已经卷出了新高度。什么PCIe、NVLink、CXL、UALink……各种协议满天飞,各家都说自己是“真·海王”,能同时伺候好一群芯片。

今天,咱们就来扒一扒。

2. 传统基石:PCIe的演进和天生瓶颈

PCIe是现在最通用的互联标准,这么多年一直是CPU和各种加速器之间通信的骨干。


但现在GPU算力和显存带宽涨得太快,PCIe已经有点跟不上了。

先给大家看一下PCIe这些年的带宽升级,变化非常直观:

PCIe版本

单通道速率 (GT/s)

x16双向带宽 (GB/s)

编码方式/信号技术

PCIe 3.0

8

31.5

128b/130b (NRZ)

PCIe 4.0

16

63.0

128b/130b (NRZ)

PCIe 5.0

32

128b/130b (NRZ)

PCIe 6.0

64

1b/1b (PAM4 + FLIT)

PCIe 7.0

128

1b/1b (PAM4 + FLIT)

PCIe 6.0其实已经做了大升级,用了PAM4四电平脉冲幅度调制,不用提高链路频率就能把带宽翻一倍,已经尽力了。

但问题出在架构设计上。PCIe用的是树形层次拓扑,还是非一致性的存储模型,优势是兼容性好通用性强,但多GPU协同的时候,跨芯片交换数据大多要绕CPU中转,或者靠软件管理DMA,不仅软件开销大,延迟也降不下去。

更关键的是,PCIe在硬件层面原生不支持缓存一致性。

什么意思?简单说就是不同芯片没法直接共享同一个内存地址空间,要同步数据就得程序员手动控制缓存刷新,不仅写代码变复杂,还白白浪费了很多计算周期。

这个瓶颈,在训练万亿参数大模型的时候尤其明显——频繁更新权重、同步梯度对带宽和一致性要求太高了,PCIe顶不住。

3. 私有标杆:NVIDIA NVLink的闭环优势

为了绕开PCIe的问题,NVIDIA做了自己的私有互联协议NVLink,现在是行业性能标杆。

NVLink的设计思路很直接:绕开PCIe的层级结构,直接给GPU之间、GPU和兼容CPU之间做点对点的直连通道。


从2016年推出到现在,基本每代带宽都翻一倍,升级路线很清晰:

NVLink版本

对应架构

每GPU总带宽 (GB/s, 双向)

最大扩展规模

NVLink 1.0

Pascal (P100)

160

8 GPUs

NVLink 2.0

Volta (V100)

300

16 GPUs

NVLink 3.0

Ampere (A100)

600

16-32 GPUs

NVLink 4.0

Hopper (H100)

900

256 GPUs

NVLink 5.0

Blackwell (B200)

1,800

576 GPUs

NVLink 6.0

Rubin

3,600

576+ GPUs

NVLink能做这么强,不只是物理层带宽高,配套的NVSwitch芯片是关键。NVSwitch相当于GPU之间的全连接交换机,服务器里所有GPU都能全速无阻塞互相通信。

现在Blackwell架构用第五代NVLink加第三代NVSwitch,能拼出576个GPU的超级计算集群,整个机架总带宽能到130TB/s,这个性能现在没人能比。

后来推出的NVLink-C2C还把这个优势扩展到了CPU和GPU之间,能做到900GB/s的超低延迟一致性连接,GPU能直接用CPU的系统内存,正好缓解了HBM显存容量不够的问题。

从软件层面看,NVLink底层直接支持硬件级的内存语义,包括直接读写和原子操作。开发者用CUDA编程的时候,访问别的GPU显存就像访问自己本地显存一样,效率提升非常明显。

但缺点也很明显:封闭生态带来厂商锁定,别的厂商用不了,所以整个行业都在找开放的替代方案。

4. 开放统一:CXL怎么对抗封闭生态?

为了打破NVIDIA的垄断,Intel牵头拉着AMD、ARM这些厂商搞了CXL开放标准,现在已经成了业界主流的开放方案。

CXL的设计很聪明,它直接复用现有的PCIe物理层和电气标准,只在上面重新做了三套专门针对低延迟一致性优化的协议栈,不用彻底推翻现有产业链就能升级。

CXL根据设备类型,分了三个协议子集,动态启用:

CXL.io:基于PCIe改的,用来做设备发现、初始化、配置,还有非一致性数据传输,是所有CXL设备都必须支持的基础。

CXL.cache:让加速器能用低延迟缓存主机的系统内存,适合做细粒度的指令级协作,SmartNIC和近内存计算设备用得最多。

CXL.mem:让主机CPU能用标准读写指令访问加速器自带的内存,是实现内存池化、内存分解的核心基础。

按支持的协议组合,CXL设备又分成三类:

Type 1一般是加速器或者SmartNIC,只用CXL.io和CXL.cache,大多没有本地大容量内存,靠访问主机内存工作。

Type 2是通用加速器,比如GPU、FPGA,三个协议全都支持,既能访问主机内存,也能让主机访问自己本地的HBM,能拼出完全对称的一致性空间。

Type 3是内存扩展器,只用CXL.io和CXL.mem,就是给系统额外加DRAM或者持久化内存,解决数据中心内存闲置、带宽不够的问题。

最新的CXL 3.1已经支持基于端口的路由和多层交换,能把互联范围从机架内扩展到整个数据中心,理论上能支持几千个节点共享同一个内存池。这种内存池化能力,现在被认为是能降低数据中心总体拥有成本的革命性技术。

5. 各家方案:不止NVLink和CXL,还有这些选择

除了上面两个最主流的,AMD、华为、Intel都有自己的方案,各有各的思路。

AMD Infinity Fabric

AMD给Instinct系列加速器做的Infinity Fabric,前身叫XGMI,思路和NVLink差不多,主打高点对点带宽,还能和自己的CPU架构深度集成。

现在的MI300X,每颗芯片带7条Infinity Fabric链路,每条能提供128GB/s的双向带宽,支持8颗GPU用环形或者网格拓扑互联。

而MI300A作为全球首款AI+HPC用的APU,单芯片封装里直接集成了Zen 4 CPU和CDNA 3 GPU,这些核心通过片内Infinity Fabric直接共享同一组HBM3显存,彻底省掉了CPU和GPU之间数据拷贝的延迟,FP64矩阵运算理论峰值能到122.6TFLOPS,性能非常强。

华为HCCS和下一代UB架构

华为升腾芯片用的是自研的HCCS缓存一致性系统做卡间互联,升腾910单颗芯片就有3条HCCS链路,总带宽最高能到90GB/s,用环形拓扑能把4颗或者8颗加速器拼成一个紧密协作的计算节点。

在2025年的Hot Chips大会上,华为公布了下一代互联技术:统一总线UB,目标是把CPU、NPU、内存、网络接口的协议统一,省掉传统协议转换带来的延迟。针对超大规模集群,还做了UB-Mesh拓扑,是一种分层的局部全连接网络。


这个架构专门利用了大模型训练里数据有局部性的特点,能做到比传统网络高100倍的带宽,还能通过非线性成本控制大幅降低互联开销。目标是拼出支持百万颗芯片协同的超级节点,还专门在光学链路上做了自动重试,解决光互联误码率高的问题。

6. 开放联盟:UALink要挑战NVLink垄断

2024年AMD、Intel、谷歌、微软这些巨头凑在一起搞了UALink联盟,推出了开放的Ultra Accelerator Link协议,就是冲着打破NVIDIA垄断来的。

UALink 1.0的目标就是做一个开放、高性能、低延迟的扩展互联标准,复用以太网的物理层,但重新设计了上层协议,支持加速器之间直接读写内存。

我们直接对比一下NVLink 5.0:

指标

UALink 1.0 (2025)

NVLink 5.0 (Blackwell)

每通道速率

200 GT/s

约 224 Gbps

单端口带宽 (x4)

800 Gbps

1.8 TB/s (每GPU总和)

最大集群规模

1,024 节点

576 节点

往返延迟

< 1 微秒

极低 (私有优化)

生态开放度

完全开放标准

封闭私有

UALink 2.0已经开始规划网内计算技术,目的是减少加速器之间调度任务的控制消息,把更多带宽留给实际数据传输。

虽然量产进度比NVLink慢,但有整个行业背书,未来肯定是大规模AI集群的一个重要选项

8. 底层基础:先进封装和芯粒互联标准

现在芯粒技术越来越成熟,芯片互联已经不只是电路板上的事,已经延伸到封装内部了,封装技术本身就决定了物理层互联的密度和能效比。

现在主流先进封装主要两个路线:

技术

开发商

结构特点

相对成本

主要应用

CoWoS-S

TSMC

全尺寸硅中介层 (Silicon Interposer)

1.0x

NVIDIA H100, AMD MI300

CoWoS-L

TSMC

有机基板 + 局部硅桥 (LSI Bridge)

1.2x

NVIDIA Blackwell (超大封装)

EMIB

Intel

嵌入式多芯片互联桥

0.7x - 0.9x

Intel Xeon, 加速器, ASIC

台积电的CoWoS现在占市场主导,但产能不够,成本还高——硅中介层经常要占封装总成本的一半以上。Intel的EMIB只在需要的地方嵌硅桥,省硅料,成本能降30%到40%,散热和尺寸扩展性还更好,各有优势。

要让不同厂商的芯粒能拼在一起用,就得有通用的互联标准,所以Intel、AMD、NVIDIA、台积电、三星这些厂商一起搞了UCIe通用芯粒互联标准。

UCIe基于CXL和PCIe的协议层,但物理层做得非常精简,每比特能耗只有0.25到0.5pJ,比传统的PCIe这类封装外互联低一个数量级。


先进封装下,UCIe 1.0能做到1.35TB/s/mm²的带宽密度,后续的2.0、3.0版本已经把速率提到了48GT/s和64GT/s,还支持3D堆叠封装,以后AI芯片能在单封装里集成更多计算核心和HBM堆栈。

9. 趋势总结:互联已经变成核心战略资源

现在异构计算的互联方案,已经呈现出几个非常明确的趋势:

第一,硬件一致性是准入门槛。不管是开放的CXL还是私有的NVLink-C2C,要做深度融合的异构系统,硬件级缓存一致性已经是必须的,没有这个就做不了细粒度并行。

第二,以太网化和开放标准化是大方向。集群规模越来越大,要做到百万卡级别,用以太网物理层做低成本扩展已经挡不住了,UALink这类开放标准起来之后,专有协议的市场空间会越来越受挑战。

第三,光互联很快就要落地。铜缆超过2到4米信号衰减就扛不住了,硅光子和共封装光学已经从实验室走向数据中心,现在华为等厂商已经开始在协议层做文章,解决光模块误码率高的问题。

第四,封装本身就是网络。UCIe正在把整个封装变成一个低延迟高速网络,大芯片能通过芯粒拼接突破制造极限,以后会越来越普及。

总的来说,现在异构芯片的互联早就不是单纯的接插件了,已经变成整个系统架构里最重要的战略资源。

选什么互联方案,不只是看带宽数字,还要看软件生态成熟度、集群可扩展性,还有长期的总体拥有成本。

未来的计算系统,不会再有明确的处理器和存储器的边界,最后就是一张用高速低功耗互联织出来的巨大计算网络。

对于想做异构算力的团队来说,早点摸清楚不同互联方案的优缺点,选对路线比单纯堆算力重要得多。

海王的终极形态,是让你没得选。

写了这么多,划个重点:

PCIe:公交车,哪都能去,但慢。适合当“备用方案”和“控制通道”。

NVLink:私人飞机,巨快,但贵且封闭。老黄的护城河。

CXL:共享单车+月老,想撮合所有芯片搞内存池化。理想很大,但受限于物理层。

UALink:巨头们组队干NVLink的产物。纸面很强,等落地。

UCIe:封装内的胶水,让芯粒像乐高一样拼。未来所有超大芯片的标配。

光互联:终极解决方案。等成本降下来,铜线就可以退休了。

趋势也很明显:一致性、以太网化、标准化、光进铜退。

未来的计算系统,不会再是“CPU在这里,GPU在那里,内存在那一边”。而是一个由高速互联织成的巨大网络,计算、存储、通信的边界全部模糊掉。

从“计算为王”,到“互联为王”。

时代变了。

文章来源于歪睿老哥,作者歪睿老哥

技术大会报名倒计时(免费午餐)

224G SerDes|GAN|FPGA|AI信号处理等


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美会晤结束,中方率先定调,特朗普通告全球,美媒:美国变了

中美会晤结束,中方率先定调,特朗普通告全球,美媒:美国变了

墨道荣
2026-05-15 12:21:30
中国五千年最绝妙的4副对联,写尽人生百态,读一遍就懂了半个人生

中国五千年最绝妙的4副对联,写尽人生百态,读一遍就懂了半个人生

诗词天地
2026-05-14 05:59:32
不要错过!5月15日下午14:55比赛!中央5套CCTV5、CCTV5+直播表

不要错过!5月15日下午14:55比赛!中央5套CCTV5、CCTV5+直播表

天光破云来
2026-05-15 12:51:33
调查发现:老年人若经常吃香蕉,用不了多久,身体或迎来3大改变

调查发现:老年人若经常吃香蕉,用不了多久,身体或迎来3大改变

芹姐说生活
2026-05-15 15:06:08
“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

“莫奈紫”变“摸奶子”,OPPO呼吸都是错的

梳子姐
2026-05-13 19:46:10
朱元璋为什么将蓝玉剥皮?看看蓝玉怎么对北元王妃:换你你也杀!

朱元璋为什么将蓝玉剥皮?看看蓝玉怎么对北元王妃:换你你也杀!

铭记历史呀
2026-05-14 15:16:12
毁三观!上海10岁男童遭奶奶长期侵害致抑郁,总是梦见私处被咬

毁三观!上海10岁男童遭奶奶长期侵害致抑郁,总是梦见私处被咬

魔都姐姐杂谈
2026-05-14 07:31:52
特朗普称中国将订购200架波音(BA.US)客机,市场关注交付与后续订单

特朗普称中国将订购200架波音(BA.US)客机,市场关注交付与后续订单

智通财经
2026-05-15 10:39:36
重磅! 禁止PR领取澳洲17项福利, 只有公民能领! 还要大砍40%移民

重磅! 禁止PR领取澳洲17项福利, 只有公民能领! 还要大砍40%移民

澳微Daily
2026-05-15 16:03:07
趁着大半个美国高层都在北京,坐镇白宫的万斯“杀伐果断”

趁着大半个美国高层都在北京,坐镇白宫的万斯“杀伐果断”

健身狂人
2026-05-15 01:35:03
中国领空不再免费!外国飞机过华须审批,日本最慌:怕被卡脖子

中国领空不再免费!外国飞机过华须审批,日本最慌:怕被卡脖子

闻识
2026-05-14 13:25:29
江怡臻说,脚踏进人民大会堂,整个人就“战战兢兢,如履薄冰”了

江怡臻说,脚踏进人民大会堂,整个人就“战战兢兢,如履薄冰”了

果妈聊娱乐
2026-04-16 09:19:20
直击!广州暴雨水浸街,外卖小哥水中捞人...

直击!广州暴雨水浸街,外卖小哥水中捞人...

广州楼市发布
2026-05-15 15:55:26
太突然!80后“地产女王”烧炭身亡,生前曾向朋友发信息称不想活

太突然!80后“地产女王”烧炭身亡,生前曾向朋友发信息称不想活

浪子阿邴聊体育
2026-05-14 15:28:06
当着全球的面,朝鲜立最高铁律:只要我被“斩首”,核弹立刻升空

当着全球的面,朝鲜立最高铁律:只要我被“斩首”,核弹立刻升空

小噎论事
2026-05-12 15:24:59
没给日本的,中方都给了特朗普,除了21响礼炮,还有一个重要待遇

没给日本的,中方都给了特朗普,除了21响礼炮,还有一个重要待遇

云崖听松
2026-05-15 16:48:27
摩洛哥幸福新娘事件升级!河南一男子刷到该视频,断然与对象退婚

摩洛哥幸福新娘事件升级!河南一男子刷到该视频,断然与对象退婚

火山詩话
2026-05-14 07:04:08
决胜局连得11分杀人诛心!任何组合2-1复仇,男双独苗晋级4强

决胜局连得11分杀人诛心!任何组合2-1复仇,男双独苗晋级4强

钉钉陌上花开
2026-05-15 15:49:23
骑士消息:裁判报告出炉,哈登成历史首人,G6出场更新

骑士消息:裁判报告出炉,哈登成历史首人,G6出场更新

冷月小风风
2026-05-15 12:04:48
山东大姐这事干的漂亮!被美国FBI悬赏!赏金1.5亿超过3个本拉登

山东大姐这事干的漂亮!被美国FBI悬赏!赏金1.5亿超过3个本拉登

马尔科故事会
2025-03-27 15:21:29
2026-05-15 17:48:49
EETOP半导体社区 incentive-icons
EETOP半导体社区
国内著名的电子工程师社区
7590文章数 15667关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

白宫称中方同意重开霍尔木兹海峡 外交部回应

头条要闻

白宫称中方同意重开霍尔木兹海峡 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

特朗普的北京时刻

汽车要闻

标杆级乘坐感受 驾驶智界V9需要再细腻一点?

态度原创

教育
数码
艺术
房产
公开课

教育要闻

既要学校稳,又要同学好,还要门槛低?这所学校满足你!

数码要闻

智界V9上线智能关怀卡片:搭配华为儿童手表,可一键寻娃

艺术要闻

陆游竟是一位书法高手!80岁写的字仍旧气势非凡,难怪秦桧嫉妒不已

房产要闻

海口商业也是出息了!“友谊阳光城”,杀入北京最牛商街!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版