CXL在AI时代已死|内存|gpu|amd|pcie|开发者大会|nvidia

CXL在AI时代已死

分享至

来源：内容由半导体行业观察（ID：icbank）编译自semianalysis，谢谢。

如果您希望可以时常见面，欢迎标星收藏哦~

如果我们把时间拉回到两年前，在人工智能迅速崛起之前，数据中心硬件领域的许多人都在追逐 CXL。它被许诺为带来异构计算、内存池和可组合服务器架构的救世主。现有厂商和一大批新创公司都急于将 CXL 集成到自己的产品中，或创建基于 CXL 的新产品，如内存扩展器、池器和交换机。时至 2023 年和 2024 年初，许多项目已被悄然搁置，许多超大规模企业和大型半导体公司几乎已完全转向其他领域。

随着 Astera Labs 即将上市和产品发布，CXL 的讨论至少在短期内又回到了前排。我们已经就这项技术、其为云服务提供商节约成本的潜力以及生态系统和硬件堆栈撰写了大量文章。虽然从纸面上看非常有前景，但数据中心的格局已经发生了很大变化，但有一点没有改变：控制器和交换机等 CXL 硬件仍未大量上市。尽管如此，围绕 CXL 的讨论和研究仍然不绝于耳，业内某些专业人士现在还在鼓吹 CXL 是人工智能的 "助推器"。

更广泛的 CXL 市场是否已经准备好起飞并实现其承诺？CXL 能否成为人工智能应用的互连器件？CXL 在 CPU 附加扩展和池化中的作用是什么？我们将在本报告的用户部分回答这些问题。

简单的答案是否定的--推动 CXL 用于人工智能的人大错特错。让我们先快速回顾一下 CXL 的主要用例和承诺。

CXL 快速复习概述

CXL 是一种建立在 PCIe 物理层之上的协议，可实现跨设备的高速缓存和内存一致性。利用 PCIe 接口的广泛可用性，CXL 允许在各种硬件之间共享内存：CPU、网卡和 DPU、GPU 和其他加速器、SSD 和内存设备。

这样就可以实现以下用例：

内存扩展：CXL可帮助增加服务器的内存带宽和容量。

内存池：CXL 可以创建内存池，将内存从 CPU 中分离出来，理论上可以大幅提高 DRAM 利用率。从纸面上看，这可以为每个云服务提供商节省数十亿美元。

异构计算：ASIC 的效率远远高于通用 CPU。CXL 可以在 ASIC 和通用计算之间提供低延迟缓存一致性互连，从而帮助实现异构计算，这样应用程序就可以更轻松地将它们集成到现有代码库中。

可组合服务器架构：服务器被分解成不同的组件并放置在不同的组中，这些资源可以动态地分配给不同的工作负载，从而提高资源滞留率和利用率，同时更好地满足应用需求。

下图说明了部分情况：CXL 可以解决主系统内存和存储之间的延迟和带宽差距，从而实现新的内存层。

SNIA

有些人预测，到 2028 年，CXL的销售额将高达 150 亿美元，而现在只有几百万美元，因此我们认为是时候对 CXL 市场进行适当的更新了，因为这种说法简直太荒谬了。让我们先来谈谈人工智能的 CXL 案例。

CXL 不会成为人工智能时代的互联技术

目前，CXL 的可用性是主要问题，因为 Nvidia GPU 不支持它，而 AMD 的技术仅限于 MI300A。虽然 MI300X 理论上可以在硬件上支持 CXL，但它并没有正确地暴露出来。CXL IP 的可用性在未来会有所改善，但除了可用性之外，还有更深层次的问题使 CXL 在加速计算时代失去了意义。

两个主要问题与 PCIe SerDes 和海滨或海岸线区域有关。芯片的 IO 通常必须来自芯片边缘。下面这张来自 Nvidia 的图片以漫画的形式展示了 H100。中央是所有的计算区域。顶部和底部两侧 100% 专用于 HBM。从 H100 到 B100，HBM 数量增加到 8 个，需要更多的岸线面积。Nvidia 将继续在其 2 芯片封装的整整两侧使用 HBM。

剩下的两面专门用于其他芯片到芯片的 IO，这也是标准和专有互连争夺芯片面积的地方。H100 GPU 有 3 种 IO 格式：PCIe、NVlink 和 C2C（用于连接 Grace）。Nvidia 决定只包含最少的 16 条 PCIe 通道，因为 Nvidia 在很大程度上更喜欢后者 NVLink 和 C2C。请注意，服务器 CPU（如 AMD 的 Genoa）的 PCIe 通道最多可达 128 条。

做出这种选择的主要原因是带宽。16 通道 PCIe 接口每个方向的带宽为 64GB/s。Nvidia 的 NVlink 为其他 GPU 带来了 450 GB/s 的双向带宽，大约高出 7 倍。Nvidia 的 C2C 也能为 Grace CPU 带来每秒 450GB 的双向带宽。为了公平起见，Nvidia 为 NVLink 提供了更多的岸线面积，因此我们需要将硅片面积也计算在内；但即便如此，我们估计在各种 SOC 中，Nvidia NVLink、Google ICI 等以太网式 SerDes 每平方毫米的单位岸线面积带宽要高出 3 倍。

因此，如果你是一个带宽受限的芯片设计者，当你选择使用 PCIe 5.0 而不是 112G 以太网式 SerDes 时，你的芯片大约要差 3 倍。随着下一代图形处理器和人工智能加速器采用 224G SerDes，这种差距将继续存在，并与 PCIe 6.0 / CXL 3.0 保持 3 倍的差距。我们处在一个焊盘有限的世界，放弃 IO 效率是一种疯狂的权衡。

人工智能集群的主要扩展和缩小互联将采用专有协议，如 Nvidia NVlink 和 Google ICI，或以太网和 Infiniband。这是因为 PCIe SerDes 本身的局限性，即使在扩展格式中也是如此。由于延迟目标不同，PCIe 和以太网 SerDes 对误码率（BER）的要求也大相径庭。

Astera 实验室

PCIe 6 要求误码率小于 1e-12，而以太网要求 1e-4。之所以存在 8 个数量级的巨大差异，是因为 PCIe 有严格的延迟要求，因此必须采用极轻的前向纠错（FEC）方案。FEC 在发送器中以数字方式添加冗余奇偶校验比特/信息，接收器利用这些比特/信息来检测和纠正错误（比特翻转），这与内存系统中的 ECC 非常相似。较重的 FEC 会增加更多开销，占用本可用于数据位的空间。更重要的是，FEC 会增加接收器的大量延迟。这就是 PCIe 在 Gen6 之前一直避免使用任何 FEC 的原因。

Wikipedia

以太网式 SerDes 受严格的 PCIe 规范限制更少，因此速度更快，带宽更高。因此，NVlink 的延迟更高，但这在大规模并行工作负载的人工智能世界中并不重要，因为 ~100ns 与 ~30ns 并不是值得考虑的因素。

首先，MI300 AID 将大部分海滨区域用于 PCIe SerDes，而不是以太网式 SerDes。虽然这为 AMD 在 IFIS、CXL 和 PCIe 连接方面提供了更多的可配置性，但却导致总 IO 约为以太网式 SerDes 的 1/3。如果 AMD 想要与 Nvidia 的 B100 竞争，就必须立即放弃 PCIe 式 SerDes 的人工智能加速器。我们相信，MI400 也将如此。

AMD 缺乏高质量 SerDes 严重限制了其产品的长期竞争力。他们提出了 Open xGMI / Open Infinity Fabric / Accelerated Fabric Link，因为 CXL 并不是人工智能的正确协议。虽然它主要基于 PCIe，但由于上市时间、性能、一致性和覆盖范围等原因，它确实摒弃了 PCIe 7.0 和 CXL 的一些标准功能。

用于人工智能的 CXL 内存带宽扩展如何？定制人工智能超级分频器芯片的采用情况如何？其他供应商的定制硅芯片（如 Marvell Google CXL 芯片）又如何呢？

https://www.semianalysis.com/p/cxl-is-dead-in-the-ai-era

点这里加关注，锁定更多原创内容

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3707期内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.