公众号记得加星标⭐️,第一时间看推送不会错过。
在讨论 HPC 领域的互连时,InfiniBand 通常位居榜首。然而,当转向企业领域时,首选的互连是以太网。进入人工智能领域,系统的节点数正在变得越来越大。事实上,扩展到如此大的数字对许多网络来说都是一个挑战。庞大的 xAI Colosus 系统使用 Nvidia Spectrum-X 以太网。正如 Nvidia 网络副总裁Gilad Shainer所说,“唯一一个通过在整个系统上运行单任务工作负载而成功达到这一规模(100,000 个节点)的以太网基础设施,而不是 InfiniBand。”
进入超级以太网 (UE)。高性能计算 (HPC) 从业者一直在考虑改进网络,而现在,从某种意义上说,人工智能 (AI) 又迫使人们考虑这个问题。大型企业 AI 系统将更倾向于以太网。此外,随着 Nvidia 收购 Mellanox,许多用户和供应商更倾向于更独立的互连。
2023年7月,超级以太网联盟(UEC)由AMD、Arista、Broadcom、思科、Eviden(Atos)、HPE、英特尔、Meta和微软正式宣布成立。作为一个开放的Linux基金会联合开发基金会(JDF)项目,它迅速发展壮大,到2024年底已拥有超过100家成员公司(包括Nvidia)和超过1500家参与者。2025年6月,超级以太网联盟发布了1.0规范,相关产品开始陆续涌现。
最近,UE 规范的主要设计人员发布了一份长达 24 页的论文,旨在提炼完整的 562 页规范。本文将更进一步,重点介绍超级以太网的一些重要变化和特性。论文首先概述了几个基本原则。
首先是与现有以太网数据中心部署的兼容性。用户可以放心,因为无需拆除旧的以太网基础设施。兼容性通过对交换机基础设施施加最低要求来实现,从而轻松部署和滚动扩展现有基础设施。UE 交换机仅需支持等价多路径 (ECMP) 和在出口处标记的基本显式拥塞通知 (ECN),但它们可以(可选)支持数据包修剪(见下文)以提升网络性能。UE 不需要更改物理层(OSI 第 1 层)或链路层(OSI 第 2 层)。尽管如此,它定义了几个可选扩展,以提高新部署中链路层的性能,从而促进供应商的差异化。UE 完全兼容以太网,使用户能够利用现有工具进行运营管理、调试和部署。
下一个原则是大规模可扩展性,这将支持未来人工智能系统所需的大规模部署。UE 旨在通过无连接 API 灵活地支持数百万个网络端点。最初,它专注于支持传统的胖树部署,同时不妨碍其他优化拓扑,例如 HammingMesh、Dragonfly 或 Slim Fly(联盟尚未测试)。
高性能也位列其中,它通过专为大规模部署而设计的高效协议实现。例如,UE 的无连接 API 由一种机制支持,该机制可在不增加延迟的情况下建立点对点可靠性上下文。也就是说,初始数据包到达后即可建立上下文,即使在大规模无序传输的情况下,也可能以纳秒级的速度完成。此外,UE 还支持可选扩展功能,例如数据包修剪(见下文),以便快速检测和应对数据包丢失。
最后,在规范互操作性的限制范围内,供应商之间仍然存在差异化的空间。这一特性使现有的以太网供应商生态系统能够在活跃且规模庞大的市场中充分发挥其快速创新周期和发展潜力。在许多情况下,例如数据包负载平衡或快速丢包检测,该规范提出了一组实现兼容协议的选项,但并未强制要求任何选项。供应商可以采用其中一种建议的方法,也可以自行研发创新。
扩大以太网的范围
除了吞吐量之外,以太网还经常被用作从 A 点到 B 点的即插即用互连。超级以太网区分三种网络类型:本地网络(通常称为纵向扩展)、后端网络(通常称为横向扩展)和前端网络。
图 1 展示了三种类型的网络。本地网络(紫色)用于连接 GPU、CPU 和加速器 (XPU)。例如,CXL、NVLINK 或以太网就可用于这种节点级网络。这些网络通常被称为 机架级网络,其覆盖范围可达 10 米,延迟仅为亚微秒,是系统中速度最快的网络。前端网络(绿色)是传统的数据中心网络,承载内部(“东西”)和外部(“南北”)流量。后端(横向扩展)网络(蓝色)是连接计算节点(服务器)的高性能网络。后端网络和前端网络通常被称为“横向扩展”网络,因为它们为许多大型系统提供了巨大的可扩展性。
图 1. 高性能数据中心网络类型概览
超级以太网 1.0 专注于后端网络。虽然它可以用于(共享)前端或本地网络,但它主要针对后端网络而设计,并基于以下假设:UE 设计用于在中等长度(10-150 米)的链路上以高带宽(400 Gbps 以上)运行,且消息和数据包相对较大。因此,报头大小和处理延迟虽然重要,但并非主要考虑因素。UE 的未来版本可能会更明确地针对这些网络类型。
UE 有哪些新功能?
如上所述,UE 设计用于在现有以太网网络上运行。规范建议在其自己的流量类别中运行 UE 流量,但其拥塞控制算法可能与其他流量协同工作,共享相同的交换机缓冲区。它使用与第 3 层互联网协议(IPv4 或 IPv6)兼容(可路由)的寻址和报头。UE 将交换矩阵端点 (FEP) 定义为用于终止传输层两端以进行单播操作的逻辑实体。FEP可以大致等同于传统的网络接口控制器 (NIC)。
超级以太网的主要特性包括:
一种使用临时数据包传送上下文 (PDC) 的高度可扩展无连接传输协议。
删除语义层中面向连接的依赖关系,包括缓冲区寻址、访问授权和错误模型
本机支持每个数据包的多路径(“数据包喷射”),具有灵活且可扩展的负载平衡方案,而无需在接收器处重新排序开销。
按序和无序传送可靠和不可靠数据包,以最佳方式覆盖所有用例。
支持有损(尽力而为)操作以避免队头阻塞,并结合可选的数据包修剪和其他快速丢失检测方案以实现快速恢复。
一种新颖的拥塞管理方案,可快速适应入网流量和网络内拥塞。
一种设计,使供应商能够提供纯硬件、纯软件或混合硬件和软件实现的产品。
集成可扩展的端到端加密和身份验证。
链路层优化可加速实施。
下面介绍了一些更重要的特性。超级以太网的整体分层架构如图2所示。
超级以太网配置文件
UE 规范提供了三种配置文件(HPC、AI Full 和 AI Base),以支持不同的功能集,从而允许不同复杂度的实现。HPC 配置文件提供最丰富的功能集,包括通配符标签匹配,并针对 MPI 和 OpenSHMEM 工作负载进行了优化。AI Full 配置文件是 AI Base 配置文件的超集。两者都面向不需要通配符标签匹配或其他高级通信操作的集体通信库 (*CCL)。两种 AI 配置文件均提供可延迟发送功能,这是专为*CCL 通信卸载而设计的功能。此外,AI Full 还提供精确标签匹配功能。AI Base 旨在实现最低的实现复杂度。
HPC 配置文件是 AI Base 配置文件的超集,通过实现可延迟发送,实现可以同时提供 HPC 配置文件和 AI Full 配置文件。
等价多路径 (ECMP) 是一种在以太网中实现流量负载均衡的方案。支持 ECMP 的交换机不会将目标地址直接解析到端口,而是会将一组到目标地址具有相近成本路径的端口作为目标。然后,会使用确定性哈希函数为每个数据包选择输出端口。
哈希函数的输入通常是可配置的,通常包含完整的 IP 五元组(源地址、目标地址、端口以及协议类型)。因此,如果不进行任何更改,ECMP 会将同一流的所有数据包沿着相同的确定性路径进行路由(前提是没有故障)。
UE 重新定义其中一个字段,使其包含随机熵值 (EV)。例如,如果使用标准 UDP/IP,则此字段为 UDP 源端口,否则不使用。UE 还支持原生纯 IP 模式,其中 EV 与 UDP 源端口保持在同一位置。源 Fabric 端点 (FEP) 现在可以为每个将通过不同路径发送的数据包选择不同的 EV,或者在发送具有相同 EV 的数据包时选择按顺序传送。
UE 的数据包喷射 (packet spraying) 可以通过更改每个数据包的 EV 值来避免拥塞问题,从而将数据包均匀地分布在所有交换机上(因此称为“喷射”)。即使发生哈希冲突,它们也很短,由此产生的不平衡可以被交换机缓冲区吸收。这种方法可以充分利用网络,并平均实现流量随时间均匀分布。如果所有端点都均匀喷射,数据包喷射就很简单,但如果某些流需要按顺序交付,从而确定性地占用某些路径,则数据包喷射会变得更具挑战性。
改善数据包丢失响应
当以太网数据包丢失时,必须从源端重新传输。超时机制用于重新传输已丢失的数据包。然而,超时机制通常不可靠,因为数据包可能在源端超时,而此时它仍在交换机缓冲区中等待,从而导致重复传输和带宽浪费。通常,选择合适的超时机制来平衡不必要的重传和带宽利用率并非易事。UE 定义了三种更快的丢失检测机制。
UE 区分了三种丢包情况:
拥塞丢弃,当交换机缓冲区已满时,数据包将被丢弃
当存在位错误的数据包无法通过校验和时,就会发生损坏丢弃
配置丢失,当网络配置为丢失时,例如使用防火墙或生存时间到期
需要澄清的是,UE 提供了三种可选的丢失检测机制,可以检测拥塞丢失,其中一种还可以可靠地检测损坏丢失。
数据包修剪功能需要配置 UE 交换机,以修剪可能被丢弃的数据包的有效载荷,并将剩余的报头(可能以更高的优先级)转发到目的地。目的地收到修剪后的数据包后,即可获知有效载荷已被丢弃,并可以快速向源请求重传。UE 定义了基于交换机的数据包修剪的具体行为。修剪功能无法检测损坏的丢弃情况。
乱序计数可用于估算丢失的数据包数量,方法是计算最后收到的数据包序列号 (PSN) 与最早丢失的 PSN 之间的距离。该计数可以在目标端计算,并通过可选的 OOO_COUNT ACK 扩展头字段发送到源端,也可以在源端估算。如果该计数器超过某个阈值,系统就可以假定数据包丢失。此方案比超时更准确,但如果“喷洒”数据包(见上文)在不同路径上的延迟差异很大,它也可能会发送重复的数据包。
基于 EV 的方案可用于精确检测丢失。最简单的方案是保留一个由源发送的(熵值,数据包序列号)对 [(EV, PSN) 对] 组成的有序列表,并将每个传入的 ACK 与该列表进行匹配。由于 UE ACK 按到达顺序发出,且携带与确认数据包相同的 EV,并且 EV 在没有硬故障的情况下会选择唯一的路径,因此源只需在发送列表中查找具有相同 EV 的最旧条目,如果收到的 PSN 不匹配,则可以推断所有具有相同 EV 且 PSN 小于接收 EV 的数据包都已丢失。
新的链路层功能
链路级重试 (LLR):随着链路带宽的增加和错误率的潜在增长,传统的端到端重传可能会对延迟敏感的工作负载产生负面影响。在传输以太网帧时,LLR 在链路层本地处理错误。发送端将所有符合 LLR 条件的帧存储在重放缓冲区中,并分配一个在前导码中编码的序列号。接收端链路在收到帧后将确认信息发送回源端,从而释放重放缓冲区。
基于信用的流量控制 (CBFC): UE 的 CBFC 提供链路级流量控制,可与融合以太网的基于优先级的流量控制 (PFC) 配合使用或替代 PFC。这两种方案都旨在提供几乎无损的数据包服务,消除因到达数据包缓冲不足而导致的拥塞和丢包。在采用“回溯 N”重传策略的端到端可靠系统中,此类拥塞丢包可能是网络性能下降的主要原因。即使拥塞管理达到最佳状态,也可能由于交换机缓冲区溢出、网络路径扩展以及流量模式高度变化而导致丢包。CBFC 或 PFC 可以通过创建无损链路层(第 2 层)结构来优化这些场景。
CBFC 在发送方和接收方各使用两个 20 位循环计数器,根据缓冲区占用情况(类似于 InfiniBand)跟踪接收方消耗的信用额度和释放的信用额度。这些计数器按虚拟通道进行维护,并定期同步以避免信用额度损失。
在发送数据包之前,发送方会检查本地信用额度的可用性,一旦数据包发送完毕,就会 从可用信用额度中扣除数据包大小。当数据包离开其缓冲区时,接收方会通过更新消息将信用额度返还给发送方。发送方会定期向接收方发送更新消息,以防止信用额度损失。通常,该协议会确保仅在接收方有足够缓冲区空间时才发送数据包。
这些寻址机制是 UE 提供的关键可扩展性增强功能之一。与旨在将接收队列与每个队列对 (QP) 关联的现有机制(例如 InfiniBand 的 Verbs 层)不同。然而,用户很快发现,在拥有数百万个核心的系统上,将接收队列与每个通信对等点关联所需的内存是难以承受的;因此,创建了共享接收队列。相比之下,UE 模型允许用户在源端没有上下文的情况下寻址队列。应用程序中的任何人都可以向此队列发送数据,并且写入队列的权限由作业 ID 提供。
超级以太网使用临时交付上下文,只需一条轻量级消息即可建立,并且无需上下文即可创建和销毁。这种设计意味着开始向另一个节点传输数据不会产生高延迟的往返,并且可以在整个网络中发送小消息。这种设计确保了可扩展性,可以支持超过一百万个端点。
该设计的一个有利的副作用是,队列对充当连接,它使得每个事务的失败和错误处理更加简单,而不是在传统 RDMA 系统中增加显著复杂性的队列错误状态。
UE 硬件预计将于 2025 年秋季上市。一些供应商正在推出 NIC 和交换机。
博通推出延迟仅为 250 纳秒的 Tomahawk 超级以太网交换机,适用于 AI 和 HPC AMD Pensando Pollara 400 Ultra 以太网网卡。
结论
超级以太网由UEC在30个月内快速推进。随着供应商开始全面实施,最初的1.0规范无疑会经历修订和勘误。UEC的重要目标是提供一个规范或平台,以构建高性能以太网的未来。在人工智能系统规模的驱动下,UE的开发旨在满足下一代数据中心网络的需求,而这种需求仍停留在以太网的舒适区。
一旦全面实现并批量销售,UE 可能会成为 InfiniBand (IB) 网络的竞争对手;但是,目前,IB 仍然是一个高度优化的系统范围网络平台,不需要“AI 规模”功能,并且将继续作为一种根深蒂固的 HPC 解决方案。在某些时候,技术可能会融合。如前所述,100,000 节点 xAI Colossus 系统中使用的是当前的 Spectrum-X 以太网技术,而不是 IB。Nvidia(现为 UEC 成员)将 IB 的一些功能引入其 Spectrum-X 以太网,使网络能够大规模高效运行。大规模移动数据仍然是 HPC 和 AI 的关键推动因素,而超级以太网将发挥重要作用。
https://www.hpcwire.com/2025/09/09/ultra-ethernet-has-arrived-one-network-to-rule-them-all/
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4153期内容,欢迎关注。
加星标⭐️第一时间看推送,小号防走丢
求推荐
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.