公众号记得加星标⭐️,第一时间看推送不会错过。
UALink 联盟是由多家科技巨头组成的团体,致力于制定 GPU 网络标准,以提供英伟达 NVLink 和 NVSwitch 的替代方案。该联盟已经发布了新的规范,但距离芯片出货还有数月时间。
英伟达已在高速网络和交换机市场占据主导地位,这些网络和交换机是协同运行数百个GPU所必需的。该公司的产品价格不菲,而且与其它供应商的GPU兼容性也并非总是良好。以太网可以胜任连接各种GPU集群的任务,并且由于其普及性,也是一种颇具吸引力的替代方案,尽管这种历史悠久的标准在性能上无法与英伟达的网络产品相媲美。
UALink联盟希望打造一种替代英伟达互连技术的方案,该方案能够兼容任何加速器,并达到英伟达的性能水平。该联盟认为,专注于托管人工智能系统的新兴“新云”将非常乐意构建一种能够处理其部署的任何GPU的互连技术。
该组织的计划是制定开放规范,供成员将其应用于芯片和设备中。理论上,最终结果将与以太网生态系统非常相似——供应商和其他利益相关者共同制定规范,然后开发兼容的产品,同时各自努力使自己的产品脱颖而出。
UALink 规范 1.0 版于 2025 年 8 月发布。该联盟今天发布了 2.0 版。
最大的变化在于新的 200G 数据链路层和物理层 (DL/PL) 规范,它将 UALink 通用规范拆分为两个工作流:一个负责该组织的协议和传输层,另一个负责 I/O 技术。正如 UALink 联盟主席 Kurtis Bowman 向The Register解释的那样,这意味着该组织可以同时为当今的 200G 网络、即将推出的 400G 网络以及未来物理层的任何发展做好准备。
该组织还发布了通用规范 2.0 版,其中增加了对网络内计算的支持。网络内计算是一种减少 GPU 之间调度任务所需发送消息数量的技术。消息传输占用的带宽减少,意味着有更多带宽可用于数据传输,从而加快 AI 工作负载的运行速度。
UALink 可管理性规范 1.0 是另一项新举措,这意味着 gRPC 网络管理接口、YANG、SAI 和 Redfish 等工具的用户可以将它们与 UALink 网络一起使用。
此外,还将出台芯片规范,规定如何将 UALink 芯片集成到片上系统中,这意味着无需独立芯片即可将 UALink 嵌入到更多设备中。
并非供应商现在就能获得 UALink 芯片——鲍曼告诉我们,符合该组织 1.0 规范的芯片将于 2026 年下半年到达实验室,2027 年面世,并在同年晚些时候应用于产品。
到那时,UALink 将会发布 3.0 版本规范——远早于 2.0 版本芯片的发布。
Bowman承认,1.0和2.0版本不会成为Nvidia的完全竞争对手,只有到3.0版本(大约明年这个时候发布)时,UALink才能在性能和发布节奏方面达到与Nvidia相同的水平。
因此,UALink 看起来可能有点异想天开,但 Bowman 认为这种尝试是值得的,因为许多人工智能公司不想构建孤立的系统或被束缚于单一供应商。
英伟达上季度的毛利率超过70%,这表明客户愿意为NVLink和NVSwitch支付高价。UALink联盟希望其方案能够提供在价格和功能方面都具有竞争力的产品。
与此同时,英伟达并未止步不前。去年,该公司推出了NVLink Fusion,将其互连技术的应用范围扩展到英伟达 GPU 以外的领域。
UALink联盟发布了4项规范
开发面向下一代人工智能工作负载的开放式可扩展互连技术的行业标准组织UALink联盟(UALink Consortium)今日宣布正式批准下一代UALink规范。该规范包含三大新增内容:网络内计算、芯片定义和可管理性。新规范支持在多工作负载环境中部署UALink解决方案,同时有助于提升UALink技术的效率、人工智能工作负载的性能以及部署的便捷性。
UALink联盟为大规模加速器连接提供标准化基础,助力推动创新,提升部署灵活性,并满足下一代人工智能工作负载快速增长的性能需求。此次新规范的更新得益于UALink联盟的开放式治理模式,该模式在促进创新的同时,构建了稳健的多厂商供应链,为系统设计人员和云服务提供商提供了必要的灵活性,使其能够部署可互操作的解决方案,而无需担心厂商锁定。
“随着人工智能工作负载的发展速度不断超越传统互连的开发周期,我们很高兴推出UALink规范的重要更新,”UALink联盟董事会主席Kurtis Bowman表示。“此次更新引入的UALink技术进步将使业界能够快速高效地将UALink解决方案集成到其架构中。UALink联盟将继续致力于通过开放的行业标准技术推进人工智能基础设施的发展,从而促进下一代人工智能应用的市场化。”
新的 UALink 规范:
(1)UALink 通用规范 2.0
为 UALink 技术引入网络内计算,促进加速器之间的计算和通信。
降低延迟,节省带宽,提高 UALink 系统在复杂和多工作负载环境下的 AI 解决方案分布式训练和推理的扩展效率。
(2)UALink 200G 数据链路层和物理层 (DL/PL) 规范 2.0
将 DL/PL 规范从 UALink 通用规范中分离出来,使 UALink 能够随着行业对新的物理层和速度的需求而快速发展,而无需更改其他规范。
(3)UALink 可管理性规范 1.0
介绍UALink,它是一个具有集中控制和管理平面的系统。
利用标准化的协议、模型和 API,如 gNMI、Yang、SAI 和 Redfish。
(4)UALink Chiplet 规范 1.0
定义了将 UALink 技术集成到基于芯片的 SoC 中的必要信息,包括接口、外形尺寸、流控制和芯片管理标准化。
完全符合 UCIe 3.0 规范,可简化与现有芯片生态系统的集成。
(来源:半导体行业观察综合)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4370内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.