网易首页 > 网易号 > 正文 申请入驻

以太网将击败InfiniBand,最终胜出?

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。

除了Nvidia 以外的几乎所有人都认为,从长远来看,大多数在任何可观规模(数百到数百万个数据中心设备)上运行大多数人工智能训练和推理工作负载的人都将需要比 InfiniBand 更便宜的网络人工智能加速器替代方案。

虽然 Nvidia 辩称 InfiniBand 仅占集群成本的 20%,但它将 AI 训练的性能提高了 20%,因此物有所值,但您仍然需要承担这 20% 的集群成本,这要比基于以太网的集群的正常值低10% 或更多。后者的进给量和速度( feeds and speeds ),在纸面上和在实践中常常使其成为稍逊一筹的技术选择。

但是,在很大程度上要感谢超以太网联盟( Ultra Ethernet Consortium),运行人工智能工作负载的以太网的几个问题将得到解决,我们认为这也将有助于促进传统 HPC 工作负载更多地采用以太网。远远超出了采用 Cray 设计的“Rosetta”以太网交换机和“Cassini”网络接口卡(包含 Hewlett Packard Enterprise 的 Slingshot 互连)的范围,并且不包括两年一度的“超级计算机”500 强排名的中间位置。高性能计算或人工智能并没有真正作为他们的日常工作,而是供应商和国家的宣传噱头。

关于以太网如何发展的讨论是 Arista Networks 最近一次与华尔街的电话会议中讨论的最重要的事情,该电话会议正在审查 3 月份结束的 2024 年第一季度的财务业绩。


正如我们之前报道的,Meta Platforms 正在构建两个集群,每个集群有 24,576 个 GPU,一个基于 Nvidia 的 400 Gb/秒 Quantum 2 InfiniBand(我们推测),另一个使用 Arista Network 的旗舰产品 400 Gb/秒 7800R3 AI Spine 构建(我们知道),这是一款多 ASIC 模块化交换机,聚合带宽为 460 Tb/秒,支持packet spraying(一项关键技术,使以太网更好地进行对 AI 和 HPC 至关重要的集体网络操作)。7830R3 主干交换机基于Broadcom 的 Jericho 2c+ ASIC,而不是经过 AI 调优的 Jericho 3AI 芯片——Broadcom 更直接针对 Nvidia 的 InfiniBand,但据我们所知,该芯片尚未批量出货。

Arista Networks 为 Meta Platforms 的以太网集群构建的互连还包括 Wedge 400C 和 Minipack2 网络机柜,它们符合 Meta Platforms 青睐的开放计算项目。(最初的 Wedge 400 基于 Broadcom 的 3.2 Tb/秒“Tomahawk 3”StrataXGS ASIC,而用作 AI 集群中机架顶部的 Wedge 400C 基于 Cisco Systems 的 12.8 Tb/秒 Silicon One ASIC。Minipack2基于 Broadcom 的 25.6 Tb/秒“Tomahawk 4”ASIC 看起来 Wedge 400C 和 Minipack2 用于服务器主机集群,7800R AI Spine 用于 GPU 集群,但 Meta Platforms 尚未透露细节。

Meta Platforms 是人工智能领域以太网的旗舰客户,微软也将如此。但其他人也在带头冲锋。Arista Networks 在二月份透露,它已经赢得了相当大的人工智能集群的设计。该公司联合创始人兼首席执行官 Jayshree Ullal 深入介绍了这些胜利如何转化为资金,以及如何帮助 Arista Networks 实现到 2025 年人工智能网络收入 7.5 亿美元的既定目标。

Ullal 在电话会议上提到 Meta Platforms 集群时说道,“这个集群可以解决复杂的人工智能训练任务,这些任务涉及跨数千个处理器的模型和数据并行化的混合,而事实证明,以太网可以将工作效率提高至少 10%与 InfiniBand 相比,所有数据包大小的完成性能。我们正在见证人工智能网络的变化,并预计这种变化将在今年和十年内持续下去。以太网正在成为前端和后端人工智能数据中心的关键基础设施。人工智能应用程序根本无法单独工作,需要由后端 GPU 和人工智能加速器组成的计算节点以及 CPU 和存储等前端节点之间进行无缝通信。”

完成时间提高 10% 是通过当前 Jericho 2c+ ASIC 作为网络骨干实现的,而不是 Jericho 3AI。

在稍后的电话会议中,Ullal 更详细地介绍了 InfiniBand 和以太网之间的情况,这是一个有用的观点。

“正如您所知,从历史上看,当您单独看待 InfiniBand 和以太网时,会发现每种技术都有很多优势,”她继续说道。“传统上,InfiniBand 被认为是无损的。并且以太网被认为具有一些损耗特性。然而,当您实际将完整的 GPU 集群以及光学器件和所有组件放在一起时,您会看到所有数据包大小的作业完成时间的一致性,数据显示 – 这是我们从第三方获得的数据, Broadcom 表示,在现实环境中的几乎所有数据包大小中,与这些技术相比,以太网的作业完成时间大约快 10%。因此,您可以在孤岛中查看这个东西,也可以在实际的集群中查看它。在实际集群中,我们已经看到以太网的改进。现在,不要忘记,这只是我们今天所知道的以太网。一旦我们有了超以太网联盟以及您将在packet spraying、dynamic load balancing 和congestion control方面看到的一些改进,我相信这些数字将会变得更好。”

然后 Ullal 谈到了 Arista Networks 在其参与的五项主要交易中与 InfiniBand 相比赢得的四项 AI 集群交易。(大概 InfiniBand 赢得了另一项交易。)

“在所有四种情况下,我们现在都从试验转向试点,今年连接了数千个 GPU,我们预计 2025 年产量将达到 10K 到 100K GPU,”Ullal 继续说道。“大规模以太网正在成为事实上的网络和横向扩展人工智能训练工作负载的首选。一个好的人工智能网络需要由高度差异化的EOS和网络数据湖架构提供良好的数据策略。因此,我们对于在 2025 年实现 7.5 亿美元的人工智能目标变得越来越有建设性。”

如果以太网的成本是原来的一半到三分之一,包括光纤、电缆、交换机和网络接口,并且可以更快地完成工作,从长远来看,对于给定数量的网络,具有更大的弹性和更大的规模网络层,InfiniBand 面临压力。如果像 Arista Networks 那样在相当大的 GPU 集群上五中四胜的比例具有代表性的话,那么它已经做到了。显然,引用这些数字的目的是让我们相信它具有代表性,但最终将由市场决定。

我们在二月份就说过这一点,现在我们还会再说一遍:我们认为 Arista Networks 低估了其预期,而华尔街似乎也同意这一点。该公司确实将 2024 年收入增长指引提高了两个百分点,达到 12% 到 14% 之间,我们认为对人工智能集群(最终可能是 HPC 集群)采用以太网的乐观情绪在这里发挥了作用。

但这里有一个有趣的数学问题:Arista Networks 在 AI 集群互连销售额中每赚取 7.5 亿美元,Nvidia 可能会损失 15 亿至 22.5 亿美元。在过去 12 个月中,我们估计 Nvidia 的 InfiniBand 网络销售额为 64.7 亿美元,而数据中心的 GPU 计算销售额为 397.8 亿美元。在 4 比 1 的外卖比例和稳定的市场情况下,Nvidia 可以保留约 13 亿美元,UEC 集体可以保留 17 至 26 亿美元,具体取决于以太网成本如何波动。乘以大约 1.8 倍,得到大约 860 亿美元,我们预计 Nvidia 在 2008 年的数据中心收入将达到 860 亿美元左右,如果一切保持不变,您会发现 InfiniBand 的销售目标更像是 120 亿美元。

UEC 成员有大量的市场份额可以窃取,但他们会通过从系统中消除收入来窃取市场份额,就像 Linux 对 Unix 所做的那样,而不是将收入从一种技术转换为另一种技术。节省下来的资金将重新投入 GPU 中。


与此同时,Arista 的季度业绩相当不错,没有什么真正的惊喜。产品销售额增长 13.4%,达到 13.3 亿美元,服务收入增长 35.3%,达到 2.425 亿美元。产品内的软件订阅为 2,300 万美元,因此年金类服务总额为 2.656 亿美元,同比增长 45.6%。总收入增长 16.3%,达到 15.7 亿美元。净利润增长 46.1%,达到 6.38 亿美元,Arista Networks 本季度拥有 54.5 亿美元现金,我们估计约有 10,000 名客户。我们认为 Arista 的数据中心收入约为 14.8 亿美元,该业务的运营收入约为 6.23 亿美元。这是我们关心的。当然,校园和边缘很有趣,我们希望它们能够发展并为 Arista Networks 和其他公司带来盈利。

https://www.nextplatform.com/2024/05/09/greasing-the-skids-to-move-ai-from-infiniband-to-ethernet/

点这里加关注,锁定更多原创内容

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3761期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正式登场:乌克兰F-16首次执行任务!乌军收复多块失地

正式登场:乌克兰F-16首次执行任务!乌军收复多块失地

项鹏飞
2024-05-30 19:39:35
俄罗斯为反对瑞士和平峰会付出了巨大努力注定徒劳无功

俄罗斯为反对瑞士和平峰会付出了巨大努力注定徒劳无功

老马拉车莫少装
2024-06-03 10:20:09
美国、英国发动联合空袭!红海战争以来最大规模死亡 美国F/A-18证实参与行动

美国、英国发动联合空袭!红海战争以来最大规模死亡 美国F/A-18证实参与行动

FX168北美财经圈
2024-06-01 11:36:05
佛爷的消失5:阿秀提出怀疑对象

佛爷的消失5:阿秀提出怀疑对象

金昔说故事
2024-06-03 19:56:28
王健林还清6000亿债务后终于现身!却与往日精神模样判若两人!

王健林还清6000亿债务后终于现身!却与往日精神模样判若两人!

柠檬有娱乐
2024-05-18 09:56:07
和前任再见面是什么感觉?

和前任再见面是什么感觉?

阿康四岁啦
2024-06-03 16:14:31
张海迪曾患十几种癌病,被判定只能活27年,为何活到现在快70岁?

张海迪曾患十几种癌病,被判定只能活27年,为何活到现在快70岁?

胥言
2024-03-11 23:22:23
正部级“老虎”董云虎落马,背后的神秘“夫人”是她

正部级“老虎”董云虎落马,背后的神秘“夫人”是她

天闻地知
2024-05-27 14:13:56
杜淳老婆王灿  颜值气质一点也不输!

杜淳老婆王灿 颜值气质一点也不输!

娱乐八卦木木子
2024-06-03 16:25:32
这两个新闻连在一起看,简直让人窒息

这两个新闻连在一起看,简直让人窒息

顾礼先生
2024-05-14 16:42:44
施方已任上海市杨浦区委常委、宣传部部长,曾任杨浦区副区长

施方已任上海市杨浦区委常委、宣传部部长,曾任杨浦区副区长

澎湃新闻
2024-06-03 11:50:27
你是否“中午不睡,魂归床畔”?多项研究表明:经常午睡会导致高血压风险升高12%,且午睡不宜超过60分钟

你是否“中午不睡,魂归床畔”?多项研究表明:经常午睡会导致高血压风险升高12%,且午睡不宜超过60分钟

梅斯医学
2024-06-02 07:52:31
到底是谁的错?出动25万人夜查电动车,网友:世界笑话!

到底是谁的错?出动25万人夜查电动车,网友:世界笑话!

财话连篇
2024-06-03 09:40:53
浪姐里孙夏玲太接地气了,穿袜子也容易露脚趾头。

浪姐里孙夏玲太接地气了,穿袜子也容易露脚趾头。

圈里的甜橙子
2024-06-03 12:08:00
去了趟迪士尼强烈感受到了贫富差距

去了趟迪士尼强烈感受到了贫富差距

悠闲葡萄
2024-06-03 09:29:46
国运来了挡都挡不住?俄乌战争最起码给中国又争取了五年时间

国运来了挡都挡不住?俄乌战争最起码给中国又争取了五年时间

曾经年少
2024-03-05 11:38:53
如今,最不能干的职业,一是警察;二是消防;三是医生;四是护士

如今,最不能干的职业,一是警察;二是消防;三是医生;四是护士

叒女紫121
2024-06-02 11:30:36
12个国家“授权”可以攻击俄罗斯本土!国防大学教授的灵魂拷问

12个国家“授权”可以攻击俄罗斯本土!国防大学教授的灵魂拷问

深度知局
2024-05-31 17:48:38
还是那个狂人!穆帅:我去哪都是焦点!土耳其会因我而更出名!

还是那个狂人!穆帅:我去哪都是焦点!土耳其会因我而更出名!

风过乡
2024-06-03 21:01:59
明确了:核酸检测可退钱!

明确了:核酸检测可退钱!

华人星光
2024-06-03 17:35:24
2024-06-03 21:54:44
半导体行业观察
半导体行业观察
专注观察全球半导体行业资讯
8207文章数 34241关注度
往期回顾 全部

科技要闻

特斯拉回应单踏板模式可能被禁止:暂无影响

头条要闻

俞敏洪称"东方甄选做得乱七八糟":以后准备远离生意场

头条要闻

俞敏洪称"东方甄选做得乱七八糟":以后准备远离生意场

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

接班100天,宗馥莉急了

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

教育
数码
艺术
游戏
时尚

教育要闻

“不能吃苦的,往往是穷人家的孩子”,上了大学才懂的真相:扎心

数码要闻

华硕ROG Harpe王牌游戏鼠标系列新增极限版 重量仅47g

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

360安装模拟器?整活游戏《流氓软件》Steam页面上线

携手伊利游巴黎,共赴一场国潮walk

无障碍浏览 进入关怀版