网易首页 > 网易号 > 正文 申请入驻

以太网将击败InfiniBand,最终胜出?

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。

除了Nvidia 以外的几乎所有人都认为,从长远来看,大多数在任何可观规模(数百到数百万个数据中心设备)上运行大多数人工智能训练和推理工作负载的人都将需要比 InfiniBand 更便宜的网络人工智能加速器替代方案。

虽然 Nvidia 辩称 InfiniBand 仅占集群成本的 20%,但它将 AI 训练的性能提高了 20%,因此物有所值,但您仍然需要承担这 20% 的集群成本,这要比基于以太网的集群的正常值低10% 或更多。后者的进给量和速度( feeds and speeds ),在纸面上和在实践中常常使其成为稍逊一筹的技术选择。

但是,在很大程度上要感谢超以太网联盟( Ultra Ethernet Consortium),运行人工智能工作负载的以太网的几个问题将得到解决,我们认为这也将有助于促进传统 HPC 工作负载更多地采用以太网。远远超出了采用 Cray 设计的“Rosetta”以太网交换机和“Cassini”网络接口卡(包含 Hewlett Packard Enterprise 的 Slingshot 互连)的范围,并且不包括两年一度的“超级计算机”500 强排名的中间位置。高性能计算或人工智能并没有真正作为他们的日常工作,而是供应商和国家的宣传噱头。

关于以太网如何发展的讨论是 Arista Networks 最近一次与华尔街的电话会议中讨论的最重要的事情,该电话会议正在审查 3 月份结束的 2024 年第一季度的财务业绩。


正如我们之前报道的,Meta Platforms 正在构建两个集群,每个集群有 24,576 个 GPU,一个基于 Nvidia 的 400 Gb/秒 Quantum 2 InfiniBand(我们推测),另一个使用 Arista Network 的旗舰产品 400 Gb/秒 7800R3 AI Spine 构建(我们知道),这是一款多 ASIC 模块化交换机,聚合带宽为 460 Tb/秒,支持packet spraying(一项关键技术,使以太网更好地进行对 AI 和 HPC 至关重要的集体网络操作)。7830R3 主干交换机基于Broadcom 的 Jericho 2c+ ASIC,而不是经过 AI 调优的 Jericho 3AI 芯片——Broadcom 更直接针对 Nvidia 的 InfiniBand,但据我们所知,该芯片尚未批量出货。

Arista Networks 为 Meta Platforms 的以太网集群构建的互连还包括 Wedge 400C 和 Minipack2 网络机柜,它们符合 Meta Platforms 青睐的开放计算项目。(最初的 Wedge 400 基于 Broadcom 的 3.2 Tb/秒“Tomahawk 3”StrataXGS ASIC,而用作 AI 集群中机架顶部的 Wedge 400C 基于 Cisco Systems 的 12.8 Tb/秒 Silicon One ASIC。Minipack2基于 Broadcom 的 25.6 Tb/秒“Tomahawk 4”ASIC 看起来 Wedge 400C 和 Minipack2 用于服务器主机集群,7800R AI Spine 用于 GPU 集群,但 Meta Platforms 尚未透露细节。

Meta Platforms 是人工智能领域以太网的旗舰客户,微软也将如此。但其他人也在带头冲锋。Arista Networks 在二月份透露,它已经赢得了相当大的人工智能集群的设计。该公司联合创始人兼首席执行官 Jayshree Ullal 深入介绍了这些胜利如何转化为资金,以及如何帮助 Arista Networks 实现到 2025 年人工智能网络收入 7.5 亿美元的既定目标。

Ullal 在电话会议上提到 Meta Platforms 集群时说道,“这个集群可以解决复杂的人工智能训练任务,这些任务涉及跨数千个处理器的模型和数据并行化的混合,而事实证明,以太网可以将工作效率提高至少 10%与 InfiniBand 相比,所有数据包大小的完成性能。我们正在见证人工智能网络的变化,并预计这种变化将在今年和十年内持续下去。以太网正在成为前端和后端人工智能数据中心的关键基础设施。人工智能应用程序根本无法单独工作,需要由后端 GPU 和人工智能加速器组成的计算节点以及 CPU 和存储等前端节点之间进行无缝通信。”

完成时间提高 10% 是通过当前 Jericho 2c+ ASIC 作为网络骨干实现的,而不是 Jericho 3AI。

在稍后的电话会议中,Ullal 更详细地介绍了 InfiniBand 和以太网之间的情况,这是一个有用的观点。

“正如您所知,从历史上看,当您单独看待 InfiniBand 和以太网时,会发现每种技术都有很多优势,”她继续说道。“传统上,InfiniBand 被认为是无损的。并且以太网被认为具有一些损耗特性。然而,当您实际将完整的 GPU 集群以及光学器件和所有组件放在一起时,您会看到所有数据包大小的作业完成时间的一致性,数据显示 – 这是我们从第三方获得的数据, Broadcom 表示,在现实环境中的几乎所有数据包大小中,与这些技术相比,以太网的作业完成时间大约快 10%。因此,您可以在孤岛中查看这个东西,也可以在实际的集群中查看它。在实际集群中,我们已经看到以太网的改进。现在,不要忘记,这只是我们今天所知道的以太网。一旦我们有了超以太网联盟以及您将在packet spraying、dynamic load balancing 和congestion control方面看到的一些改进,我相信这些数字将会变得更好。”

然后 Ullal 谈到了 Arista Networks 在其参与的五项主要交易中与 InfiniBand 相比赢得的四项 AI 集群交易。(大概 InfiniBand 赢得了另一项交易。)

“在所有四种情况下,我们现在都从试验转向试点,今年连接了数千个 GPU,我们预计 2025 年产量将达到 10K 到 100K GPU,”Ullal 继续说道。“大规模以太网正在成为事实上的网络和横向扩展人工智能训练工作负载的首选。一个好的人工智能网络需要由高度差异化的EOS和网络数据湖架构提供良好的数据策略。因此,我们对于在 2025 年实现 7.5 亿美元的人工智能目标变得越来越有建设性。”

如果以太网的成本是原来的一半到三分之一,包括光纤、电缆、交换机和网络接口,并且可以更快地完成工作,从长远来看,对于给定数量的网络,具有更大的弹性和更大的规模网络层,InfiniBand 面临压力。如果像 Arista Networks 那样在相当大的 GPU 集群上五中四胜的比例具有代表性的话,那么它已经做到了。显然,引用这些数字的目的是让我们相信它具有代表性,但最终将由市场决定。

我们在二月份就说过这一点,现在我们还会再说一遍:我们认为 Arista Networks 低估了其预期,而华尔街似乎也同意这一点。该公司确实将 2024 年收入增长指引提高了两个百分点,达到 12% 到 14% 之间,我们认为对人工智能集群(最终可能是 HPC 集群)采用以太网的乐观情绪在这里发挥了作用。

但这里有一个有趣的数学问题:Arista Networks 在 AI 集群互连销售额中每赚取 7.5 亿美元,Nvidia 可能会损失 15 亿至 22.5 亿美元。在过去 12 个月中,我们估计 Nvidia 的 InfiniBand 网络销售额为 64.7 亿美元,而数据中心的 GPU 计算销售额为 397.8 亿美元。在 4 比 1 的外卖比例和稳定的市场情况下,Nvidia 可以保留约 13 亿美元,UEC 集体可以保留 17 至 26 亿美元,具体取决于以太网成本如何波动。乘以大约 1.8 倍,得到大约 860 亿美元,我们预计 Nvidia 在 2008 年的数据中心收入将达到 860 亿美元左右,如果一切保持不变,您会发现 InfiniBand 的销售目标更像是 120 亿美元。

UEC 成员有大量的市场份额可以窃取,但他们会通过从系统中消除收入来窃取市场份额,就像 Linux 对 Unix 所做的那样,而不是将收入从一种技术转换为另一种技术。节省下来的资金将重新投入 GPU 中。


与此同时,Arista 的季度业绩相当不错,没有什么真正的惊喜。产品销售额增长 13.4%,达到 13.3 亿美元,服务收入增长 35.3%,达到 2.425 亿美元。产品内的软件订阅为 2,300 万美元,因此年金类服务总额为 2.656 亿美元,同比增长 45.6%。总收入增长 16.3%,达到 15.7 亿美元。净利润增长 46.1%,达到 6.38 亿美元,Arista Networks 本季度拥有 54.5 亿美元现金,我们估计约有 10,000 名客户。我们认为 Arista 的数据中心收入约为 14.8 亿美元,该业务的运营收入约为 6.23 亿美元。这是我们关心的。当然,校园和边缘很有趣,我们希望它们能够发展并为 Arista Networks 和其他公司带来盈利。

https://www.nextplatform.com/2024/05/09/greasing-the-skids-to-move-ai-from-infiniband-to-ethernet/

点这里加关注,锁定更多原创内容

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3761期内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁愿分手也不会认错的星座

宁愿分手也不会认错的星座

星座不求人
2024-06-13 21:26:50
全国体院联赛:广州体院大胜首都体院 张昊21+11 李炎哲12+11

全国体院联赛:广州体院大胜首都体院 张昊21+11 李炎哲12+11

直播吧
2024-06-14 00:44:16
宁德时代、比亚迪即将推出6C动力电池,10分钟即可为电动汽车充满电

宁德时代、比亚迪即将推出6C动力电池,10分钟即可为电动汽车充满电

经济观察报
2024-06-13 17:18:08
为什么劝女人少穿“丝袜”出门?看完些真实街拍图,你就全明白了

为什么劝女人少穿“丝袜”出门?看完些真实街拍图,你就全明白了

潮人志Fashion
2024-06-13 17:40:15
金砖国家运动会开幕!近百国参加,巴以和英日四国的亮相出乎意料

金砖国家运动会开幕!近百国参加,巴以和英日四国的亮相出乎意料

刺头体育
2024-06-13 20:37:31
高考出现“神仙卷面”,字迹工整犹如印刷!老师看后舍不得扣分

高考出现“神仙卷面”,字迹工整犹如印刷!老师看后舍不得扣分

史小纪
2024-06-11 11:49:30
后续!女孩瓦屋山飞石砸亡:身份被曝光,家境太凄惨,目击者发声

后续!女孩瓦屋山飞石砸亡:身份被曝光,家境太凄惨,目击者发声

美食阿鳕
2024-06-14 06:38:54
吐槽一下我老公,每次出差回来都像恢复了出厂设置,程序要重新装

吐槽一下我老公,每次出差回来都像恢复了出厂设置,程序要重新装

四象八卦
2024-06-13 01:28:27
芬兰登记了所有俄罗斯人的房地产,并考虑没收

芬兰登记了所有俄罗斯人的房地产,并考虑没收

亡海中的彼岸花
2024-06-13 00:45:02
震撼!中国终于宣告收回被占领70年的领土,背后的故事让人震惊!

震撼!中国终于宣告收回被占领70年的领土,背后的故事让人震惊!

趣说世界哈
2024-06-13 11:25:11
雷军上班自带早餐引热议 网友:我居然和千亿富翁吃的一样

雷军上班自带早餐引热议 网友:我居然和千亿富翁吃的一样

三言科技
2024-06-13 13:46:05
海淀家长群,又一次天塌了…

海淀家长群,又一次天塌了…

INSIGHT视界
2024-06-13 22:35:19
​治不了美国,还治不了你?

​治不了美国,还治不了你?

求实处
2024-06-14 00:58:00
辛瓦尔:加沙平民流血将有助于哈马斯!下达人质灭口令

辛瓦尔:加沙平民流血将有助于哈马斯!下达人质灭口令

项鹏飞
2024-06-12 15:04:13
好消息!中国男足姆巴佩在欧洲联赛单场强势戴帽,武磊都不如他

好消息!中国男足姆巴佩在欧洲联赛单场强势戴帽,武磊都不如他

评球论事
2024-06-13 21:53:52
冯提莫健身直播走光!直播间当场被封禁,网友嘲讽:“垫大欺客”

冯提莫健身直播走光!直播间当场被封禁,网友嘲讽:“垫大欺客”

青芳草
2024-06-13 08:50:35
雷雨+大风+小冰雹预计这时来!天津这里可能出现龙卷风!市防办最新通知

雷雨+大风+小冰雹预计这时来!天津这里可能出现龙卷风!市防办最新通知

鲁中晨报
2024-06-13 17:59:12
风情万种,国色天香漂亮美女图分享

风情万种,国色天香漂亮美女图分享

娱乐的小灶
2024-06-02 22:05:37
震惊!北海取消综合行政执法局,究竟是利大于弊还是弊大于利呢?

震惊!北海取消综合行政执法局,究竟是利大于弊还是弊大于利呢?

火山诗话
2024-06-13 07:02:38
史上首位中专生,17岁女学生姜萍冲进阿里巴巴全球数学竞赛决赛

史上首位中专生,17岁女学生姜萍冲进阿里巴巴全球数学竞赛决赛

IT之家
2024-06-13 15:18:29
2024-06-14 07:52:49
半导体行业观察
半导体行业观察
专注观察全球半导体行业资讯
8285文章数 34260关注度
往期回顾 全部

科技要闻

小红书员工仅1/5工龄满2年 32岁就不让进了

头条要闻

中专女生爆冷闯进全球数学竞赛12强 超越一众清北学生

头条要闻

中专女生爆冷闯进全球数学竞赛12强 超越一众清北学生

体育要闻

乔丹最想单挑的男人走了

娱乐要闻

森林北报案,称和汪峰的感情遭受压力

财经要闻

私募大佬孙强:中国为什么缺少耐心资本

汽车要闻

升级8155芯片 新款卡罗拉锐放售12.98-18.48万

态度原创

家居
亲子
数码
教育
公开课

家居要闻

大城小室 质朴自然的心灵居所

亲子要闻

面对成千上万的海外母婴博主,品牌方应该怎么去选?

数码要闻

三星 Galaxy Watch 首款 FE 产品正式发布,199 美元起

教育要闻

安徽新高考志愿怎么填?权威解答来了!——安徽农业大学

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版