网易首页 > 网易号 > 正文 申请入驻

算力网络IO大战:硅仙人劝放弃IB 黄教主“光明顶”遭围攻

0
分享至

集微网报道 在AI大模型引发的算力就是生产力的时代,围绕GPU和HBM的角逐看似趋于明朗,但一场新的暗战却在积蓄力量,有可能成为左右战局的新筹码。

传奇CPU大神兼Tenstorrent首席执行官Jim Keller在前几天发布的微博简明扼要指出算力系统中有IO、存储和计算三大关键,而以太网将赢得IO之战不久,他又用心良苦直接建议英伟达使用以太网,而不是InfiniBand(IB)。

如果笔者理解无误,Jim Keller说的以太网应该指的是RoCE,但意欲超越RoCE的超以太网联盟UEC于去年年中成立。而英伟达独享的IB会像CUDA一样,遭受光明顶式的围攻吗?


三类技术竞逐网络IO

随着训练模型规模的指数级增长,支撑AI算力的分布式集群网络规模也日益扩大。有分析称,AI模型每隔两到三年将增长1000倍,目前的数据中心交换机市场支出主要用于连接通用服务器的前端网络,AI工作负载将需要建立新的大量的后端网络。由此多台服务器之间的互联通信速率成为影响训练表现的关键因素,提升算力效率、构建高性能网络也成为大厂们新的练兵场。

传统以太网主要采用TCP/IP来构建,但在生成式AI时代显然“难合时宜”。由于其需要数据发送方将数据多次复制到内核,然后再通过网络发送到接收方,接收方接收数据后还需要再次进行内存复制和处理,这一系列操作导致了较高的延迟,通常在毫秒级别,这对于需要低延迟的多机多卡网络来说显然不如人意。

在此情形之下,RDMA(远程直接内存访问技术)应运而生。作为一种高效的网络互联技术,它允许数据在网络中的两个节点之间直接传输,而不需要内核的参与,所有的传输处理都由NIC(网络接口卡)硬件来完成,不仅降低了对计算资源的占用,还大大提升了数据传输的速率。

目前来看,RDMA有三类主要技术实现方式。

相关资料显示,英伟达中意的Infiniband(IB)作为一种高性能的互联技术,从一开始就内置了RDMA的支持,能够实现节点之间的高速直接内存访问和数据传输,具有极高的吞吐量和极低的延迟。RoCE(RDMA over converged Ethernet)则是在以太网上实现RDMA的技术,它使用标准的以太网作为基础传输介质,并通过RDMA适配器和适当的协议栈来实现RDMA功能。iWARP则是基于TCP/IP协议栈的RDMA实现,它使用了普通的以太网适配器和标准的网络交换机,并通过在TCP/IP协议栈中实现RDMA功能来提供高性能的远程内存访问和数据传输。

由于RoCE和IB自带不同的“基因”,也呈现出相异的优劣势。IB网络作为一种原生的RDMA网络,在无拥塞和低延迟环境下表现卓越,以其高可靠性、低时延、高带宽等特点在超级计算机集群中得到广泛的应用。此外,随着AI大模型的指数级进化,尤其是英伟达在GPU的绝对垄断地位,也让IB成为GPU服务器的首选网络互连技术。

而RoCE凭借其依托成熟的以太网生态、最低的组网成本以及最快的带宽迭代速度,在中大型训练GPU集群的场景中展现出更高的适用性。其突出的优势在于用户从以太网切换到RoCE,只需购买支持RoCE的网卡,其他网络设备都是兼容的。目前这一阵营已拥有AMD、博通、英特尔、Meta、微软和甲骨文等巨头。

相对来说,iWARP的协议战相对更复杂,而且由于TCP的限制,它只能支持可靠传输,这也导致了iWARP的发展速度不如RoCE和IB。

两强相争天平倾向以太网?

尽管IB自带强者风范,但其隐忧也在深藏。

由于IB重新设计了物理链路层、网络层、传输层,从链路层到传输层都无法与现有的以太网设备兼容,想要切换或扩容,成本均过于高昂。如某数据中心想要将数据交换方式从以太网切换到IB的技术,那么需要购买全套的IB设备,包括网卡、线缆、交换机和路由器等。此外在构建大规模的AI集群时,如果节点数量超过了IB网络的扩展能力,由于IB的可扩展性差,不仅会增加扩建成本,也对日后的流量管理、其他服务集成造成麻烦,甚至会影响IB的低延迟性能。

据相关数据显示,网络一般占集群成本的20%。尽管黄教主言之凿凿,说IB在相同带宽下的大规模性能比以太网高出 20%,因此IB实际上是免费的。但客户仍要拿出真金白银,在承受了GPU的溢价之后,还要承接IB高成本的暴击。

看起来尽管性能优异,但IB显然更适合于中小规模网络布局。而RoCE则完美地避开了这一“硬伤”,相对更受大厂的青睐。

市场还是会用“大脑”投票的。最近有报道称,OpenAI和微软计划用千亿美金打造一款名为“Stargate”的超级计算机。在选择网络方案时,即便微软是Infiniband的用户,OpenAI还是更加倾向使用以太网电缆而不是Infiniband电缆(简称IB),让AI行业巨头弃用成熟的IB选择以太网的原因也在于IB成本过高,可扩展性不足。

有分析指出,虽然大部分市场需求将来自一级云服务运营商,但预计2/3级和大型企业的需求量将很大,以头部公司为例,除了微软以外,亚马逊、Meta、腾讯这些头部公司机器学习场景用的都是以太网而非IB。当Stargate这么大规模的AI集群搭建也选择以太网技术,已然表明了大厂们对以太网的青睐。

一位行业人士分析,不可否认,目前IB依旧是AI厂商构建网络的主要选择,但是对比IB,以太网低成本、易扩展、不易被厂商绑定的优势愈发明显。对于考虑部署网络的AI厂商来说,选择跟随大厂一起选择以太网,根据市场需求不断实现技术的更新迭代,显然会比选择大笔资金入手IB更为划算。

此外,技术的进阶来看,以太网也更为“到位”。随着AI网络加速向更高速度过渡,预计到2025年,AI后端网络大部分端口将达到800G,而以太网的速度已可实现每秒800G,而IB的速度为400G,这让以太网技术可更好地满足AI发展需要的“理念”。

据Dell’Oro 的预测,在AI后端网络中部署的交换机支出将使数据中心交换机市场扩大50%,IB和以太网之间的竞争正在加剧。虽然IB预计将保持领先地位,但以太网预计将取得实质性进展,到2027年收入份额将增加20%,3年内收入份额翻番,留给以太网的未来发展空间可观。

UEC成为搅局者?

而在IB和RoCE明争暗斗之际,一个新的搅局者超以太网联盟UEC却已横空出世,其目标是超越现有的以太网功能,为高性能计算和AI提供高性能分布式和无损传输层。

目前这一阵营云集了博通、Cisco Systems等芯片厂商,云巨头中的微软和Meta以及交换机厂商中的 Cisco、HPE和Arista Networks。

UEC认为,几十年前定义的RDMA在要求极高的人工智能和机器学习网络流量中已过时,RDMA以大流量块的形式传输数据,可能导致链路不平衡和负担过重,是时候为新兴应用构建支持RDMA的现代传输协议了。

据了解,UEC传输协议正在开发中,旨在提供比现有的RDMA更好的以太网传输,仍支持RDMA的同时保留以太网IP的优势。UEC传输是一种靠近传输层的新形式,它有一些语义调整拥塞通知协议,并且增强了安全功能。UEC将提供更灵活的传输,不需要无损网络,允许many to many人工智能工作负载所需的多路径和无序数据包传输等功能。

目前,UEC 正处于开发的早期阶段,关键技术概念仍在确定和研究中。据了解,第一批批准草案或准备就绪,第一批基于标准的产品也预计将于今年推出。

看起来Jim Keller有些“忠言逆耳”的意味,但黄教主会改弦易辙吗?上述行业人士认为,技术都会有利弊和周期,如果太贵、割裂和独吃的话,就一定会给替代技术以市场。

而当IB和RoCE争霸之际,以UEC为代表的新兴传输协议又会带来怎样的变局?届时是一统天下还是三足鼎立?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!美英发动空袭

突发!美英发动空袭

环球时报新闻
2024-05-01 10:04:39
大学生卖烧饼年入110万的新闻,被网友扒出了一些问题!

大学生卖烧饼年入110万的新闻,被网友扒出了一些问题!

麦杰逊
2024-05-01 10:00:03
周鸿祎再现“离婚套现”争议,狂赚140亿后分前妻90亿,被多位富豪效仿

周鸿祎再现“离婚套现”争议,狂赚140亿后分前妻90亿,被多位富豪效仿

西游日记
2024-04-30 15:28:48
美国不装了,美国共和银行仅用48个小时宣布破产收割千个华人财产

美国不装了,美国共和银行仅用48个小时宣布破产收割千个华人财产

飞翔鱼时代
2024-05-01 11:44:07
5月1日起,实施了73年的退休法规将废止!

5月1日起,实施了73年的退休法规将废止!

保险课堂
2024-05-01 01:49:27
穿和服女孩父亲愤怒发声!不道歉就带女儿出国,网友集体力挺!

穿和服女孩父亲愤怒发声!不道歉就带女儿出国,网友集体力挺!

小毅讲历史
2024-05-01 14:06:43
太意外了,4月最后一天雷声不断,5家上市公司同时被查

太意外了,4月最后一天雷声不断,5家上市公司同时被查

云姐闲聊
2024-05-01 09:34:47
大家放心吧!被抓疫苗之父杨晓明,其研发的是北京生物而不是科兴

大家放心吧!被抓疫苗之父杨晓明,其研发的是北京生物而不是科兴

影孖看世界
2024-04-29 21:51:25
苏州一女子赤身裸体被绑桥上,现场曝光太辣眼,知情人曝内情

苏州一女子赤身裸体被绑桥上,现场曝光太辣眼,知情人曝内情

鹏飞深文
2024-05-01 14:05:59
成都女子出轨遭男友捉奸暴打,求饶视频曝光太辣眼,网友爆笑点评

成都女子出轨遭男友捉奸暴打,求饶视频曝光太辣眼,网友爆笑点评

闻言
2024-04-30 18:46:58
最新!余承东职务调整

最新!余承东职务调整

中国基金报
2024-05-01 10:24:04
炸了!医药巨头承认!新冠疫苗致命副作用,亿万赔偿案将启动

炸了!医药巨头承认!新冠疫苗致命副作用,亿万赔偿案将启动

北国向锡安
2024-05-01 09:34:35
福建舰出门海试现场图来了,排水量8万余吨怎么都不像

福建舰出门海试现场图来了,排水量8万余吨怎么都不像

三叔的装备空间
2024-05-01 09:09:03
应急滑梯被放后续:东航受牵连,空姐面临巨额赔偿,同时再爆猛料

应急滑梯被放后续:东航受牵连,空姐面临巨额赔偿,同时再爆猛料

奇思妙想草叶君
2024-04-30 17:53:09
重庆某高端民宿平台突然暴雷!数百业主上当,四千万钱款打水漂

重庆某高端民宿平台突然暴雷!数百业主上当,四千万钱款打水漂

小树聊房
2024-05-01 08:51:45
张颂文高叶真以为自己是大哥大嫂了

张颂文高叶真以为自己是大哥大嫂了

娱乐圈酸柠檬
2024-05-01 14:35:23
5月1日俄乌:克里米亚和俄本土连续遭袭,俄军攻击放缓,损失增加

5月1日俄乌:克里米亚和俄本土连续遭袭,俄军攻击放缓,损失增加

山河路口
2024-05-01 14:11:16
准“90后”刘熙任浦江县代县长,为浙江最年轻县级政府主官

准“90后”刘熙任浦江县代县长,为浙江最年轻县级政府主官

澎湃新闻
2024-05-01 13:28:27
福建舰举行首次海试,军事专家:建造水平无疑是当下常规动力航母的天花板

福建舰举行首次海试,军事专家:建造水平无疑是当下常规动力航母的天花板

环球网资讯
2024-05-01 11:44:18
反转!内蒙古一服务区“天价切糕”卖12000元?涉事网友爆料真相

反转!内蒙古一服务区“天价切糕”卖12000元?涉事网友爆料真相

火山诗话
2024-05-01 08:10:58
2024-05-01 17:34:44
爱集微
爱集微
芯无止境,积微成著。
105072文章数 98177关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

梅大高速塌方伤者亲属:1家5口遇事故 3人失联1人进ICU

头条要闻

梅大高速塌方伤者亲属:1家5口遇事故 3人失联1人进ICU

体育要闻

"意甲最佳"金玟哉 踢回了中超水平...

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

俞敏洪,踏足A股!

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

房产
健康
游戏
本地
军事航空

房产要闻

单价2万内,装标4200+,主城改善大盘无套路硬刚!

春天野菜不知不识莫乱吃

时隔8年重返中国!《LOL》MSI今日开打:T1迎首秀

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

军事要闻

中国海军福建舰出海开展首次航行试验

无障碍浏览 进入关怀版