网易首页 > 网易号 > 正文 申请入驻

专家谈:通信网如何迎接AI普及?

0
分享至

链路负载如何均衡?网络故障如何恢复?以太网的春天来了吗?

ChatGPT毫无疑问掀起了新一波AI技术和产业浪潮,对AI的技术演进趋势产生重大影响,并向通用人工智能迈出了尝试性的一步。那么,通用AI对通信网提出哪些新需求?通信网该如何变革去迎合及适应AI发展形势?

AI对通信网的三个需求

AI模型通常是采用分布式训练的方式进行计算,分布式训练需要多台主机之间同步参数、梯度,以及中间变量。对于大模型而言,单次的参数同步量一般都在百MB~GB的量级,因此需求网络高带宽。

现在,25Gbps带宽的网络已经成为数据中心内的主流,40Gbps、100Gbps甚至200Gbps的网络都开始逐步使用,那是不是直接用大带宽网络就能提升GPU集群的性能呢?

业内相关专家告诉《通信产业报》全媒体记者,其实并不尽然,研究表明,40Gbps和100Gbps的网络根本无法充分利用其带宽,原因是网络协议栈的开销影响了传输性能。因此,AI对通信网的第一个要求就是能够充分利用现在以太网的大带宽。

此外,大模型训练一般会将数据并行、流水线并行、张量并行等多种并行模式混合使用,以充分利用集群的算力。无论是哪种并行模式,多机之间都会涉及一种叫AllReduce的集合通信。一个AllReduce任务包含多个点对点的通信,而AllReduce的完成需要所有点对点通信都成功完成,因此集合通信存在“木桶效应”,即AllReduce的完成时间,由其中最慢的点对点通信时间决定。

正因为如此,大模型训练对网络提出了另外两个要求。

一是链路负载均衡要做到完美。因为“木桶效应”,只要有一条链路出现负载不均导致网络拥塞,成为了木桶的短板,那么即使其它链路都畅通无阻,集合通信时间仍然会大幅增加,从而影响训练效率。当前的负载均衡技术基于能做到流比较多时的一个近似均衡散列,并不能保证所有链路都完美均衡开。因此,寻找一种完美的负载均衡技术,是提升机器学习大模型训练效率的关键。

二是网络出现故障能快速恢复。随着集群规模增大,链路故障在所难免。类似的,一条链路故障就会导致整个AllReduce通信停滞,进而使模型训练停滞。如何做到故障后快速恢复,哈希随机,只最好是上层训练业务不感知,是保障一个AI大规模集群性能的关键。

AI对通信网带来哪些挑战?

首先,以太网在AI通信网络中是怎么实现大带宽的呢?

传统TCP网络因为主机侧协议栈开销大,无法充分利用网络带宽。RDMA通信技术通过网卡硬件实现通信控制,绕过了主机侧协议栈,因此既避免了协议栈内存拷贝,又节约了CPU的开销。使RDMA通信相比TCP,具有更低时延和更高吞吐的特点,非常适合大模型GPU训练的场景。但是,RDMA是无损协议,需要链路层PFC来保障不丢包。PFC在大规模集群可能会出现队头阻塞、拥塞扩散,甚至网络死锁等危害,因此直接大规模部署RDMA存在很高的风险。

据了解,华为智能无损RDMA,在标准RDMA over Ethernet(ROCE)的基础上,通过PFC防死锁技术解决了死锁问题;通过基于AI的自适应拥塞控制技术,解决头阻问题的同时保证了网络的有效吞吐。基于无损以太的数据中心网络已经可以支持RDMA应用的规模部署,并且已经在互联网、教育、科研、气象、金融、油气等领域得到了广泛的应用。这些技术在大规模GPU集群中,也拥有极高的价值。

其次,以太网又是怎么做到“完美”的负载均衡呢?

现有的网络负载均衡技术绝大多数只是解决了本地等价路径之间的均衡,但对于整个网络而言,局部均衡并不意味着全局均衡。更何况,对于ECMP这种依赖哈希随机性的负载均衡技术,在网络流量比较少时,对于本地路径的完美均衡都难以做到。就像抛10000次硬币,正反面各出现一半很正常;但抛4次硬币,就有63%几率不是正反面各一半。“AI训练是一种吞吐敏感型业务,其典型流量特征是流数少、单流带宽大、强同步,在这种场景下,ECMP技术因为可能出现的哈希不均匀,难以保证网络负载均衡。”专家指出。

针对这个问题,华为提出了网络级负载均衡(Network Scale Load Balance, NSLB)的概念。华为基于算网协同实现多任务全局均衡路由,基于全局拥塞状态的自适应路由算法,实现AI训练流量满吞吐和网络带宽的完全利用。类似于拥有多条跑道的超大型机场的智慧调度系统,多条跑道同时起飞降落时,也不会互相冲撞,同时也满足最大游客吞吐量。基于NSLB,AI训练效率都可以大幅提升,测试结果显示,单任务、多任务线性度均达到90%以上。

最后,以太网又是怎么做到故障能快速恢复呢?

传统网络的故障收敛依赖设备控制面或者集中的控制器的动态路由收敛,网络故障收敛时间数百ms到数s,网络故障尽管是可以恢复的,但是故障期间大量丢包,会导致RDMA连接中断,直接影响AI训练业务的稳定性和性能。

对此,华为提出了一种基于数据面的故障无感自愈的方案,即数据面故障快速自愈(Data Plan Fast Recovery,DPFR),故障的感知、通告和自愈完全在数据面实现,不需要控制面参与,基于这种技术网络故障收敛,网络故障基本可以做到业务无感。这项技术可以有效消除网络故障对大规模AI训练的影响。

通俗的讲,这就好比在一个部门里面,上级一开始就和下级,以及周边部门协商好了任务处理模式,当有任务触发时,下级部门直接就和周边部门协同处理来提高工作效率,不用像传统模式一层层协商汇报后再等上级部门下达命名再处理任务。华为做的就是开发出了这个“下级部门”的处理能力,不再单纯只做执行者。

AI对通信网的需求和网络挑战将会产生深远的影响,从而对网络的可靠性、安全性、效率和服务质量等方面提出更高要求。因此,产业链企业需要不断探索和研究AI在通信网中的应用,以更好地满足用户的需求,提高网络的性能和服务质量。

采写:胡媛

编辑、校对:胡媛

指导:新文

延伸阅读:AGI对网络之变


延伸阅读:ChatGPT

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火箭悍将太完美!防守积极性感染全队 乌度卡:他无处不在

火箭悍将太完美!防守积极性感染全队 乌度卡:他无处不在

惊奇侃球
2025-12-26 23:40:43
票房会破20亿!宁浩《用武之地》首轮口碑出炉,徐峥的话又应验了

票房会破20亿!宁浩《用武之地》首轮口碑出炉,徐峥的话又应验了

小丸子的娱乐圈
2025-12-26 17:59:11
“央视当家花旦”朱迅:生命终将结束,为何不勇敢面对生命的终点

“央视当家花旦”朱迅:生命终将结束,为何不勇敢面对生命的终点

丰谭笔录
2025-12-25 11:25:18
人民币汇率破7!接下来股市、楼市和你手里的资产都会怎么走?

人民币汇率破7!接下来股市、楼市和你手里的资产都会怎么走?

墨兰史书
2025-12-26 18:40:03
广东94-88迎6连胜!徐杰三分助攻篮板都有!杜锋赞2小将有2好消息

广东94-88迎6连胜!徐杰三分助攻篮板都有!杜锋赞2小将有2好消息

老吴说体育
2025-12-26 21:49:15
晋中一村民称家中120只羊被毒死,其中110只是怀孕母羊,投毒者是常和父亲一起喝酒的好友,案发后还假装来安慰

晋中一村民称家中120只羊被毒死,其中110只是怀孕母羊,投毒者是常和父亲一起喝酒的好友,案发后还假装来安慰

极目新闻
2025-12-26 17:19:15
大陆最后一名军统女特务,平日里每日一包烟,84岁高龄时感慨道:共产党养了我整整31年

大陆最后一名军统女特务,平日里每日一包烟,84岁高龄时感慨道:共产党养了我整整31年

史海残云
2025-12-26 11:42:14
他这张嘴啊…怪不得失业了…

他这张嘴啊…怪不得失业了…

橘子娱乐
2025-12-26 21:46:40
一个团被敌三个师包围,失联七天竟零伤亡突围,彭德怀:提拔!

一个团被敌三个师包围,失联七天竟零伤亡突围,彭德怀:提拔!

潇湘烟雨水
2025-12-26 09:47:37
金融圈炸锅!中信建投连续两人栽了,“投行第一美女”也没逃过

金融圈炸锅!中信建投连续两人栽了,“投行第一美女”也没逃过

金融八卦女
2025-12-26 14:59:39
南博“吹哨人”遭连环恐吓

南博“吹哨人”遭连环恐吓

不正确
2025-12-25 12:42:58
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

春秋论娱
2025-12-25 07:11:24
中超最大牌外援?申花与30岁葡萄牙国脚谈判!曾轰28球获德甲银靴

中超最大牌外援?申花与30岁葡萄牙国脚谈判!曾轰28球获德甲银靴

我爱英超
2025-12-26 22:19:17
患癌妻子卖房治病,丈夫却要分走12万?法院判决后,他这样说

患癌妻子卖房治病,丈夫却要分走12万?法院判决后,他这样说

福建第一帮帮团
2025-12-26 19:00:29
46条中日航线取消才1天,就炸出一群“牛鬼蛇神”,郑强说对了

46条中日航线取消才1天,就炸出一群“牛鬼蛇神”,郑强说对了

除夕烟火灿烂
2025-12-25 10:00:49
携程被迫发声明,但声明或会让信任再次崩塌,卸载潮难止!

携程被迫发声明,但声明或会让信任再次崩塌,卸载潮难止!

鲁八两
2025-12-25 18:20:23
新的发现必将震惊世界,黄土高原的地底,埋藏着无数的古人类遗迹

新的发现必将震惊世界,黄土高原的地底,埋藏着无数的古人类遗迹

铭记历史呀
2025-12-19 20:28:59
南博案再爆猛料!上海收藏家曝关键细节:《江南春》隔夜流转

南博案再爆猛料!上海收藏家曝关键细节:《江南春》隔夜流转

衔春信
2025-12-26 22:55:42
价值50万元!陕西360克“无主黄金”,至今仍没找到主人

价值50万元!陕西360克“无主黄金”,至今仍没找到主人

封面新闻
2025-12-26 15:09:05
多位央企董事长集中被撤委员资格,释放哪些从严信号?

多位央企董事长集中被撤委员资格,释放哪些从严信号?

运营商段子手
2025-12-26 00:14:14
2025-12-27 00:23:00
通信产业报 incentive-icons
通信产业报
深度新闻、责任观点。
7803文章数 10028关注度
往期回顾 全部

科技要闻

收割3000亿!拼多多"土办法"熬死所有巨头

头条要闻

老人婚宴上被提醒孙女非亲生 做鉴定后忍3年忍不了了

头条要闻

老人婚宴上被提醒孙女非亲生 做鉴定后忍3年忍不了了

体育要闻

开翻航母之后,他决定亲手造一艘航母

娱乐要闻

王传君生病后近照变化大,面部浮肿

财经要闻

投资巨鳄罗杰斯最新持仓:只留四种资产

汽车要闻

两大CEO试驾 华为乾崑*启境开启首款猎装轿跑路测

态度原创

教育
亲子
游戏
公开课
军事航空

教育要闻

鼓楼热门民办动了!2026小升初最新消息

亲子要闻

“小姐丫鬟同一天生日?”双胞胎只买一个蛋糕,母亲嘴硬没偏心

曝《AC影》与黑旗和奥德赛联动:第二年更新汇总

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

乌最新20点俄乌和平草案递交莫斯科 俄方拒绝

无障碍浏览 进入关怀版