网易首页 > 网易号 > 正文 申请入驻

大模型时代:华为让以太网进化,打通数据运力动脉

0
分享至

随着大模型时代的到来,算力需求呈现出指数级增长。据统计,2012年到2019年AI训练算力平均每100天翻倍,而GPU单卡算力则需要2-3年增长一倍。GPU卡集群成为应对算力需求高速增长的方案,随着AI模型进入万亿参数模型时代,GPU卡的数量也提高到万卡规模,据了解,OpenAI使用25000张A100 GPU训练1.8万亿参数的GPT4。

正是在AI计算集群支撑下,超万亿参数大模型的高效训练成为可能,大模型加速进入各行各业。在最近举行的华为年度最重要的ICT盛会上,“大模型”成为最重要的关键词,华为从算力、运力、存力等多个维度全线出击,使能百模千态,赋能千行万业,加速行业智能化。

其中,华为最令人关注的重磅创新之一,来自数据中心网络,华为对以太网进行进化,研发出超融合以太技术,正是这项创新,让数据中心网络释放出最大潜力,使得上万张AI板卡高效协同,成为万亿参数大模型时代的坚固基石。

为数据中心网络装上智慧调度大脑

想象一下,一个超大型机场如果没有调度系统,多条跑道同时起飞降落飞机的时候会发生什么?

这样的景象其实也发生在数据中心。随着AI进入大模型时代,计算也进入分布式训练的时代,即计算任务以数据并行、流水线并行、张量并行等分布式并行方式分配到多台服务器上,以加快模型训练速度。这个时候,多台服务器之间就需要同步参数、梯度、中间变量,在大模型训练时,单次参数同步量高达100MB-几GB的量级。如何协作数万张处理器,保证不随着算力规模的增大而效率大幅降低,避免出现1+1<2的效果,是一大问题。

并行计算下,网络负载均衡就是其中的关键。无论是数据并行,还是流水线并行,或是张量并行,多机之间都需要通过多次AllReduce集合通信操作来传递计算结果。AllReduce集合通信的特征是多打一,流数少、单流带宽大,同一时间均是点到点通信,其完成需要所有点对点通信都成功完成。这时候就存在“木桶效应”,木桶中盛的水由最短的木板所决定,而AllReduce的完成时间,也由其中最慢的点对点通信时间所决定。

正是因为这种木桶效应,智算数据中心网络会遇到网络负载不均衡问题,如何进行链路的负载均衡成为关键。在没有实现全局负载均衡的网络中,整体通信效率仅在30%-56%之间,这意味着有一半以上的网络性能没有被高效利用,同样,这意味着整个AI集群的算力效率只有不到一半。因此,AI集群网络的吞吐效率将直接影响整个智算中心集群的效率。

目前有很多网络负载均衡技术,但其缺点在于绝大多数技术只解决了本地等价路径之间的均衡,是局部视角而非全局视角。甚至对于AI训练这种吞吐敏感性业务,传统的ECMP流量均衡机制也很难实现本地路径的完美均衡。

正是在这样的背景下,华为提出了网络级负载均衡(Network Scale Load Balance,NSLB)的概念,顾名思义,其是基于算网协同实现多任务全局均衡路由,通过全局拥塞状态的自适应路由算法,实现AI训练流量满吞吐和网络带宽的完全利用。

在华为全联接大会2023上,华为发布的面向智算场景的业界首款高运力AI智算交换机CloudEngine XH16800,就是在NSLB算法的加持下,实现网络一键调优,可以根据整网交换机节点流拥塞状态和全网拓扑状态进行全局算路,识别出最优路径,整网吞吐可以提升到高达98%。

这意味着智算数据中心的吞吐翻了一倍,当然,这也意味着智算数据中心的集群效率提升了一倍。华为相当于是为数据中心网络装上了一个智慧调度大脑,可以智能优化网络负载均衡,将网络吞吐量做到极致。

大模型时代的“数据中心网络样板”

实际上,华为在数据中心网络上的创新不止于此。华为全新升级的CloudFabric 3.0超融合数据中心网络,就以一系列底层技术创新,定义了大模型时代的“数据中心网络样板”。

目前业界主流的计算互联协议有RoCE和IB两种,其中据绝对领先份额的IB主要掌握在国外巨头手中,技术和产品生态都比较封闭。而且,AI网络里存在参数面、存储面、业务面、管理面等多个平面,IB只用在参数面里面,其他网络需要使用以太协议,这意味着需要两套运维系统。相比起来,RoCE生态相对开放,可以完全复用以太生态,而且着力实现网络的无损传输,被认为是未来计算互联的重要路径。

华为基于RoCE,研发出超融合以太技术,除了上面提到的NSLB技术带来的网络负载拥塞控制优势,还有完善的流量控制、流量调度、应用加速功能,而且独家实现了以太网0丢包功能。从华为推出的CloudFabric3.0超融合数据中心网络来看,其具有超强性能,独家AI加速器(NSLB)网络吞吐提升至98%,AI训练效率可提升20%;超稳可靠,训前智能自检,保障100%网络健康;超快部署,多云多厂商实现天级设备管理,分钟级业务编排,网络与计算协同,端到端即插即用,开局效率提升10倍;超智运维,独家网络数字地图使能计算网络一体化运维,通信异常一键诊断,实现训中排障效率提升90%。

如果我们将目标着眼于数据中心,其中同样存在木桶效应。在构成数据中心的关键要素——存储、计算、网络等木板中,网络是最短的那块木板。但是网络又非常关键,其连接着用户终端和数据中心内部的计算、存储等设备,保障数据通信链路上高效、安全的传输。华为超融合以太技术,将数据中心网络从传统以太、无损以太向超融合以太升级,从网络架构、带宽、时延、可靠性、应用加速、网络技术演进六大方面全面升级,补齐了网络这个短板。

更重要的是,这个解决方案不仅性能强,而且成本低。通过将通用计算网络、存储网络、高能能计算网络和智能计算网络统一承载在0丢包以太网技术栈上,相当于实现了多张网到一张网的融合部署。此举不仅降低了网络的建设成本,而且在一系列智能化运维技术的加持下,还能实现运维成本的节省。最近,华为发布了L4数据中心自动驾驶网络方案及白皮书,这意味着在L3.5数据中心自动驾驶网络的基础上,数据中心网络将朝着高度自动化的更高度迈进。

武汉超算中心就是很好的样本,其采用华为超融合以太解决方案,打造出一张性能、兼容性、成本效益和灵活性兼具的高性能网络。事实上,在项目部署前,武汉超算中心曾经对96节点集群规模下,华为的方案和IB方案进行过全面对比测试。测试表明,在MPI、Benchmark和HPC典型应用测试中,华为智能无损高性能计算网络性能与IB网络整体基本持平,局部小幅领先,完全满足业务的高性能需求。

在华为全联接大会2023上,华为重磅发布面向AI智算场景的华为星河AI网络,可以预计,在星河AI网络的加持下,数据中心网络将能实现AI时代的最强运力,支撑起大模型时代的璀璨星河。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《火锅》票房大扑街!导演丁晟直播落泪,杨幂宣传摆烂被批不上心

《火锅》票房大扑街!导演丁晟直播落泪,杨幂宣传摆烂被批不上心

萌神木木
2024-05-03 21:34:14
中超-国安2-1蓉城取4连胜升第2 李可蹬踏未吃牌蓉城遭遇3轮不胜

中超-国安2-1蓉城取4连胜升第2 李可蹬踏未吃牌蓉城遭遇3轮不胜

直播吧
2024-05-05 21:35:46
脑溢血发生前的7个“前兆”,医生提醒:出现一个以上,及时检查

脑溢血发生前的7个“前兆”,医生提醒:出现一个以上,及时检查

旧梦初醒已千年
2024-03-20 16:23:37
举报医院涉嫌代孕1小时后产妇紧急出院,有人通风报信? 重庆卫健部门:绝不可能!

举报医院涉嫌代孕1小时后产妇紧急出院,有人通风报信? 重庆卫健部门:绝不可能!

奔流新闻
2024-05-05 14:03:23
中超积分榜:申花26分领跑,上港、国安反超成都,亚泰摆脱垫底

中超积分榜:申花26分领跑,上港、国安反超成都,亚泰摆脱垫底

中超伪球迷
2024-05-05 22:15:18
外交发言频繁使用“甩锅”,真的合适吗?

外交发言频繁使用“甩锅”,真的合适吗?

一枚小吏
2024-05-05 16:53:18
小米副董事长入手一辆Model Y

小米副董事长入手一辆Model Y

电动知家
2024-05-05 20:06:59
31岁网红“俄罗斯娜娜”去世,嫁贵阳二婚男,酒后吃止疼药致噩耗

31岁网红“俄罗斯娜娜”去世,嫁贵阳二婚男,酒后吃止疼药致噩耗

裕丰娱间说
2024-05-05 18:24:58
谭竹前同事发声,曝其陪睡千真万确,每周收入十几万,证据曝光!

谭竹前同事发声,曝其陪睡千真万确,每周收入十几万,证据曝光!

古希腊掌管松饼的神
2024-05-05 09:15:54
广东女球迷发长文控诉:遭辽宁球迷辱骂施暴 主场保安当帮凶

广东女球迷发长文控诉:遭辽宁球迷辱骂施暴 主场保安当帮凶

直播吧
2024-05-05 17:45:35
金价重回5时代 金价跌回1克600元以下 金店店长:从业20年 , 这个“五一”生意最淡

金价重回5时代 金价跌回1克600元以下 金店店长:从业20年 , 这个“五一”生意最淡

每日经济新闻
2024-05-05 18:50:10
为何先拿教师开刀?财政养不起那么多人,第一个退出的竟是教师!

为何先拿教师开刀?财政养不起那么多人,第一个退出的竟是教师!

鹏飞深文
2024-05-05 16:19:29
李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

磊子讲史
2024-03-25 14:45:46
十年前的英冠,20岁凯恩与26岁瓦尔迪一起坐在莱斯特替补席

十年前的英冠,20岁凯恩与26岁瓦尔迪一起坐在莱斯特替补席

直播吧
2024-05-05 16:04:24
痛心!云A488VN轿车已找到,五人全部遇难,家属发讣告,令人心疼

痛心!云A488VN轿车已找到,五人全部遇难,家属发讣告,令人心疼

180°视角
2024-05-05 15:22:47
特斯拉为什么要放弃一体压铸?

特斯拉为什么要放弃一体压铸?

郑谊
2024-05-05 13:29:04
5月5日14时01分太阳爆发强耀斑,对中国上空电离层产生影响

5月5日14时01分太阳爆发强耀斑,对中国上空电离层产生影响

新京报
2024-05-05 15:54:09
香飘飘董事长现身机场接赴日回国员工

香飘飘董事长现身机场接赴日回国员工

鲁中晨报
2024-05-05 13:52:03
格局大!香飘飘董事长为赴日员工举牌接机:欢迎香飘飘勇士归来!

格局大!香飘飘董事长为赴日员工举牌接机:欢迎香飘飘勇士归来!

杂谈哥闲谈
2024-05-05 13:37:43
卡塔尔准备接受美国要求 将哈马斯领导人驱逐出多哈

卡塔尔准备接受美国要求 将哈马斯领导人驱逐出多哈

财联社
2024-05-05 15:02:14
2024-05-06 00:34:44
闫跃龙
闫跃龙
剖析互联网+带来的行业变局
1313文章数 1125关注度
往期回顾 全部

科技要闻

Meta买英伟达GPU已花300亿美元 超当年登月

头条要闻

夫妻驾驶特斯拉冲下山路身亡 行车记录仪数据消失不见

头条要闻

夫妻驾驶特斯拉冲下山路身亡 行车记录仪数据消失不见

体育要闻

2年,从英甲到英超!37岁的他创造奇迹

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

20大要点!巴菲特谈聊到AI、苹果、投资

汽车要闻

"高阶智驾"配上了 极狐阿尔法S先行版PRO亮相

态度原创

艺术
健康
教育
亲子
时尚

艺术要闻

造科幻之物于园林 “天工开悟——夏航雕塑展”于南池子美术馆呈现

春天野菜不知不识莫乱吃

教育要闻

校园丑绝人寰的10所美国大学!这不是去上学,这是进了厂房……

亲子要闻

雀巢竟在亚非婴儿的食品中添加这么多糖!毒害从娃娃抓起?

伊姐五一热推:电影《维和防暴队》;电视剧《微暗之火》......

无障碍浏览 进入关怀版