网易首页 > 网易号 > 正文 申请入驻

GPU利用率不足30%,韦乐平:智算拉远面临三大挑战

0
分享至

跨域训练是必然趋势。

当前,国内遍地开花的智算中心超280个,但GPU利用率很不均衡,饱的撑死,饿的饿死,平均不到30%。机内总线带宽与机间网络带宽不匹配,机间网络带宽太窄,算效不高。机内总线架构的开放性、兼容性和扩展性不理想。还缺乏可盈利的商业模式。

4月23日,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平在“2025云网智联大会”上指出智算中心网正面临以上挑战。

两类联网场景

智算网是适应大模型需要的、以GPU为主体的网络,由智算中心及其互联组成(对应DCN和DCI),但关于其定义和边界业界尚无共识。而智算中心网(AIDC),作为智算网核心相对比较清晰,与传统的DCN范围相当,包括芯片间、服务器间、单体乃至园区。

韦乐平认为,智算中心的联网场景包括Scale-OUT网络(机间网络)和Scale-UP网络(机内网络)。

其中,Scale-OUT网络用于机间构建超大规模GPU集群(例万卡集群),适用节点间的数据并行DP(高带宽)和流水线并行PP(中带宽),需支持百G级互联带宽、微纳秒时延、万卡级大规模组网,目前基于IB/R0CE的RDMA交换网络主导。

Scale-UP网络用于机内小规模GPU卡间的高速互联,构建超级GPU节点。适用于张量并行TP等场景,带宽是Scale-0UT的10倍以上,需要支持T级互联带宽、百纳秒级时延、百卡级及以下的小规模互联,需要更加高效的联网技术(PCIe等)互联CPU、内存、GPU、网卡等组件,随着大模型业务的爆发,此类总线的带宽和性能已经难以支撑GPU互联的性能要求。

六大联网技术趋势

韦乐平指出,生成式人工智能的联网技术趋势包括IB、以太网、芯片光互连、PCIe、CXL、OCS等六方面。

第一,IB(InfiniBand),是一种用于高性能计算的计算机网络,具备高带宽、高扩展、高可靠性、无阻塞、超低时延(1μs)的特点。但需要采用专用硬件IB交换机和IB网卡,成本较高,扩展性受限。此外,产业生态较弱,过于封闭,由英伟达独家控制。IB最适用高性能计算和高质量大模型训练场景。

第二,以太网,是世界上规模最大的低成本联网技术,但是,其传统形态和协议已经不能满足大集群联网的苛刻性能需求。可从ROCE(一种基于以太网的RDMA)、无损以太网、超级以太网联盟(UEC)三个方向改进。以太网性价比全面赶超IB,预计2026年会起量。

第三,芯片光互连,其原理利用CMOS工艺,将光波导、耦合器和谐振器直接刻蚀在硅基上,再利用先进的封装技术将分立的具有特定功能的芯片组(各种XPU)集成进来,构成一个实用化的,结合SiP和Chiplet技术的光互连器。芯片光互连具有改进了计算集群的扩展性(超100T)和带宽(扩大5-10倍)、极低功耗、降低时延(可达10倍)、能效(4-8倍)和物理尺寸等优势。同时,芯片光互连也存在技术还不成熟、标准缺失等挑战,预计最快2026年就有产品。

第四,PCIe,是一种计算机串行扩展总线技术。自从1992年以来,PCe一直用于高速、低时延、高带宽场景,例如,数据中心内的非易失内存快线(MVMe)和GPU与CPU的互连等场景。当前应用最广的是PCIe5.0,2022年发布PCIe6.0,2025年计划发布PCIe7.0版本,期望进一步提升至128GT/S能力。

第五,CXL,计算机快速链路CXL(Compute Express Link)是一种架构在PCle串行总线上的新接口协议和高速互连技术。CXL允许计算机系统内不同组件间进行快速、可靠的数据传输。CXL打破了CPU与内存间的捆绑关系,能够在维系CPU内存空间和设备内存一致性的前提下,实现更加灵活和高容量的内存池化架构。长期看,CXL将导致现有服务器架构的解构,将处理、内存和I/O分别纳入不同物理模块,使能资源的查询和共享,适应大集群的训练需要和高性能计算的需要。

第六,OCS,光纤交换(OCS)是一种以光纤通道为交换颗粒的大容量交换。光纤交换与速率无关、去掉了大量高速光模块、拓扑更灵活、切换时间缩短至10毫秒级,谷歌的OCS号称带宽提高5倍,电力消耗下降41%,成本降30%。OCS近中期主要替代AIDC中的Spine层的电交换机,长期会进一步向外扩展。

跨域训练是必然趋势

面对大批分散部署、利用率很低的小规模智算中心,若能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。

在韦乐平看来,迈向未来,大模型训练智算拉远的市场中,跨域训练是必然趋势。按照统计,大模型参数每1-2年增长10倍,而对应的GPU芯片的算力仅增长2-4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。至于推理与具体业务场景和访问量相关,更需要跨域实施。

与此同时,韦乐平认为,大模型训练智算拉远面临三大挑战。

首先,复杂的商用场景。面临大量不同功能、性能的异构GPU、规模不同的AIDC的互联、不同业务场景、不同设备和不同组网方式、不同模型和不同参数的协同挑战。

其次,技术挑战。一方面,带宽收敛问题。无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比4-8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性;另一方面,功能和性能问题。拉远后必然面对丢包、抖动乃至中断故障等诸多挑战,对ROCE网络的功能和性能有不少严格的要求。

最后,统一管理和运维的挑战。现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。

采写:胡媛

编辑:晓燕

指导:辛文

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
瞄准身体部位特写、故意拍摄走光瞬间,韩国摄影师球赛现场只拍啦啦队队员,靠擦边内容月入1000万韩元

瞄准身体部位特写、故意拍摄走光瞬间,韩国摄影师球赛现场只拍啦啦队队员,靠擦边内容月入1000万韩元

都市快报橙柿互动
2026-05-14 23:50:57
郭富城娶小22岁方媛非偶然,包容心态是关键

郭富城娶小22岁方媛非偶然,包容心态是关键

可乐谈情感
2026-05-16 18:15:11
高市早苗遭遇耻辱一幕!日本部长嚷着:要在中国介绍“女首相”

高市早苗遭遇耻辱一幕!日本部长嚷着:要在中国介绍“女首相”

菠萝欣赏家本尊
2026-05-16 12:07:27
争冠黑马被打回原形!4强形势再变,上海最不愿看到的情况发生了

争冠黑马被打回原形!4强形势再变,上海最不愿看到的情况发生了

后仰大风车
2026-05-16 22:51:40
马斯克访华像回自家!母亲长住上海,儿子身家千亿,76岁还带货

马斯克访华像回自家!母亲长住上海,儿子身家千亿,76岁还带货

童叔不飙车
2026-05-15 22:51:51
陈宝国自曝:拍大宅门时,何赛飞不问青红皂白,直接给我一嘴巴子

陈宝国自曝:拍大宅门时,何赛飞不问青红皂白,直接给我一嘴巴子

阿废冷眼观察所
2026-05-17 01:20:04
撞见女邻居出轨,她上门找我求保密,我说:可以,但有一个条件

撞见女邻居出轨,她上门找我求保密,我说:可以,但有一个条件

i书与房
2026-05-12 16:59:33
看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

触摸史迹
2026-03-21 02:58:06
枪声响起!小马科斯大势已去,菲军方紧急切割,中菲关系或迎转机

枪声响起!小马科斯大势已去,菲军方紧急切割,中菲关系或迎转机

梁濆爱玩车
2026-05-15 21:54:58
妻子与情夫有染7年,丈夫把床让给他们,情夫一再出言不逊被杀

妻子与情夫有染7年,丈夫把床让给他们,情夫一再出言不逊被杀

莫地方
2026-05-17 01:50:03
今年首轮大范围降雨即将上线,多地提醒市民非必要不外出

今年首轮大范围降雨即将上线,多地提醒市民非必要不外出

澎湃新闻
2026-05-16 16:40:27
其实他才是对华敌意最深的美国总统,差一点锁死咱们的崛起之路

其实他才是对华敌意最深的美国总统,差一点锁死咱们的崛起之路

开着车去流浪
2026-05-15 15:28:45
挖走洛夫顿?广东队有望截胡上海男篮,卢伟被迫完成“3选2”!

挖走洛夫顿?广东队有望截胡上海男篮,卢伟被迫完成“3选2”!

绯雨儿
2026-05-16 11:22:46
特朗普贴身助理,34岁单身娜塔莉·哈普果然漂亮

特朗普贴身助理,34岁单身娜塔莉·哈普果然漂亮

三叔的装备空间
2026-05-16 08:32:33
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

已成功瘦了 30斤,我发现提高代谢关键吃法是:早餐吃够蛋白质

新时代的两性情感
2026-05-15 10:08:20
小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

妍妍教育日记
2026-05-15 08:20:14
网友反映部分OPPO新款旗舰手机拍视频有缺陷,拍摄时有时会出现异常粉色,客服工作人员:5月下旬会推新系统修复

网友反映部分OPPO新款旗舰手机拍视频有缺陷,拍摄时有时会出现异常粉色,客服工作人员:5月下旬会推新系统修复

极目新闻
2026-05-15 21:34:37
特别法庭启动程序,乌克兰外长披露战犯名单,乌军北线传捷报

特别法庭启动程序,乌克兰外长披露战犯名单,乌军北线传捷报

史政先锋
2026-05-16 12:08:52
特朗普访华硬核安保曝光!警卫只许带手枪,全车70辆保驾护航

特朗普访华硬核安保曝光!警卫只许带手枪,全车70辆保驾护航

野渡舟山人
2026-05-15 19:56:21
2026-05-17 02:44:49
通信产业报 incentive-icons
通信产业报
深度新闻、责任观点。
8259文章数 10045关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

头条要闻

又想“抹黑”中国 福克斯新闻“翻车”了

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

谢霆锋北京街头骑行被偶遇,侧颜帅炸

财经要闻

造词狂魔贾跃亭

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

教育
健康
数码
时尚
公开课

教育要闻

又开始偷偷卷排名的几所大学!

专家揭秘干细胞回输的安全风险

数码要闻

科技巨头访华遇618 苹果、高通、英伟达集中促销中

女人不管年纪多大,都可以备好一件经典条纹T恤,减龄又舒适

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版