网易首页 > 网易号 > 正文 申请入驻

构建最佳算力底座,大模型训推不再让“算等网”的秘密是什么?

0
分享至

“54天,419次意外故障,中断频次达平均每3小时1次”。关于LLaMA 3的一份官方论文报告披露了大模型训练面临的巨大挑战。

报告显示,78%的故障因硬件问题产生,其中,网络瓶颈又成为算力释放的关键挑战。大模型训练需依托大规模算力集群释放潜能,网络可靠性不足导致训练效率下降是行业面临的重要难题。同时,在大模型推理中,同一任务的网络通信时长普遍大于计算时长,造成近20%的算力浪费,大模型推理“算等网”亦成为一大业务挑战。

所以,面向AI时代的数据中心网络要解决的核心问题便是提升网络可靠性、降低数据传输时延,提升计算效率。此外,随着大模型的参数量越来越大,数据吞吐量攀升,这对网络容量带宽提出更高要求。

在此方面,华为星河AI数据中心网络方案为AI时代解题,基于AI-Powered的理念,打造高算效、高韧性的数据中心网络,为AI时代提供了一个强大的网络基础设施。

星河AI数据中心网络硬核破局:使能0算损,构建最佳网络底座

无论在大模型训练还是推理中,提升计算效率无疑意味着巨大的算力成本节约,也决定着模型迭代的速度。

在算力资源有限且成本高昂的背景下,作为数据中心三大基础之一的网络,需要思考的是如何把算力的潜能发挥到极致,而非成为制约算力释放的瓶颈。

破局网络吞吐、时延和可靠性挑战,华为升级星河AI数据中心网络方案构建AI时代高质量网络底座,首先便将网络性能提升至新的高度。

  • 极限突破:星河AI网络的最强算力支撑组合

在提升算力效率方面,华为打造了业界最高密640400GE框式交换机,业界唯一支持GE到400GE灵活插卡盒式交换机,业界首款100T(128800GE)盒式以太交换机,业界首款51.2T液冷盒式交换机,以及全新400GE/800GE星联光模块等,组成华为星河AI数据中心网络的强大算力支撑组合。以华为CloudEngine XH9000全系列交换机举例,其采用先进的硬件结构设计,实现350ns超低转发时延,将AI训练效率提升20%。

总体来看,它们以最高密度800GE、超大组网突破AI集群规模上限,叠加ns级超低转发时延的最强组合,不再让网络成为大模型训推中的隐形算力吞噬者,从而构建了一个强大的网络基础设施底座。

  • 算法革命:将网络损耗转化为算力增益的魔法

独家星智AI推理调度算法,减少推理流量的通信耗时,将任务中网络通信时长降低至计算时长的70%以下,实现AI推理性能提升10%;独家AI加速器NSLB算法,通过绘制全局的流量矩阵,计算出最佳的流量分布,自动进行导流,实现网络吞吐提升到95%,AI训练效率提升超10%; 独家iReliable三级(链路/设备/网络)极速切换能力,实现亚毫秒级快切,业务0中断;业界首个iLossless智能无损算法,实现存储IOPS提升93%;独家闪启技术,实现设备异常重启/升级AI训练不中断;光模块通道抗损与异常/脏污/松动检测,网络可靠性提升10+倍。

看得出,为实现数据中心网络的大带宽、高吞吐、高可靠、低时延,华为星河AI数据中心网络进行软硬一体多维创新,使能0算损业务永续,从而能够助推企业构建最佳算力底座。

AI重塑,为数据中心网络运维、变更提供确定性答案

与此同时,在AI深入千行万业的同时,AI服务需要全天候在线,从而呼唤Always-On的联接服务。这要求网络具备更高的可用性、更快的开通部署和变更效率,以及在面临故障时更高效地排障、恢复运行。

在此方面,华为用“网络智能体”、“网络数字地图”和“网安一体仿真方案”给出了数据中心网络在运维和网络变更过程中的确定性答案。

首先,华为星河AI网络智能体NetMaster集成了华为数据通信领域上千亿语料,以及1万多名网络专家的经验,具备强大的语义理解能力,是通信网络领域的重要突破。其支持运维数据问答、交互式业务分析与辅助决策,通过独家AI网络思维链,实现典型场景下80%无线故障自诊断、自动生成处置建议并自动执行,从而推动网络迈向智能化新时代。

举例来说,对话式智能问答就像提供了一个全天候在线的HCIE专家在身边,可助力运维人员从传统的人工查找菜单、查资料向智能对话式转变,大幅提升运维工作效率;网优智能体能够精准感知无线网络体验和健康度,在带宽、干扰、覆盖、负载等多个维度中推理给出最佳故障处置方案并自动执行,相比传统需要人工工勘测试、参数修改、反复验证的方式,星河AI网络智能体显著提升了无线故障的闭环效率。

其次,iMaster NCE网络数字地图以类似交通导航地图的方式,将网络空间和物理空间进行深度融合,基于数字孪生理念构建企业数字化智能大脑,实现云、网、端、应用及用户的统一智能管理。实现从网络到应用的全息可视,并提供了智能路径导航与智能优化等能力,显著提升网络运营效率。

再者,星河AI网络仿真方案通过网络变更前仿真建模,变更后自动校验,可实现单DC配置变更100%准确。据介绍,2023年某银行上线该功能后,所有变更实现事前100%仿真验证,2年多来4000+次网络变更0失误。进一步地,基于独家CMOS仿真算法,华为新推出的网安一体仿真方案,可以确保网络及安全配置100%准确,提升整体网安变更效率。

所以,AI使能的星河AI网络为数据中心网络的可用性、可靠性再增加一道保障,避免网络故障频发导致AI训推等业务中断,提升运维运营效率,推动网络迈向高阶自智。

重新定义AI算效,构筑智能时代的稳固网络基石

整体而言,华为基于AI-Powered理念打造面向AI时代的数据中心网络,一方面以Networks for AI,提供了最强算效方案,满足数据中心网络“0丢包、低时延、高吞吐”的建网诉求,释放AI时代极致算力;另一方面以AI for Networks,将AI技术深度融入网络运维与管理中,助推业务0中断、配置0差错、管理0担忧,构筑智能时代的稳固网络基石。

根据Gartner的预测报告,到2026年,超过80%的企业将采用生成式人工智能API或部署生成式人工智能的应用程序;到2028年,AI智能体将自动化至少15%的日常决策,提升企业生产力与运营效率。

无疑,AI能力正在从量变走向质变。在这场以智能化驱动的变革中,一张使能0算损业务永续的数据中心网络,为构建最佳算力底座、赋能千行万业跃升生产力,奠定了坚实基石。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

张雪峰追悼会定于本周六,丧事从简不搞排场,11岁女儿成全家心病

未曾青梅
2026-03-26 22:48:49
伊朗官员称考虑退出《不扩散核武器条约》

伊朗官员称考虑退出《不扩散核武器条约》

新京报
2026-03-28 09:44:44
寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

DrX说
2025-10-24 14:15:19
投资过亿,日均乘客不足10人,停运陷争议

投资过亿,日均乘客不足10人,停运陷争议

中国新闻周刊
2026-03-27 14:55:03
快讯!伊朗伊斯兰革命卫队,重大宣布

快讯!伊朗伊斯兰革命卫队,重大宣布

果妈聊娱乐
2026-03-28 09:03:45
101枚导弹砸向美国航母,伊朗打出了开战以来最强势的一拳

101枚导弹砸向美国航母,伊朗打出了开战以来最强势的一拳

乐享人生风雨
2026-03-27 10:07:40
广州市委原书记郭永航被查,曾长期在深圳工作

广州市委原书记郭永航被查,曾长期在深圳工作

观察者网
2026-03-27 18:27:06
三湾改编保留骨干中竟潜藏3位高级叛徒,其中1人曾任总政治部主任

三湾改编保留骨干中竟潜藏3位高级叛徒,其中1人曾任总政治部主任

鉴史录
2026-03-27 21:31:59
52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

股经纵横谈
2026-03-16 21:56:42
炸掉干扰站,撕开伊朗信息铁幕:美以这一刀,捅在德黑兰的喉管上

炸掉干扰站,撕开伊朗信息铁幕:美以这一刀,捅在德黑兰的喉管上

老马拉车莫少装
2026-03-28 09:18:09
文曲星换届,张雪峰告别式现场凌晨4点排长队,那盏灯会一直亮着

文曲星换届,张雪峰告别式现场凌晨4点排长队,那盏灯会一直亮着

麓谷隐士
2026-03-28 11:00:18
美国高尔夫球星“老虎”伍兹因酒驾发生翻车事故被捕

美国高尔夫球星“老虎”伍兹因酒驾发生翻车事故被捕

新京报
2026-03-28 09:44:58
日本彻底摊牌了!

日本彻底摊牌了!

安安说
2026-03-28 11:47:07
伊朗还能扛多久?法国专家算了笔账:再打两到四个月,问题不大

伊朗还能扛多久?法国专家算了笔账:再打两到四个月,问题不大

透视到底
2026-03-27 08:50:37
美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

极目新闻
2026-03-26 20:16:01
奥运冠军刘璇:36岁结4次婚,都嫁给同一人,老公真实身份曝光!

奥运冠军刘璇:36岁结4次婚,都嫁给同一人,老公真实身份曝光!

拳击时空
2026-03-28 07:08:02
62岁老人查出阴茎癌!他的坏习惯为所有人敲响警钟!值得借鉴

62岁老人查出阴茎癌!他的坏习惯为所有人敲响警钟!值得借鉴

路医生健康科普
2026-03-27 17:42:19
悲催!房贷136万,月供6580.36元,苏州业主哭诉失业后奔深圳太难

悲催!房贷136万,月供6580.36元,苏州业主哭诉失业后奔深圳太难

火山詩话
2026-03-27 13:32:27
赵樱子自爆相亲翻车!6亿豪宅香港富商摘了眼镜帽子后:下不去嘴

赵樱子自爆相亲翻车!6亿豪宅香港富商摘了眼镜帽子后:下不去嘴

观鱼听雨
2026-03-27 17:30:53
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

世界圈
2026-03-28 12:17:52
2026-03-28 14:16:49
智会社 incentive-icons
智会社
绘声绘色说科技
315文章数 1059关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

头条要闻

牛弹琴:伊朗狠角色强硬嘲讽美国 却被美移出猎杀名单

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

王一博改名上热搜!个人时代正式开启!

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

健康
时尚
本地
手机
家居

干细胞抗衰4大误区,90%的人都中招

龙虾来了,厌蠢症炸了

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

手机要闻

唯苹果、OPPO在增,剩下四个品牌全部在跌

家居要闻

曲线华尔兹 现代简约

无障碍浏览 进入关怀版