网易首页 > 网易号 > 正文 申请入驻

10%撬动30%:新华三给出智算网络最优解

0
分享至

“只要网络调得好,网络的投入就相当于白送。”

过去几年,新华三在智算基础设施建设中总结出一组数据:尽管智算网络在智算中心整体投资里面仅占约10%,但作用却远超预期。数据显示,同样搭载先进算力,与未经调优的智算网络相比,调优后的网络能让智算中心的训练性能提升30%,模型训练用时缩短25%,并有效避免因网络故障导致的巨额停机损失。

显而易见,智算网络已成为决定算力效率和收益的重要因素。尤其是在大模型规模持续攀升、多元算力基础设施快速扩张的当下,其重要性正被不断放大。

那么,面对智算业务飞速发展,新华三如何通过网络调优,让这10%持续释放出超额价值,真正做到“白送”? 在近日举办的第九届未来网络发展大会上,新华三给出了三大最优解。

以先进工程实践抢跑102.4T交换机

AI分布式训练需要在多个AI芯片之间频繁传递海量数据,一旦网络带宽不足或时延过高,整体训练效率就会大打折扣。这就像一座超级工厂,若传送带的速度和数量跟不上,再先进的生产设备也会因“待机”而无法满负荷、高效率运转。

随着大模型参数规模持续攀升,智算集群正从千卡、万卡迈向十万卡级别,网络规模也随之成倍扩张。这不仅要求交换机具备更高的端口密度和带宽,还必须在收敛时延和可靠性上实现同步演进。

正是在这一背景下,新华三在大会上重磅发布了基于最新102.4T芯片研发的高性能800G AI交换机H3C S9828-128EP。该产品搭载业界领先的102.4T超高性能交换芯片,单机容量达102.4T,提供多达128个800G OSFP全速端口。凭借高密度端口设计,单个POD可支持10K+ 800G端口,相比上一代产品,设备用量可减少70%,光模块用量降低50%,可显著简化集群建设。同时,全端口支持LPO/LRO光模块,兼顾低能耗与低时延;散热架构采用风冷/液冷兼容设计,可灵活适配液冷整机柜和液冷机房场景。


将一颗芯片落地为成熟商用产品,是一个复杂的系统工程,并非易事。当前业界主流仍停留在51.2T交换机,102.4T芯片才刚刚面世,新华三为何能在如此短的时间内率先将其产品化?答案藏在其系统设计与工程创新中。

H3C S9828-128EP引入了多项工业级创新,比如率先使用M9级PCB板材,支持极端温度环境下稳定运行;采用PCB 叠层结构与深微孔技术精密加工,大幅降低了信号串扰。在软件层面,产品搭载新华三自研网络操作系统 Comware,率先实现 UEC(超以太网联盟)标准的全栈落地,不仅通过MAC层本地重传优化、基于CBFC的网络信用协商、端网协同的拥塞控制等技术,大幅提升了传输效率,而且能够与多元算力实现基于UEC标准的平滑对接。

这些设计创新,正是新华三将尖端芯片快速转化为高质量产品的关键,也彰显了其在系统设计、工程实践、质量流程和先进制造上的深厚积累。正如新华三集团高级副总裁、网络产品线总裁乔剡在采访中所言:“我们擅长做产品和工程,既有丰富的设计与实践经验,也赢得了领先芯片合作伙伴的信任,从而使他们愿意把最前沿的芯片交给我们,加速实现产品化与价值落地。”


新华三集团高级副总裁、网络产品线总裁 乔剡

端网融合高效协同多元算力

过去,大模型训练主要依赖单一厂商的GPU,算力架构相对统一。如今,随着开源框架与模型的普及以及国产算力的崛起,训练平台逐渐演变为多元算力并存的格局,涵盖来自不同厂商的多种类型芯片,以及各种形态的交换机、网卡、光模块等设备。

这种多元算力并存的新常态,也给智算网络提出了更高要求:它必须具备更强的流量感知、拥塞控制与跨厂商兼容能力,从而免去客户反复联调的负担,让部署更加省心,训练更加高效。

同时,在大模型训练场景中,AI 流量具有流数量少(低熵)、单流带宽高(大象流)、同步突发等典型特征,若仍采用传统的负载均衡与拥塞控制机制,极易导致链路负载不均与网络拥塞,进而引发时延增加、丢包和重传等问题。这样的网络表现,难以满足日趋复杂的AI训练对网络带宽、时延、丢包和抖动的苛刻要求。因此,RoCE网络亟需进一步优化,以提升链路效率,实现更动态、更精细的负载均衡和拥塞控制,从而保障大模型训练的高效运行。

面对这些问题,新华三的答案是——创新端网协同方案,推动多元算力融合提速。

“过去,网络拥塞控制主要依赖端侧(GPU或网卡),它们只按自身视角选路发送,没有全局视野,无法知道网络内哪条路径更优。即便某条链路出现故障,端侧依然会沿着原有路径继续发送。现在则不同,我们通过与网卡对接,实时获取GPU间的通信关系,并以此为依据进行全局精准调优,从而大幅提升了网络效率。”新华三集团交换机产品管理部总监陈伯超如此形象地解释端网协同。

具体而言,新华三的端网协同方案通过AD-DC智算版和增强CBRC算法实现端网融合,有效减少通信拥塞,提升算力效率。该方案可动态检测全网链路,计算出最优路径并下发到网络设备上。同时,在端侧,增强CBRC算法可实现网络级拥塞感知的Credit分配,能动态响应链路状态变化,快速实现指定链路上的升降速及链路切换。


目前,端网协同方案已在50余款新华三交换机及多家主流 GPU、网卡厂商的联合验证中成功运行 Llama3 模型。实测结果显示,相比传统ECMP方案,All-to-All通信性能提升超16%,防拥塞效果提升20%。

DDC实现算力与网络彻底解耦

除了在软硬件方面不断创新突破推动多元算力融合提速,新华三还持续探索如何从网络架构创新设计方面推动算网彻底解耦,推出了基于DDC(Diversified Dynamic-Connectivity,多元动态联接)架构的新一代无损网络解决方案,以进一步提升智算网络的灵活性、扩展性、高效性。


该架构通过端到端全局调度实现算力与网络的彻底解耦,不仅突破了传统封闭系统的局限,能释放网络极致性能,而且具备强大的多元算力承载能力。在提升链路效率方面,面对传统逐流和逐包转发方式均不能实现理想的负载均衡,DDC采用信元切片+喷洒的方式,将数据流切割为512字节等长的信元进行均匀喷洒,可消除HASH极化影响,多链路实现100%负载均衡。同时,基于VoQ技术和深度缓冲设计,能有效避让拥塞链路,充分吸收突发流量,确保传输通道的可靠性。在支持多元算力方面,DDC在信元转发域内完成切片重组,无需在端侧网卡进行乱序重排,且对GPU流量模型和特征不敏感,从而能实现多元异构硬件免调优接入。

经权威机构测试验证,基于DDC架构的智算网络方案带宽利用率可媲美InfiniBand网络。在All-to-All场景下, DDC性能较InfiniBand 方案平均提升2.5%,且传输大消息数据时表现更佳。

DDC的核心价值在于打破厂商锁定,让产业从封闭走向协作,降低生态伙伴的参与门槛。为推动开放生态建设,新华三积极参与DDC标准制定,与产业伙伴携手,从场景需求分析、方案框架设计到技术输出,推动跨厂商设备的统一通信标准落地。基于人工智能网络开放调度架构(OSF),共同制定了新一代DDC核心框架标准,并提出通过BGP协议发布隧道出口点(TEP)的方式实现互联互通,有效解决了网络负载均衡、拥塞控制与可靠性三大关键问题。

过去,以服务器的网卡为界限,计算与网络生态割裂,传统网络规划设计和维护主要关注节点间的连接。但进入智算时代,网络已不再是单纯的“联接”,唯有与计算深度融合,才能充分释放多元算力,发挥“算力×联接”的倍增效应。

正是基于这一理念,新华三依托多年在系统设计和工程实践上的深厚积累,持续推进高性能产品、端网融合、多元算力协同以及开放网络架构的创新实践,从而打造了面向下一代智算网络的领先解决方案。这不仅体现了新华三在行业中的领先地位,也成为其独特的竞争优势。

正如乔剡所言,新华三在国内ICT领域是一家少有的“计算与网络双强”企业,两大核心板块均位居行业前列。这种均衡优势,使公司能够为客户提供更完整、更高效的解决方案,助力智算中心充分发挥算力潜能,实现业务价值最大化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙立人高龄去世,棺椁35年未下葬,儿子参加九三阅兵后提出要迁葬

孙立人高龄去世,棺椁35年未下葬,儿子参加九三阅兵后提出要迁葬

小莜读史
2025-09-11 13:31:20
台湾电厂大爆炸,台媒甩锅给大陆,最后澄清供应商无一家是大陆的

台湾电厂大爆炸,台媒甩锅给大陆,最后澄清供应商无一家是大陆的

大道无形我有型
2025-09-16 17:47:04
大老师这是37?你说17我都信!

大老师这是37?你说17我都信!

贵圈真乱
2025-09-16 10:51:13
宋英杰:一路好好走!娶小12岁师妹,49岁才做父亲,如今怎样?

宋英杰:一路好好走!娶小12岁师妹,49岁才做父亲,如今怎样?

芳芳历史烩
2025-09-17 01:07:57
马德里会谈结束,中美刚下谈判桌,美国就变脸了,通牒已发往中国

马德里会谈结束,中美刚下谈判桌,美国就变脸了,通牒已发往中国

大白话瞰世界
2025-09-17 09:47:58
申花1-2被逆转,验出水货国脚:2丢球都与他有关,5.9分全场垫底

申花1-2被逆转,验出水货国脚:2丢球都与他有关,5.9分全场垫底

球场没跑道
2025-09-16 20:41:46
特朗普被裁定性侵,79岁女作家:他强迫我靠墙上,之后强奸了我

特朗普被裁定性侵,79岁女作家:他强迫我靠墙上,之后强奸了我

妙知
2025-09-15 15:09:35
新台风“米娜”或直奔广东!深圳将上演雷雨大片

新台风“米娜”或直奔广东!深圳将上演雷雨大片

深圳晚报
2025-09-16 21:41:04
杀疯!徐杰爆砍34+25+6引热议 高难度三分命中倒地“俯卧撑”庆祝

杀疯!徐杰爆砍34+25+6引热议 高难度三分命中倒地“俯卧撑”庆祝

狼叔评论
2025-09-16 23:03:08
难怪菲律宾人举白旗!中方终于认真上手段,菲律宾吃亏终于闭嘴了

难怪菲律宾人举白旗!中方终于认真上手段,菲律宾吃亏终于闭嘴了

青青子衿
2025-09-17 00:26:40
江西48.8万彩礼后续:男子转头退婚提豪车,女子破防:要告你强奸

江西48.8万彩礼后续:男子转头退婚提豪车,女子破防:要告你强奸

鋭娱之乐
2025-09-09 22:24:54
iPhone17这一刀,直接砍到了国产手机的“大动脉”

iPhone17这一刀,直接砍到了国产手机的“大动脉”

叮当当科技
2025-09-15 05:10:01
西贝之前多次被批评都没事,为啥这次要关门?因为惹了买单的家长

西贝之前多次被批评都没事,为啥这次要关门?因为惹了买单的家长

中原医生
2025-09-16 12:07:09
罗永浩IP地址显示香港,嘴里说着纯预防,身体还是很诚实的,跑路

罗永浩IP地址显示香港,嘴里说着纯预防,身体还是很诚实的,跑路

蜜桔娱乐
2025-09-16 16:23:10
太突然!广东一消防救援大队原大队长主动投案

太突然!广东一消防救援大队原大队长主动投案

知肇分子
2025-09-17 08:13:14
四人帮被粉碎后,孙玉国被降级转业,李德生:要做好他的思想工作

四人帮被粉碎后,孙玉国被降级转业,李德生:要做好他的思想工作

帝哥说史
2025-09-16 06:30:02
韩国一夜撤换7名四星上将,尹锡悦嫡系全军覆没,李在明简直疯了

韩国一夜撤换7名四星上将,尹锡悦嫡系全军覆没,李在明简直疯了

碳基生物关怀组织
2025-09-06 20:40:50
去暨南大学报到才2天,全红婵被嘲"没教养没文化",背后真相太现实

去暨南大学报到才2天,全红婵被嘲"没教养没文化",背后真相太现实

巷子里的历史
2025-09-16 14:04:36
贾国龙哭穷,我们不赚钱,净利润才5%,这是我听过最无耻的表演

贾国龙哭穷,我们不赚钱,净利润才5%,这是我听过最无耻的表演

麦小柒
2025-09-15 15:21:57
金发碧眼:中国小学迎来大批俄罗斯学生

金发碧眼:中国小学迎来大批俄罗斯学生

环球时报国际
2025-09-16 12:27:20
2025-09-17 10:51:00
网优雇佣军 incentive-icons
网优雇佣军
ICT自由媒体
1955文章数 10498关注度
往期回顾 全部

科技要闻

英伟达RTX6000D遇冷,中国大厂不买账

头条要闻

牛弹琴:特朗普索赔1000亿元人民币 当心中国被躺枪

头条要闻

牛弹琴:特朗普索赔1000亿元人民币 当心中国被躺枪

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

官媒发文证实,李乃文再破天花板

财经要闻

曝匹克大幅降薪 员工还要进行"三观培训"

汽车要闻

唐DM-i智驾版175KM长续航版上市售价17.98万起

态度原创

数码
房产
本地
游戏
公开课

数码要闻

watchOS 26 新特性:苹果上线 Apple Watch 慢速充电橙色提醒

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

本地新闻

云游忻州 | 慢时光!老街逛吃,烟火气超上头~

《星际争霸2》国服或近期回归 暴雪CDN新增分支

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版