“只要网络调得好,网络的投入就相当于白送。”
过去几年,新华三在智算基础设施建设中总结出一组数据:尽管智算网络在智算中心整体投资里面仅占约10%,但作用却远超预期。数据显示,同样搭载先进算力,与未经调优的智算网络相比,调优后的网络能让智算中心的训练性能提升30%,模型训练用时缩短25%,并有效避免因网络故障导致的巨额停机损失。
显而易见,智算网络已成为决定算力效率和收益的重要因素。尤其是在大模型规模持续攀升、多元算力基础设施快速扩张的当下,其重要性正被不断放大。
那么,面对智算业务飞速发展,新华三如何通过网络调优,让这10%持续释放出超额价值,真正做到“白送”? 在近日举办的第九届未来网络发展大会上,新华三给出了三大最优解。
以先进工程实践抢跑102.4T交换机
AI分布式训练需要在多个AI芯片之间频繁传递海量数据,一旦网络带宽不足或时延过高,整体训练效率就会大打折扣。这就像一座超级工厂,若传送带的速度和数量跟不上,再先进的生产设备也会因“待机”而无法满负荷、高效率运转。
随着大模型参数规模持续攀升,智算集群正从千卡、万卡迈向十万卡级别,网络规模也随之成倍扩张。这不仅要求交换机具备更高的端口密度和带宽,还必须在收敛时延和可靠性上实现同步演进。
正是在这一背景下,新华三在大会上重磅发布了基于最新102.4T芯片研发的高性能800G AI交换机H3C S9828-128EP。该产品搭载业界领先的102.4T超高性能交换芯片,单机容量达102.4T,提供多达128个800G OSFP全速端口。凭借高密度端口设计,单个POD可支持10K+ 800G端口,相比上一代产品,设备用量可减少70%,光模块用量降低50%,可显著简化集群建设。同时,全端口支持LPO/LRO光模块,兼顾低能耗与低时延;散热架构采用风冷/液冷兼容设计,可灵活适配液冷整机柜和液冷机房场景。
将一颗芯片落地为成熟商用产品,是一个复杂的系统工程,并非易事。当前业界主流仍停留在51.2T交换机,102.4T芯片才刚刚面世,新华三为何能在如此短的时间内率先将其产品化?答案藏在其系统设计与工程创新中。
H3C S9828-128EP引入了多项工业级创新,比如率先使用M9级PCB板材,支持极端温度环境下稳定运行;采用PCB 叠层结构与深微孔技术精密加工,大幅降低了信号串扰。在软件层面,产品搭载新华三自研网络操作系统 Comware,率先实现 UEC(超以太网联盟)标准的全栈落地,不仅通过MAC层本地重传优化、基于CBFC的网络信用协商、端网协同的拥塞控制等技术,大幅提升了传输效率,而且能够与多元算力实现基于UEC标准的平滑对接。
这些设计创新,正是新华三将尖端芯片快速转化为高质量产品的关键,也彰显了其在系统设计、工程实践、质量流程和先进制造上的深厚积累。正如新华三集团高级副总裁、网络产品线总裁乔剡在采访中所言:“我们擅长做产品和工程,既有丰富的设计与实践经验,也赢得了领先芯片合作伙伴的信任,从而使他们愿意把最前沿的芯片交给我们,加速实现产品化与价值落地。”
新华三集团高级副总裁、网络产品线总裁 乔剡
端网融合高效协同多元算力
过去,大模型训练主要依赖单一厂商的GPU,算力架构相对统一。如今,随着开源框架与模型的普及以及国产算力的崛起,训练平台逐渐演变为多元算力并存的格局,涵盖来自不同厂商的多种类型芯片,以及各种形态的交换机、网卡、光模块等设备。
这种多元算力并存的新常态,也给智算网络提出了更高要求:它必须具备更强的流量感知、拥塞控制与跨厂商兼容能力,从而免去客户反复联调的负担,让部署更加省心,训练更加高效。
同时,在大模型训练场景中,AI 流量具有流数量少(低熵)、单流带宽高(大象流)、同步突发等典型特征,若仍采用传统的负载均衡与拥塞控制机制,极易导致链路负载不均与网络拥塞,进而引发时延增加、丢包和重传等问题。这样的网络表现,难以满足日趋复杂的AI训练对网络带宽、时延、丢包和抖动的苛刻要求。因此,RoCE网络亟需进一步优化,以提升链路效率,实现更动态、更精细的负载均衡和拥塞控制,从而保障大模型训练的高效运行。
面对这些问题,新华三的答案是——创新端网协同方案,推动多元算力融合提速。
“过去,网络拥塞控制主要依赖端侧(GPU或网卡),它们只按自身视角选路发送,没有全局视野,无法知道网络内哪条路径更优。即便某条链路出现故障,端侧依然会沿着原有路径继续发送。现在则不同,我们通过与网卡对接,实时获取GPU间的通信关系,并以此为依据进行全局精准调优,从而大幅提升了网络效率。”新华三集团交换机产品管理部总监陈伯超如此形象地解释端网协同。
具体而言,新华三的端网协同方案通过AD-DC智算版和增强CBRC算法实现端网融合,有效减少通信拥塞,提升算力效率。该方案可动态检测全网链路,计算出最优路径并下发到网络设备上。同时,在端侧,增强CBRC算法可实现网络级拥塞感知的Credit分配,能动态响应链路状态变化,快速实现指定链路上的升降速及链路切换。
目前,端网协同方案已在50余款新华三交换机及多家主流 GPU、网卡厂商的联合验证中成功运行 Llama3 模型。实测结果显示,相比传统ECMP方案,All-to-All通信性能提升超16%,防拥塞效果提升20%。
DDC实现算力与网络彻底解耦
除了在软硬件方面不断创新突破推动多元算力融合提速,新华三还持续探索如何从网络架构创新设计方面推动算网彻底解耦,推出了基于DDC(Diversified Dynamic-Connectivity,多元动态联接)架构的新一代无损网络解决方案,以进一步提升智算网络的灵活性、扩展性、高效性。
该架构通过端到端全局调度实现算力与网络的彻底解耦,不仅突破了传统封闭系统的局限,能释放网络极致性能,而且具备强大的多元算力承载能力。在提升链路效率方面,面对传统逐流和逐包转发方式均不能实现理想的负载均衡,DDC采用信元切片+喷洒的方式,将数据流切割为512字节等长的信元进行均匀喷洒,可消除HASH极化影响,多链路实现100%负载均衡。同时,基于VoQ技术和深度缓冲设计,能有效避让拥塞链路,充分吸收突发流量,确保传输通道的可靠性。在支持多元算力方面,DDC在信元转发域内完成切片重组,无需在端侧网卡进行乱序重排,且对GPU流量模型和特征不敏感,从而能实现多元异构硬件免调优接入。
经权威机构测试验证,基于DDC架构的智算网络方案带宽利用率可媲美InfiniBand网络。在All-to-All场景下, DDC性能较InfiniBand 方案平均提升2.5%,且传输大消息数据时表现更佳。
DDC的核心价值在于打破厂商锁定,让产业从封闭走向协作,降低生态伙伴的参与门槛。为推动开放生态建设,新华三积极参与DDC标准制定,与产业伙伴携手,从场景需求分析、方案框架设计到技术输出,推动跨厂商设备的统一通信标准落地。基于人工智能网络开放调度架构(OSF),共同制定了新一代DDC核心框架标准,并提出通过BGP协议发布隧道出口点(TEP)的方式实现互联互通,有效解决了网络负载均衡、拥塞控制与可靠性三大关键问题。
过去,以服务器的网卡为界限,计算与网络生态割裂,传统网络规划设计和维护主要关注节点间的连接。但进入智算时代,网络已不再是单纯的“联接”,唯有与计算深度融合,才能充分释放多元算力,发挥“算力×联接”的倍增效应。
正是基于这一理念,新华三依托多年在系统设计和工程实践上的深厚积累,持续推进高性能产品、端网融合、多元算力协同以及开放网络架构的创新实践,从而打造了面向下一代智算网络的领先解决方案。这不仅体现了新华三在行业中的领先地位,也成为其独特的竞争优势。
正如乔剡所言,新华三在国内ICT领域是一家少有的“计算与网络双强”企业,两大核心板块均位居行业前列。这种均衡优势,使公司能够为客户提供更完整、更高效的解决方案,助力智算中心充分发挥算力潜能,实现业务价值最大化。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.