10%撬动30%：新华三给出智算网络最优解|端口|网卡|时延|通信|交换机|新华三集团|高吞吐量内核

10%撬动30%：新华三给出智算网络最优解

2025-09-16 15:30:40　来源: 网优雇佣军

重庆举报

分享至

“只要网络调得好，网络的投入就相当于白送。”

过去几年，新华三在智算基础设施建设中总结出一组数据：尽管智算网络在智算中心整体投资里面仅占约10%，但作用却远超预期。数据显示，同样搭载先进算力，与未经调优的智算网络相比，调优后的网络能让智算中心的训练性能提升30%，模型训练用时缩短25%，并有效避免因网络故障导致的巨额停机损失。

显而易见，智算网络已成为决定算力效率和收益的重要因素。尤其是在大模型规模持续攀升、多元算力基础设施快速扩张的当下，其重要性正被不断放大。

那么，面对智算业务飞速发展，新华三如何通过网络调优，让这10%持续释放出超额价值，真正做到“白送”？在近日举办的第九届未来网络发展大会上，新华三给出了三大最优解。

以先进工程实践抢跑102.4T交换机

AI分布式训练需要在多个AI芯片之间频繁传递海量数据，一旦网络带宽不足或时延过高，整体训练效率就会大打折扣。这就像一座超级工厂，若传送带的速度和数量跟不上，再先进的生产设备也会因“待机”而无法满负荷、高效率运转。

随着大模型参数规模持续攀升，智算集群正从千卡、万卡迈向十万卡级别，网络规模也随之成倍扩张。这不仅要求交换机具备更高的端口密度和带宽，还必须在收敛时延和可靠性上实现同步演进。

正是在这一背景下，新华三在大会上重磅发布了基于最新102.4T芯片研发的高性能800G AI交换机H3C S9828-128EP。该产品搭载业界领先的102.4T超高性能交换芯片，单机容量达102.4T，提供多达128个800G OSFP全速端口。凭借高密度端口设计，单个POD可支持10K+ 800G端口，相比上一代产品，设备用量可减少70%，光模块用量降低50%，可显著简化集群建设。同时，全端口支持LPO/LRO光模块，兼顾低能耗与低时延；散热架构采用风冷/液冷兼容设计，可灵活适配液冷整机柜和液冷机房场景。

将一颗芯片落地为成熟商用产品，是一个复杂的系统工程，并非易事。当前业界主流仍停留在51.2T交换机，102.4T芯片才刚刚面世，新华三为何能在如此短的时间内率先将其产品化？答案藏在其系统设计与工程创新中。

H3C S9828-128EP引入了多项工业级创新，比如率先使用M9级PCB板材，支持极端温度环境下稳定运行；采用PCB 叠层结构与深微孔技术精密加工，大幅降低了信号串扰。在软件层面，产品搭载新华三自研网络操作系统 Comware，率先实现 UEC（超以太网联盟）标准的全栈落地，不仅通过MAC层本地重传优化、基于CBFC的网络信用协商、端网协同的拥塞控制等技术，大幅提升了传输效率，而且能够与多元算力实现基于UEC标准的平滑对接。

这些设计创新，正是新华三将尖端芯片快速转化为高质量产品的关键，也彰显了其在系统设计、工程实践、质量流程和先进制造上的深厚积累。正如新华三集团高级副总裁、网络产品线总裁乔剡在采访中所言：“我们擅长做产品和工程，既有丰富的设计与实践经验，也赢得了领先芯片合作伙伴的信任，从而使他们愿意把最前沿的芯片交给我们，加速实现产品化与价值落地。”

新华三集团高级副总裁、网络产品线总裁乔剡

端网融合高效协同多元算力

过去，大模型训练主要依赖单一厂商的GPU，算力架构相对统一。如今，随着开源框架与模型的普及以及国产算力的崛起，训练平台逐渐演变为多元算力并存的格局，涵盖来自不同厂商的多种类型芯片，以及各种形态的交换机、网卡、光模块等设备。

这种多元算力并存的新常态，也给智算网络提出了更高要求：它必须具备更强的流量感知、拥塞控制与跨厂商兼容能力，从而免去客户反复联调的负担，让部署更加省心，训练更加高效。

同时，在大模型训练场景中，AI 流量具有流数量少（低熵）、单流带宽高（大象流）、同步突发等典型特征，若仍采用传统的负载均衡与拥塞控制机制，极易导致链路负载不均与网络拥塞，进而引发时延增加、丢包和重传等问题。这样的网络表现，难以满足日趋复杂的AI训练对网络带宽、时延、丢包和抖动的苛刻要求。因此，RoCE网络亟需进一步优化，以提升链路效率，实现更动态、更精细的负载均衡和拥塞控制，从而保障大模型训练的高效运行。

面对这些问题，新华三的答案是——创新端网协同方案，推动多元算力融合提速。

“过去，网络拥塞控制主要依赖端侧（GPU或网卡），它们只按自身视角选路发送，没有全局视野，无法知道网络内哪条路径更优。即便某条链路出现故障，端侧依然会沿着原有路径继续发送。现在则不同，我们通过与网卡对接，实时获取GPU间的通信关系，并以此为依据进行全局精准调优，从而大幅提升了网络效率。”新华三集团交换机产品管理部总监陈伯超如此形象地解释端网协同。

具体而言，新华三的端网协同方案通过AD-DC智算版和增强CBRC算法实现端网融合，有效减少通信拥塞，提升算力效率。该方案可动态检测全网链路，计算出最优路径并下发到网络设备上。同时，在端侧，增强CBRC算法可实现网络级拥塞感知的Credit分配，能动态响应链路状态变化，快速实现指定链路上的升降速及链路切换。

目前，端网协同方案已在50余款新华三交换机及多家主流 GPU、网卡厂商的联合验证中成功运行 Llama3 模型。实测结果显示，相比传统ECMP方案，All-to-All通信性能提升超16%，防拥塞效果提升20%。

DDC实现算力与网络彻底解耦

除了在软硬件方面不断创新突破推动多元算力融合提速，新华三还持续探索如何从网络架构创新设计方面推动算网彻底解耦，推出了基于DDC（Diversified Dynamic-Connectivity，多元动态联接）架构的新一代无损网络解决方案，以进一步提升智算网络的灵活性、扩展性、高效性。

该架构通过端到端全局调度实现算力与网络的彻底解耦，不仅突破了传统封闭系统的局限，能释放网络极致性能，而且具备强大的多元算力承载能力。在提升链路效率方面，面对传统逐流和逐包转发方式均不能实现理想的负载均衡，DDC采用信元切片+喷洒的方式，将数据流切割为512字节等长的信元进行均匀喷洒，可消除HASH极化影响，多链路实现100%负载均衡。同时，基于VoQ技术和深度缓冲设计，能有效避让拥塞链路，充分吸收突发流量，确保传输通道的可靠性。在支持多元算力方面，DDC在信元转发域内完成切片重组，无需在端侧网卡进行乱序重排，且对GPU流量模型和特征不敏感，从而能实现多元异构硬件免调优接入。

经权威机构测试验证，基于DDC架构的智算网络方案带宽利用率可媲美InfiniBand网络。在All-to-All场景下， DDC性能较InfiniBand 方案平均提升2.5%，且传输大消息数据时表现更佳。

DDC的核心价值在于打破厂商锁定，让产业从封闭走向协作，降低生态伙伴的参与门槛。为推动开放生态建设，新华三积极参与DDC标准制定，与产业伙伴携手，从场景需求分析、方案框架设计到技术输出，推动跨厂商设备的统一通信标准落地。基于人工智能网络开放调度架构（OSF），共同制定了新一代DDC核心框架标准，并提出通过BGP协议发布隧道出口点（TEP）的方式实现互联互通，有效解决了网络负载均衡、拥塞控制与可靠性三大关键问题。

过去，以服务器的网卡为界限，计算与网络生态割裂，传统网络规划设计和维护主要关注节点间的连接。但进入智算时代，网络已不再是单纯的“联接”，唯有与计算深度融合，才能充分释放多元算力，发挥“算力×联接”的倍增效应。

正是基于这一理念，新华三依托多年在系统设计和工程实践上的深厚积累，持续推进高性能产品、端网融合、多元算力协同以及开放网络架构的创新实践，从而打造了面向下一代智算网络的领先解决方案。这不仅体现了新华三在行业中的领先地位，也成为其独特的竞争优势。

正如乔剡所言，新华三在国内ICT领域是一家少有的“计算与网络双强”企业，两大核心板块均位居行业前列。这种均衡优势，使公司能够为客户提供更完整、更高效的解决方案，助力智算中心充分发挥算力潜能，实现业务价值最大化。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.