
2026 年 2 月 3 日,AI 大模型训练到多模态推理,算力规模持续放大。网络已成为决定 AI 系统上限的关键因素:不仅需要更高带宽,还需更少层级以实现低成本、低时延互联。
基于对超大规模 AI 集群的长期 实践与思考, 火山引擎正式上线 102.4 T 自研交换机 , 并以此支撑新一代 HPN 6.0 架构,可支持十万卡级 GPU 集群的高效互联。
火山引擎 102.4 T 自研交换机:
![]()
Lambda OS 是火山引擎自主研发的网络操作系统,它以开源 SONiC 系统为基础,结合业务场景和大规模网络运维经验,进行了深度产品化定制与创新。
内部构成:
![]()
AI 大模型的流量特征呈现为大流(Elephant Flow)和少流(Paucity of Flows),网络负载不均会导致部分链路空闲而部分链路拥塞丢包,使带宽利用率从设计的 90% 降至 50% 以下。传统 Hash 算法的不均可能导致部分链路延迟飙升,拖慢整个集群的参数同步。例如,某链路拥塞导致同步延迟增加 10 ms,迭代 1000 次后总延迟将增加 10s,严重影响模型训练效率及推理用户体感。
为此,火山引擎与芯片厂商深度合作,联合开发了业界首个可扩展的全局网络负载均衡技术 —— SGLB(可扩展且稳健的全局负载均衡)。
SGLB 基于全局拓扑,能够微秒级感知链路拥塞状态,并计算端到端最优路径。实测性能表明,相较于传统 Hash 选路,GPU 网络带宽可提升 40%。
论文:
![]()
基于 102.4T 自研交换机在软硬件一体化方面的能力积累,火山引擎推出了面向训推一体场景的融合网络架构 —— HPN 6.0。围绕“规模、融合、确定性”三个核心目标,HPN 6.0 重新定义了超大规模算力集群的网络底座。
云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()

![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.