如今 AI 大模型训练、推理对算力需求呈指数级增长,从万卡向十万卡、数十万卡智算集群迈进。但传统网络在扩展时,面临成本高、可靠性差、算力消耗大等问题。阿里云推出的 UPN512 技术架构,就是为解决这些难题而生,旨在构建 “大规模、高性能、高可靠、低成本、可扩展” 的 xPU 算力扩展系统。
一、AI 基础设施网络的新需求
模型结构变化倒逼网络升级:大模型从 Dense(稠密)转向 MoE(混合专家)结构,MoE 把模型拆成多个 “专家” 并行处理数据,需要网络有超大带宽、超低时延,且支持更大范围的专家并行通信。
训推一体增加网络复杂度:智算集群不再只做模型预训练,还兼顾在线推理,在线、离线流量混在一起,不同并行模式、计算密度负载要分离,对网络架构设计要求更高。
xPU 扩展需要更强网络支撑:为提升算力,xPU(如 GPU、NPU)规模不断扩大,像 NVIDIA 从 8 卡风冷系统升级到 72 卡液冷系统,华为推出 384 张 NPU 超节点,这都需要大带宽、低时延的网络实现互联。
二、传统 xPU 扩展网络的困境
铜缆互连的局限:目前主流用铜缆互连,成本低、稳定性好,但传输距离短,只能在单个机柜内实现高密设计。这种设计使系统复杂,可靠性下降,且无法支持百卡以上规模扩展。
光互连的两大难题:光互连能突破距离限制,适合大规模扩展,但面临成本和可靠性问题。成本上,传统光互连方案比铜缆高不少;可靠性上,规模变大后,链路故障、节点故障概率增加,且光互连链路故障概率是铜缆的 6 倍。
大带宽下的算力消耗:xPU 带宽不断提升,比如 NVIDIA 最新 GPU 双向带宽达 1.8TB/s,大带宽数据交换会占用大量计算资源,像 DeepEP 实现中,网络传输就占 15% 的 GPU 算力。
三、UPN512 架构的核心设计
两种系统架构,适配不同需求
AI Rack 铜互连紧耦合系统:用铜缆在机柜内连接 xPU 和交换机,是当前百卡规模超节点的主流方案,成本低、时延低,但设计复杂,高密铜缆制造难、运维麻烦,且无法扩展到千卡规模。
UPN512 单层光互连解耦系统:用光互连代替铜缆,突破距离限制,xPU 和交换机可回归普通盒式设备,用标准机柜部署,支持 512 个 xPU 全互连,未来还能扩展到 1024 个以上。
三大关键特性,解决传统痛点
全光互连:光模块能覆盖几十到几百米,甚至更远,相比铜缆(最长仅 7 米),可跨多个机柜连接 xPU。且优选 LPO(线性可插拔光模块)和 NPO(近封装光模块),去掉传统光模块的 DSP 芯片,成本降 30%-40%,时延、功耗也更低。
单层千卡域:用单层 CLOS 网络拓扑,减少中间环节,降低时延。同时依托当前最大 Radix(512)的以太网交换芯片,轻松实现 512 个 xPU 互连,下一代芯片还能支持 1024 个以上。
解耦设计:传统 AI Rack 为压缩铜缆距离,设备和机柜高度耦合,故障后需整体更换部件,运维难。UPN512 让设备与机柜解耦,故障可精细到模块、端口更换,MTTR(平均修复时间)大幅缩短,且支持分期建设、灵活升级。
四、UPN512 的关键技术细节
光互连方案选择:LPO 是可插拔模块,适合带宽需求不高、芯片性能强的场景,支持热插拔,故障影响小;NPO 体积小、带宽密度高,适合未来高带宽需求,对芯片性能要求低,还能简化外部布线。
三种传输语义,适配不同数据传输场景
Load/Store(内存语义):像处理器直接访问内存,传输小块数据(32-256 字节),时延低,适合状态同步、控制变量读写。
Send/Recv(消息语义):用专用引擎异步传输大块数据(MB 到 GB 级),不占用计算核心,适合 AI 训练中的梯度合并、参数写回。
Push/Pull(张量语义):专门优化 1-100KB 的张量数据传输,支持异步 IO、批量 / 流式传输,还能动态压缩数据,提升大模型通信效率。
在网计算降本增效:在交换机上增加计算能力,比如对 AllReduce(全归约)、Dispatch(分发)等集合通信做数据聚合,减少数据传输量和 IO 次数,降低 xPU 算力消耗,加速通信完成时间。
五、UPN512 的价值
相比传统方案,UPN512 在规模上支持 512-1024 个 xPU 互连;成本上,光互连成本降 30% 以上,超 128 个 xPU 场景下,成本比铜 + 光两层方案更低;可靠性上,光互连可靠性提升约 3 倍,故障影响面更小;还能减少算力消耗,让 xPU 更专注于模型计算,为大规模 AI 训练和推理提供有力支撑。
报告节选
完整报告获取:三个皮匠报告
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.