日前,OpenAI携手AMD、博通、英特尔、微软和英伟达,联合推出名为多路径可靠连接(Multipath Reliable Connection,MRC)的新型网络协议,并通过OCP(开放计算项目)向全行业开放。旨在提升大型AI训练集群的运行速度与可靠性,通过减少GPU的闲置浪费,显著优化计算效率。
据了解,目前MRC已全面部署于OpenAI所有用于训练前沿模型的大型超级计算机中,包括位于美国得克萨斯州阿比林的甲骨文云基础设施站点以及微软的Fairwater超级计算机集群。
据OpenAI方面介绍,在训练大型AI模型时,单个步骤可能涉及数百万次数据传输,一次传输延迟可能会影响整个训练任务,甚至导致GPU闲置,而网络拥塞、链路及设备故障则是造成数据传输延迟的主要诱因,且集群规模越大,问题发生频率越高。为此,其致力于尽可能减少网络拥塞的可能性,以及尽可能降低网络故障对训练任务本身的影响。
为实现上述目标,针对传统网络架构扩展性不足的问题,MRC采用多平面网络设计,将单一800Gb/s接口拆分为多个较小链路。例如,1个接口可以连接到8个不同的交换机,从而构建8个独立的平面网络,每个网络运行速度为100Gb/s,而不是构建一个单一的800Gb/s 网络。
如此一来,一台原本能以800Gb/s速率连接64个端口的交换机,现在可以以100Gb/s速率连接512个端口。按照计算,只需两层交换机,就能构建一个完全连接约131000个GPU的网络,而传统的800Gb/s网络则需要三到四层交换机。
![]()
对此OpenAI方面指出,这一设计显著降低了网络功耗与组件数量,在降低成本的同时提升了路径多样性。
同时在流量调度方面,MRC引入自适应数据包喷淋技术。据了解,与传统单路径传输不同,该技术将单一传输任务的数据包分散至数百条路径并行传输,有效避免了核心网络拥塞,即使数据包乱序到达,接收端也能依据内存地址信息正确重组。
此外为简化网络控制,MRC摒弃了复杂的动态路由协议(如BGP),转而采用SRv6源路由。发送端直接指定数据包路径,交换机仅需依据静态配置表转发。这种机制消除了动态路由的故障行为,使网络故障恢复时间从秒级缩短至微秒级。
对此OpenAI方面表示,“MRC显著提升了我们训练前沿模型的能力,并确保我们的网络能够跟上研究人员雄心勃勃的AI路线图。它相比以往的方法有了显著改进,并有助于我们加速实现让所有人都能可靠地享受到通用人工智能(AGI)带来的益处的目标。我们为促成这一成果的跨行业合作感到自豪。 随着训练集群规模的不断扩大,网络设计越来越决定着可用计算资源的实际利用率。MRC帮助我们在网络拥塞、链路故障和维护事件等以往会中断训练的情况下,保持GPU的协同运行。在实际规模下,这种可靠性和效率并非锦上添花,而是同步前沿模型训练得以实现的关键所在”。
【本文图片来自网络】
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.