微软已经开始将其在美国各地的人工智能数据中心连接起来,创建了一种称为新型连接系统——“人工智能超级工厂”。该网络中的前两个站点位于佐治亚州亚特兰大和威斯康星州,亚特兰大自今年10月以来一直在运营,威斯康星州上周公开推出。这些设施由高速专用光纤骨干网连接,旨在在大规模的人工智能工作负载上协同工作,近乎实时跨站点拆分和同步作业。
![]()
这种连接的架构,微软称之为Fairwater(静水),代表了从孤立的云区域到统一的、特定于任务的基础设施模型的转变。该公司表示,这些网站经过优化,可以使用数十万个GPU运行计算繁重的人工智能作业,而不是处理数百万个较小的工作负载。
随着微软扩大其人工智能基础设施的足迹,预计未来几个月将有更多的Fairwater地点上线。微软高管表示,这种做法标志着大规模人工智能系统的构建和运营方式发生了根本性转变。
微软专注于Azure基础设施的总经理Alistair Speirs表示:“这是关于构建一个分布式网络,它可以作为一台虚拟超级计算机,以一种在单一设施中无法实现的方式应对世界上最大的挑战。”
他补充道:“传统的数据中心旨在为多个客户运行数百万个独立的应用程序。”“我们称之为人工智能超级工厂的原因是,它在数百万个硬件上运行同一项复杂的工作。这不仅仅是一个训练人工智能模型的单一站点,而是一个支持这项工作的站点网络。”
![]()
大多数云数据中心都是作为单层仓库构建的,以支持广泛的应用程序。Fairwater采用了一种不同的方法,使用两层设计在更小的空间内堆叠更多的GPU机架。这种垂直布局缩短了组件之间的距离,有助于减少延迟并加快系统之间的通信。
在机架内,微软正在使用英伟达的GB200 NVL72系统——为大规模人工智能作业设计的72个GPU的预配置集群。该公司表示,这种设置允许Fairwater架构在各个站点扩展到数十万个GPU。据微软称,芯片和机架设计提供了目前所提供的任何云平台中最高的每机架吞吐量。
保持硬件温度是另一个关键区别。Fairwater设施依靠先进的闭环液体冷却系统,而不是传统的冷却塔或恒定的取水口。该公司表示,这种设置几乎不使用额外的水,并支持紧凑型人工智能加速器的散热需求。站点内的智能网络有助于GPU高效地相互通信,同时每个位置也硬连线到微软的专用光纤网络中,作为更大分布式系统的一部分连接到其他Fairwater站点。
微软Cloud+AI执行副总裁Scott Guthrie表示:“在人工智能领域处于领先地位不仅仅是增加更多的GPU,而是建立使它们作为一个系统协同工作的基础设施。”
他说:“我们花了数年时间推进可靠训练最大模型所需的架构、软件和网络,这样我们的客户就可以充满信心地进行创新。Fairwater反映了端到端的工程,旨在通过实际性能而不仅仅是理论能力来满足日益增长的需求。”
![]()
将所有这些连接在一起的是一个专门为人工智能构建的专用网络。微软已经铺设了超过19.3万多公里的光纤来连接其Fairwater站点——不是用于一般的云流量,而是用于依赖速度和紧密协调的高强度训练工作。该公司建立了一个自定义协议,可以在站点之间以最小的延迟移动数据,因此即使相隔数百公里的设施也可以像一台机器一样运行。
随着越来越多的网站上线,该网络旨在与他们一起发展。每个设施都遵循相同的布局,插入相同的互连,并有助于将能源负荷分散到不同的地区。这个想法是在不达到网格限制的情况下进行扩展,也不必每次都重新发明架构。
“为了提高人工智能的能力,你需要有越来越大的基础设施来训练它。”微软Azure首席技术官、首席信息安全官副兼技术研究员Mark Russinovich说。“现在训练这些模型所需的基础设施数量不仅仅是一个数据中心,也不是两个,而是更多个。”
![]()
微软正在下大赌注——不是在更大更多的芯片上,而是在更智能的基础设施上。该公司认为,人工智能的未来不会依赖于孤立的超级计算机,而是依赖于紧密相连的站点作为一个整体协同工作。Fairwater首次尝试大规模证明这一想法。每个数据中心都连接到下一个数据中心,在全国范围内形成一种人工智能网格。
其他公司也在快速发展,但到目前为止,还没有人公开以这种方式将他们的设施联系在一起。无论这是成为一种持久的优势,还是只是一条前进的道路,有一件事是清楚的:人工智能军备竞赛正在向数据中心更深入地发展——在这场竞赛中,架构和计算能力一样重要。
与 Ai 时代前沿合作,将大门向更多普通用户敞开!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。欢迎扫码加入我们!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.