微软正式推出其首座“AI超级工厂”,通过将跨越不同州的数据中心连接为统一系统,构建起一个具备行星际规模算力的分布式AI超级工厂。
这一架构将分散的算力资源整合为虚拟超级计算机,以前所未有的规模加速AI模型训练,将原本需数月的复杂任务缩短至数周,标志着AI基础设施从独立站点建设正式迈向“行星级”网络化协同的新阶段。
据微软披露,位于亚特兰大的新一代AI数据中心已于10月投入运营,这是“Fairwater”系列中的第二个设施,并通过专用网络与威斯康星州的首个Fairwater站点相连。该系统整合了数十万个最新NVIDIA Blackwell GPU,构建起全球首个真正意义上的跨州AI计算集群。
这一进展正值科技巨头间AI算力竞争白热化。据《华尔街日报》报道,微软计划在未来两年内将其数据中心总面积扩大一倍。该“AI超级工厂”将支持OpenAI、微软Copilot、法国Mistral AI及埃隆・马斯克的xAI等关键客户,进一步巩固其在AI基础设施领域的领先地位。
背后是巨额资本投入。微软上一财季资本支出超过340亿美元,并预计将持续加大投入。行业预计,全球科技公司今年AI相关投资总额将达4000亿美元。微软的分布式网络策略不仅是技术革新,更是其应对算力需求爆发、保持市场竞争力的核心举措。
“AI超级工厂”:从独立站点到分布式网络
微软的“AI超级工厂”概念,核心在于将多个地理上分散的数据中心融合成一个虚拟的单一超级计算机,这与传统数据中心的设计理念截然不同。
微软Azure基础设施总经理Alistair Speirs解释称:“传统数据中心旨在为多个客户运行数百万个独立的应用程序,而我们将此称为‘AI超级工厂’,是因为它在数百万个硬件上运行一个复杂的作业。”这种模式下,不再是单个站点训练一个AI模型,而是由一个站点网络共同支持同一项训练任务。
![]()
位于亚特兰大费尔沃特园区的所有GPU之间通过高速、高吞吐量的网络共享信息。图片由微软提供。
这个分布式网络将连接多个站点,整合数十万个最先进的GPU、EB级的存储空间和数百万个CPU核心。其设计目标是支持参数规模达到数万亿级别的未来AI模型训练。随着AI训练流程日益复杂,涵盖预训练、微调、强化学习和评估等多个阶段,这种跨站点的协同能力变得至关重要。
专为AI打造:新一代数据中心的设计与技术
为了实现“超级工厂”的愿景,微软从零开始设计了“Fairwater”系列数据中心。位于亚特兰大的设施占地85英亩,建筑面积超过100万平方英尺,其设计完全为AI工作负载优化。
![]()
Fairwater AI 数据中心的设计共有两层。图片由微软提供。
其关键技术特征包括:
高密度架构:采用创新的双层建筑设计,以便在更小的物理空间内容纳更多GPU,从而缩短内部通信延迟。
尖端芯片系统:部署了英伟达的GB200 NVL72机架规模系统,可扩展至数十万个英伟达Blackwell架构GPU。
高效液冷系统:为应对GPU集群产生的高热量,微软设计了复杂的闭环液体冷却系统。该系统几乎不消耗水资源,其初次注水量仅相当于20个美国家庭一年的用水量。
内部高速互联:在数据中心内部,通过高速网络将所有GPU紧密连接,确保信息在芯片之间快速流通。
“在人工智能领域取得领先,不仅仅是增加更多的GPU,而是要构建能让它们作为一个系统协同工作的基础设施。”微软云与人工智能部门执行副总裁Scott Guthrie表示。他强调,Fairwater的设计凝聚了微软多年的端到端工程经验,旨在以真实世界的性能满足日益增长的需求。
![]()
Fairwater数据中心GPU的物理密度使微软能够在更小的空间内集成更强大的计算能力,从而降低延迟。图片由微软提供。
跨州互联:AI广域网与算力分配策略
将相隔遥远的多个数据中心连接成一个整体,依赖于微软专门打造的AI广域网(AI WAN)。微软为此部署了12万英里的专用光纤电缆,构建了一条专供AI流量的“高速公路”,使数据能够以接近光速的速度无拥堵传输。
微软Azure首席技术官Mark Russinovich指出,随着模型规模的增长,训练所需的算力早已超出单个数据中心所能承载的极限。如果网络中任何一部分出现瓶颈,整个训练任务就会停滞。Fairwater网络的目标就是让所有GPU始终保持忙碌状态
之所以选择跨州建设,而非将所有算力集中一处,主要是出于土地和电力供应的考量。Alistair Speirs在接受《华尔街日报》采访时表示,将电力需求分散到不同地区,可以避免对任何单一电网或社区造成过度负担。他坦言:“你必须做到能够跨多个区域进行训练,因为还没有人达到我们现在的规模,所以也没有人真正遇到过这个问题。”
需求激增下的“军备竞赛”
微软的“AI超级工厂”是其应对AI算力需求激增并与对手竞争的核心资产。尽管微软此前曾调整过部分数据中心租赁计划,但Alistair Speirs澄清这只是“产能规划的转变”,公司目前面临的需求远超其供应能力。
在这场算力竞赛中,微软并非孤身一人。其主要竞争对手亚马逊最近在印第安纳州启动了占地1200英亩的Project Rainier数据中心集群,预计将消耗2.2吉瓦的电力。此外,Meta Platforms、甲骨文等公司也公布了庞大的建设计划,而AI初创公司Anthropic则宣布计划在美国投资500亿美元用于计算基础设施。
通过将数据中心连接成一个统一的分布式系统,微软不仅在技术上开辟了新路径,也在商业上为满足顶级AI公司的庞大需求做好了准备。正如Scott Guthrie所说:“我们让AI站点作为一个整体运行,能够帮助我们的客户将突破性的模型变为现实。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.