跨越“万卡”门槛：AI算力建设难点不在供电和液冷，而是……|通信|机房|服务器|交换机|ai算力|蓝屏事件

跨越“万卡”门槛：AI算力建设难点不在供电和液冷，而是……

2025-11-11 14:39:44　来源: 中国IDC圈

北京举报

分享至

第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力破界而生”为主题，将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会，与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。

立即报名！

当大模型参数从百亿跃升至万亿，算力底座的“军备竞赛”也随之进入“万卡集群”时代。从OpenAI的GPT-4，到国内“百模大战”的跟进，“万卡”已成为AI巨头入场券的代名词。然而，当我们谈论“万卡”时，如果视线仍局限于机柜功率的提升和液冷技术的引入，那可能尚未触及其变革的真正核心。

这场由AI驱动的算力变革，正从根本上重塑数据中心产业。它带来的挑战远非“更高、更快、更强”的线性迭代，而是一场关乎设计逻辑、系统架构和交付模式的“质变”。“万卡”集群，正在倒逼数据中心从“房地产”模式向“超级计算机”模式进化。

01. 建设逻辑颠覆：从“机房迁就IT”到“IT定义机房”

长久以来，传统数据中心的建设逻辑遵循一种“房东与租户”的模式。即“基建先行”，先建设一个标准化的“白色空间”（White Space），包含标准化的供配电、制冷和网络布线，然后再由不同的IT设备“拎包入住”。这种模式的优势在于通用性和灵活性，可以适配不同客户的通用计算需求。

然而，万卡AI集群的出现，彻底打破了这一延续数十年的平衡。AI集群，特别是万卡规模的GPU集群，是一个极端“挑剔”的租户。它不是由成千上万个独立的服务器组成，而是一个被设计为“单一系统”（Single System Image）的“超级计算机”。它的需求不再是标准化的机架和冷风，而是对系统架构、网络拓扑和功耗有着极端定制化、高耦合度的要求。

这就带来了一个根本性的转变：建设逻辑从“机房迁就IT”逆转为“IT定义机房”。

在万卡集群的规划中，一切都必须从IT系统本身出发。设计不再始于建筑图纸，而是始于AI集群的架构图。例如，以NVIDIA的DGX SuperPOD架构为蓝本的集群，其设计之初就已经锁定了GPU服务器的型号、InfiniBand网络交换机的布局、光纤的连接方式，乃至每个机柜高达60kW甚至100kW以上的峰值功耗。

这意味着，数据中心的土建、暖通和电气设计，从一开始就必须完全服务于这个既定的IT架构。传统M&E（机电）工程师“按经验”预留冗余和通路的做法已经失效。他们必须与IT架构师、网络工程师坐在一起，精确计算液冷管路的走向、配电单元（PDU）的精确点位，以及如何处理高密度光纤带来的物理管理噩梦。这不再是“建筑设计”，而是“系统工程”。

02. 系统瓶颈转移：“网络墙”的挑战超越“算力墙”

如果说“算力”是万卡集群的肌肉，“网络”就是它的神经系统。而在万卡规模下，这个神经系统的复杂度和脆弱性被指数级放大。传统观念中“算力不够堆算力”的思路，在AI集群中迅速撞上了“网络墙”。

在通用云计算中，网络的主要矛盾是“带宽”，而在大模型训练中，核心矛盾是“通信效率”，即**“低延迟”和“无损”**。大模型的分布式训练需要数千颗GPU进行高频的“集体通信”（Collective Communications），如All-Reduce操作。在这个过程中，任何一颗GPU的“掉队”或数据包的丢失，都会导致整个集群的“木桶短板”，造成昂贵算力的空转和等待。

这就是为什么InfiniBand（IB）网络长期主导AI训练市场的原因。IB通过其RDMA（远程直接内存访问）技术和高效的拥塞控制机制，提供了近乎“无损”的低延迟通信。但当集群规模从千卡迈向万卡，IB网络的挑战也随之而来。首先是成本，IB交换机和网卡的“NVIDIA税”价格不菲；其次是规模，构建一个能支撑上万节点、拓扑复杂的“胖树”（Fat-Tree）网络，其规划、部署和调试本身就是一项世界级工程。

与此同时，以太网阵营（如Ultra Ethernet Consortium）正试图通过RoCE（RDMA over Converged Ethernet）技术追赶。但要在以太网上实现真正的“无损”，需要对交换机、网卡和软件协议栈进行深度优化，以解决丢包和拥塞问题。

无论选择IB还是以太网，万卡集群都意味着“网络”首次在系统重要性上压倒了“计算”本身。集群的有效算力（利用率）不再取决于GPU的理论峰值，而是取决于网络所能支撑的实际通信效率。这堵“网络墙”的出现，迫使行业重新思考AI数据中心的系统设计，网络架构师的地位正变得空前重要。

03. 交付模式革命：“敏捷集成”与“工厂预制”成唯一解

传统数据中心的建设周期动辄18至24个月。这种“慢工出细活”的模式，在AI大模型“日新月异”的迭代速度面前，显得格格不入。当一家AI公司宣布其万卡集群启动训练时，往往意味着它在数月前就已经锁定了市场窗口。

“Time to Market”（上市时间）成为了AI算力竞争的生命线。

这种极致的“时间压力”，正在彻底颠覆数据中心的交付模式。在工地上一砖一瓦地建设，再逐个机柜“上架、布线、调试”的传统流程已然崩溃。唯一的出路，在于将数据中心的“建设”过程转变为“制造”过程。

“工厂预制”与“模块化”应运而生。这不仅仅是指集装箱数据中心，而是更深层次的“系统预集成”。万卡集群的交付，正在演变为一种“超级产品”的交付。像NVIDIA的SuperPOD参考架构，它不仅是硬件列表，更是一套完整的“制造蓝图”。

在这种新模式下，交付流程被重构：

系统集成在工厂完成：在洁净的工厂环境中，将GPU服务器、网络交换机、液冷歧管、PDU乃至管理软件，预先集成在一个“Pod”或“AI模块”中，并完成高强度的压力测试。

现场“乐高式”拼接：预制好的模块被运送至数据中心现场，进行快速的“即插即用”式部署。现场的工作被简化为“拼装”和“通电通水”。

这种模式将原本需要数月的现场集成和调试时间，压缩到了几周。它极大地降低了现场施工的复杂性和不确定性。但硬币的另一面是，它对供应链的协同能力提出了史无前空的挑战。

这不再是“甲方-设计院-总包-分包”的线性链条。它需要GPU厂商、网络厂商、服务器厂商、制冷方案商和数据中心运营商在项目初期就深度绑定，形成一个“命运共同体”。传统的“招投标”和“分包”模式，正在被“一体化设计”、“联合研发”和“敏捷交付”的新型合作模式所取代。

结语：从“数据中心”到“算力工厂”

万卡AI集群的建设浪潮，绝非数据中心历史上的一次简单升级。它不是在既有道路上的“线性外推”，而是一次彻底的“范式转移”。

它迫使数据中心的建设逻辑从“基建思维”转向“IT思维”；它将系统瓶颈从“算力”引向了“网络”；它也将交付模式从“工程项目”推向了“产品制造”。

当一个万卡集群被点亮时，它不再是一个被动容纳IT设备的“机房”，而是一个高度集成、目标明确、被精细调优的“算力工厂”（Compute Factory）。这片由AI定义的新战场，正在重塑整个产业链条，而那些依旧用“盖房子”的思路来建设“超级计算机”的参与者，注定将被这场革命的浪潮所淹没。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.