网易首页 > 网易号 > 正文 申请入驻

跨越“万卡”门槛:AI算力建设难点不在供电和液冷,而是……

0
分享至

第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。

立即报名!

当大模型参数从百亿跃升至万亿,算力底座的“军备竞赛”也随之进入“万卡集群”时代。从OpenAI的GPT-4,到国内“百模大战”的跟进,“万卡”已成为AI巨头入场券的代名词。然而,当我们谈论“万卡”时,如果视线仍局限于机柜功率的提升和液冷技术的引入,那可能尚未触及其变革的真正核心。

这场由AI驱动的算力变革,正从根本上重塑数据中心产业。它带来的挑战远非“更高、更快、更强”的线性迭代,而是一场关乎设计逻辑、系统架构和交付模式的“质变”。“万卡”集群,正在倒逼数据中心从“房地产”模式向“超级计算机”模式进化。

01. 建设逻辑颠覆:从“机房迁就IT”到“IT定义机房”

长久以来,传统数据中心的建设逻辑遵循一种“房东与租户”的模式。即“基建先行”,先建设一个标准化的“白色空间”(White Space),包含标准化的供配电、制冷和网络布线,然后再由不同的IT设备“拎包入住”。这种模式的优势在于通用性和灵活性,可以适配不同客户的通用计算需求。

然而,万卡AI集群的出现,彻底打破了这一延续数十年的平衡。AI集群,特别是万卡规模的GPU集群,是一个极端“挑剔”的租户。它不是由成千上万个独立的服务器组成,而是一个被设计为“单一系统”(Single System Image)的“超级计算机”。它的需求不再是标准化的机架和冷风,而是对系统架构、网络拓扑和功耗有着极端定制化、高耦合度的要求。

这就带来了一个根本性的转变:建设逻辑从“机房迁就IT”逆转为“IT定义机房”。

在万卡集群的规划中,一切都必须从IT系统本身出发。设计不再始于建筑图纸,而是始于AI集群的架构图。例如,以NVIDIA的DGX SuperPOD架构为蓝本的集群,其设计之初就已经锁定了GPU服务器的型号、InfiniBand网络交换机的布局、光纤的连接方式,乃至每个机柜高达60kW甚至100kW以上的峰值功耗。

这意味着,数据中心的土建、暖通和电气设计,从一开始就必须完全服务于这个既定的IT架构。传统M&E(机电)工程师“按经验”预留冗余和通路的做法已经失效。他们必须与IT架构师、网络工程师坐在一起,精确计算液冷管路的走向、配电单元(PDU)的精确点位,以及如何处理高密度光纤带来的物理管理噩梦。这不再是“建筑设计”,而是“系统工程”。



02. 系统瓶颈转移:“网络墙”的挑战超越“算力墙”

如果说“算力”是万卡集群的肌肉,“网络”就是它的神经系统。而在万卡规模下,这个神经系统的复杂度和脆弱性被指数级放大。传统观念中“算力不够堆算力”的思路,在AI集群中迅速撞上了“网络墙”。

在通用云计算中,网络的主要矛盾是“带宽”,而在大模型训练中,核心矛盾是“通信效率”,即**“低延迟”和“无损”**。大模型的分布式训练需要数千颗GPU进行高频的“集体通信”(Collective Communications),如All-Reduce操作。在这个过程中,任何一颗GPU的“掉队”或数据包的丢失,都会导致整个集群的“木桶短板”,造成昂贵算力的空转和等待。

这就是为什么InfiniBand(IB)网络长期主导AI训练市场的原因。IB通过其RDMA(远程直接内存访问)技术和高效的拥塞控制机制,提供了近乎“无损”的低延迟通信。但当集群规模从千卡迈向万卡,IB网络的挑战也随之而来。首先是成本,IB交换机和网卡的“NVIDIA税”价格不菲;其次是规模,构建一个能支撑上万节点、拓扑复杂的“胖树”(Fat-Tree)网络,其规划、部署和调试本身就是一项世界级工程。

与此同时,以太网阵营(如Ultra Ethernet Consortium)正试图通过RoCE(RDMA over Converged Ethernet)技术追赶。但要在以太网上实现真正的“无损”,需要对交换机、网卡和软件协议栈进行深度优化,以解决丢包和拥塞问题。

无论选择IB还是以太网,万卡集群都意味着“网络”首次在系统重要性上压倒了“计算”本身。集群的有效算力(利用率)不再取决于GPU的理论峰值,而是取决于网络所能支撑的实际通信效率。这堵“网络墙”的出现,迫使行业重新思考AI数据中心的系统设计,网络架构师的地位正变得空前重要。



03. 交付模式革命:“敏捷集成”与“工厂预制”成唯一解

传统数据中心的建设周期动辄18至24个月。这种“慢工出细活”的模式,在AI大模型“日新月异”的迭代速度面前,显得格格不入。当一家AI公司宣布其万卡集群启动训练时,往往意味着它在数月前就已经锁定了市场窗口。

“Time to Market”(上市时间)成为了AI算力竞争的生命线。

这种极致的“时间压力”,正在彻底颠覆数据中心的交付模式。在工地上一砖一瓦地建设,再逐个机柜“上架、布线、调试”的传统流程已然崩溃。唯一的出路,在于将数据中心的“建设”过程转变为“制造”过程。

“工厂预制”与“模块化”应运而生。这不仅仅是指集装箱数据中心,而是更深层次的“系统预集成”。万卡集群的交付,正在演变为一种“超级产品”的交付。像NVIDIA的SuperPOD参考架构,它不仅是硬件列表,更是一套完整的“制造蓝图”。

在这种新模式下,交付流程被重构:

系统集成在工厂完成: 在洁净的工厂环境中,将GPU服务器、网络交换机、液冷歧管、PDU乃至管理软件,预先集成在一个“Pod”或“AI模块”中,并完成高强度的压力测试。

现场“乐高式”拼接: 预制好的模块被运送至数据中心现场,进行快速的“即插即用”式部署。现场的工作被简化为“拼装”和“通电通水”。

这种模式将原本需要数月的现场集成和调试时间,压缩到了几周。它极大地降低了现场施工的复杂性和不确定性。但硬币的另一面是,它对供应链的协同能力提出了史无前空的挑战。

这不再是“甲方-设计院-总包-分包”的线性链条。它需要GPU厂商、网络厂商、服务器厂商、制冷方案商和数据中心运营商在项目初期就深度绑定,形成一个“命运共同体”。传统的“招投标”和“分包”模式,正在被“一体化设计”、“联合研发”和“敏捷交付”的新型合作模式所取代。



结语:从“数据中心”到“算力工厂”

万卡AI集群的建设浪潮,绝非数据中心历史上的一次简单升级。它不是在既有道路上的“线性外推”,而是一次彻底的“范式转移”。

它迫使数据中心的建设逻辑从“基建思维”转向“IT思维”;它将系统瓶颈从“算力”引向了“网络”;它也将交付模式从“工程项目”推向了“产品制造”。

当一个万卡集群被点亮时,它不再是一个被动容纳IT设备的“机房”,而是一个高度集成、目标明确、被精细调优的“算力工厂”(Compute Factory)。这片由AI定义的新战场,正在重塑整个产业链条,而那些依旧用“盖房子”的思路来建设“超级计算机”的参与者,注定将被这场革命的浪潮所淹没。

第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全运乒乓战况:王曼昱危急扛住惊险过关,陈梦、黄友政轻松晋级

全运乒乓战况:王曼昱危急扛住惊险过关,陈梦、黄友政轻松晋级

荒野老五
2025-11-12 01:11:00
副院长与眼科副主任不雅视频事件:停诊风波背后的真相曝光!

副院长与眼科副主任不雅视频事件:停诊风波背后的真相曝光!

坠入二次元的海洋
2025-11-08 03:42:26
中方通告全球:向菲律宾台风灾区伸援手,引全球高度关注

中方通告全球:向菲律宾台风灾区伸援手,引全球高度关注

一个有灵魂的作者
2025-11-11 20:11:08
安徽通报:赵涛被查

安徽通报:赵涛被查

鲁中晨报
2025-11-11 11:59:02
从今天起,中国不再向日本索要任何道歉

从今天起,中国不再向日本索要任何道歉

科学发掘
2025-11-02 07:57:50
特朗普喊话“所有空管员回去上班”,否则将被大幅扣薪:“停摆”期未请假者,建议每人发1万美元奖金

特朗普喊话“所有空管员回去上班”,否则将被大幅扣薪:“停摆”期未请假者,建议每人发1万美元奖金

鲁中晨报
2025-11-11 12:35:02
蔡正元惹众怒,又有一人对蔡正元开火,大陆官媒正式定性蔡正元

蔡正元惹众怒,又有一人对蔡正元开火,大陆官媒正式定性蔡正元

健身狂人
2025-11-12 00:39:13
杨幂身材引热议:一个“大”字为何引爆全网?

杨幂身材引热议:一个“大”字为何引爆全网?

动物奇奇怪怪
2025-10-22 00:15:43
在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

在钓鱼岛问题上,中国对待日本的态度出现了明显的变化

窥史
2025-10-23 21:01:43
曝光!湖北这3个城市最富有?

曝光!湖北这3个城市最富有?

掌上武汉
2025-11-11 10:54:57
当你放下这些,气血就恢复50%了

当你放下这些,气血就恢复50%了

神奇故事
2025-11-02 23:07:11
医生多次强调老人立刻停止食用3种坚果,吃得越多,肺会越差

医生多次强调老人立刻停止食用3种坚果,吃得越多,肺会越差

观星赏月
2025-10-24 13:36:16
维金斯0.4秒空接绝杀!斯波:这套战术是助教奎因四年前设计的

维金斯0.4秒空接绝杀!斯波:这套战术是助教奎因四年前设计的

北青网-北京青年报
2025-11-11 17:03:05
英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

史智文道
2025-11-11 19:53:27
于谦的“十兄弟”圈子,老大马未都,老七吴京,其他几人都是谁?

于谦的“十兄弟”圈子,老大马未都,老七吴京,其他几人都是谁?

东方不败然多多
2025-10-26 16:07:19
李传忠写给刀郎的信:立刻归还《罗刹海市》版权,国家部门介入性质就变了

李传忠写给刀郎的信:立刻归还《罗刹海市》版权,国家部门介入性质就变了

动物奇奇怪怪
2025-11-09 03:29:29
演员克拉拉官宣离婚!结束6年婚姻!曾被评为亚洲第一美女!

演员克拉拉官宣离婚!结束6年婚姻!曾被评为亚洲第一美女!

调侃国际观点
2025-10-17 20:58:13
重症湘军再添“新引擎”!湖南急危重症一体化管理专委会成立

重症湘军再添“新引擎”!湖南急危重症一体化管理专委会成立

坠入二次元的海洋
2025-11-11 10:17:29
爆了!金价持续上涨!华尔街大佬:黄金开始取代美债,成为无风险资产

爆了!金价持续上涨!华尔街大佬:黄金开始取代美债,成为无风险资产

中国商界杂志社
2025-11-11 14:16:18
安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

安徽一对夫妻杀人后潜逃20年,各自另组家庭,谁料,妻子成公司高管丈夫成大老板

LULU生活家
2025-11-06 18:29:11
2025-11-12 02:56:49
中国IDC圈
中国IDC圈
互联网行业权威的媒体平台
4740文章数 4007关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

房产
健康
亲子
游戏
军事航空

房产要闻

海口湾,1300亩巨无霸地块登场!

超声探头会加重受伤情况吗?

亲子要闻

没人生娃了?上海一产科医生称:从一晚上8个剖腹产到现在1个没有

《无尽传说 Remastered》评测:前进"/> 主站 商城 论坛 自运营 登录 注册 《无尽传说 Remastered》评测:前进 星河 2025-...

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版