网易首页 > 网易号 > 正文 申请入驻

跨越“万卡”门槛:AI算力建设难点不在供电和液冷,而是……

0
分享至

第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。

立即报名!

当大模型参数从百亿跃升至万亿,算力底座的“军备竞赛”也随之进入“万卡集群”时代。从OpenAI的GPT-4,到国内“百模大战”的跟进,“万卡”已成为AI巨头入场券的代名词。然而,当我们谈论“万卡”时,如果视线仍局限于机柜功率的提升和液冷技术的引入,那可能尚未触及其变革的真正核心。

这场由AI驱动的算力变革,正从根本上重塑数据中心产业。它带来的挑战远非“更高、更快、更强”的线性迭代,而是一场关乎设计逻辑、系统架构和交付模式的“质变”。“万卡”集群,正在倒逼数据中心从“房地产”模式向“超级计算机”模式进化。

01. 建设逻辑颠覆:从“机房迁就IT”到“IT定义机房”

长久以来,传统数据中心的建设逻辑遵循一种“房东与租户”的模式。即“基建先行”,先建设一个标准化的“白色空间”(White Space),包含标准化的供配电、制冷和网络布线,然后再由不同的IT设备“拎包入住”。这种模式的优势在于通用性和灵活性,可以适配不同客户的通用计算需求。

然而,万卡AI集群的出现,彻底打破了这一延续数十年的平衡。AI集群,特别是万卡规模的GPU集群,是一个极端“挑剔”的租户。它不是由成千上万个独立的服务器组成,而是一个被设计为“单一系统”(Single System Image)的“超级计算机”。它的需求不再是标准化的机架和冷风,而是对系统架构、网络拓扑和功耗有着极端定制化、高耦合度的要求。

这就带来了一个根本性的转变:建设逻辑从“机房迁就IT”逆转为“IT定义机房”。

在万卡集群的规划中,一切都必须从IT系统本身出发。设计不再始于建筑图纸,而是始于AI集群的架构图。例如,以NVIDIA的DGX SuperPOD架构为蓝本的集群,其设计之初就已经锁定了GPU服务器的型号、InfiniBand网络交换机的布局、光纤的连接方式,乃至每个机柜高达60kW甚至100kW以上的峰值功耗。

这意味着,数据中心的土建、暖通和电气设计,从一开始就必须完全服务于这个既定的IT架构。传统M&E(机电)工程师“按经验”预留冗余和通路的做法已经失效。他们必须与IT架构师、网络工程师坐在一起,精确计算液冷管路的走向、配电单元(PDU)的精确点位,以及如何处理高密度光纤带来的物理管理噩梦。这不再是“建筑设计”,而是“系统工程”。



02. 系统瓶颈转移:“网络墙”的挑战超越“算力墙”

如果说“算力”是万卡集群的肌肉,“网络”就是它的神经系统。而在万卡规模下,这个神经系统的复杂度和脆弱性被指数级放大。传统观念中“算力不够堆算力”的思路,在AI集群中迅速撞上了“网络墙”。

在通用云计算中,网络的主要矛盾是“带宽”,而在大模型训练中,核心矛盾是“通信效率”,即**“低延迟”和“无损”**。大模型的分布式训练需要数千颗GPU进行高频的“集体通信”(Collective Communications),如All-Reduce操作。在这个过程中,任何一颗GPU的“掉队”或数据包的丢失,都会导致整个集群的“木桶短板”,造成昂贵算力的空转和等待。

这就是为什么InfiniBand(IB)网络长期主导AI训练市场的原因。IB通过其RDMA(远程直接内存访问)技术和高效的拥塞控制机制,提供了近乎“无损”的低延迟通信。但当集群规模从千卡迈向万卡,IB网络的挑战也随之而来。首先是成本,IB交换机和网卡的“NVIDIA税”价格不菲;其次是规模,构建一个能支撑上万节点、拓扑复杂的“胖树”(Fat-Tree)网络,其规划、部署和调试本身就是一项世界级工程。

与此同时,以太网阵营(如Ultra Ethernet Consortium)正试图通过RoCE(RDMA over Converged Ethernet)技术追赶。但要在以太网上实现真正的“无损”,需要对交换机、网卡和软件协议栈进行深度优化,以解决丢包和拥塞问题。

无论选择IB还是以太网,万卡集群都意味着“网络”首次在系统重要性上压倒了“计算”本身。集群的有效算力(利用率)不再取决于GPU的理论峰值,而是取决于网络所能支撑的实际通信效率。这堵“网络墙”的出现,迫使行业重新思考AI数据中心的系统设计,网络架构师的地位正变得空前重要。



03. 交付模式革命:“敏捷集成”与“工厂预制”成唯一解

传统数据中心的建设周期动辄18至24个月。这种“慢工出细活”的模式,在AI大模型“日新月异”的迭代速度面前,显得格格不入。当一家AI公司宣布其万卡集群启动训练时,往往意味着它在数月前就已经锁定了市场窗口。

“Time to Market”(上市时间)成为了AI算力竞争的生命线。

这种极致的“时间压力”,正在彻底颠覆数据中心的交付模式。在工地上一砖一瓦地建设,再逐个机柜“上架、布线、调试”的传统流程已然崩溃。唯一的出路,在于将数据中心的“建设”过程转变为“制造”过程。

“工厂预制”与“模块化”应运而生。这不仅仅是指集装箱数据中心,而是更深层次的“系统预集成”。万卡集群的交付,正在演变为一种“超级产品”的交付。像NVIDIA的SuperPOD参考架构,它不仅是硬件列表,更是一套完整的“制造蓝图”。

在这种新模式下,交付流程被重构:

系统集成在工厂完成: 在洁净的工厂环境中,将GPU服务器、网络交换机、液冷歧管、PDU乃至管理软件,预先集成在一个“Pod”或“AI模块”中,并完成高强度的压力测试。

现场“乐高式”拼接: 预制好的模块被运送至数据中心现场,进行快速的“即插即用”式部署。现场的工作被简化为“拼装”和“通电通水”。

这种模式将原本需要数月的现场集成和调试时间,压缩到了几周。它极大地降低了现场施工的复杂性和不确定性。但硬币的另一面是,它对供应链的协同能力提出了史无前空的挑战。

这不再是“甲方-设计院-总包-分包”的线性链条。它需要GPU厂商、网络厂商、服务器厂商、制冷方案商和数据中心运营商在项目初期就深度绑定,形成一个“命运共同体”。传统的“招投标”和“分包”模式,正在被“一体化设计”、“联合研发”和“敏捷交付”的新型合作模式所取代。



结语:从“数据中心”到“算力工厂”

万卡AI集群的建设浪潮,绝非数据中心历史上的一次简单升级。它不是在既有道路上的“线性外推”,而是一次彻底的“范式转移”。

它迫使数据中心的建设逻辑从“基建思维”转向“IT思维”;它将系统瓶颈从“算力”引向了“网络”;它也将交付模式从“工程项目”推向了“产品制造”。

当一个万卡集群被点亮时,它不再是一个被动容纳IT设备的“机房”,而是一个高度集成、目标明确、被精细调优的“算力工厂”(Compute Factory)。这片由AI定义的新战场,正在重塑整个产业链条,而那些依旧用“盖房子”的思路来建设“超级计算机”的参与者,注定将被这场革命的浪潮所淹没。

第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办。欢迎报名参会,与数万算力产业从业者深入探讨产业关键领域的技术突破与商业模式创新。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传全国多家门店拒绝为小米车主服务

网传全国多家门店拒绝为小米车主服务

汽车有文化
2026-01-26 20:49:05
上海一国企招9女留子:均不敢交体检报告,三通一达女后路被堵死

上海一国企招9女留子:均不敢交体检报告,三通一达女后路被堵死

十为先生
2026-01-26 17:18:29
现货白银抹去14%涨幅 现货黄金向下跌破5000美元

现货白银抹去14%涨幅 现货黄金向下跌破5000美元

财联社
2026-01-27 05:38:06
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

米果说识
2026-01-26 22:16:39
张雨绮被实名举报代孕、插足婚姻,据称已退出辽宁春晚;前夫袁巴元前妻时隔1年公布警方调查结果

张雨绮被实名举报代孕、插足婚姻,据称已退出辽宁春晚;前夫袁巴元前妻时隔1年公布警方调查结果

大风新闻
2026-01-26 09:51:06
雷军无奈宣布:全部下架!

雷军无奈宣布:全部下架!

电动知家
2026-01-25 15:31:25
伊朗对国内民众的残酷镇压,成为了自己的催命符

伊朗对国内民众的残酷镇压,成为了自己的催命符

林中木白
2026-01-26 16:58:23
痛悼!楼大鹏去世,浙江宁波人,北京申奥“十大功臣”之一

痛悼!楼大鹏去世,浙江宁波人,北京申奥“十大功臣”之一

都市快报橙柿互动
2026-01-27 00:32:56
一记重拳!中国发外交照会,限日本6个月交出,118年前掠走的唐碑

一记重拳!中国发外交照会,限日本6个月交出,118年前掠走的唐碑

策略述
2026-01-26 12:32:25
2-2爆冷!国足平乌兹别克,邵佳一激活留洋神锋:3场3球带队不败

2-2爆冷!国足平乌兹别克,邵佳一激活留洋神锋:3场3球带队不败

球场没跑道
2026-01-26 23:24:04
汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

汪小菲接俩娃回北京,玥儿长高超像大S,打雪仗时一个动作好暖心

无心小姐姐
2026-01-27 00:44:27
确保思政教师收入高于其他专业,高校这一政策须兼顾公平

确保思政教师收入高于其他专业,高校这一政策须兼顾公平

读鬼笔记
2026-01-26 20:26:20
欠债6.6亿!3000门店也救不活?又一老牌酒厂资不抵债了

欠债6.6亿!3000门店也救不活?又一老牌酒厂资不抵债了

财经八卦
2026-01-26 19:00:31
一语道破女留学生的牢A,亲眼目睹陪读妈妈的悲哀,到底真还是假

一语道破女留学生的牢A,亲眼目睹陪读妈妈的悲哀,到底真还是假

每日一见
2026-01-23 15:07:50
佛山路边停车收费出“奇招”,被称“吃相难看”

佛山路边停车收费出“奇招”,被称“吃相难看”

中国新闻周刊
2026-01-26 16:47:50
49条中日航线取消全部航班

49条中日航线取消全部航班

财联社
2026-01-26 17:10:34
伊朗站在悬崖边缘:沉默的美军,正在酝酿一场终结战

伊朗站在悬崖边缘:沉默的美军,正在酝酿一场终结战

凤眼论
2026-01-26 18:34:36
事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

事发上海!雇主离世仅12分钟,保姆就陆续转走银行卡内50万元现金,还变卖玉器

新民晚报
2026-01-26 14:44:31
外交部宣布:奥尔西将访华

外交部宣布:奥尔西将访华

环球时报国际
2026-01-26 19:43:41
支持率一路暴跌,高市彻底慌了,日本商界大佬发声,要求更换首相

支持率一路暴跌,高市彻底慌了,日本商界大佬发声,要求更换首相

时时有聊
2026-01-27 07:05:46
2026-01-27 08:47:00
中国IDC圈
中国IDC圈
互联网行业权威的媒体平台
4776文章数 4008关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

健康
教育
游戏
数码
房产

耳石脱落为何让人天旋地转+恶心?

教育要闻

针对海岛人口小县教育发展难题,浙江嵊泗县取消中考选拔功能,2025学年全县266名填报普高的初三毕业...

LPL最强战队易主!JDG双杀BLG登顶LPL,国一教实至名归?

数码要闻

苹果发布 iOS 26.2.1:支持其2026年首款新硬件AirTag 2

房产要闻

突发!三亚官宣,调整安居房政策!

无障碍浏览 进入关怀版