![]()
这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第九篇内容,关注 DeepTech,关注新兴科技趋势。
在广阔的农田和工业园区里,一栋栋塞满计算机机架的超大型建筑正拔地而起,为 AI 竞赛提供动力。这些工程奇迹是一种新型的基础设施:它们是专为训练和运行超大规模大语言模型而设计的超级计算机,并配备了专用的芯片、冷却系统,甚至独立的能源供应。
2025 年,AI 基础设施的投资规模已从“数十亿美元”的量级跃升至“万亿美元”。1 月 21 日,美国总统特朗普在白宫宣布了“星际之门”(Stargate Project)——由 OpenAI、软银、Oracle 和阿布扎比投资基金 MGX 组建的合资企业,计划四年内向美国 AI 基础设施投资 5,000 亿美元,首期即刻部署 1,000 亿美元。软银 CEO 孙正义出任董事长,OpenAI 负责运营。
星际之门正迅速从蓝图变为现实。位于德克萨斯州阿比林的旗舰园区已于 9 月投入运营,Oracle 开始交付首批英伟达 GB200 芯片机架。到年底,星际之门已宣布五个新址,总规划容量接近 7 吉瓦,投资额超过 4,000 亿美元。与此同时,OpenAI 还在阿联酋、挪威和阿根廷启动国际布局,阿根廷巴塔哥尼亚的“星际之门阿根廷”项目投资高达 250 亿美元,将成为拉丁美洲最大的数据中心。
但星际之门只是冰山一角。据 HSBC 估计,全球已规划的 AI 基础设施投资超过 2 万亿美元。亚马逊承诺投入 1,000 亿美元,谷歌 750 亿美元,Meta 650 亿美元,微软仅 2025 年就将支出 800 亿美元。据一项分析估算,OpenAI 已承诺在 2025 年至 2035 年间向硬件和云基础设施支出约 1.15 万亿美元,涉及英伟达、AMD、Oracle、微软、Broadcom 等七家主要供应商。
超大规模 AI 数据中心将数十万个 GPU 芯片,如英伟达的 H200 或 GB200,捆绑成协同工作的集群。这些芯片擅长并行处理海量数据,每秒执行数万亿次数学计算。数十万英里长的光纤电缆像神经系统一样连接着它们,巨大的存储系统昼夜不停地输送数据。
但惊人的算力是有代价的。
首先是电力。国际能源署(IEA)预测,全球数据中心电力消耗将在五年内翻一番以上,到 2030 年将超过 1,000 太瓦,相当于整个日本的用电量。仅在美国,数据中心已占全国电力消耗的 4.4%,而 2018 年仅为 1.9%;到 2028 年可能攀升至 12%。在弗吉尼亚州这个全球数据中心最密集的地区,数据中心消耗了该州约 26% 的总电力。
在建的最大型数据中心可能吞噬超过一吉瓦的电力,足以为约 75 万户家庭供电。某些规划中的园区占地 5 万英亩,耗电量可达 5 吉瓦,超过美国现有最大核电站的容量。Grid Strategies 估计,到 2030 年美国将新增 120 吉瓦电力需求,其中 60 吉瓦来自数据中心,相当于意大利的峰值电力需求。
目前,煤炭以约 30% 的份额成为数据中心最大电力来源,天然气占 26%,可再生能源约 27%,核能占 15%。尽管可再生能源增长最快,但天然气和煤炭仍将在 2030 年前满足超过 40% 的新增需求。
科技巨头们正竞相寻找清洁方案:亚马逊从宾夕法尼亚州核电站直接获取约 960 兆瓦电力;谷歌与 Kairos Power 签署协议部署小型模块化反应堆;OpenAI 在挪威利用水电资源建立数据中心。但核能从开工到发电需要 5 至 11 年,资本支出是天然气的 5 至 10 倍,远水难解近渴。
第二个挑战是冷却。AI 芯片的功率密度从过去的每机架 15 千瓦飙升至 80 至 120 千瓦,传统空调已无法满足需求。直接芯片冷却(D2C)正在成为主流,这种技术将冷板直接安装在 GPU 上,闭环系统在热源处带走 70% 至 80% 的热负荷。
浸没式冷却则更进一步:服务器被浸泡在非导电液体浴槽中,可将冷却能耗降低 50%,水耗降低最高 91%。微软最新设计采用芯片内微流体冷却,微小通道直接蚀刻在硅芯片背面,使 GPU 温度降低 65%。
然而,许多设施仍依赖蒸发冷却,消耗大量淡水。据估计,2023 年美国数据中心直接消耗约 175 亿加仑水,到 2028 年可能翻两番。仅训练 GPT-3 就蒸发了 70 万升清洁淡水。彭博社报道,自 2022 年以来建造的美国数据中心约三分之二位于高水压力地区。
公众正在为这些建设买单。Dominion Energy 的 2025 年报告显示,弗吉尼亚州居民电费预计到 2039 年将翻一番以上,主要因数据中心增长。在佐治亚州牛顿县,某些拟议数据中心每天请求的水量超过整个县的日用水量,迫使当地官员在拒绝项目、要求替代冷却方案或对居民实施限水之间艰难抉择。
地方反对正在加剧。据 Data Center Watch 统计,自 2023 年以来美国已有 180 亿美元项目被取消,460 亿美元被延迟。仅 2025 年第二季度,被阻止或延迟的项目价值达 980 亿美元。居民们因噪音、光污染、水资源枯竭和电费上涨而组织抵制;2025 年 12 月,超过 200 个环保组织联名致信国会,呼吁暂停批准新的数据中心。
科技高管们对此不以为然。AMD 首席执行官苏姿丰在被问及 AI 热潮是否过度时斩钉截铁:“绝对不是。”他们将答案诉诸于 8 亿每周 ChatGPT 用户、40% 大型企业的 AI 采用率,以及 AI 作为经济引擎和国家安全优先事项的战略价值。OpenAI 首席财务官 Sarah Friar 引用历史作为辩护:“当互联网刚起步时,人们总觉得我们建设过度了。看看我们今天在哪里?”
这些交易的循环性质以及预测的需求能否兑现,仍是悬而未决的问题。电网规划者发现科技公司正在向多个公用事业展示同样的项目以寻求最快的电力接入,使需求预测变得困难。联邦能源监管委员会前主席 Willie Phillips 坦承:“有些地区预测了巨大的增长,然后又向下调整了。”
从 1990 年代的本地服务器到 2000 年代的云计算,再到如今的 AI 超级工厂,数据中心的演进从未停止。生成式 AI 已从瓶中释放,没有回头路。但关于经济预测是否准确、资源供应能否持续、建成后谁来使用,这些问题的答案,或许只有时间才能揭晓。
超大规模 AI 数据中心入选 2026 年度十大突破性技术,我们邀请了三位来自产业与科研一线的代表,围绕其关键技术路径与产业影响进行点评。
以下评论内容均为个人见解,不代表《麻省理工科技评论》观点
![]()
从算力堆叠到能源博弈:超大规模 AI 数据中心的现状、瓶颈与趋势
首先需要明确一个核心概念:超大规模 AI 数据中心,绝对不是传统数据中心的简单放大版。它诞生的根本驱动力,是为了满足大模型对算力近乎指数级增长的海量需求。因此它的架构是革命性的,本质上是把数十万计的 GPU 通过极高速网络“粘合”在一起,形成前所未有的单体式超级计算机。
谷歌、微软、亚马逊、Meta 等全球科技巨头,都在投入数千亿美元竞相布局。但与此同时,这个庞然大物也带来了一系列前所未有的挑战:惊人的功耗、棘手的散热、巨大的能源压力,以及如何在规模扩展与效率提升之间找到最佳平衡点。
目前业界的技术路径已经比较清晰,核心思路是通过高速互联技术构建高效的“超节点”,最大程度减少芯片间的通信延迟和开销。算力确实已迈入 ZFLOPS 时代,但“内存墙”,即数据搬运的瓶颈,也愈发突出。另一个无法回避的挑战是散热:随着芯片密度飙升,传统风冷已力不从心,液冷技术正从“可选项”变为“必选项”,配套供电架构也必须同步升级。
而这个产业也面临着多维度的瓶颈。首先是能源约束。一个超大规模数据中心的功耗可超过 1 吉瓦,相当于一座中型城市的用电量。这使它从单纯的电力消费者,变成必须像能源公司一样深度规划电力获取的“准公用事业体”。获取稳定充足的清洁能源成为首要任务,而全球许多地区老旧电网的承载能力,已开始反向制约数据中心的选址和规模。
其次是时间约束。AI 芯片迭代速度极快,约一年一代,远超传统数据中心基础设施两年左右的更新周期。这导致一个尴尬局面:本代数据中心刚建成,就要准备迎接两三代新芯片。而市场竞争又要求算力快速上线,建设周期被从近两年压缩至一年以内,对预制化、模块化的快速交付能力构成极致考验。
最后是生态与治理约束。算力高度集中必然引发一系列新问题:市场垄断的担忧、数据主权的争议、对当地水资源和环境的影响等。产业竞争也在从纯粹的技术比拼,转向标准与生态之争——未来是走向开放协作,还是形成若干封闭的私有体系,将深刻重塑整个算力市场的格局。
往前看,几个趋势比较确定:架构将更加立体协同。“云端集中训练、边缘就近推理”的模式会日趋成熟,“全球算力互联网”的构想也可能逐步落地,实现跨地域的算力调度与优化;它的运营将更加智能高效,用 AI 优化数据中心自身能耗会成为标配,行业关注的指标将从单纯的 PUE,转向更本质的“每瓦特电力产出多少有效算力”;这项技术将更加绿色多元,液冷全面普及之外,余热回收、水循环等深度绿色方案会加速落地;芯粒(Chiplet)、光计算等后摩尔时代的新技术,也将从实验室走向产业试点。
综上,超大规模 AI 数据中心无疑是智能时代最关键的基石之一,但它也对能源、基建和治理能力提出了巨大挑战。数据中心正从支撑业务的“成本中心”,演变为驱动创新的“智能生态枢纽”。其成功将取决于能否与电网、社区共建可持续的“数字能源共同体”,并对环境影响实现透明、负责任的管理。
未来能在这一领域脱颖而出的,必定是那些以架构创新破解算力瓶颈、以卓越工程能力赢得时间竞赛、同时以生态责任感构建可持续未来的实践者。
![]()
从电力成本到模型安全:AI 数据中心的三重挑战
随着大模型的规模化应用,AI 数据中心正面临一系列深层次的产业挑战。以下从成本、算力调度和数据安全三个维度,分析当前的关键瓶颈与应对方向。
首先,电力成本将成为 AI 服务社会的主要成本。大模型目前在正确性和确定性上仍有待改进:错误会快速累积,导致不可接受的结果;而提高正确性,则意味着增加计算量;不确定性带来的重试机制,又可能引发新的错误,形成恶性循环。在这一背景下,更廉价的电力意味着在同样计算成本下获得更好的模型服务效果。电力成本,正在成为AI能否大规模服务社会的核心变量。
其次,加速卡的多样性将持续提高。随着时间推移,不同品牌、不同代际的加速卡将长期共存于数据中心。CPU 与 GPU 虚拟化技术以及高速网络技术的发展,将使算力调度更加灵活——推理任务可以有效利用不同加速卡从而降低成本,但大型训练任务的复杂性仍需适应多样化的算力环境。短期来看,宏观的任务调度策略与微观的通信计算融合策略会有所帮助;长期来看,构建混合加速卡计算框架将是必然选择。
最后,丢失模型等于丢失数据。大模型有效压缩了海量数据并支持灵活提取,压缩比可达十万倍。丢失一个磁盘容量仅为 700GB 的模型成品,基本等效于丢失 70TB 的原始训练数据。由于数据的差异化带来模型的差异化,企业独有的数据正在转化为企业独有的竞争力。在数据安全合规的诸多限制下,企业需要拥有自有算力,在开源模型基础上精调自有模型。这意味着,基础设施在保护核心模型方面面临的挑战,比传统数据安全场景更为严峻。
![]()
超大规模 AI 数据中心的关键转向:液冷与新型能源架构
超大规模 AI 数据中心是人工智能时代的关键基础设施。Scaling Laws 揭示了模型性能与参数规模、数据量、算力投入之间的幂律关系 [1],使大模型发展从经验探索转向可预测的工程实践,并推动 Amazon、Google、Microsoft 等科技巨头斥资数千亿美元构建数十万块 GPU 互连的超级计算集群,以满足大模型训练的爆炸性算力需求。
然而,当 GPU 机柜的功率密度突破 50 千瓦时(例如英伟达 GB200 NVL72 机柜级系统的功率密度高达 132 千瓦/柜 [2]),传统风冷散热技术成为了制约系统的瓶颈。
风冷散热依赖空气对流传热,其有效功率密度上限为 20-50 千瓦,超过此阈值后,维持散热所需的风量呈指数级增长,导致风道截面积、风扇功耗、噪音和系统体积急剧上升而难以工程实现。另一方面,全球数据中心预计 2030 年占全球总用电量 4%-7%、单体数据中心能耗将突破吉瓦级 [3]。因此,传统的风冷与供电模式已难以为继,行业正加速向液冷技术及核能等新型能源架构转型。
液冷技术通过直接接触式散热并将余热用于园区供暖、工业供热,能够有效改善数据中心的电能使用效率,而核能的稳定基荷特性为解决“AI 大模型训练的持续高功耗与传统电网的负荷平衡模式存在本质冲突”这一困境提供了有效途径。Google、Amazon、Microsoft 等公司均在积极推进核电工程,以满足超大规模 AI 数据中心的用电需求 [4]。
此外,瑞士 Deep Atomic 公司和美国爱达荷国家实验室计划建造首个核动力人工智能数据中心 [5],标志着能源-算力一体化数据中心架构正在从概念走向实践。因此,基于液冷与核能的超大规模数据中心能够有效地支撑算力规模的扩展与跃迁,代表了全球 AI 算力基础设施形态的趋势,也为物理极限约束下的 AI 持续发展开辟了新的空间。
参考文献:
1.Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.
2.Super Micro Computer, Inc., Supermicro NVIDIA GB200 NVL72: Liquid-cooled Exascale Compute in a Rack with 72 NVIDIA Blackwell GPUs, Datasheet.https://www.supermicro.com/datasheet/datasheet_SuperCluster_GB200_NVL72.pdf? Feb. 2025.
3.E. Kok, J. Rauer, P. Sachdeva, and P. Pikul,Scaling bigger, faster, cheaper data centers with smarter designs,McKinsey & Company, Article, Aug. 1, 2025.
4.P. Rooney,AI to go nuclear? Data center deals say it s inevitable.https://www.cio.com/article/3487339/ai-to-go-nuclear-data-center-deals-say-its-inevitable.html Aug. 19, 2024.
5.D. Dalton,Swiss Reactor Company Submits Nuclear-Powered Data Centre Proposal To US DOE. https://www.nucnet.org/news/swiss-reactor-company-submits-nuclear-powered-data-centre-proposal-to-us-doe-12-4-2025. Dec. 4, 2025.
运营/排版:何晨龙
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.