![]()
随着AI集群的激增,数据中心正面临几十年来指导设施设计的热和电气限制。机架密度急剧上升,给冷却系统和电网连接带来压力。对于工程师和运营商来说,挑战不再仅仅是增加容量,而是在不影响可靠性、可持续性目标或本地基础设施的情况下,使为企业计算而建的设施适应AI规模的工作负载。
为纪念国际妇女节,Data Center Knowledge采访了在数据中心生态系统中工作的三位女性,她们在应对这些压力时做出了重要的基础设施决策。她们的工作突出了数据中心如何在部署混合冷却、工业化建设以及更智能的选址和扩展策略的同时,应对不断增长的电力需求、冷却限制和社区期望。
混合冷却和工业化灵活性
Compass数据中心的首席创新官Nancy Novak着手解决一个现在很常见的问题:GPU集群推动机架密度超出传统风冷系统的极限。"在许多环境中,GPU集群可以超过每个机架50千瓦,"Novak说。"传统的风冷对于这些系统的热密度是不够的。"
由于大多数运营商仍然支持大型企业工作负载,全面转向完全液冷系统将是昂贵和破坏性的。与Vertiv合作,Novak的团队开发了一个混合冷却平台,使得随着AI部署的规模化,可以在机架和行级别逐步从风冷过渡到液冷。实际上,这意味着客户可以在现有风冷系统旁边引入直接芯片冷板或行级液体分配,并且只在需要的地方和时间将液冷系统上线。"它允许客户在AI工作负载扩展时插入液冷,而无需拆除现有基础设施,"Novak解释说。
环境考虑和性能要求同样塑造了设计。虽然液冷在热效率上很高,但某些方法也会增加用水量——在缺水地区这是一个越来越难以承受的权衡。Novak的团队承诺采用闭环方法来减少正常运营中IT冷却的用水量。"工程会更复杂一些,但它确保我们不与当地社区争夺水资源,"她说。
建设策略成为可持续性计算的一部分。通过采用模块化、零件包方法并将大部分制造过程转移到场外,团队加快了部署速度,并通过AI优化的材料混合减少了混凝土的使用。根据Compass的数据,生命周期评估显示,由于闭环设计,隐含碳比其行业基线方法低约18%,现场建设时间减少约25%,IT冷却无用水消耗。
随着AI基础设施的扩展,Novak认为电力可用性和与公用事业的协调将定义下一阶段。"我们已经达到了一个分水岭时刻,"她说。"数据中心需要从被动的能源消费者转变为电网的积极参与者。"这种转变可能涉及对微电网的投资和与公用事业的更深层合作。"我们称之为'先给予后索取'的方法,"她补充说。"如果数据中心帮助加强其周围的基础设施,好处会扩展到整个社区。"
重新思考AI基础设施的位置
对于Pulsant数据中心环境和可持续性主管Helen Munro来说,过去一年最重要的基础设施决策不是关于冷却技术——而是关于地理位置。对AI和高性能计算的需求在英国各地都在加速。然而,该国的大部分产能集中在伦敦周围,那里的电力、土地和开发时间表都受到限制。
Munro的团队选择在这些中心之外扩展高密度计算能力。一个例子是Pulsant在Milton Keynes(Linford Wood)的扩建,旨在支持AI、机器学习和加速计算等密集型工作负载。"我们正在英国主要科技地区投资高密度计算能力,以满足伦敦以外高性能基础设施需求的激增,"Munro说。
该策略旨在更均匀地分布全国的数字基础设施,利用电网可用性,同时支持地区科技生态系统。这也是关于管理责任:"在英国,我们已经拥有可以使用和适应的数字基础设施,以满足AI需求的很大一部分,"她指出。"在可能的情况下,我们必须成为该基础设施的良好管理者。"
升级现有设施带来了自己的挑战。AI工作负载需要专门的硬件和大量能源,而芯片、冷却和电力供应链仍处于紧张状态。同时,运营商必须管理扩张的环境足迹。冷却仍然是该等式的一个组成部分;在Milton Keynes站点,Pulsant正在部署闭环系统以最小化用水量。"负责任的用水对我们来说是优先事项,"Munro说。"我们的大多数设施已经很少或不用水进行冷却。"
随着扩建仍在进行中,详细的性能指标将通过即将到来的可持续性报告披露,以帮助客户了解支持其工作负载的基础设施的环境影响,Munro说。
除了技术复杂性之外,Munro强调了社区参与的重要性。"最紧迫的压力是关于共同价值观,"她说。"这是关于我们如何在日益动荡的环境中建设数字基础设施的复杂性的同时尊重地方和人民。"
设计适应AI的设施
当一些运营商重新考虑在哪里建设时,Compass数据中心创新和可持续性高级副总裁Amy Marks专注于设施本身如何随着计算要求的发展而适应。Compass与包括Vertiv、Schneider Electric、Siemens和RK Industries在内的基础设施合作伙伴合作,为设施准备更高密度的环境。一个结果是Novak描述的混合冷却方法,它允许运营商在现有风冷系统旁边引入液冷,并随着工作负载的变化而切换。"它允许客户在部署AI工作负载或IT环境发展时,快速将数据中心从风冷切换到液冷,"Marks说。
Compass还重新设计了围绕这些系统的支撑基础设施——多功能管道架、水撬、处理系统和机架级冷却模块——倾向于预制和工业化建设而不是传统的现场建设。今天,该公司报告称,其80%以上的设施都采用了预制设备、组件或预制构件。
"可持续性是我们评估任何设计改进时使用的镜头之一,"Marks说。基于工厂的生产使得在到达现场之前测试工程、运营和可持续性变化成为可能,并且更容易衡量影响。Compass引用相对于其基线减少18%的隐含碳和由其闭环架构驱动的IT冷却强水利用效率(WUE)。"我们使用预制的可持续性收益是显著的,这比传统的现场工艺要高效得多,"她指出。她补充说,收益源于标准化设计、基于工厂的预制,以及实现持续改进和可重复测量的组织范围的改善实践。
Marks也强调了运营的社会许可。随着大规模开发的扩展,公众对能源、水和当地影响的审查正在加强。"最紧迫的问题是成为一个好邻居,"她说。她补充说,运营商必须证明项目如何使他们建设的社区受益。"当你计划在某个地方待一个世纪时,你建设的基础设施要设计得持久。"
这些决策对AI基础设施未来的意义
向AI规模基础设施的过渡正在迫使做出几年前难以想象的决策。冷却策略必须适应持续攀升的快速上升的热密度。选址策略必须考虑电网限制和区域韧性。建设方法必须提供速度、可重复性和可衡量的可持续性结果。能源策略必须从消费发展到与电网的合作。
每个选择都带来超越单个项目的影响。混合冷却在近期可改装性与持续可维护性和培训要求之间取得平衡。分布式选址可以释放电网容量并支持区域生态系统,但它引入了与延迟、许可和社区参与相关的考虑因素。预制提高了上市速度和质量保证,但引发了关于现场定制和供应商生态系统的问题。电网合作为韧性开辟了途径,但取决于监管一致性和公用事业伙伴关系。对于行业专业人士来说,今天做出的决策不仅会影响AI生态系统的性能和成本,还会影响其长期的环境和社区影响。
Q&A
Q1:混合冷却技术是什么?它如何解决AI数据中心的散热问题?
A:混合冷却是一种能让数据中心在机架和行级别逐步从风冷过渡到液冷的平台技术。它允许客户在现有风冷系统旁边引入直接芯片冷板或行级液体分配,只在AI工作负载需要时启用液冷系统,无需拆除现有基础设施。这种方法特别适合GPU集群超过50千瓦每机架的高密度计算环境。
Q2:为什么Pulsant选择在伦敦以外地区扩建AI数据中心?
A:因为英国大部分数据中心产能集中在伦敦周围,那里的电力、土地和开发时间表都受到限制。Pulsant选择在Milton Keynes等地区扩建高密度计算能力,旨在更均匀地分布数字基础设施,利用这些地区的电网可用性,同时支持地区科技生态系统发展,并充分利用现有的数字基础设施资源。
Q3:工业化预制建设方式对数据中心建设有什么好处?
A:预制建设可以显著提高建设效率和可持续性。Compass数据中心报告显示,80%以上的设施采用预制设备、组件或预制构件,实现隐含碳减少18%,现场建设时间减少约25%。工厂化生产还能在投入使用前测试工程和运营改进,更容易衡量环境影响,并通过标准化设计实现持续改进。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.