![]()
人工智能和机器学习正在推动高性能计算(HPC)的爆炸式增长。随着计算密度进入曾经被认为是科幻小说的领域,功率密度从过去的每机架10-20千瓦现在接近甚至超过100千瓦,一些AI集群甚至接近每机架200千瓦。
即使是最优化的风冷系统也无法处理这种技术产生的热通量。混合冷却是最实用的前进道路。
这种冷却方法的实施在很大程度上取决于运营商是建设全新站点(绿地项目)还是改造现有设施(棕地项目)。在建立高密度、液冷辅助的HPC环境时,在可持续性、可扩展性和成本效益方面,绿地新建和棕地改造之间存在权衡。
冷却的必要性
随着计算密度的增加,基于空气的系统扩展性很差。在机架规模超过20-30千瓦时,所需的气流变得困难,密集的GPU阵列和AI加速器使问题进一步恶化。即使采用最严密的封闭措施,热点也会开始出现,冷通道中的压降增加,风扇超过其最大速度。
结合直接液冷(DLC)技术(如直接芯片冷却DTC)与传统气流设计的混合冷却解决方案,可以减少能源使用和运营费用,同时提高效率。
绿地建设:为未来而设计
绿地数据中心为设计师提供了从一开始就融入创新热量回收系统、液冷优先冷却系统和可再生能源集成的机会。新建项目提供了构建最佳物理布局的绝佳机会,优化电力分配、冷却系统和网络架构。由于您是从零开始设计和建造,基本上是在一张白纸上实施效率和可持续性目标,同时能够选择电力、水源和网络接入的最佳站点位置。
对于规划长期HPC路线图的运营商来说,新建项目提供了最大的灵活性和可持续性。不受限制的设计自由度使得能够实施最新的创新和最佳实践,最大化效率、密度、性能和可扩展性。
优化设计:组件和空白空间布置可针对超过100千瓦的机架密度进行优化。
可扩展性:通过高容量基础设施和模块化构造实现预期增长。
可持续性:融入热量回收和再利用、可再生能源和低水使用效率解决方案,提高能源效率,最小化环境影响。
运营清晰度:标准化组件和简化流体分配加速维护。现代安全保障措施可集成到新建筑中,确保符合法规和行业标准。
基准考量
站点选择时间线、许可证、公用事业协调和设计验证延长了项目周期并增加了资本成本。如果HPC工作负载的发展速度超过基础设施,也可能产生不确定性。
建设绿地数据中心是对面向未来基础设施的深思熟虑的投资。效率和面向未来的优势通常使成本物有所值,特别是对于致力于可持续性和高密度计算的超大规模运营商,并为寻求建立数据中心卓越新基准的组织提供了机会。
棕地改造
虽然行业痴迷于绿地"AI就绪"运营,但最快的前进道路可能在于现有设施。
通常比新建成本低30-50%,更重要的是避免了两年多的收入延迟,棕地改造仍然是实现HPC能力的最直接途径。棕地改造的一些优点是通常更具成本效益、部署更快,并且可以在任何已有现有公用设施和连接的地方进行。一些缺点是数据中心和/或改造将受到现有占地面积和基础设施的限制,现有建筑可能面临能源效率低下的问题,改造新的DLC解决方案可能具有挑战性。
对于寻求快速部署的组织来说,升级现有数据中心以支持更高密度的改造是一个有吸引力的选择。利用现有的电力、水源和建筑基础设施,较低的初始资本支出,还可以避免与新建相关的长时间线。
部署速度:加速AI就绪性,无需等待新建筑的建设。
较低的前期投资:现有电气和机械系统可以重复使用或增量升级,控制资本支出。
降低风险:渐进式过渡策略延长资产寿命并管理总拥有成本。
靠近网络交换中心:棕地项目通常位于延迟至关重要的地方。
传统问题
棕地站点的主要问题是它们本质上受到传统设计的约束,这些设计并非为每机架40-100千瓦、液冷或AI集群所需的电力升压变压器而设计。现有的风冷布局可能限制可实现的机架密度和气流管理。地板通常无法承受DTC机架或浸没式冷却罐的重量,将DLC改造到风冷机房可能复杂且具有挑战性。
然而,改造解决方案的技术生态系统已经大大改善。通过混合冷却设计,DTC冷却和预制液冷循环可以添加到现有系统中,而无需完全重建,允许增量升级。
混合策略
棕地和绿地方法都有显著优势,取决于组织的目标和时间表。虽然棕地改造提供敏捷性和成本控制,绿地站点实现最佳性能和可持续性。
混合策略可以通过利用现有资源同时为向高密度、液冷优先HPC架构的过渡做准备,在运营连续性和财务风险之间取得平衡。使用分区混合冷却,通过封闭或分隔行将高密度HPC集群与传统IT设备分离,允许液冷机架高效运行而不干扰风冷区域。非HPC区域可以继续使用现有的风冷系统,实现有针对性的投资以延长资产寿命、提升性能并降低总拥有成本,而无需完全重建。
这种方法显著改善热效率,无需完全重建。从经济角度来看,它延长了当前资产的使用寿命,同时为液冷优先的过渡做好准备。
务实之路
最好的设计不一定是今天完美的设计,而是能够轻松适应未来发展的设计。最有洞察力的参与者是那些采用进化思维的人。
通过仔细融合绿地设计的愿景与棕地改造的速度,运营商可以节约成本、管理风险,并为AI驱动的未来HPC准备基础设施。
Q&A
Q1:为什么传统风冷系统无法满足AI计算需求?
A:随着AI和机器学习推动高性能计算发展,功率密度从过去的每机架10-20千瓦现在接近甚至超过100千瓦,一些AI集群甚至接近每机架200千瓦。即使是最优化的风冷系统也无法处理这种技术产生的热通量,在机架规模超过20-30千瓦时,所需气流变得困难,会出现热点、压降增加等问题。
Q2:绿地数据中心建设有什么优势?
A:绿地数据中心可以从一开始就融入创新热量回收系统、液冷优先冷却系统和可再生能源集成。提供了构建最佳物理布局的机会,优化电力分配、冷却系统和网络架构。不受限制的设计自由度使得能够实施最新创新和最佳实践,最大化效率、密度、性能和可扩展性,并能选择电力、水源和网络接入的最佳站点位置。
Q3:棕地改造相比新建有什么优势?
A:棕地改造通常比新建成本低30-50%,更重要的是避免了两年多的收入延迟,是实现HPC能力的最直接途径。部署速度更快,可以利用现有的电力、水源和建筑基础设施,初始资本支出较低。通常位于网络交换中心附近,在延迟敏感的应用中具有优势,还能通过渐进式过渡策略降低风险。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.