![]()
人工智能的蓬勃发展催生了数十个专门的AI数据中心建设项目,这些设施从头开始建造,专门用于处理AI工作负载的独特需求。但大多数AI数据中心项目需要数年时间才能完成。即使建成后,仅靠这些新建设施可能也无法满足日益增长的AI基础设施需求。
因此,数据中心行业必须在投资全新专用AI数据中心的同时,对现有设施进行改造以支持AI应用。在许多情况下,对数据中心进行改造以适应AI需求,是比建设新设施更快速、更经济、更可持续的AI部署路径。
然而,这种改造也面临挑战。AI工作负载有特殊要求,传统数据中心并非总能很好地满足这些需求。在某些情况下,AI改造的成本可能超过其带来的收益。
传统数据中心面临的AI挑战
理论上,任何数据中心都可以支持任何类型的工作负载。数据中心本质上就是容纳服务器的建筑物,而托管AI工作负载的服务器在规模或类型上与托管传统服务(如网络应用或数据库)的服务器并无根本差异。
然而,在传统数据中心运行AI的挑战在于,AI工作负载,尤其是那些由大语言模型驱动的应用,其运行规模往往超出传统设施的承载能力。具体来说,传统数据中心在支持下一代AI工作负载时可能在以下几个方面存在局限:
电力供应:无论是在训练还是推理过程中,AI模型的能耗都比大多数其他类型的工作负载更高。这意味着即使传统数据中心可以容纳AI服务器,也可能无法提供这些服务器运行所需的全部电力。
散热系统:高电力使用量必然带来高散热需求,因为更多的电力消耗会产生更多热量。传统设施的冷却系统往往没有足够的容量来满足AI的散热需求。
机架尺寸和布局:AI服务器,即使是包含GPU等专用硬件设备的服务器,通常可以装入标准数据中心服务器机架。然而,现有设施的机架可能太小,无法支持AI所需的服务器数量。机架布局也可能带来挑战,因为它们可能无法足够高效地散热。
网络基础设施:某些AI工作负载需要极低的延迟和高带宽。传统数据中心的网络基础设施可能无法跟上这些需求。
因此,虽然传统数据中心通常可以在一定程度上支持现代AI工作负载,但它们可能缺乏企业所需的电力、散热、机架规模和网络扩展能力来高效运行AI模型。
传统数据中心AI改造方案
通过改造,传统设施也可以适应AI工作负载。具体而言,数据中心运营商可以进行以下投资:
修改机架尺寸或服务器房间布局:这是一种相对便宜且简单的AI改造策略,但只有在设施同时具备支持更大更密集服务器部署的电力和散热能力时才能发挥作用。
部署更高效的散热系统(如芯片直接散热),这可以在不需要大幅增加电力消耗的情况下提高AI散热能力。虽然需要大量前期投资,但可以带来长期节省。
升级电力基础设施,使设施能够接收更大电量并分配给服务器。这是一项成本相对较高的投资,而且问题是电网有时根本缺乏向数据中心提供更多电力的能力。在这种情况下,部署现场发电可能是一种选择,但这会为改造项目增加更多费用。
提高现有数据中心电气基础设施的效率,以最大限度地减少"闲置电力"。这使数据中心能够更有效地利用现有的电力容量。这是比大型电力基础设施升级更小的投资,但缺点是可能只能带来电力容量的增量提升,这可能不足以将传统数据中心转变为世界级的AI数据中心。
升级网络基础设施以减少延迟并增加带宽。这种改变的成本差异很大。特别取决于数据中心距离企业级网络基础设施的距离:在数据中心可以连接到现有高性能网络连接的位置,改善网络性能会更容易,而不必在大面积区域铺设新的网络基础设施。
改造与重建的选择策略
改造的替代方案是建设全新的数据中心,从一开始就能够支持AI工作负载。主要缺点是需要大量费用和时间。还有一个风险是,当新的AI数据中心建成运行时,AI工作负载可能已经发生变化,新设施不再适合。
选择改造还是完全重建在很大程度上取决于现有设施能力与AI工作负载需求之间的差距。AI工作负载的需求在规模和范围上可能差异很大;例如,部署预训练模型通常比运行必须先训练后才能开始推理的模型需要更少的能源。驱动AI工作负载的特定硬件类型可能差异很大,能源和散热需求也是如此。
因此,对计划中的AI工作负载需求和当前数据中心容量进行详细分析至关重要。这种分析对于确定改造项目是否足以使数据中心跟上现代AI的步伐,或者是否需要完全重建是必不可少的。
Q&A
Q1:传统数据中心为什么无法直接支持AI工作负载?
A:传统数据中心在电力供应、散热系统、机架布局和网络基础设施等方面存在局限。AI工作负载特别是大语言模型需要更高的电力消耗、更强的散热能力和更低延迟的网络连接,这些需求往往超出了传统设施的承载能力。
Q2:数据中心AI改造有哪些主要方式?
A:主要改造方式包括:修改机架尺寸和服务器房间布局、部署芯片直接散热等更高效散热系统、升级电力基础设施提高供电能力、优化现有电气设施减少闲置电力浪费,以及升级网络基础设施降低延迟增加带宽。
Q3:如何决定是改造现有设施还是重建AI数据中心?
A:决策主要取决于现有设施能力与AI工作负载需求之间的差距。需要对计划中的AI工作负载需求和当前数据中心容量进行详细分析,评估改造是否足以满足现代AI需求,还是需要完全重建。重建虽然成本高时间长,但能确保完全适配AI需求。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.