一、液冷——智算中心的核心散热技术
当AI算力以指数级速度增长,传统风冷已触及散热天花板。液冷技术凭借温度传递快、带走热量多、噪音低、节能省空间等显著优势,正全面取代风冷,成为未来智算中心的散热主轴。
最具标志性的事件是:英伟达最新商用的GB200系列及后续产品,已全面采用冷板液冷方案,实现100%全液冷架构,液冷覆盖CPU、GPU、内存等全部核心部件。这意味着,液冷已从"可选项"升级为"必选项"。
![]()
二、液冷系统的通用架构
液冷系统可清晰拆解为机房侧和ICT设备侧两大部分。机房侧进一步细分为一次侧和二次侧——浸没式与冷板式在机房侧架构基本一致,核心差异体现在ICT设备侧。
层级
组成
功能说明
一次侧(室外)
冷却塔、一次侧管网、一次侧冷却液(通常为水)
外部冷源(冷水机组/冷却塔/干冷器),通过水温升降实现热量转移
二次侧(室内)
CDU、液冷机柜、二次侧管网、二次侧冷却液
供液环路+服务器内部流道,通过冷却液温度升降转移热量;与一次侧通过CDU中的板式换热器完成间壁式换热
ICT设备侧
浸没式:Tank+制冷工质,设备完全浸没;冷板式:冷板贴合CPU/GPU/内存等核心热源上方
两种技术路线的核心分水岭
制冷工质选择:
- 冷板式:乙二醇/丙二醇溶液(防冻需求)或去离子水
- 浸没式:氟化液、矿物油(如硅油)等
三、液冷加速渗透的四大驱动力
驱动力一:散热更强,综合成本更低
高散热:液冷介质——去离子水、醇基溶液、氟碳类工质、矿物油等——其载热能力、导热系数和对流换热系数均远超空气,单芯片散热能力大幅领先风冷。
低TCO:液冷虽增加初期投资,但运行成本显著降低,投资回收期短:
数据来源
核心结论
中兴通讯测算
10MW数据中心,液冷方案(PUE 1.15)vs 冷冻水方案(PUE 1.35),约2.2年回收增量初投资
施耐德数据
相同容量下,20kW/机架液冷比风冷节省10%投资,40kW/机架节省14%投资
驱动力二:算力功耗密度飙升,液冷成为刚需
智算中心芯片功耗持续攀升,单机柜热密度正以前所未有的速度增长:
芯片/架构
TDP功耗
英伟达B200
1000W
GB200超级芯片(1颗Grace CPU + 2颗Blackwell GPU)
2700W
AI GPU机架峰值密度(Vertiv预测)
2024年130kW→ 2029年突破1MW
GPU架构从Blackwell向Rubin Ultra持续进化,功耗密度只增不减。液冷不再是锦上添花,而是硬性门槛。
驱动力三:全球PUE管控趋严,能耗倒逼液冷
碳中和背景下,各国对数据中心PUE提出更严格要求。以我国为例,新建大型/超大型数据中心PUE须降至1.25以内。
PUE =(IT设备 + 制冷设备 + 供电设备 + 照明及其他)÷ IT设备能耗
PUE越接近1,数据中心能耗越集中于IT设备本身。而在传统风冷数据中心中,温控环节能耗占比高达40%(主要来自精密空调)。液冷替代精密空调,是降低PUE、节约整体能耗的最有效路径。
驱动力四:全球CSP云厂商全面拥抱液冷
微软、谷歌、Meta、亚马逊等头部云厂商均已在新建数据中心中大规模部署液冷方案,行业共识已经形成。
![]()
四、液冷三大技术路线全景
按接触方式,液冷分为冷板式、浸没式、喷淋式三大类;按是否相变,各自又可细分为单相和两相方案。
路线
子类
是否相变
成熟度
冷板式
单相冷板式 / 两相冷板式
单相 / 两相
★★★★★(当前主流)
浸没式
单相浸没式 / 相变浸没式
单相 / 两相
★★★☆☆(快速增长)
喷淋式
★★☆☆☆(特定场景)
五、冷板式液冷——当下主流方案
5.1 基本原理与特点
冷却液不直接接触电子器件,而是通过冷板将发热元件的热量间接传递给循环管路中的冷却液,再由冷却液带走热量。
优势
劣势
兼容现有硬件架构,易于维护
低功耗时机柜节能收益不显著
液体与设备不接触,可靠性高
液冷板需适配器件布局,标准化难度大
5.2 两种部署模式
模式
全称
适用场景
L2A
Liquid to Air Side Car(空气辅助液冷)
传统风冷数据中心改造,无需额外液冷基础设施
L2L
Liquid-to-Liquid CDU(液态冷却)
MW级IT热量清除,需额外液冷基础设施,适合大规模智算中心
六、冷板式的两大进化方向
方向一:两相式冷板——利用汽化潜热,散热能力跃升
与单相液冷(冷却液始终为液态)不同,两相冷板式液冷允许冷却液在吸热端沸腾为气态,在冷凝端放热后恢复液态,利用汽化潜热实现更高效的热量转移。
两相冷板式液冷有望实现2500W级芯片散热。
方向二:微通道液冷板(MLCP)——冷却液直达芯片表面
MLCP(Micro-Channel Liquid Cooling Plate)通过蚀刻工艺将传统毫米级流道缩小至30~150微米级别,并将均热板、水冷板、芯片封装盖板(IHS)三合一,最大程度减少导热界面材料(TIMs)的使用。
核心特征
微型化
流道从毫米级缩至微米级,热交换效率大幅提升
高度集成化
多组件合一,冷却液更贴近芯片,散热路径更短
商业化前景:
指标
数据
MLCP单价
传统水冷板的3~5倍
GB300机柜用量
108 + 18个MLCP/机柜
单块报价
800~900美元
毛利率
较高
行业最新进展:2024年9月23日,微软CEO纳德拉宣布,其团队已开发出微流体冷却技术——通过细如发丝的微小通道,将冷却液直接输送至芯片内部。该技术散热效率比现有散热板高出3倍,可将芯片最高温升降低65%。
七、浸没式液冷——超高密度场景的终极方案
浸没式液冷将ICT设备完全浸入制冷工质中,分为单相和双相(相变)两种方案:
对比维度
单相浸没式
双相(相变)浸没式
散热原理
液体循环对流散热
沸腾相变(液相→气相),利用汽化潜热
散热效率
较高
极高
功率密度
中高
250~500kW/浸没腔
机柜设计
更简单,氟化液易操作维护
相对复杂
材料兼容性
好,污染物风险低
需关注相变过程中的材料影响
基础设施
较复杂
更简单,可用干式冷却器,无需冷却水塔
双相浸没式的核心优势:通过沸腾过程实现极高传热效率,支持超高功率密度;且冷却基础设施更简洁,一次侧可直接采用干式冷却器,无需蒸发降温设施。
![]()
八、总结
维度
风冷
液冷
单机柜散热上限
~30~50kW
100kW~1MW+
PUE
1.3~1.5
1.1~1.2
噪音
极低
适用场景
传统数据中心
智算中心/高密度AI集群
一句话总结:当AI芯片功耗从百瓦级跃升至千瓦级、机柜密度从数十千瓦飙向兆瓦级,液冷已不是"要不要用"的问题,而是"怎么用、用哪种"的问题。
- 冷板式是当下主流,微通道(MLCP)和两相式是近中期方向;
- 浸没式是超高密度场景的终极答案;
- 液冷,是智算中心高密度算力时代唯一的散热出路。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.