网易首页 > 网易号 > 正文 申请入驻

浸没式液冷广泛应用还需应对哪些挑战?

0
分享至

(本文编译自electronicdesign)

由于人工智能(AI)和高性能计算(HPC)的兴起,数据中心的工作负载持续激增,传统的空气冷却方法已逐渐接近实际应用的极限。随着热负载的增加和密度要求的提升,数据中心运营商迫切需要寻找新的散热管理方案。浸没式液冷已成为一条充满前景的发展路径。

然而,这一转变暴露出行业在定义和测试组件可靠性方面存在的显著漏洞。为空气冷却环境制定的标准,从未考虑过组件完全浸没在介电流体中时的材料性能表现。鉴于架构设计和性能方面的新需求,老化模型、故障模式甚至组件耐用性的基本假设等关键因素都需要重新考量。

这一变革正在重塑数据中心运营商评估组件可靠性的方式。支持空气冷却系统的现有标准曾发挥过重要作用,但如今必须升级以应对浸没式液冷环境带来的新挑战。

尽管空气冷却标准长期为系统规划提供指导,但浸没式液冷引入了一套不同的老化机制和材料挑战。为了跟上发展步伐,工程师和开放计算项目(OCP)等行业组织正携手合作,基于真实的浸没式液冷条件构建测试框架。这一转变凸显了空气冷却系统与浸没式液冷系统在设计和可靠性方面的显著差异(见图1)。

浸没式液冷技术如何重构系统设计挑战?

浸没式液冷消除了气流限制,但要求从根本上重新思考基础设施、材料选择和系统设计等方面。传统的空气冷却系统依赖风扇和散热器,如今在管理组件热设计功率(TDP)方面面临越来越大的挑战——目前的组件TDP通常超过300瓦,许多下一代GPU和AI加速器甚至突破了400瓦的临界阈值。一旦超过这一阈值,气流往往不足以维持安全工作温度。

为了弥补这一差距,许多数据中心运营商最初转向冷板冷却技术,该技术通过将液体直接循环至最热的组件来改善热传递。然而,尽管这种方法比空气冷却更能应对更高的芯片密度,冷板解决方案却带来了大量的管道布置、复杂的机架级热交换器集成,以及额外的机械故障点,包括管道和连接处泄漏的风险。

随着计算负载持续攀升,无论是单相还是双相的全浸没式冷却,正成为克服空气冷却和冷板系统结构与散热限制的下一个选择。通过将服务器完全浸没在介电流体中,浸没式液冷从根本上避开了气流限制。

与传统空气冷却相比,浸没式液冷潜在的节能效果(通常称可达30%)取决于多个因素,包括使用的特定浸没式技术、基准空气冷却系统的电源使用效率(PUE)、气候条件以及IT负载的特性。在最佳条件下,这可能显著提升能源效率。然而,实现这些收益需要的不仅仅是对现有硬件的改造。

浸没式液冷改造面临的挑战

改造现有数据中心往往面临严峻挑战。许多传统数据中心使用高架地板,但这些地板并非为支撑浸没式液冷水箱的重量和密度而设计。升级此类站点通常需要花费高昂的成本进行结构加固,同时还需添加浸没式液冷所需的系统,如热交换器、流体管道和维护通道。

鉴于这些结构和基础设施方面的挑战,大多数新的浸没式液冷部署正转向专门建造的“AI工厂”环境——这类环境的地板支撑、冷却基础设施和空间布局均针对浸没式架构进行了专门设计。

在新建数据中心中,浸没式液冷可实现更高的机架密度和更优的散热控制,但这一优势仅在基础设施为浸没式系统专门设计时才能实现。

基于空气冷却标准的局限性

浸没式液冷虽具备显著的散热优势,但也暴露出传统可靠性框架的不足。现存的大多数标准旨在模拟材料在空气中的老化过程——在这种环境下,氧化(而非化学相互作用)是导致故障的主要因素。而在介电流体内部,氧化过程会显著减缓。

取而代之的是热化学降解风险,括潜在的水解反应、材料膨胀,以及添加剂逐渐渗入流体等现象,这些已成为主要风险。随着时间推移,此类化学变化会削弱材料的机械性能,进而影响它们的长期可靠性。诸如混合气流老化测试等传统方法,其初衷是通过让材料暴露于二氧化硫、二氧化氮等反应性气体中来模拟空气中的腐蚀情况,但这类方法已无法匹配流体环境中的实际失效机制。

除了上述在可靠性标准方面遇到的挑战,浸没式液冷在热设计和机械设计方面也面临着一些问题。

当涉及数据中心的液冷技术时,即使是关于热行为的基本假设也需要转变。组件温升限制(通常相对于环境空气定义,例如温升30°C)无法直接套用,因为核心因素始终是组件的结温(Tj)。

流体能更高效地从表面带走热量,允许整体流体温度有一定的潜在升高(无论是40°C、50°C或更高)。然而,目前行业尚未就标准化的安全工作流体温度阈值达成共识,这些阈值需确保不同硬件的结温(Tj)均处于可接受范围。

机械应力的表现也有所不同。在流体中,振动和冲击会被抑制,这虽然掩盖了传统的疲劳模式,但引入了新的机械考量,例如组件受到的浮力效应或流体动力学产生的应力,这些均未被基于空气冷却的模型纳入考量。

长期以来,尽管加速老化表都为空气环境中的可靠性预测提供指导,但浸没式液冷领域尚未有与之匹配的表格。缺乏这些数据,制造商不得不从不完整或不匹配的数据中推断组件耐用性。随着浸没式液冷从试点项目转向大规模生产部署,这是一个充满风险的命题。

基于空气冷却的标准已不再适用于沉浸式环境中占主导地位的化学和机械失效模式(如图2所示)。对流体特定可靠性模型的需求已不再停留在理论层面,而是一个日益扩大的缺口,必须加以填补以支持下一代高性能数据中心的发展。

早期浸没式液冷部署观察

尽管业界对浸没式液冷的兴趣与日俱增,但当前大多数部署仍依赖对空气冷却硬件的改造,而非专门为浸没式环境设计的架构。许多早期部署只是简单地将风冷服务器浸没在介电流体中,可用“一浸了之,听天由命”来形容。这种方法会立即暴露出兼容性问题,且几乎无法为长期标准制定提供可用的可靠性数据。

如果没有专门为浸没式液冷设计的硬件,就很难从现场经验中分离出真正的失效机制或构建可靠的老化模型。许多基于空气冷却假设设计的早期系统,在流体环境中因设计过度而掩盖了潜在的可靠性风险,同时也未能充分发挥效率提升的潜力。

浸没式液冷中的电气与互连挑战

电气方面的挑战也逐渐显现。由于介电流体的介电常数(Dk)和介电损耗(Df)高于空气,高速连接器会出现更显著的信号衰减和阻抗偏移,尤其是在高频场景下。如果不加以解决,这些影响将降低系统带宽和吞吐量,因此专用互连技术成为下一代设计的核心需求。

浸没式液冷技术专用硬件创新机遇

与此同时,浸没式液冷环境也带来了大量新机遇。近期的测试表明,最初为空气冷却设计的电源连接器在完全浸没时可承载超过其额定电流150%的负载。未来针对浸没式液冷优化的设计可能将铜材用量减少多达一半,同时仍满足严苛的热管理和电气要求,支持更紧凑、高效的配置。

借助真正针对浸没式液冷优化的框架,行业可以重新思考系统设计的基础层面,包括机架密度、基于流体的热管理以及长期机械耐久性。专用系统将实现更小巧的外形尺寸和更高的散热裕量,同时增强对流体环境中新型化学和机械应力的抵御能力。

调整加速寿命测试并引入新策略

随着浸没式液冷技术被更广泛的应用,可靠性测试方法也必须随之演进,以反映基于流体环境的实际情况。

加速寿命测试(ALT)仍是核心方法,但其在浸没式液冷中的应用需要调整。由于传统老化模型不再适用,行业开始应用失效物理(PoF)原理,识别材料、结构和电气路径在真实浸没式条件下的退化方式,从而从头开始定义可靠性。

传统的加速模型,如用于热老化的阿伦尼乌斯模型,可能需要修订,以纳入化学反应动力学和流体-材料相互作用,这可能会改变标准加速因子。浸没式环境还需要补充策略:失效测试(TTF)技术在识别材料膨胀、密封件化学软化以及电气性能逐渐变化等风险方面变得愈发重要。

整合复合应力因素以实现真实场景测试

如今,有效的可靠性测试需要整合多个并发应力因素。必须综合评估热循环、机械负载、化学降解和电信号偏移,以全面表征系统随时间的行为变化。基于氧化老化和热应力松弛的框架(曾足以满足空气冷却需求)已不再适用。

新模型(很可能基于失效物理(PoF)方法)必须考虑热化学降解动力学、流体-材料兼容性,以及浸没式液冷引入的独特机械负载,如浮力和流体动力。

探索高加速寿命测试(HALT)在浸没式环境中的作用

HALT虽尚未广泛应用于浸没式液冷领域,但在揭示浸没式系统特有的设计漏洞方面具有潜力。将HALT适配于浸没式环境也带来了新挑战,尤其是在流体介质中直接施加极端复合应力(热应力、振动应力和化学应力)方面。传统的干空气HALT方法可能使硬件通过测试,但这些硬件在接触流体后却可能失效,这凸显了基于浸没式环境的应力测试的必要性。

构建完整的浸没式可靠性测试周期

仅持续数天的短期浸没式评估,可能会忽略那些只有在长期接触流体后才会显现的关键失效机制。有效的加速测试方案必须复现长期浸没过程中累积的化学、热和机械影响,而不仅仅是进行短期测试。

针对浸没式环境的结构化测试方法需重点关注以下方面:测试矩阵应涵盖三个关键阶段:空气中的干燥基准测试、完全浸没运行测试,以及浸没后的(湿态空气中的)性能测试。捕捉这一完整周期至关重要,因为组件在浸没过程中可能吸收流体,即使干燥后也会改变其机械强度和电气性能。

在某些情况下,“湿态空气中”的条件风险最高,因为滞留的流体残留物(尤其是在多孔材料中)可能在组件重新暴露于空气时削弱介电强度或加速局部腐蚀。

重新定义浸没式可靠性的行业标准

浸没式液冷技术的当前首要解决的任务包括,解决材料在流体环境下的化学降解问题,以及信号完整性偏移问题。与此同时,开放计算项目(OCP)的参与者正在重新评估传统加速老化模型,并认识到基于空气冷却的假设已无法可靠预测浸没式系统中的退化模式。

也可以从其他行业获得借鉴。例如,在汽车可靠性测试中,通常会故意引入污染物以模拟长期的实际退化。类似的方法也可用于强化浸没式验证:通过故意引入已知的化学降解催化剂,加速通常在多年运行周期中才会出现的失效机制。

如果没有围绕流体特定可靠性框架达成共识,浸没式测试可能因专有方法的碎片化而面临风险,导致互操作性挑战并延迟技术普及。通过尽早投入共享方法的研发,企业正助力构建可预测的可靠性路径和可扩展的浸没式液冷系统。行业协作只会进一步推动这些工作的统一(如图4所示)。

加速实现浸没式液冷的可靠性

未来两到三年内,浸没式液冷技术的发展轨迹将取决于行业能否正式制定流体特定的可靠性标准、扩展实验室基础设施,并从早期部署中收集真实场景的性能数据。

当前的当务之急是将基于失效物理(PoF)原理的标准化可靠性框架形成规范,以解决材料、机械结构和电气系统在流体环境中的行为问题。

同样关键的是,从早期浸没式液冷部署中收集真实失效数据,这对验证实验室加速模型和完善长期可靠性预测至关重要。为加速寿命分析、流体-材料兼容性验证和浸没后失效评估制定明确的测试协议,是在供应商之间生成一致且可对比数据的关键。

扩展对浸没式兼容测试环境的访问(如流体老化试验台、多应力测试平台、环境试验箱和先进材料表征系统)对于填补现有数据空白同样至关重要。如果无法在真实条件下施加化学、热、机械和电气复合应力,耐用性预测将始终存在不确定性,从而阻碍大规模部署。

浸没式液冷的潜在优势是巨大的:更高的机架密度和更优的散热裕量均契合人工智能驱动的高性能计算架构的演进需求。

因此,正式制定标准并扩展浸没式专用测试能力,对于统一可靠性实践、简化组件验证并支持大规模普及至关重要。

需要认识到的是,我们必须在浸没式生态系统仍在成型之际填补这些技术空白,因为这将决定高性能计算的未来。通过建立清晰的标准并构建严谨的流体特定测试框架,行业能够释放浸没式液冷技术的全部潜力,并在未来数十年重塑数据中心的格局。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李湘终于回应了!辟谣因洗钱被禁言,律师维权声明曝光!

李湘终于回应了!辟谣因洗钱被禁言,律师维权声明曝光!

古希腊掌管月桂的神
2026-01-26 15:58:43
哈萨克斯坦是一个很奇怪的国家。

哈萨克斯坦是一个很奇怪的国家。

南权先生
2026-01-26 15:42:25
董路:杨毅说40分钟收6块8 我苦哈哈聊4小时才收8块8 回头我涨价

董路:杨毅说40分钟收6块8 我苦哈哈聊4小时才收8块8 回头我涨价

风过乡
2026-01-27 07:06:46
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
庾澄庆牵老婆看演唱会,张嘉欣皱纹多,瘦又矮,却被夸完胜伊能静

庾澄庆牵老婆看演唱会,张嘉欣皱纹多,瘦又矮,却被夸完胜伊能静

白面书誏
2026-01-26 16:24:56
93年粮站来了个女劳改犯,我辞职下海那天,她拉着我:带我走

93年粮站来了个女劳改犯,我辞职下海那天,她拉着我:带我走

萧竹轻语
2026-01-22 14:58:10
日本新首相人选正式出炉,对华政策引人关注

日本新首相人选正式出炉,对华政策引人关注

风干迷茫人
2026-01-26 12:08:00
支持率暴跌后,高市这下慌了,日本商界发声:绝不能离开中国

支持率暴跌后,高市这下慌了,日本商界发声:绝不能离开中国

娱乐督察中
2026-01-27 07:51:49
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

华庭讲美食
2026-01-19 14:27:13
外交部和中国驻日本使领馆提醒:中国公民春节期间避免前往日本;49条中日航线取消全部航班

外交部和中国驻日本使领馆提醒:中国公民春节期间避免前往日本;49条中日航线取消全部航班

每日经济新闻
2026-01-26 19:13:15
日本K杯偶像发视频呼吁2月8日一起去投票,粉丝大赞

日本K杯偶像发视频呼吁2月8日一起去投票,粉丝大赞

随波荡漾的漂流瓶
2026-01-26 18:40:03
马内回归救主,利雅得胜利3连胜

马内回归救主,利雅得胜利3连胜

体坛周报
2026-01-27 07:41:09
成都西岭雪山景区就“围雪收费”致歉:已新增3个免费项目区

成都西岭雪山景区就“围雪收费”致歉:已新增3个免费项目区

黄河新闻网吕梁频道
2026-01-22 09:36:52
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
美军向伊朗调集重兵,中方平淡回应,伊朗只剩唯一的选择

美军向伊朗调集重兵,中方平淡回应,伊朗只剩唯一的选择

南权先生
2026-01-26 15:38:11
凤姐,能否逃过美国斩杀线,大概率很难了

凤姐,能否逃过美国斩杀线,大概率很难了

月满大江流
2025-12-28 09:47:42
俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

林子说事
2026-01-26 12:49:07
李湘和老燕子夫妻的“H南帮”!

李湘和老燕子夫妻的“H南帮”!

八卦疯叔
2026-01-26 11:45:10
央视披露:太原舰遭美舰高速逼近,全舰拉响警报导弹进入待命状态

央视披露:太原舰遭美舰高速逼近,全舰拉响警报导弹进入待命状态

阿龙聊军事
2026-01-26 20:40:50
远藤航:对输球感到失望,我觉得我们下半场踢得还不错

远藤航:对输球感到失望,我觉得我们下半场踢得还不错

懂球帝
2026-01-26 17:30:13
2026-01-27 09:07:00
TechSugar incentive-icons
TechSugar
做你身边值得信赖的科技新媒体
4983文章数 12730关注度
往期回顾 全部

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

头条要闻

牛弹琴:韩国人万万没想到在睡梦中 特朗普突然下手了

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

金价狂飙 “牛市神话”未完待续

科技要闻

理想开始关店“过冬”,否认“百家”规模

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

游戏
手机
家居
亲子
公开课

LPL最强战队易主!JDG双杀BLG登顶LPL,国一教实至名归?

手机要闻

iQOO 15、一加15、REDMI K90 PM周销量分析

家居要闻

流韵雅居,让复杂变纯粹

亲子要闻

你会害怕溺爱孩子吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版