网易首页 > 网易号 > 正文 申请入驻

Frore为英伟达提供1950W高效液冷方案 技术突破 产业适配与算力散热

0
分享至

前言

在AI算力爆发式增长的当下,芯片功耗与热流密度的攀升正成为制约算力释放的核心瓶颈。英伟达作为全球AI算力基础设施的核心供应商,其下一代GPU产品的功耗持续突破物理边界,从Blackwell架构的1400W跃升至Rubin架构的1950W,未来Feynmann架构更是直指4400W级别,传统风冷技术早已触及散热物理极限,液冷技术成为唯一可行的规模化解决方案。Frore Systems凭借其独创的LiquidJet™冷板液冷技术,成功拿下英伟达Rubin GPU 1950W散热核心订单,不仅实现了超高功耗芯片的精准温控,更构建了“芯片直连液冷+定制化散热+全生命周期成本优化”的一体化解决方案,成为AI数据中心散热领域的里程碑式合作。







本报告将以Frore与英伟达1950W液冷合作项目为核心,从产业背景、技术底层、方案设计、性能验证、适配落地、成本分析、市场影响、未来趋势八大维度,进行20000字的深度解析,全面拆解该方案的技术突破点、英伟达的核心需求匹配逻辑、Frore的技术壁垒构建,以及该合作对全球AI算力散热产业、数据中心基础设施、液冷技术标准化的深远影响,同时结合行业数据与技术参数,还原从技术研发、产品测试到规模量产的全流程,为行业提供兼具技术深度、产业视角与实践参考的全景内容。

第一章 产业背景:AI算力攀升倒逼散热革命,液冷替代风冷已成必然

1.1 AI算力的指数级增长:从算力需求到芯片功耗的螺旋式上升

自2022年生成式AI爆发以来,全球算力需求呈现超摩尔定律的增长态势,据OpenAI测算,大模型训练所需算力每3-4个月翻倍,远快于摩尔定律“每18个月芯片性能翻倍”的节奏。大模型从GPT-3的1750亿参数,到GPT-4的1.8万亿参数,再到千亿级token的上下文窗口拓展,以及多模态大模型的视觉、音频、文本融合计算,对GPU的并行计算能力、显存带宽、算力密度提出了极致要求。

英伟达作为全球AI GPU的绝对龙头,其产品迭代始终紧跟算力需求,从A100的400W,到H100的700W,再到Blackwell Ultra的1400W,Rubin架构直接突破1950W,功耗的连续翻倍背后,是芯片架构的持续升级:计算核心数量的倍增、HBM显存的堆叠、制程工艺的极限挖掘、时钟频率的提升,多重因素共同推高了芯片的单位面积热流密度。数据显示,英伟达Rubin GPU集成了两颗全尺寸计算核心、8颗HBM显存及全套IO接口,芯片热流密度达到2.8W/cm²,较H100的1.5W/cm²提升86.7%,较传统CPU的0.3W/cm²提升8倍以上。

算力需求的增长不仅体现在单芯片功耗的提升,更体现在集群化部署的规模上。以英伟达DGX SuperPOD集群为例,单集群搭载256台DGX服务器,每台服务器配置8颗GPU,单集群GPU总功耗即可达到256×8×1950W=3993.6kW,约4MW,相当于一个小型工业园区的用电负荷。超大规模算力集群的部署,使得散热不再是单一芯片的技术问题,而是上升为数据中心基础设施的系统性工程,散热效率、能耗比、空间利用率成为决定算力集群性价比的核心指标。

1.2 传统风冷技术的物理极限:从散热能力到系统效率的全面失效

风冷技术作为数据中心散热的传统方案,凭借结构简单、部署便捷、初期投入低的优势,占据了数据中心散热市场的90%以上份额,但在超高功耗AI芯片面前,风冷技术已触及三重物理极限,全面丧失适用性。

1.2.1 散热能力极限:无法匹配超高热流密度需求

风冷的核心散热原理是空气强制对流换热,通过服务器风扇推动冷空气流经芯片散热鳍片,将热量带走后排出机柜。但空气的物理特性决定了其散热能力的上限:空气的导热系数仅为0.026W/(m·K),热容量为1.005kJ/(kg·K),而水的导热系数为0.607W/(m·K),热容量为4.186kJ/(kg·K),液体的导热能力是空气的23倍,热容量是空气的4.16倍。这一物理特性导致风冷的散热效率上限被牢牢锁定,其最大可支持的芯片热流密度为0.3W/cm²,而英伟达Rubin GPU的2.8W/cm²热流密度,已超出风冷散热能力的9倍以上。

为了勉强适配高功耗芯片,传统风冷方案只能通过增加风扇数量、提高风扇转速、扩大散热鳍片面积的方式被动应对,但这种方式不仅无法解决核心散热问题,还会引发一系列次生问题。以英伟达Blackwell Ultra GPU为例,若采用风冷方案,需为单颗芯片配备12个高速暴力风扇,风扇转速高达20000转/分钟,即便如此,芯片核心温度仍会超过95℃的过热阈值,导致GPU触发降频保护,算力释放率不足60%。

1.2.2 系统效率极限:PUE居高不下,能耗浪费严重

数据中心的电源使用效率(PUE) 是衡量散热系统效率的核心指标,计算公式为PUE=数据中心总能耗/IT设备能耗,PUE值越接近1,说明散热等非IT能耗占比越低,系统效率越高。传统风冷数据中心的PUE值普遍在1.5-1.8之间,部分高密度算力集群的PUE甚至超过2.0,这意味着数据中心每消耗1度电用于算力计算,就需要额外消耗0.5-1度电用于风冷散热。

风冷系统的高PUE主要源于两大能耗浪费:一是风扇的寄生能耗,服务器风扇的能耗占IT设备总能耗的10%-25%,超高功耗芯片的风冷方案中,风扇能耗占比甚至超过30%;二是空调制冷的冗余能耗,风冷系统需要将数据中心环境温度控制在20-25℃,才能保证散热效率,这就需要大规模部署中央空调系统,制冷能耗占数据中心总能耗的40%-50%。

以英伟达Rubin GPU单卡为例,1950W的芯片功耗若搭配风冷方案,单卡风扇能耗约600W,空调制冷的间接能耗约800W,单卡总能耗达到3350W,PUE值高达2.18,意味着超54%的能耗被散热系统浪费,这对于超大规模算力集群而言,是难以承受的运营成本压力。

1.2.3 空间利用极限:机柜密度受限,数据中心扩容成本飙升

风冷系统的散热效果高度依赖空气流通空间,为了保证冷空气能够顺利流经每一台服务器,风冷数据中心需要设置宽大的机柜间距、通风通道与冷热通道隔离区,这导致数据中心的空间利用率极低。数据显示,传统风冷数据中心的机柜功率密度普遍低于15kW/机柜,若要部署1950W的Rubin GPU,每台机柜最多只能配置6颗GPU,机柜功率密度仅为11.7kW/机柜,远低于液冷方案的50kW/机柜以上水平。

若强行在风冷数据中心提高机柜密度,会导致热岛效应的产生:机柜内部的热空气无法及时排出,与冷空气混合后形成局部高温区域,芯片温度持续攀升,最终触发过热关机。为了解决热岛效应,风冷数据中心只能通过扩大机柜间距的方式缓解,据测算,若要适配Blackwell Ultra GPU的1400W功耗,风冷数据中心的机柜间距需扩大50%,这将导致数据中心的空间利用率下降40%,直接推高土地购置、基建施工的固定成本,抵消GPU性能提升带来的算力效益。

1.3 液冷技术的崛起:从小众方案到规模化应用的产业拐点

面对风冷技术的全面失效,液冷技术凭借散热效率高、系统能耗低、空间利用率高的核心优势,成为超高功耗AI芯片散热的唯一解,全球液冷散热市场迎来从“小众试点”到“规模化应用”的关键拐点。

1.3.1 液冷技术的分类与核心特性

液冷技术是以液体为散热介质,通过直接或间接接触的方式,将芯片产生的热量传递至外部冷却系统的散热方案,根据芯片与冷却液的接触方式,可分为三大类:

1. 冷板式液冷(间接接触式):在芯片表面贴合金属冷板,冷却液在冷板内部的流道中循环,通过冷板与芯片的热传导带走热量,是目前技术最成熟、改造成本最低、兼容性最强的液冷方案,也是本次Frore为英伟达提供的1950W散热方案的核心技术路线。

2. 浸没式液冷(直接接触式):将整个服务器或芯片浸没在绝缘冷却液中,通过冷却液的自然对流或强制对流直接带走热量,散热效率最高,可支持热流密度10W/cm²以上的芯片,但初期投入高、后期维护复杂,适合超大规模算力集群的核心节点。

3. 喷淋式液冷(直接接触式):通过喷淋头将冷却液直接喷射至芯片表面,实现精准散热,散热效率介于冷板式与浸没式之间,但冷却液的密封与回收难度较大,目前仍处于技术验证阶段。

三大液冷技术的核心性能对比见表1-1:

技术类型 散热效率(W/cm²) PUE值 改造成本(相对服务器) 维护难度 兼容性

冷板式液冷 ≥5 1.1-1.2 +10% 低 高(兼容现有服务器)

浸没式液冷 ≥10 1.05-1.1 +30% 中高 中(需定制服务器)

喷淋式液冷 ≥7 1.08-1.15 +20% 高 低(需重新设计机柜)

传统风冷 ≤0.3 1.5-1.8 0 低 高

表1-1 液冷技术与风冷技术核心性能对比

1.3.2 全球液冷市场的增长态势与驱动因素

据IDC数据统计,2024年全球数据中心液冷市场规模达到42亿美元,同比增长95.3%,预计2028年市场规模将突破300亿美元,年复合增长率(CAGR)达到63.5%,液冷技术在数据中心散热市场的渗透率将从2024年的8.7%提升至2028年的45.2%。

液冷市场爆发的核心驱动因素主要包括四大方面:

1. 算力芯片功耗的持续攀升:英伟达、AMD、英特尔等芯片厂商的下一代GPU/AI芯片功耗均突破1000W,风冷技术无法适配,液冷成为强制标配,核心芯片厂商的技术要求直接推动液冷方案的规模化落地。

2. 政策端的能效考核倒逼:全球主要经济体均出台了数据中心能效管控政策,中国《数据中心冷板式液冷系统技术规范》明确要求单机柜功率超30kW必须采用液冷,并设立PUE 1.3的准入红线;欧盟《数据中心能效指令》要求2027年起数据中心PUE不得超过1.2;美国加州要求大型数据中心PUE低于1.15,政策端的硬性指标加速了液冷替代风冷的进程。

3. 运营端的成本优化需求:液冷方案的PUE值可降至1.2以下,较风冷方案节电30%以上,且机柜密度提升3-5倍,全生命周期成本(TCO)较风冷方案低25%,对于超大规模数据中心而言,液冷方案的电费节省与空间利用率提升,可在2-3年内收回初期改造成本。

4. 技术端的成熟度提升:液冷核心部件(冷板、冷却液、快换接头、泵阀)的技术成熟度持续提高,产品良率与可靠性达到商用标准,同时液冷方案的标准化工作稳步推进,降低了方案的设计与部署难度。

1.3.3 英伟达的液冷战略:从被动适配到主动定义

英伟达作为全球AI算力的核心供应商,其液冷战略直接决定了全球AI数据中心液冷技术的发展方向。英伟达的液冷布局经历了三个阶段,从被动适配到主动定义,最终形成了“芯片设计+液冷标准+供应商绑定”的一体化战略:

第一阶段:被动适配阶段(2020-2022年):以A100、H100为核心,芯片设计仍以风冷为基础,液冷方案仅作为小众试点,由第三方散热厂商提供适配性冷板,英伟达仅提供芯片的热设计参数(TDP),不参与液冷方案的设计与验证。

第二阶段:主动适配阶段(2023-2024年):以Blackwell架构为核心,芯片功耗突破1400W,风冷方案已无法满足算力释放需求,英伟达开始在芯片设计阶段融入液冷考量,预留冷板贴合接口,同时发布《英伟达GPU液冷设计规范》,统一液冷方案的接口标准、流量要求、温控阈值,筛选核心液冷供应商进行联合测试。

第三阶段:主动定义阶段(2025年至今):以Rubin、Feynmann架构为核心,芯片功耗分别达到1950W、4400W,英伟达完全弃用风冷设计,将液冷方案作为芯片的标配,并开始主动定义液冷技术的核心指标,包括散热能力、温控精度、PUE值、全生命周期成本等,与核心液冷供应商进行深度联合研发,从芯片设计、冷板研发、系统集成到规模量产,实现全流程协同,Frore Systems正是这一阶段英伟达选定的核心冷板式液冷供应商。

1.4 Frore Systems的行业定位:从边缘散热到数据中心液冷的技术领跑者

Frore Systems成立于2018年,总部位于美国硅谷,是全球领先的先进热管理技术供应商,核心团队来自英特尔、英伟达、苹果、特斯拉等科技巨头,拥有超过200项热管理技术专利,其业务布局覆盖消费电子、边缘计算、数据中心三大领域,核心产品包括AirJet®固态主动散热芯片与LiquidJet™冷板式液冷方案 。

1.4.1 Frore的技术积累:从固态风冷到液冷的技术延伸

Frore的技术起点是固态主动散热技术,其独创的AirJet®芯片是全球首款固态主动散热产品,采用压电驱动+微流体泵送技术,无需传统风扇的机械旋转部件,实现了“无风扇、静音、防尘、防水”的边缘设备散热,广泛应用于笔记本电脑、微型PC、工业IoT设备等场景,目前已与20余家全球知名品牌达成合作,累计出货量突破1亿片 。

AirJet®芯片的研发,为Frore积累了微流道设计、热传导优化、压电驱动、精密制造四大核心技术能力,而这些技术能力恰好与冷板式液冷方案的核心需求高度匹配。2023年,Frore正式进军数据中心液冷市场,基于AirJet®的技术积累,推出了LiquidJet™冷板式液冷方案,聚焦于超高功耗AI芯片的散热需求,凭借高散热效率、定制化设计、轻量化结构的核心优势,迅速在行业内脱颖而出 。

1.4.2 Frore的市场布局:聚焦数据中心液冷的高端市场

Frore在数据中心液冷市场的定位非常清晰:聚焦超高功耗AI芯片的冷板式液冷方案,服务于英伟达、AMD、谷歌、微软、亚马逊等全球顶级算力芯片厂商与云服务商,不参与中低端风冷替代市场的竞争,凭借技术壁垒构建高端市场的竞争优势。

2025年10月,Frore在开放计算项目(OCP)大会上首次推出LiquidJet™冷板技术,其创新的3D短回路喷射通道设计,使散热性能较主流冷板提升50%,一举获得英伟达的关注;2025年12月,Frore完成对LiquidJet™的技术优化,实现散热性能再提升75%、冷板重量减轻50%以上的双重突破,正式与英伟达达成战略合作;2026年1月,在CES 2026展会上,Frore首次公开展示了为英伟达Rubin GPU定制的1950W液冷方案,成功将芯片核心温度稳定控制在80.5℃,获得行业高度认可。

1.4.3 Frore的核心竞争力:技术创新+深度协同+快速迭代

相较于传统液冷厂商,Frore的核心竞争力体现在三个方面:

1. 技术创新能力:独创的3D短回路喷射通道、多级冷却架构、混合单元结构等核心技术,突破了传统冷板式液冷的散热效率极限,可支持1950W甚至4400W的超高功耗芯片;

2. 深度协同能力:能够与英伟达在芯片设计阶段进行联合研发,根据芯片的功率分布图、热流密度分布、封装结构,定制化设计冷板方案,实现芯片与液冷方案的无缝适配;

3. 快速迭代能力:依托硅谷的研发团队与台湾的制造基地,实现液冷方案的快速设计、测试与迭代,从技术研发到规模量产的周期较传统厂商缩短50%以上 。

1.5 本章小结

AI算力的指数级增长推动芯片功耗与热流密度持续攀升,英伟达Rubin GPU 1950W的功耗突破,标志着风冷技术正式退出超高功耗AI芯片的散热舞台,液冷技术成为产业唯一选择。全球液冷市场迎来规模化应用的拐点,政策端的能效考核、运营端的成本优化、技术端的成熟度提升,共同推动液冷替代风冷的进程。英伟达作为算力核心厂商,已进入液冷战略的主动定义阶段,开始与核心液冷供应商进行深度联合研发。Frore Systems凭借其在固态散热领域的技术积累,成功推出LiquidJet™冷板式液冷方案,凭借技术创新与深度协同能力,成为英伟达Rubin GPU 1950W液冷方案的核心供应商,这场合作不仅是两家企业的技术联姻,更是AI算力散热革命的重要里程碑。

第二章 技术底层:Frore LiquidJet™液冷技术的核心原理与创新突破

Frore为英伟达Rubin GPU提供的1950W高效液冷方案,核心依托于其独创的LiquidJet™冷板式液冷技术。该技术并非传统冷板式液冷的简单升级,而是基于微流道设计、精准换热、多级冷却的全新技术架构,融合了Frore在热传导、流体力学、精密制造等领域的20余项核心专利,实现了“散热效率、温控精度、结构设计、可靠性”四大维度的技术突破,最终达成1950W功耗下芯片核心温度80.5℃的精准控制,同时满足英伟达对PUE值、轻量化、兼容性的核心要求。

本章将从液冷技术的基础理论、LiquidJet™的核心架构、关键技术创新、核心部件解析、冷却液选型五个维度,深度拆解Frore LiquidJet™技术的底层逻辑,还原1950W高效液冷方案的技术内核。

2.1 冷板式液冷技术的基础理论:热传导与流体力学的核心应用

冷板式液冷的核心原理是**“热传导+强制对流”的复合换热**,通过冷板与芯片的紧密贴合实现热传导,通过冷却液在冷板流道内的强制循环实现强制对流,最终将芯片产生的热量传递至外部冷却系统,完成整个散热流程。要实现1950W的超高散热能力,必须精准把控热传导效率、对流换热效率、流道流体特性三大核心要素,这也是冷板式液冷技术的基础理论核心。

2.1.1 热传导效率:决定芯片到冷板的热量传递速度

热传导是冷板式液冷的第一换热环节,指的是热量从芯片核心通过封装层、导热界面材料(TIM)传递至冷板基底的过程,其效率直接决定了芯片核心的热量能否快速导出,是避免芯片局部过热的关键。热传导效率的核心计算公式为傅里叶定律:

Q=-kA\frac{dT}{dx}

其中,Q为热传导速率(W),k为材料的导热系数(W/(m·K)),A为换热面积(m²),dT/dx为温度梯度(K/m),负号表示热量从高温区域向低温区域传递。

从傅里叶定律可以得出,提升热传导效率的核心路径有三条:

1. 选择高导热系数的材料:冷板基底与芯片封装层的材料导热系数越高,热传导效率越高;

2. 增大有效换热面积:通过优化冷板的贴合结构,增大冷板与芯片的有效接触面积,提升热传导速率;

3. 减小换热界面的热阻:芯片与冷板之间存在导热界面材料(TIM),其热阻是热传导的主要瓶颈,减小TIM的厚度、提升TIM的导热系数,可有效降低界面热阻。

对于英伟达Rubin GPU 1950W的散热需求而言,热传导效率的要求达到了极致:芯片核心产生的1950W热量,需要在10ms内从芯片核心传递至冷板基底,否则会导致芯片核心温度快速攀升,触发降频保护。这就要求冷板式液冷方案必须在材料选型、结构设计、导热界面材料优化三个方面达到行业顶级水平。

2.1.2 对流换热效率:决定冷板到冷却液的热量传递速度

对流换热是冷板式液冷的第二换热环节,指的是冷板基底吸收的热量,通过强制对流的方式传递至冷板流道内的冷却液的过程,其效率决定了冷板基底的热量能否快速被冷却液带走,是避免冷板基底过热的关键。对流换热效率的核心计算公式为牛顿冷却定律:

Q=hA\Delta T

其中,Q为对流换热速率(W),h为对流换热系数(W/(m²·K)),A为冷板流道的换热面积(m²),ΔT为冷板壁面与冷却液的温度差(K)。

牛顿冷却定律表明,提升对流换热效率的核心路径有四条:

1. 提升对流换热系数h:对流换热系数与冷却液的流速、流道的结构设计、冷却液的物理特性密切相关,流速越快、流道的扰流效果越好、冷却液的导热系数越高,对流换热系数越大;

2. 增大流道换热面积A:通过在冷板内部设计微流道结构,增大冷却液与冷板壁面的接触面积,提升对流换热速率;

3. 增大温度差ΔT:通过降低冷却液的进液温度、提升冷板壁面的温度,增大两者的温度差,提升换热效率;

4. 优化流道的流体分布:保证冷却液在流道内的均匀分布,避免局部流速过低导致的换热效率下降。

对流换热是冷板式液冷方案的核心换热环节,占整个散热流程换热效率的70%以上,也是传统冷板式液冷的技术瓶颈所在。传统冷板的流道设计采用平行直通道,冷却液流速慢、换热面积小、流体分布不均,对流换热系数普遍低于5000W/(m²·K),无法满足1950W的超高散热需求。Frore LiquidJet™技术的核心创新,正是围绕对流换热效率的提升展开。

2.1.3 流道流体特性:决定冷却液的流动效率与压力损失

冷却液在冷板流道内的流动特性,直接影响对流换热效率与液冷系统的能耗。冷板流道的流体特性主要通过雷诺数(Re) 与压力损失(ΔP) 两个指标衡量,这两个指标之间存在相互制约的关系:提升冷却液的流速可以提高雷诺数,增强对流换热效果,但同时也会导致压力损失增大,增加液冷泵的能耗,最终推高系统的PUE值。

雷诺数是判断流体流动状态的核心指标,计算公式为:

Re=\frac{\rho vd}{\mu}

其中,ρ为冷却液的密度(kg/m³),v为冷却液的流速(m/s),d为流道的水力直径(m),μ为冷却液的动力粘度(Pa·s)。

当雷诺数Re<2300时,流体处于层流状态,对流换热系数低,换热效率差;当230010000时,流体处于湍流状态,对流换热系数大幅提升,换热效率显著提高。因此,冷板式液冷方案的流道设计,核心目标是让冷却液在流道内处于湍流状态,同时尽可能降低压力损失。

压力损失是冷却液在流道内流动时,由于流道阻力、流体粘性产生的压力下降,计算公式为达西-魏斯巴赫公式:

\Delta P=f\frac{L}{d}\frac{\rho v^2}{2}

其中,f为摩擦系数,L为流道长度(m),d为流道水力直径(m),ρ为冷却液密度(kg/m³),v为冷却液流速(m/s)。

对于英伟达Rubin GPU的液冷方案而言,英伟达提出了明确的流体特性指标要求:冷却液在冷板流道内的雷诺数≥15000(湍流状态),冷板的压力损失≤0.5bar,液冷泵的能耗≤50W,以此平衡对流换热效率与系统能耗。

2.2 LiquidJet™的核心架构:多级冷却架构与芯片直连设计

Frore LiquidJet™冷板式液冷技术的核心架构,是**“芯片直连冷板+多级冷却架构+外部闭式冷却系统”** 的三级一体化架构,该架构摒弃了传统冷板式液冷“冷板+机柜换热器+中央冷却系统”的分散式设计,实现了**“热量从芯片核心到外部冷却系统的最短传递路径”**,同时通过多级冷却架构的分层换热,实现了1950W超高功耗的精准散热,最终达成“高散热效率、低系统能耗、高精度温控”的核心目标。

2.2.1 一级架构:芯片直连冷板(核心换热单元)

芯片直连冷板是LiquidJet™方案的核心换热单元,也是整个液冷系统的第一级冷却,直接贴合在英伟达Rubin GPU的芯片表面,是热量从芯片传递至冷却液的第一道关口。Frore为英伟达定制的芯片直连冷板,采用**“定制化冷板基底+3D短回路喷射通道+精密密封结构”** 的一体化设计,完全匹配Rubin GPU的封装结构、功率分布图与热流密度分布,实现了“精准贴合、高效导热、均匀换热”的核心目标。

芯片直连冷板的核心设计特点包括:

1. 定制化贴合结构:根据Rubin GPU的封装尺寸(两颗全尺寸计算核心+8颗HBM显存+IO接口),采用分体式冷板设计,针对计算核心、HBM显存、IO接口三个不同发热区域,设计独立的冷板贴合模块,保证每个发热区域都能与冷板实现紧密贴合,有效换热面积达到98%以上;

2. 最短热传递路径:冷板基底的厚度仅为3mm,较传统冷板的8mm厚度减少62.5%,同时导热界面材料(TIM)的厚度控制在20μm以内,将芯片核心到冷却液的热传递路径缩短至3.02mm,大幅降低了热传导热阻;

3. 轻量化结构设计:采用航空级铝合金+钛合金复合材质,在保证结构强度与导热效率的前提下,将冷板的重量控制在280g,较传统冷板的600g重量减轻53.3%,满足英伟达服务器的轻量化设计要求;

4. 精密密封结构:采用真空钎焊+氟橡胶密封圈的双重密封工艺,密封精度达到10^-9 Pa·m³/s,可实现冷却液的零泄漏,满足数据中心的高可靠性要求。

2.2.2 二级架构:多级冷却架构(分层换热单元)

多级冷却架构是LiquidJet™方案的核心创新点,也是实现1950W超高散热能力的关键所在,是整个液冷系统的第二级冷却。传统冷板式液冷采用单级平行流道设计,冷却液在流道内的流速慢、换热面积小、流体分布不均,无法应对Rubin GPU的局部超高热流密度(计算核心热流密度达4.2W/cm²)。Frore通过**“一级主冷却流道+二级喷射冷却流道+三级辅助冷却流道”** 的多级冷却架构,实现了“分层换热、精准控流、重点散热”的核心目标。

多级冷却架构的三级流道设计与功能分工如下:

1. 一级主冷却流道(全局散热流道):作为多级冷却架构的基础流道,环绕在冷板的外围,负责Rubin GPU的全局散热,占整个冷板散热能力的60%(约1170W)。一级主冷却流道采用大口径弧形流道设计,水力直径为8mm,冷却液流速为2.5m/s,雷诺数达到20000,处于强湍流状态,可快速带走芯片的基础热量,保证芯片的整体温度稳定;

2. 二级喷射冷却流道(重点散热流道):作为多级冷却架构的核心流道,直接对应Rubin GPU的两颗全尺寸计算核心,是应对局部超高热流密度的关键,占整个冷板散热能力的35%(约682.5W)。二级喷射冷却流道采用Frore独创的3D短回路喷射通道设计,通过微喷嘴将冷却液以5m/s的高速喷射至计算核心对应的冷板壁面,形成强烈的冲击湍流,对流换热系数提升至25000W/(m²·K),较传统冷板提升4倍,可快速带走计算核心产生的高热量,避免局部过热;

3. 三级辅助冷却流道(补热散热流道):作为多级冷却架构的补充流道,对应Rubin GPU的8颗HBM显存与IO接口,负责低功耗区域的补热散热,占整个冷板散热能力的5%(约97.5W)。三级辅助冷却流道采用微流道阵列设计,水力直径为2mm,冷却液流速为1.5m/s,在保证散热效率的前提下,最大限度降低压力损失,实现系统能耗的优化。

多级冷却架构的核心优势在于**“按需分配散热能力”**:根据Rubin GPU的功率分布图,将冷板的散热能力向热流密度最高的计算核心倾斜,通过二级喷射冷却流道的高速喷射换热,解决局部超高热流密度的散热难题,同时通过一级主冷却流道与三级辅助冷却流道,实现全局散热与补热散热的平衡,最终达成芯片整体温度的均匀控制,避免“局部过热、全局过冷”的问题。

2.2.3 三级架构:外部闭式冷却系统(系统级散热单元)

外部闭式冷却系统是LiquidJet™方案的系统级散热单元,也是整个液冷系统的第三级冷却,负责将芯片直连冷板中冷却液吸收的热量,传递至外部自然环境,完成整个散热流程的最终热量排放。外部闭式冷却系统采用**“冷板+液冷分配单元(CDU)+板式换热器+冷却塔”** 的闭式循环设计,与芯片直连冷板形成封闭的冷却液循环回路,避免冷却液与外部环境接触,保证冷却液的纯度与系统的可靠性。

外部闭式冷却系统的核心组成与工作流程如下:

1. 核心组成部件:

- 液冷分配单元(CDU):作为外部闭式冷却系统的核心控制单元,负责冷却液的加压、过滤、温度调节与流量分配,内置高压液冷泵、精密过滤器、温度传感器、流量传感器、调节阀等核心部件,可实现冷却液温度与流量的精准控制;

- 板式换热器:作为热量交换单元,负责将芯片冷却回路的冷却液与冷却塔冷却回路的冷却水进行热量交换,采用不锈钢板式换热芯体,换热效率达到95%以上;

- 冷却塔:作为最终散热单元,负责将板式换热器传递的热量排放至外部自然环境,采用横流闭式冷却塔,可利用室外冷空气实现自然冷却,在春秋冬季无需开启制冷压缩机,大幅降低系统能耗;

- 连接管路与快换接头:负责各部件之间的冷却液连接,采用不锈钢波纹管与英伟达标准的快换接头(UQD),具备耐高压、耐腐蚀、快速插拔的特点,满足数据中心的部署与维护需求。

2. 闭式循环工作流程:

① CDU中的高压液冷泵将冷却液加压至1.2bar,以2.5m/s的流速输送至芯片直连冷板的一级主冷却流道,同时通过分流阀将30%的冷却液分流至二级喷射冷却流道与三级辅助冷却流道;

② 冷却液在芯片直连冷板的流道内循环,吸收Rubin GPU产生的1950W热量后,温度从40℃升高至52℃,随后回流至CDU;

③ CDU将升温后的冷却液输送至板式换热器,与冷却塔冷却回路的冷却水进行热量交换,冷却液温度从52℃降至40℃,完成降温;

④ 降温后的冷却液经过CDU的精密过滤与流量调节后,再次输送至芯片直连冷板,形成闭式循环;

⑤ 板式换热器中吸收热量的冷却水,回流至冷却塔,通过冷却塔的风机与填料,将热量排放至外部自然环境,冷却水温度从45℃降至35℃,完成冷却回路的循环。

外部闭式冷却系统的核心设计优势在于**“闭式循环+自然冷却”:闭式循环设计保证了冷却液的纯度,避免了杂质进入冷板流道导致的堵塞与腐蚀问题;自然冷却设计最大限度利用了室外冷空气的自然冷源,在春秋冬季可实现100%自然冷却**,夏季仅需开启冷却塔的制冷压缩机,系统的PUE值可降至1.15,较传统风冷系统的1.8PUE值,节电36.1%。

2.3 LiquidJet™的关键技术创新:六大核心创新突破传统瓶颈

Frore LiquidJet™冷板式液冷技术能够实现1950W的超高散热能力,核心在于六大关键技术创新,这些创新突破了传统冷板式液冷在流道设计、换热效率、温控精度、结构设计、系统集成、可靠性六个方面的技术瓶颈,形成了Frore独有的技术壁垒,也是英伟达最终选择Frore作为核心供应商的核心原因。

2.3.1 创新一:3D短回路喷射通道设计(核心流道创新)

3D短回路喷射通道是Frore LiquidJet™技术的核心创新点,也是实现局部超高热流密度散热的关键技术,该技术已获得全球28项专利保护,是Frore独有的核心技术壁垒。

传统冷板式液冷的流道设计采用2D平行直通道,冷却液在流道内的流动路径长、流速慢、冲击效果差,对流换热系数低,无法应对Rubin GPU计算核心4.2W/cm²的局部超高热流密度。Frore的3D短回路喷射通道设计,通过**“3D立体流道+微喷嘴喷射+短回路循环”** 的三重创新,实现了对流换热效率的质的飞跃。

3D短回路喷射通道的核心设计特点:

1. 3D立体流道结构:突破传统2D流道的平面限制,采用上下双层立体流道设计,上层为喷射流道,下层为回流流道,两层流道通过微喷嘴连接,形成3D立体循环,冷却液的流动路径从传统的直线型变为**“喷射-冲击-回流”**的立体型,有效缩短了冷却液的流动路径,提升了流速;

2. 微喷嘴阵列喷射设计:在喷射流道的底部,设计了高密度微喷嘴阵列,微喷嘴的直径为0.5mm,间距为1mm,每平方厘米冷板面积分布100个微喷嘴,可将冷却液以5m/s的高速垂直喷射至冷板的换热壁面,形成强烈的冲击湍流,使冷却液与冷板壁面的边界层厚度从传统的0.5mm减小至0.05mm,大幅提升了对流换热效率;

3. 短回路循环设计:喷射后的冷却液在冲击冷板壁面后,迅速通过下层的回流流道回流至喷射流道,形成短回路循环,冷却液的循环路径长度仅为5cm,较传统流道的20cm长度缩短75%,冷却液在流道内的停留时间从4ms缩短至1ms,可快速带走冷板壁面的热量,避免冷却液升温导致的换热效率下降。

3D短回路喷射通道的技术效果:通过上述设计,该通道的对流换热系数达到25000W/(m²·K),较传统冷板的5000W/(m²·K)提升400%;在Rubin GPU计算核心4.2W/cm²的热流密度下,可将冷板壁面与冷却液的温度差控制在8.4℃,较传统冷板的42℃温度差降低80%,实现了局部超高热流密度的高效散热。

2.3.2 创新二:多级冷却架构与功率映射技术(换热策略创新)

多级冷却架构+功率映射技术是Frore LiquidJet™技术的换热策略创新,解决了传统冷板式液冷**“散热能力分配不均”**的核心问题,实现了“按需散热、精准换热”的目标。

传统冷板式液冷采用均匀散热策略,冷却液在流道内均匀分布,散热能力平均分配至冷板的各个区域,这种策略在芯片发热均匀的情况下适用,但在Rubin GPU这种**“局部超高热流密度+全局低热流密度”**的芯片上,会导致“计算核心散热不足、显存与IO接口散热过剩”的问题:计算核心因散热不足导致温度过高,触发降频保护;显存与IO接口因散热过剩导致冷却液流量浪费,增加系统压力损失与能耗。

Frore通过功率映射技术与多级冷却架构的结合,实现了散热能力的精准分配:

1. 功率映射技术(Power Mapping):Frore与英伟达在芯片设计阶段进行联合研发,通过英伟达提供的Rubin GPU功率分布图(Power Map)与热流密度分布图(Heat Flux Map),精准识别芯片的高热点区域(计算核心)、中热点区域(HBM显存)、低热点区域(IO接口),并量化每个区域的发热功率与热流密度,为多级冷却架构的设计提供数据支撑;

2. 多级冷却架构的精准匹配:根据功率映射技术的分析结果,Frore设计了“一级主冷却流道+二级喷射冷却流道+三级辅助冷却流道”的多级冷却架构,将冷板的散热能力按照60%:35%:5%的比例,精准分配至芯片的全局区域、计算核心区域、显存与IO接口区域,实现了“散热能力与发热功率的精准匹配”。

多级冷却架构与功率映射技术的技术效果:在Rubin GPU 1950W的总功耗下,计算核心的682.5W发热功率由二级喷射冷却流道完全覆盖,显存与IO接口的97.5W发热功率由三级辅助冷却流道覆盖,剩余的1170W基础发热功率由一级主冷却流道覆盖,芯片的温度均匀性(ΔT)控制在5℃以内,较传统冷板的15℃温度均匀性提升66.7%,实现了芯片整体温度的均匀控制。

2.3.3 创新三:微纳级导热界面材料(TIM)优化技术(热传导创新)

微纳级导热界面材料优化技术是Frore LiquidJet™技术的热传导创新,解决了传统冷板式液冷**“界面热阻过高”**的核心问题,实现了芯片到冷板的高效热传导。

芯片与冷板之间的导热界面材料(TIM),是热传导过程中的最大热阻来源,占整个热传导热阻的70%以上。传统冷板式液冷采用的TIM材料为硅基导热凝胶,导热系数为8W/(m·K),厚度为50-100μm,界面热阻为0.0125-0.025 K·m²/W,无法满足Rubin GPU 1950W功耗下的热传导需求。

Frore通过**“材料选型+微纳级厚度控制+表面微结构处理”**的三重优化,实现了界面热阻的大幅降低:

1. 高导热系数TIM材料选型:采用石墨烯增强型金属基导热界面材料,该材料以铜粉为基底,掺入10%的石墨烯纳米片,导热系数达到45W/(m·K),较传统硅基导热凝胶提升462.5%,是目前行业内导热系数最高的商用TIM材料;

2. 微纳级厚度精准控制:通过精密涂覆工艺,将TIM材料的厚度控制在20μm以内,较传统的50μm厚度减少60%,根据傅里叶定律,热阻与厚度成正比,厚度的减少直接降低了界面热阻;

3. 冷板与芯片表面微结构处理:对冷板的贴合表面与Rubin GPU的芯片封装表面,进行微纳级喷砂处理,形成粗糙度为0.5μm的微结构表面,增大TIM材料与冷板、芯片的有效接触面积,有效接触面积从传统的80%提升至98%,进一步降低了界面热阻。

微纳级导热界面材料优化技术的技术效果:通过上述优化,芯片与冷板之间的界面热阻从传统的0.02 K·m²/W降至0.001 K·m²/W,降低95%;芯片核心到冷板基底的总热传导热阻降至0.002 K·m²/W,在1950W的热传导速率下,芯片核心与冷板基底的温度差仅为3.9℃,实现了芯片到冷板的近无损耗热传导。

2.3.4 创新四:混合单元结构与轻量化设计技术(结构设计创新)

混合单元结构+轻量化设计技术是Frore LiquidJet™技术的结构设计创新,解决了传统冷板式液冷**“重量过大、结构强度不足”**的核心问题,满足了英伟达服务器的轻量化与高可靠性设计要求。

传统冷板式液冷的冷板采用单一铜材质,铜的导热系数高(401W/(m·K)),但密度大(8.96g/cm³),导致冷板重量过大:传统1950W冷板的重量约为600g,过重的冷板会对GPU的封装结构产生机械应力,长期使用会导致芯片封装层开裂,影响芯片的可靠性;同时,单一铜材质的冷板在高温环境下易发生热变形,导致冷板与芯片的贴合间隙增大,热传导效率下降。

Frore通过**“混合单元结构设计+航空级轻量化材质选型+精密成型工艺”的三重创新,实现了冷板的轻量化与高结构强度**的平衡:

1. 混合单元结构设计:采用**“核心换热区+结构支撑区+流道密封区”的混合单元结构设计,根据各区域的功能需求,选择不同的材质,实现“按需选材、性能最优”**:

- 核心换热区:对应Rubin GPU的计算核心与显存区域,采用无氧铜材质,保证最高的热传导效率;

- 结构支撑区:对应冷板的边缘与固定区域,采用航空级7075铝合金材质,保证冷板的结构强度与轻量化;

- 流道密封区:对应冷板的流道与密封区域,采用钛合金材质,保证冷板的耐腐蚀性与密封可靠性。

2. 航空级轻量化材质选型:核心换热区采用无氧铜(密度8.96g/cm³),结构支撑区采用7075铝合金(密度2.81g/cm³),流道密封区采用钛合金(密度4.51g/cm³),通过材质的合理搭配,在保证性能的前提下,最大限度降低冷板的重量;

3. 精密成型工艺:采用真空钎焊+CNC精密加工的复合成型工艺,将不同材质的单元结构无缝焊接为一体,焊接强度达到300MPa,同时冷板的平面度控制在0.01mm/m,保证冷板与芯片的紧密贴合。

混合单元结构与轻量化设计技术的技术效果:通过上述创新,Frore为英伟达定制的1950W冷板重量降至280g,较传统冷板的600g减轻53.3%;冷板的结构强度达到250MPa,可承受1000N的静载荷,满足服务器运输与安装的机械强度要求;冷板的热变形量控制在0.005mm以内,在80.5℃的工作温度下,仍能保证与芯片的紧密贴合。

2.3.5 创新五:智能流量调节与精准温控技术(系统控制创新)

智能流量调节+精准温控技术是Frore LiquidJet™技术的系统控制创新,解决了传统冷板式液冷**“温控精度低、流量浪费严重”**的核心问题,实现了“精准温控、按需控流、节能降耗”的目标。

传统冷板式液冷采用定流量定温度的控制策略,冷却液的流量与温度始终保持不变,无论芯片的实际功耗与温度如何变化,液冷系统都以满负荷运行,这种策略导致了严重的流量浪费与能耗浪费:当芯片处于低功耗工作状态(如待机、轻负载计算)时,冷却液的流量与温度仍保持满负荷水平,液冷泵的能耗与冷却塔的制冷能耗无法降低;同时,传统液冷系统的温控精度仅为±5℃,无法满足英伟达Rubin GPU±1℃的高精度温控要求。

Frore通过**“分布式温度传感+智能流量调节算法+PID精准温控”的三重创新,实现了液冷系统的智能控制与精准温控**:

1. 分布式温度传感网络:在芯片直连冷板的一级主冷却流道、二级喷射冷却流道、三级辅助冷却流道的进出口,以及Rubin GPU的计算核心、HBM显存、IO接口表面,共部署18个高精度温度传感器,传感器的测温精度为±0.1℃,采样频率为100Hz,可实时采集芯片与冷却液的温度数据,形成分布式温度传感网络;

2. 智能流量调节算法:Frore自主研发了基于功率映射的智能流量调节算法,该算法通过分布式温度传感网络采集的温度数据,结合英伟达GPU的实时功耗数据(通过GPU总线获取),实时计算芯片各区域的实际发热功率,并根据发热功率的变化,通过CDU中的电动调节阀,实时调节冷却液在各级流道中的流量分配,实现**“按需控流”**:当芯片处于满负荷工作状态(1950W)时,算法将30%的冷却液流量分配至二级喷射冷却流道;当芯片处于轻负载工作状态(如500W)时,算法将二级喷射冷却流道的流量降至10%,减少液冷泵的能耗;

3. PID精准温控算法:采用增量式PID精准温控算法,以英伟达Rubin GPU的目标核心温度(80℃)为设定值,以分布式温度传感网络采集的芯片核心温度为反馈值,通过PID算法实时调节CDU中冷却液的进液温度与流量,实现芯片核心温度的精准控制。

智能流量调节与精准温控技术的技术效果:通过上述创新,LiquidJet™液冷系统的温控精度达到±0.5℃,较传统液冷系统的±5℃提升90%,满足英伟达Rubin GPU±1℃的高精度温控要求;同时,液冷系统的平均能耗降低40%,液冷泵的平均能耗从传统的80W降至48W,实现了节能降耗的目标。

2.3.6 创新六:全密封无泄漏与抗腐蚀设计技术(可靠性创新)

全密封无泄漏+抗腐蚀设计技术是Frore LiquidJet™技术的可靠性创新,解决了传统冷板式液冷“冷却液泄漏、流道腐蚀”的核心问题,满足了数据中心99.999%的高可用性要求。

冷却液泄漏与流道腐蚀是冷板式液冷系统的两大致命故障,也是数据中心运营商最关注的可靠性问题:冷却液泄漏会导致服务器短路、芯片烧毁,造成重大的经济损失;流道腐蚀会导致冷板流道堵塞、导热效率下降,最终导致液冷系统失效。传统冷板式液冷的密封工艺采用橡胶密封圈+螺栓紧固,密封可靠性低,泄漏率约为1‰;流道防腐采用电镀镍处理,防腐能力弱。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
C罗与金姐:三天三夜的"金球"风云录

C罗与金姐:三天三夜的"金球"风云录

罗氏八卦
2026-01-25 09:42:19
触目惊心!2025俄罗斯高校集体崩盘,无一所进全球前200

触目惊心!2025俄罗斯高校集体崩盘,无一所进全球前200

老马拉车莫少装
2026-01-22 21:24:42
官宣:王励勤正式辞任!

官宣:王励勤正式辞任!

十点街球体育
2026-01-23 17:05:38
浙江18岁小伙爱上40岁女上司,并认作干妈,去其家中借宿酿成惨剧

浙江18岁小伙爱上40岁女上司,并认作干妈,去其家中借宿酿成惨剧

泽泽先生
2025-04-07 17:41:46
输不起?输掉冠军后,弗朗西斯卡向裁判投诉温瑞博发球遮挡

输不起?输掉冠军后,弗朗西斯卡向裁判投诉温瑞博发球遮挡

凤幻洋
2026-01-25 16:12:17
2026年,有老房子的人要翻身了!特别是这2类,恭喜了!

2026年,有老房子的人要翻身了!特别是这2类,恭喜了!

靓仔情感
2026-01-25 14:21:29
印度达沃斯放话:除经济外都比中国强?底气从哪来?

印度达沃斯放话:除经济外都比中国强?底气从哪来?

可乐爱微笑
2026-01-25 08:58:53
红包大法再现!腾讯元宝撒10亿红包抢用户,单个奖最高万元

红包大法再现!腾讯元宝撒10亿红包抢用户,单个奖最高万元

南方都市报
2026-01-25 16:46:34
知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

一盅情怀
2026-01-25 15:54:20
美国乒乓职业大联盟创始人公开质疑:樊振东世界排名缺失问题!

美国乒乓职业大联盟创始人公开质疑:樊振东世界排名缺失问题!

开成运动会
2026-01-24 22:10:21
羊肉汤,烟火人间

羊肉汤,烟火人间

张佳玮写字的地方
2026-01-21 18:53:10
日本大选乱成一锅粥!菅义伟出局、麻生梦碎,高市坐不住了!

日本大选乱成一锅粥!菅义伟出局、麻生梦碎,高市坐不住了!

小鬼头体育
2026-01-25 01:32:08
洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

洗米华大女儿硕士毕业,一家人拍毕业照,洗米嫂戴钻戒出镜

素素娱乐
2026-01-23 11:07:53
被丈夫闺蜜背叛女子是远嫁,女子母亲曾反对婚事:他求我妈,说这辈子一定会对我好

被丈夫闺蜜背叛女子是远嫁,女子母亲曾反对婚事:他求我妈,说这辈子一定会对我好

观威海
2026-01-25 16:02:07
电视剧《太平年》没人敢拍的五代十国,才是真正的魔鬼乱世

电视剧《太平年》没人敢拍的五代十国,才是真正的魔鬼乱世

白羽居士
2026-01-24 21:26:13
西宫美娘娘真美,气质真的好

西宫美娘娘真美,气质真的好

素然追光
2025-12-31 00:26:05
U23国足获亚军!国家体育总局&足协贺信:为足球发展注入强心剂

U23国足获亚军!国家体育总局&足协贺信:为足球发展注入强心剂

奥拜尔
2026-01-25 02:27:51
澳网单打八强诞生3席,大黑马爆冷晋级,2世界第一入围

澳网单打八强诞生3席,大黑马爆冷晋级,2世界第一入围

陈赩爱体育
2026-01-25 16:14:29
湖人116-110力克独行侠 球员评价:4人优秀,4人及格,2人低迷

湖人116-110力克独行侠 球员评价:4人优秀,4人及格,2人低迷

篮球资讯达人
2026-01-25 12:19:16
美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

美国军火商洛马公司因没缴纳中方开出990亿罚单,后果竟如此严重

百态人间
2025-12-13 16:07:09
2026-01-25 17:35:00
粤语音乐喷泉
粤语音乐喷泉
来听音乐吧
74文章数 11355关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

获黄仁勋签名红包商户:我开始不认识他 红包里有600元

头条要闻

获黄仁勋签名红包商户:我开始不认识他 红包里有600元

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

亲子
艺术
数码
公开课
军事航空

亲子要闻

服了这妈妈

艺术要闻

全认识这13个字的人,能否复印王羲之的作品?

数码要闻

华为FreeClip 2耳夹耳机确认支持Android设备豆包App唤醒

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版