网易首页 > 网易号 > 正文 申请入驻

怎么看待“光进铜退”?

0
分享至

关于“光进铜退”的趋势,业界至今仍莫衷一是。在我看来,这绝非一个可以用线性思维来理解的简单替代问题。趋势变化的核心关键变量总结主要是三个大项,散热和功耗;信号完整性来评估。

  • 散热问题

造成 NVIDIA GPU 服务器散热要求“陡增”的原因是多方面且相互关联的,核心驱动因素是 GPU 本身性能和功耗的飞速提升,以及由此引发的系统级、部署密度和应用负载的变化。以下是主要原因的详细分析:

GPU 芯片功耗 (TDP) 的持续大幅攀升:

性能追求: NVIDIA 每一代新架构的 GPU(如 Ampere -> Hopper -> Blackwell)都在追求更高的计算性能(FP32/FP64 TFLOPS)、更大的显存带宽和容量、更强的 AI 算力(Tensor TFLOPS)。这些性能提升很大程度上依赖于塞入更多的晶体管、更高的核心频率和更复杂的计算单元。

功耗代价: 晶体管数量的指数级增长(摩尔定律的延续)和频率提升直接导致了功耗的急剧增加。数据中心级 GPU(如 A100, H100, H200, B100/B200)的 TDP 已经从几百瓦一路飙升至 700W、1000W 甚至更高。单个 GPU 的功耗已经远超传统的 CPU。

热密度剧增: 更先进的制程工艺(如 4nm, 5nm)虽然能提高能效比,但允许在更小的芯片面积上集成更多的晶体管和功耗。这意味着单位面积产生的热量(热密度)急剧上升。芯片核心区域的散热变得极其困难,传统的散热方案难以应对如此集中的高热流密度。

服务器内 GPU 数量和密度的增加:

追求更高算力密度: 为了在有限的空间(如一个机架单元 - U)内提供尽可能高的计算能力,服务器设计趋向于在单台服务器内集成更多数量的 GPU。例如,从 4卡、8卡发展到10卡甚至更多。

功耗和热量的叠加: 单卡功耗的飙升乘以卡数的增加,导致单台服务器的总功耗和总发热量呈倍数级增长。一台高密度 GPU 服务器的总功耗达到 5kW、6kW 甚至 10kW 以上已不罕见。这些热量都需要在狭小的服务器机箱内有效排出。

GPU 互连技术 (NVLink) 带来的热量聚集:

高速互连: NVLink 提供了远超 PCIe 的 GPU 间带宽,对于 AI 训练和 HPC 至关重要。为了实现全互联拓扑(All-to-All),GPU 卡需要紧密地排列在一起。

“热点”区域: 这种高密度、紧耦合的排列方式导致 GPU 产生的热量高度集中在服务器内部的一个狭小区域,形成强大的“热点”(Hot Spot)。气流组织变得异常困难,热量容易堆积,加剧了散热挑战。

计算负载的持续高强度化:

AI 训练主导: 现代 GPU 服务器的主要负载是大型 AI 模型(尤其是 LLM、多模态模型)的训练和推理。这些工作负载往往要求 GPU 在接近 100% 利用率的状态下长时间(数天甚至数周)持续运行。

持续满负荷发热: 与间歇性负载不同,这种持续满载运行意味着 GPU 芯片及其供电模块(VRM)始终处于最高功耗状态,持续产生最大热量,几乎没有“喘息”的时间让系统降温。

显存 (VRAM) 功耗和散热需求增加:

容量和带宽提升: 大模型需要海量显存(HBM2e, HBM3, HBM3e),容量从 40GB/80GB 向更高发展。高带宽显存本身功耗也相当可观。

新型高功耗显存: GDDR6/GDDR6X 显存(在消费级和部分专业卡上)以及 HBM 堆栈本身也会产生显著热量,需要专门的散热设计。HBM 通常紧邻 GPU 核心,进一步增加了核心区域的热密度。

供电模块 (VRM) 散热压力增大:

高电流需求: 为功耗巨大的 GPU 核心和显存供电,需要非常强大的电压调节模块(VRM)。这些 VRM 需要处理极高的电流(数百安培)。

效率损失发热: 即使 VRM 效率很高(如 90%-95%),在如此高的功率水平下,其自身的功率损耗(5%-10%的输入功率)绝对值也非常大,转化为可观的热量,成为服务器内部另一个重要的热源,也需要有效散热。

机架/数据中心级功率密度提升:

机架总功率上限: 单个机架的供电能力(如从 10kW 提升到 20kW, 30kW 甚至更高)和冷却能力也在提升,允许部署更密集的高功耗服务器。

密度提升放大散热挑战: 当机柜内塞满了这些每台功耗都极高的 GPU 服务器时,整个机柜的热负荷密度(kW/机柜)会达到前所未有的高度。这要求数据中心冷却系统(无论是风冷还是液冷)具备强大的能力将如此集中的热量从机柜中移走并排出建筑物外。

对散热效率和经济性的更高要求:

降低 PUE: 数据中心运营商追求更低的电源使用效率(PUE),即更少的能源用于冷却等非计算开销。低效的散热(尤其是纯粹依赖高转速风扇的“暴力”风冷)会显著增加 PUE。

降噪需求: 高转速风扇产生巨大噪音,对运维环境不友好。

可靠性要求: 高温是电子设备可靠性的头号杀手。确保 GPU 在安全温度下运行(避免降频或宕机)对数据中心稳定运行至关重要。更高效的散热方案(尤其是液冷)能提供更低的运行温度和更好的温度均匀性,提升系统可靠性和寿命。

液冷成为必要选择: 由于上述所有原因,传统的空气冷却在超高功率密度(尤其是 >20kW/机柜)和超高热密度(GPU 核心)场景下已接近或达到物理极限。冷板式液冷和浸没式液冷等先进散热技术因其远超风冷的散热能力和更高的能效(更低的 PUE),正从“可选”变为“必需”,以应对当前和下一代 GPU 服务器的散热挑战。这也导致了散热系统设计和成本的“陡增”。

NVIDIA GPU 服务器散热要求的“陡增”,其根本驱动力是对极致 AI 和 HPC 性能的追求。这导致了单个 GPU 芯片的功耗和热密度爆炸式增长,进而促使单台服务器集成更多 GPU 以实现高算力密度,同时高强度的持续计算负载和紧密互连布局加剧了热量聚集。这些因素共同作用,使得传统的风冷散热在效率、噪音、成本和物理极限上都无法满足需求,迫使数据中心和服务器厂商大规模转向更复杂、更高效但也更昂贵的液冷解决方案,从而显著抬高了整体散热要求和成本。上面讲这么多散热的问题,是想告诉大家,目前散热问题是急需且必须解决的核心关键问题之一,而不是可选解决问题。换句话说,在大家考虑“光进铜退”问题时,必须将如何散热这一核心关键变量加入。

  • 功耗问题

在互连与配套器件端,功耗的攀升几乎与GPU核心同步。以GB200为例,每颗 Blackwell GPU 配备18条NVLink 5 链路:每条链路由两颗224Gb/s PAM4 SerDes 驱动,单向带宽400Gb/s。这些 SerDes 通过背板或<2 m twinax DAC铜缆直接连到机柜中的NVLink Switch,单柜内部由此形成130TB/s 的“巨型 GPU”互联域。与此同时,GB200 仍须为 PCIe Gen5/CXL 3.0 主机链路、NIC控制器和电压调节模块预留高速PHY与Retimer。

目前的功耗对比主要仍然是DAC( Direct Attach Cable )、AEC( Active Electrical Cable )以及AOC( Active Optical Cable )之间的横向对比。其中, DAC采用铜线将两端的连接器端口组装起来,不包含任何主动组件, AEC则是含铜缆、连接器、Retimer芯片等, Retimer芯片可消除噪声并非线性放大信号,以此来延长铜缆连接距离。 AOC则由两端光模块和光纤集成,通过光缆传输高速信号。

如果只是简单的对比功耗, 以400G速率为例,DAC、AEC以及AOC三者功耗分别为0.1、5、10W左右。根据这个指标看,似乎DAC和AEC等铜缆应该是应用尽用。但是,这个问题的答案不在于功耗本身,而在于降功耗的手段上。众所周知,英伟达GB系列采用的液冷是冷板方案,具体见下图,上图是 GB200 Compute Tray 的液冷方案,下图是 NVLink Switch Tray 的液冷方案。 大家会发现液冷部分要占据相当一部分空间,并且大部分是刚性布局,不可移动。



此时,大家应该思考两个问题。第一个是为了满足液冷的布局,要如何改动铜缆或其他部分。第二个是在不改动铜缆或其他部分情况下,如何提升液冷布局。先来看第二个问题,在空间总约束一定下,液冷布局这些部分无论怎么改,刚性空间是一定需要的。针对第一个问题,最直接的方法当然是尽可能减少占空间最多的部分。这也就是为什么市场上从去年就传出 NVL72 中的 Switch tray 可能采用更多 PCB 替代 overpass 和连接器的新方案的原因。 在新的 NVSwitch 托盘设计中,蓝色电缆被移除,只保留红色电缆。


未来超节点功耗会继续提升,相应的散热需求也会继续提升,相信在液冷技术没有大踏步进步之前,还是要进一步压缩铜缆等在柜内的空间来满足散热需求。

  • 信号完整性问题

再来看下面这张图,来看看DAC铜缆什么样子,是不是看起来特别粗特别壮观,想象一下目前的机架都承受了多少重量。 众所周知,高速信号传输容易受到电磁干扰(EMI)。然而随着传输速率提升,干扰随之放大,为抑制EMI及保证信号完整性就需要增加介质层的厚度或降低绝缘材料的介电系数,结果就是整根线缆也随之变得更粗。 由于DAC直连铜缆没有集成Retimer,为确保信号完整性,介质层不得不做的更厚(绝缘OD做大),结果整根线缆也随之变得更粗,这也意味着在进行高密度连接时的弯折和排线会更难。


此时应该思考一个问题,当大量 DAC 铜缆被高密度地塞入同一块 compute tray 时,很显然既会显著抬高散热难度,也会放大电磁干扰风险。所以我们也看到了英伟达GB系列也做了很多工程上的努力,来延长DAC铜缆的存在寿命。但是按照当下的技术环境,随着速率的不断提升,存在的空间会被持续压缩。对于铜缆本身来讲,为了延长存在寿命,还可以保证信号完整性的前提下增加芯片放大器功能升级到AEC,AEC可以做到32AWG ,也就是可以做到更细,减少铜缆所占空间。另一个,AEC传输距离更长,也更方便做超节点的扩展。这也是我们也看好AEC的原因之一,毕竟在满足空间、散热等限制的情况下,从成本、稳定性、功耗以及复杂度等角度上讲,铜缆还是具备优势的。此外,黄老板也站出来讲过,“ We should use copper as far as we can, and that's call it a meter or two. ”( 我们应该尽可能使用铜线,大约一两米的距离 ),我当然非常赞同这句话,注意是赞同这句话本身,就是能用的时候当然要用,毕竟成本和功耗都具有优势,何乐而不为。所以,黄老板讲的铜缆应用尽用没错,只是DAC的确已经逐步失去现在,AEC续命,大概率输在未来了。大势所趋往光连接上走更没有问题,大概率是渗透提升,赢在未来了。为什么讲大概率,就是怕有些人讲万一技术突破了,其实我也挺想可控核聚变和室温超导立刻马上突破的。

  • 铜缆突破的技术方向

Broadcom和Samtec在DesignCon和OFC上展示了CPC技术。Marvell 和安费诺也在OFC上演示了CPC。CPC共封装铜线,在某些领域也被称为共封装线缆。其基本理念是直接从ASIC中取出铜线,并将其与光纤连接起来。共封装铜缆 (CPC) 技术是一种极具吸引力且可能有用的方法,能够提供交换机架构灵活性。这是一种继续支持基于可插拔模块的解决方案的方法,CPC非常适合单机架或刀片服务器中的纵向扩展服务器和GPU 集群架构,这些架构的覆盖范围通常要求不超过几米。

专家表示,CPC的主要优势在于它有可能改善ASIC信号完整性并降低通道损耗,从而为下一代线路速率(400G/通道)提供更长的电气互连。目前,正在进行的200G/通道系统部署并不需要CPC;相反,它是面向未来400G互连的前瞻性封装技术。Broadcom在一篇关于DesignCon活动的博客中写道,Broadcom的演示和后续会议探讨了进一步开发CPC的优势,例如通过通道建模和仿真降低信号完整性损失并扩大覆盖范围。


除了演示之外,Broadcom和 Samtec 还撰写了一份关于 CPC 的白皮书,其中指出:“共封装铜线(CPC) 可以消除PCB和封装带来的损耗和反射损失。当高速 I/O 从封装顶部布线时,无需使用高级 PCB 材料。封装垂直路径和 PCB 布线产生的损耗可以转移到更长的线缆上。”

在OFC展会上,Samtec展示了其Si-FlyHD共封装线缆组件和Samtec FlyoverOctal小型可插拔(OSFP),这些线缆基于Samtec Eye Speed Hyper Low Skew双轴铜缆。Flyover技术是Samtec专有的解决高速信号通过传统印刷电路板(PCB)传输时信号完整性和传输距离限制的方法。

Samtec写道:“该评估平台融合了Broadcom业界领先的200G SerDes技术和Samtec共封装的Flyover技术。Si-Fly HD CPC提供业界最高的封装密度和强大的互连性能,可在95 x 95毫米的芯片基板上实现102.4T(512个200G通道)传输速率。”


  • CPC才是未来?

目前讨论比较多的CPC和CPO分别针对不同的需求和互连需求,而CPC和近封装光器件 (NPO) 是互补的。人们可以使用CPC将信号从封装中电导出,并连接到电路板上位于封装附近的NPO。

1. 降低复杂性和成本CPC采用高速铜缆链路(“flyover cables”),通过先进的可插拔连接器直接连接ASIC/GPU,这些连接器的位置非常靠近主芯片,通常就在SerDes 旁边。这消除了大部分PCB走线损耗,并且无需使用光模块所需的昂贵高质量连接器或先进的PCB材料。与通常需要集成光子封装和专门组装的CPO相比,其组装工艺更加模块化,维护更简便。

2. 卓越的信号完整性(在一定程度上)通过最小化电气路径长度(从封装到连接器的铜缆直接连接),CPC极大地降低了插入损耗、串扰和阻抗失配。它保持了稳健的眼图开口,并支持比典型PCB走线更高频率的信号传输。对于短距离连接(例如机架内或机箱内),铜缆高效可靠,不会像较长的PCB走线或板中布线那样出现信号衰减。

3. 易于热管理CPC架构可实现更佳的热隔离效果。铜缆链路(跨接电缆)本身产生的热量非常小,而CPO中的光学引擎则需要精心布局、使用散热器或与冷板直接接触,以避免热量积聚,尤其是在高密度集成封装内。

4. 可维护性和可升级性CPC保留了可插拔的模块化外形,这意味着维护非常简单:故障的铜缆链路或连接器可以轻松更换,而CPO则可能需要拆卸芯片封装才能解决问题。这种灵活性提供了重要的每条链路升级选项,并且更易于实施,就像传统的可插拔模块一样。

5. 针对机架内和短距离连接进行了优化CPC非常适合单机架或刀片服务器中的纵向扩展服务器和GPU集群架构,这些架构的覆盖范围通常要求不超过几米。CPO在机架间或长距离传输方面展现出其最大的优势,因为在这些情况下,光器件是必不可少的。

2025江苏盐城东台-800G高速铜缆供应链行业技术研讨会预告

高速互连技术正面临单通道224Gbps向448Gbps演进的关键节点。为应对信号完整性、功率损耗及供应链重组等核心挑战,高速铜缆产业链亟需在材料、精密制造工艺及测试验证体系等维度实现技术突破。本次9-5日与江苏盐城东台举办的高频高速时代之800G/1.6T产业链推进技术研讨峰会得到供应链头部企业的全力支持,我们再次诚邀行业同仁开展建设性对话,以技术创新为驱动,以产业升级为目标,携手构建高速互连领域的技术生态体系。就高速互联发展进程中的技术瓶颈突破与产业链协同创新展开更多的深度探讨。再次诚邀您报名出席为行业发展贡献一份力量;欢迎扫下图二维码报名参会.


报名后加入会议沟通交流群

本次会议将采用:东台本地高速铜缆供应链企业参观+现场展台观展+线缆技术交流+行业圆桌会议+交流晚宴几部分组成会场按照800人+规模布置,报满即止.更多会议细节了解可以电话:150-1533-1777,鲁总.








举办会议地点

更多关于最新的线缆行业发展讯息,请关注我们的微信公众号!我们将第一时间搜寻到行业前沿讯息和您一起分享!不做盈利用途,文中观点都是基于公开数据及信息,仅供交流,不构成投资建议!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狼队官宣冬窗首签!徐彬自由身加盟,U23国足留洋第2人,将被外租

狼队官宣冬窗首签!徐彬自由身加盟,U23国足留洋第2人,将被外租

奥拜尔
2026-01-30 18:05:37
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

刘森森
2026-01-29 16:21:41
白银重挫20% 创2008年以来最大盘中跌幅

白银重挫20% 创2008年以来最大盘中跌幅

财联社
2026-01-31 01:13:04
手握重兵,权倾朝野的话事人,为何在政变时坐以待毙、不做反抗?

手握重兵,权倾朝野的话事人,为何在政变时坐以待毙、不做反抗?

历史按察使司
2026-01-30 08:31:52
请人吃饭,对方说“临时有事不去了”,别说“好下次约”,高情商回应来了

请人吃饭,对方说“临时有事不去了”,别说“好下次约”,高情商回应来了

十点读书
2026-01-29 19:11:17
五盘鏖战胜出!德约终结辛纳澳网19连胜,第38次跻身大满贯决赛

五盘鏖战胜出!德约终结辛纳澳网19连胜,第38次跻身大满贯决赛

全景体育V
2026-01-30 22:33:10
官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

官媒怒批!吴京新片《镖人》未映先爆雷,30人8个头衔太荒唐!

史行途
2026-01-30 09:43:04
闻泰科技:预计2025年净亏损90亿元~135亿元

闻泰科技:预计2025年净亏损90亿元~135亿元

每日经济新闻
2026-01-30 19:47:07
1.8亿理财资金仅剩44万,大连银行称嫌犯伪造单据并失踪,最高法发声

1.8亿理财资金仅剩44万,大连银行称嫌犯伪造单据并失踪,最高法发声

观察者网
2026-01-30 09:38:05
演员金晨疑似肇事逃逸让助理顶包?警方通报

演员金晨疑似肇事逃逸让助理顶包?警方通报

界面新闻
2026-01-30 17:35:45
央视暗访曝光!超市“完美蔬菜”竟是毒菜,高毒农药,清洗也没用

央视暗访曝光!超市“完美蔬菜”竟是毒菜,高毒农药,清洗也没用

现代小青青慕慕
2026-01-30 11:08:23
"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

"性商第一人"周媛被立案调查!9.9引流变现2400万,恐不只尺度大

派大星纪录片
2026-01-30 18:07:40
特朗普正式提名凯文·沃什为新任美联储主席,9年前就面试过他;其妻子是雅诗兰黛继承人,岳父是特朗普多年好友

特朗普正式提名凯文·沃什为新任美联储主席,9年前就面试过他;其妻子是雅诗兰黛继承人,岳父是特朗普多年好友

极目新闻
2026-01-30 20:13:19
预计明日凌晨3-6点,美伊大战会正式开启,理由如下

预计明日凌晨3-6点,美伊大战会正式开启,理由如下

今日马说
2026-01-30 23:26:19
全线大跌,超22万人爆仓!刚刚,黄金、白银,直线跳水

全线大跌,超22万人爆仓!刚刚,黄金、白银,直线跳水

中国基金报
2026-01-30 09:29:21
从3胜19负到16胜3负!NBA历史首队!都说要解散,你们却创造神迹

从3胜19负到16胜3负!NBA历史首队!都说要解散,你们却创造神迹

老侃侃球
2026-01-31 03:30:03
火爆冲突3人被驱逐!同曦狂胜送四川21连败 郭昊文祝铭震均20分

火爆冲突3人被驱逐!同曦狂胜送四川21连败 郭昊文祝铭震均20分

醉卧浮生
2026-01-30 21:31:28
相亲点餐8000元男子吃完跑路,女子多次联系无果,让婚介公司买单

相亲点餐8000元男子吃完跑路,女子多次联系无果,让婚介公司买单

汉史趣闻
2026-01-30 14:31:58
华尔街深夜反击,金价一夜暴跌3500元,黄金都搬进了上海金库?

华尔街深夜反击,金价一夜暴跌3500元,黄金都搬进了上海金库?

好贤观史记
2026-01-30 19:08:06
美国宣布对伊朗最新制裁措施

美国宣布对伊朗最新制裁措施

界面新闻
2026-01-30 23:40:21
2026-01-31 04:12:49
线缆行业朋友分享圈 incentive-icons
线缆行业朋友分享圈
线缆行业最新资讯分享
1417文章数 1602关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

教育
游戏
时尚
房产
数码

教育要闻

害群之马!老师因“把分数写在试卷上”被家长投诉,官方要求整改

向全体二游策划宣战,你们能不能直接把我推删了?

今日热点:《闪灵》今日上映;保险公司确认金晨方曾放弃索赔……

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

数码要闻

陶瓷外壳与键帽,黑爵推出非遗传承人黄云鹏联名Blue67磁轴键盘

无障碍浏览 进入关怀版