声明:本文转载自semianalysis,一切版权归他们所有,本文仅供参考。
共封装光器件 (CPO) 长期以来一直被寄予厚望,有望改变数据中心的连接方式,但这项技术走向市场却历经漫长过程,真正可部署的产品要到 2025 年才能面世。与此同时,可插拔收发器凭借其相对较低的成本效益、易于部署以及基于标准的互操作性,一直紧跟网络需求,并保持着默认的选择。
然而,人工智能工作负载带来的高网络需求意味着这次的情况有所不同。人工智能网络带宽的发展路线图表明,互连速度、范围、密度和可靠性要求很快就会超过收发器所能提供的水平。CPO 将带来一些好处,并为横向扩展网络提供更多选择,但它对于纵向扩展网络至关重要。在未来十年后半段及以后,CPO 将成为纵向扩展网络带宽增长的主要驱动力。
当今基于铜缆的扩展解决方案,例如 NVLink,每个 GPU 可提供高达 7.2 Tbit/s 的带宽——在 Rubin 架构中,每个 GPU 的带宽将达到 14.4 Tbit/s。然而,铜缆链路的有效距离最多只有两米,这意味着扩展规模最多只能覆盖一到两个机架。此外,通过铜缆扩展带宽也越来越困难。在 Rubin 架构中,NVIDIA 将通过双向 SerDes 将每个铜缆通道的带宽再次翻倍,但通过开发速度更快的 SerDes 来实现铜缆带宽翻倍是一个极具挑战性的扩展方向,进展缓慢。CPO架构可以提供相同甚至更高的带宽密度,并提供更多扩展带宽的途径,同时还能支持更大的扩展规模。
要理解CPO的推动作用,首先要考虑使用收发器进行光通信时存在的诸多效率低下和权衡取舍。收发器可以实现更远的链路距离,但网络交换机或计算托架前面板上用于插入收发器的接口通常距离XPU或交换机ASIC仅15-30厘米。这意味着信号必须先通过LR SerDes进行电信号传输,经过这15-30厘米的距离后,再由收发器内部的数字信号处理器(DSP)对电信号进行恢复和处理,最后转换为光信号。而CPO则将光引擎放置在XPU或交换机ASIC旁边,这意味着可以省去DSP,并且可以使用低功耗的SerDes将数据从XPU传输到光引擎。与DSP收发器相比,这可以将数据传输所需的能量降低50%以上——许多厂商的目标是将每比特的能耗降低高达80%。
![]()
尽管英伟达和博通等公司的横向扩展CPO解决方案越来越受到关注,并受到终端客户的密切关注,但大型超大规模数据中心运营商已经开始规划其纵向扩展CPO战略,并与供应商达成合作。例如,Celestial AI预计到2028年底,其年化收入将达到10亿美元——我们认为这主要得益于其基于亚马逊Trainium 4平台的纵向扩展CPO解决方案。
专注于CPO的公司如今已不再局限于论文、试点项目和演示,而是正在制定关键的产品决策,例如光端口架构,以解决大规模生产的问题。对于规模化生产而言,CPO 的问题不再是是否以及为何,而是何时以及如何——如何将这些系统投入批量生产,以及激光器制造商等关键零部件供应链公司何时能够提高产能。
本文将深入探讨CPO的优势和挑战、CPO 架构的工作原理、当前和未来的 CPO 产品、专注于 CPO 的公司、CPO 相关组件及其各自的供应链。本文旨在为从业人员、行业分析师、投资者以及所有对互连技术感兴趣的人士提供指导。
本文目录及阅读指南:
我们将文章分为五个部分——读者可以根据自己的兴趣或感受选择阅读部分。
在第一部分:CPO 总拥有成本 (TCO) 分析中,我们首先分析采用 CPO 如何改变横向扩展和纵向扩展网络的总拥有成本。我们认为,总拥有成本、可靠性和设备供应商的议价能力将是横向扩展网络中采用 CPO 的主要考虑因素。我们将探讨 CPO 在横向扩展领域是否已成熟,并提及我们目前掌握的解决方案可靠性数据,例如Meta 在 ECOC 2025 上发布的 CPO 横向扩展交换机研究。
在第二部分:CPO 简介与实现中,我们将深入探讨 CPO 的工作原理。本部分将探讨市场从铜到共封装铜、从数字信号处理器 (DSP) 光器件到线性可插拔光器件 (LPO) 再到 CPO 的演变历程,以及采用 CPO 的动力和理由。此外,我们还将讨论SerDes 的扩展极限以及作为 SerDes 替代方案的 Wide I/O (尤其是在与 CPO 结合使用时)。
在第三部分“CPO市场化”中,我们将介绍推动CPO获得市场认可并最终推向市场的关键技术。首先,我们将讨论主机和光引擎封装,并详细解释台积电COUPE封装及其为何成为首选集成方案。我们将深入探讨光纤连接单元(FAU)、光纤耦合以及边缘耦合与光栅耦合器的区别。此外,我们还将介绍马赫-曾德尔调制器(MZM)、微环调制器(MRM)和电吸收调制器(EAM)等调制器类型。本部分最后将阐述CPO被广泛采用的核心原因——利用CPO扩展带宽的多种途径:连接更多光纤、采用波分复用(WDM)以及更高阶的调制。
在第四部分“CPO产品现状与展望”中,我们将分析目前市场上的CPO产品及其相关供应 链。我们将首先介绍英伟达和博通的解决方案,然后再讨论主要的CPO公司。我们将涵盖Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus和Scintil,详细介绍每家供应商的解决方案,并分析每家公司方案中的重要优缺点。
CPO 总拥有成本 (TCO) 分析
在今年早些时候举行的英伟达GTC 2025大会上,最受瞩目的议题之一是Jensen宣布公司首款支持CPO的横向扩展网络交换机。值得注意的是,在纵向扩展( scale-up)方面,英伟达仍然坚持使用铜缆,并竭尽全力避免采用光纤,即便到2027年和2028年也是如此。
让我们首先讨论这些新型 CPO 交换机的总拥有成本,分析横向扩展 CPO 可以带来的成本和节能效益。
英伟达在 GTC 2025 主题演讲中发布了三款不同的 CPO 横向扩展交换机,它们采用了两种不同的 CPO 交换机 ASIC。虽然这些交换机在总体拥有成本 (TCO)、功耗和部署速度方面具有优势,但这些优势并不足以促使客户立即转向完全不同的部署模式,因此我们预计首批 CPO 横向扩展(scale-out)交换机的市场应用将十分有限。让我们来分析一下原因。
![]()
典型的AI集群网络配置和总拥有成本
典型的AI集群包含三个主要网络架构:后端、前端和带外管理架构(out of band management fabric)。后端网络架构是利用率最高、技术要求也最高的网络架构。后端网络架构用于GPU之间的横向扩展通信,使GPU能够相互通信并在集体操作中交换数据,从而实现训练和推理的并行化。后端网络通常使用InfiniBand或以太网协议。
由于后端网络对性能要求极高,因此其在总网络成本和功耗中占据主导地位。对于部署在 InfiniBand 网络上、采用 Nvidia X800-Q3400 后端交换机的三层 GB300 NVL72 集群而言,后端网络成本占比高达 85%,功耗占比更是高达 86%。基于 CPO 的交换机和网络解决方案可用于后端和前端网络,但我们认为现阶段的部署重点将放在后端网络。
从宏观角度来看,网络成本是仅次于AI服务器本身的AI集群总成本的第二大组成部分。在采用三层InfiniBand网络的GB300 NVL72集群中,网络成本占集群总成本的15%,而对于四层网络,这一比例则高达18%。光收发器是这部分成本的重要组成部分,在使用相对昂贵的Nvidia LinkX收发器时,三层网络光收发器成本占总成本的60%。此外,它们还消耗三层网络总功耗的45%。
![]()
AI集群中GPU数量越多,所需的网络层数就越多。从两层网络扩展到三层甚至更多层网络,意味着更高的成本和更大的功耗预算。CPO既可以在保持网络层数不变的情况下帮助降低功耗和成本,也可以通过增加给定层数网络中可连接的GPU数量来降低总功耗和成本需求。
CPO横向扩展功耗预算
今年早些时候,在 GTC 2025 大会上,英伟达 CEO 黄仁勋强调,光收发器本身巨大的功耗是推动 CPO 的关键因素。根据上表中的机架功耗预算,一个部署在三层网络上的 20 万 GB300 NVL72(每个机架 72 个 GPU 封装和 144 个计算芯片)GPU 集群将消耗 435 兆瓦的关键 IT 电源,其中仅光收发器就消耗了 17 兆瓦。显然,通过减少大部分光收发器组件,可以节省大量电力。
通过比较单个 800G DSP 收发器的功耗与 CPO 系统中光引擎和激光源(每 800G 带宽)的功耗,这一点很容易看出。虽然一个 800G DR4 光收发器的功耗约为 16-17W,但我们估计,Nvidia Q3450 CPO 交换机中使用的光引擎和外部激光源每 800G 带宽的功耗约为 4-5W,功耗降低了 73%。
这些数据与 Meta 在 ECOC 2025 上发表的论文中提出的数据非常接近。在该报告中,Meta 展示了 800G 2xFR4 可插拔收发器消耗约 15W 的功率,而 Broadcom Bailly 51.2T CPO 交换机中的光引擎和激光源每提供 800G 带宽消耗约 5.4W 的功率,节能 65%。
![]()
让我们将分析扩展到集群层面。以基于三层网络的 GB300 NVL72 集群为例,我们发现,后端网络从 DSP 收发器切换到 LPO 收发器,可以将总收发器功耗降低 36%,总网络功耗降低 16%。完全过渡到 CPO 相比 DSP 光模块,节能效果更为显著——收发器功耗降低 84%——尽管部分节能效果会被交换机中新增的光引擎 (OE) 和外部光源 (ELS) 所抵消,这些组件的总功耗增加了 23%。在下面的示例中,CPO 方案下每个服务器的光收发器功耗仍然保持在 1000W,因为我们假设前端网络仍然使用 DSP 收发器。
![]()
使用英伟达的CPO横向扩展交换机意味着默认(default)使用高基数网络,但最终用户并不会感受到这一点,因为端口切换发生在交换机内部,而使用非CPO高基数(high radix )交换机时则需要通过配线架或八爪鱼线缆在交换机外部进行。这些英伟达CPO交换机的优势在于拥有极高的端口数量——例如,Quantum 3450提供144个800G端口,Spectrum 6800提供512个800G端口。
之所以使用“默认”一词,是因为英伟达的非CPO InfiniBand Quantum Q3400交换机也提供144个800G端口,而其其他InfiniBand交换机(例如QM9700)仅提供32个800G端口——只有前者提供了这种“一体式高基数”(high radix in a box)方案,从而提供大量的有效端口。如此高的端口数量可能使客户能够将三层网络简化为两层网络,同时还能省去客户部署交换机、配线架或笨重的八爪鱼线缆的麻烦,这可能成为一项关键的卖点。在两层网络中,与传统的DSP收发器相比,收发器功耗降低了84%,交换机功耗降低了21%,整个网络功耗降低了48%。
Spectrum 6800 交换机拥有大量端口,在两种逻辑配置下均可提供 512 个 800G 端口,相比之下,Spectrum 6810 仅提供 128 个 800G 端口、256 个 400G 端口或 512 个 200G 端口。例如,Spectrum 6810 的 128 个 800G 端口配置下,一个双层网络最多可连接 8,192 个 GPU;而 Spectrum 6800 的 512 个 800G 端口配置则可连接 131,072 个 GPU。
顺便提一下,在L层网络中,使用具有k个端口的交换机所能支持的最大主机数量由以下公式给出:
![]()
神奇之处在于端口数 k 与网络层数呈指数关系。因此,对于一个两层网络,通过为每个端口分配一半带宽(例如,将一个 800G 端口拆分为两个 400G 端口),使用内部端口切换(如 Spectrum 6800 那样)、分支电缆或双端口收发器,可以将逻辑端口数翻倍,这意味着支持的主机数量将增加四倍!
本节目前讨论的节能效果,三层CPO网络可节省23%,两层CPO网络可节省48%,听起来非常可观。但问题在于,三层网络中的网络功耗原本就只占集群总功耗的9%。因此,最终切换到CPO的效果至少对于横向扩展网络而言会被大幅稀释。三层网络切换到CPO可降低23%的网络功耗,但仅节省2%的集群总功耗。迁移到两层网络可降低48%的网络成本,但仅节省4%的集群总功耗。
![]()
从集群总资本成本来看,情况也类似。
CPO 横向扩展总拥有成本 (TCO)
让我们简要地看一下将收发器与CPO解决方案进行比较时的一些成本细节。首款Nvidia CPO交换机Quantum X800-Q3450 CPO将使用72个光引擎,每个引擎的运行速度为1.6Tbit/s;后续版本的Quantum CPO交换机可能会过渡到36个光引擎,每个引擎的运行速度为3.2Tbit/s,每个单元的成本约为1000美元(包括FAU),这意味着每个系统的总OE(optical engines)成本约为3.6万美元。
为了更直观地理解这一点,不妨考虑一下如果使用传统光收发器模块的总成本。非CPO的X800-Q3400交换机配备72个OSFP插槽,并使用一个1.6T双端口收发器来提供144个800G端口。假设一个通用的1.6T DR8收发器的价格为1000美元,那么为这台交换机配备收发器的总成本将达到72000美元,是CPO交换机所需光引擎和ELS模块(预计成本为35000-40000美元)成本的两倍,才能实现相同的带宽。
然而,这还没有考虑交换机厂商的利润。如果毛利率为60%,那么最终用户购买光引擎的成本将达到80000美元-90000美元——这比同等规格的收发器成本更高。此外,光纤换线器等其他组件的成本也会受到这种利润率的影响。这就解释了为什么,根据收发器的成本和交换机供应商的利润,转向 CPO 时节省的成本可能不会很大。
从下表可以看出,在三层网络中从收发器切换到CPO时,CPO组件的额外成本会使交换机成本增加81%,抵消了不购买收发器所节省的86%的成本。尽管CPO的总网络成本仍然比使用DSP收发器低31%,但与电源成本的情况类似,服务器机架在集群总拥有成本(TCO)中占比过高,这意味着集群总成本仅下降了3%。
将网络从三层简化为两层可以节省更多成本——集群总成本最多可降低 7%,收发器成本降低 86%,网络总成本降低 46%。
![]()
因此,如果CPO一方面只能节省高达7%的成本和4%的能耗,另一方面却引发了人们对现场维护困难、可靠性和影响范围(无论这种担忧是否合理)以及与多家收发器供应商谈判时议价能力下降的担忧——那么,为什么GPU云平台还要采用它呢?答案很简单:它尚未被广泛采用——我们预计在短期内,超大规模数据中心不会迅速采用横向扩展的CPO系统。
面向规模化网络的CPO
相反,我们认为面向规模化部署的CPO才是真正的杀手级应用。正如前文所述,大型超大规模数据中心运营商已经向供应商承诺,将在本十年末之前部署基于CPO的规模化部署解决方案。
目前,基于铜缆的现有扩展模式正面临极限挑战,原因在于铜缆传输距离有限——在每通道 200Gbit/s 的速率下,最佳传输距离仅为两米,而且每通道带宽翻倍的难度也日益增加。CPO 可以解决这些问题,因为它既能满足带宽密度要求,又能提供多种未来带宽扩展途径,还能实现更大规模的扩展。
一旦部署了 CPO 以实现纵向扩展网络,纵向扩展域将不再受互连距离的限制。原则上,客户可以将纵向扩展域扩展到任意大小。当然,如果希望将纵向扩展域保持在允许全连接(all-to-all connected)的单层扇出网络中,则纵向扩展域的大小将受到交换机基数的限制。
横向扩展与纵向扩展的TAM
纵向扩展架构的网络需求远高于后端横向扩展网络。GPU 间或交换机间的链路需要更高的带宽和更低的延迟,才能实现 GPU 间的互连,从而使它们能够协同共享内存等资源。
举例来说,Nvidia Blackwell 平台上的第五代NVLink 为每个 GPU 提供 900GB/s(7200Gbit/s)的单向带宽。这比后端横向扩展网络(使用 CX-8 网卡连接 GB300 NVL72)上每个 GPU 的 100GB/s(800Gbit/s)带宽高出 9 倍。这也使得主机需要更高的岸边带宽密度,而这正是推动 GPU SerDes 线路速度不断提升的动力。
同样重要的是要认识到,随着纵向扩展域规模的扩大以及纵向互连速度的提升,纵向互连(以及最终的纵向互连网络)的潜在市场规模已经远远超过了横向扩展网络。横向扩展网络的潜在市场规模很可能主要由纵向扩展网络应用而非横向扩展网络应用占据。
![]()
铜与光学器件在规模化应用中的比较:全球规模、密度和覆盖范围
目前,出于种种原因,横向扩展网络完全依赖铜缆。在当前的插拔架构下,要使光收发器的带宽与 NVLink 相匹配,成本和功耗都将极其高昂,而且还会引入不必要的延迟。此外,计算托架上的面板空间可能不足以容纳所有这些收发器。铜缆在低延迟、高吞吐量连接方面表现出色。然而,正如上文所述,铜缆的传输距离有限,限制了“世界规模”——即单个横向扩展域内可连接的 GPU 数量。
扩大规模是计算扩展的关键途径。在当今基于推理的模型扩展和测试时计算的时代,在单个规模扩展域中增加计算能力、内存容量和内存带宽变得越来越重要。
英伟达的GB200系统之所以能带来巨大的性能提升,是因为它将原本仅由8个互连GPU组成的网络规模扩展到了72个互连GPU,并采用了全连接拓扑结构。其结果是,通过实施在横向扩展网络中无法实现的更复杂的协同通信技术,实现了巨大的吞吐量提升。
在铜缆上,这只能在单个机架的占地面积内实现,对供电、散热和可制造性提出了极高的要求。该系统的复杂性使得下游供应链仍在努力提升产能。
英伟达将继续坚持使用铜缆。为了保持领先于AMD等竞争对手以及那些正在构建自有纵向扩展网络的超大规模数据中心运营商,英伟达还需要进一步扩大其纵向扩展的规模。因此,英伟达不得不采取极端措施,在单个机架内扩展纵向扩展能力。在GTC 2025大会上展示的英伟达Rubin Ultra的Kyber机架架构,可扩展至144个GPU封装(576个GPU核心)。该机架的密度是现有GB200/300 NVL72机架的四倍。鉴于GB200的制造和部署已经非常复杂,Kyber机架架构更是将这一难度提升到了新的高度。
光器件技术实现了相反的方案,它可以通过多个机架进行扩展,从而扩大系统规模,而无需像以往那样在密集的空间内塞入更多加速器,因为后者对供电和散热提出了更高的要求。虽然目前使用可插拔收发器可以实现这一点,但光收发器的成本及其高功耗使得这种方案并不实用。
![]()
铜缆与光纤在规模化应用中的比较:带宽扩展
在铜缆上扩展带宽也变得越来越困难。英伟达的 Rubin 芯片采用了一种新型的双向 SerDes 技术,实现了带宽翻倍。在该技术中,发送和接收操作共享同一信道,从而实现了每个信道 224Gbit/s 的全双工通信(发送 + 接收)。在铜缆上实现每通道 448G 的“真正”带宽仍然是一项极具挑战性的任务,其上市时间也难以确定。相比之下,CPO 提供了多种扩展带宽的途径:波特率、DWDM、额外的光纤对以及调制方式——所有这些都将在本文后续部分详细讨论。CPO何时才能做好迎接黄金时段的准备?
那么,如果CPO是解决方案,为什么英伟达最初只将其应用于横向扩展交换机,而不将其应用于Rubin Ultra呢?这归根结底是供应链不成熟、制造工艺面临挑战以及客户对部署的犹豫。推出Quantum和Spectrum CPO交换机的目的是为了帮助提升供应链效率,并获取更多关于数据中心可靠性和可维护性的实际数据。
在此期间,Meta 在 ECOC 期间发布的 CPO 可靠性数据提供了一些有用的信息。Meta与 Broadcom 合作开展了这项研究,Broadcom也发布了一些有用的幻灯片。在这项研究中,Meta 对 15 台 Bailly 51.2T CPO 交换机进行了规模适中的测试,累计 400G 端口设备小时数高达 104.9 万小时,并发布了最大非零 KP4 前向纠错 (FEC) 值:
![]()
该论文还解释了在测试期间,链路中没有观察到任何故障或不可纠正的码字 (UCW),并指出在整个测试期间(400G 端口设备运行时间达 1,049k 小时)只观察到一次 FEC bin > 10 的情况。
然而,Meta的研究并未止步于此。在ECOC大会上发表同一篇论文时,他们展示了高达1500万400G端口设备小时数的扩展结果。这些结果表明,在前400万400G端口设备小时内未出现UCW(未解决的故障),并且400G 2xFR4收发器(全球2xFR4收发器为55万)的平均故障间隔时间(MTBF)为0.5-1M设备小时,而CPO的MTBF为260万设备小时。(原文:Meta did not stop there, however. In the talk at ECOC presenting the same paper, they presented expanded results for up to 15M 400G port-device hours. These results showed that there were no UCWs for the first 4M 400G port device hours, and they also showed a 0.5-1M device hour mean time before failure (MTBF) for 400G 2xFR4 transceivers (550k for 2xFR4 globally) vs 2.6M device hour MTBF for CPO.)
![]()
虽然 1500 万端口设备小时听起来很大,但这是以 400G 端口小时为单位的。也就是说,一台 51.2T 交换机运行一小时相当于 128 个 400G 端口小时。15 台 51.2T 交换机共计 1500 万个 400G 端口小时,相当于 7812 个实际运行小时,约合 325 天。事实上,这 1500 万小时通常被简单地称为“小时”或“设备小时”,而省略了“端口”部分。尽管在 400 万端口设备小时内零故障和零 UCW 统计数据非常有价值,但在转向 CPO 横向扩展交换并投入数十亿美元之前,业界需要的远不止是在实验室环境中测试 15 台 CPO 交换机 11 个月。
在动态的现场环境中运行数千台横向扩展交换机是一项截然不同的挑战,这些交换机在生产环境中的性能表现还有待观察。生产环境中的温度波动可能比实验室环境更大,从而导致组件性能或耐久性出现意想不到的变化。Meta公司在其 Llama 3 论文中指出,数据中心 1-2% 的温度波动会对功耗波动产生不利影响——这种波动是否会以难以预料的方式影响整个网络架构?
![]()
即使是数据中心灰尘这种看似平常的问题,也令技术支持人员头疼不已,他们可能需要花费大量时间清理光纤端面——当然,CPO交换机通常配备LC或MPO型前置可插拔连接器,但CPO交换机机箱内部的灰尘又该如何处理呢?0.06%的故障率听起来很诱人,但这种故障的影响范围可达64个800G端口。本文主要讨论的是基于FR光模块的CPO交换机,而下一代CPO交换机将基于DR光模块。以上仅列举了一些已知的未知因素,在现场测试中还可能出现更多未知的未知因素。
事实上,这些结果通过提供切实可靠的可靠性数据,有力地说服了业内人士。我们的目的并非制造恐慌、不确定性或疑虑(FUD),而是呼吁开展更大规模的现场测试,以便业界能够快速了解并解决未预见的问题,从而为更广泛地采用CPO(网络性能优化)技术铺平道路,尤其是在规模化网络建设方面。
归根结底,英伟达此次横向扩展CPO产品的发布,实际上是为真正的大规模部署进行一次演练和清理。我们认为,鉴于纵向扩展相比横向扩展具有更显著的总体拥有成本 (TCO) 和性能/TCO 比优势,其部署规模和影响将远超横向扩展。
此外,就横向扩展型CPO而言,Rubin Ultra计划于2027年发布(我们认为最终会是2027年底),但供应链届时还无法满足数千万个CPO终端的交付需求,从而无法满足GPU的需求。即使是这样的时间表对英伟达来说也过于雄心勃勃。因此,费曼世代似乎是CPO注入英伟达生态系统的重点。
现在让我们深入探讨一下 CPO 的含义、技术考量、挑战以及当前生态系统的状况。
CPO介绍和实施
CPO是什么?为什么大家都这么兴奋?
CPO将光引擎直接集成到与高性能计算或网络ASIC相同的封装或模块中。这些光引擎将电信号转换为光信号,从而实现通过光链路进行高速数据传输。由于铜缆上的高速电信号传输距离有限,因此必须使用光链路进行几米以上的远距离数据通信。
如今,大多数电光转换都是通过可插拔光收发器实现的。在这种情况下,电信号会从交换机或处理芯片出发,经过数十厘米甚至更远的PCB板,最终到达机箱前面板或后面板上的物理收发器外壳。可插拔光收发器就位于该外壳内。收发器接收电信号,经光数字信号处理器(DSP)芯片进行重新处理后,再发送到光引擎组件,由其将电信号转换为光信号。然后,光信号可以通过光纤传输到链路的另一端,在那里,另一个收发器会反向执行此过程,将光信号转换回电信号,最终返回到目标芯片。
在这个过程中,电信号(至少对于铜线而言)需要经过相对较长的距离,并经过多个转换点才能到达光链路。这会导致电信号衰减,并且需要大量的功率和复杂的电路(例如串行器/解串器)来驱动和恢复信号。为了改善这种情况,我们需要缩短电信号的传输距离。这就引出了“共封装光器件”的概念,即将原本位于可插拔收发器中的光引擎与主机芯片共封装。由于光引擎距离扩展处理器(XPU)或交换机专用集成电路(ASIC)更近,因此可以将电气走线长度从几十厘米缩短到几十毫米。这显著降低了功耗,提高了带宽密度,并通过最大限度地减少电气互连距离和缓解信号完整性挑战来降低延迟。
下图展示了一种CPO(芯片封装优化)方案,其中光引擎与计算芯片或交换芯片封装在同一芯片上。光引擎最初将位于基板上,未来将放置在中介层上。
![]()
如今,如下图所示,前置可插拔光模块解决方案已十分普及。该图的主要意义在于说明,电信号需要沿着铜线或架空电缆传输一段较长的距离(15-30厘米)才能到达收发器中的光引擎。正如上文所述,这也意味着需要使用长距离(LR)SerDes 来驱动可插拔模块。
![]()
此外,还有一些介于 CPO 和传统前插拔光学器件之间的中间实现方式,例如近封装光学器件 (NPO) 和板载光学器件 (OBO)。
近年来,非封装光引擎(NPO)已成为实现复合封装光引擎(CPO)的中间步骤。NPO有多种定义。NPO指的是光引擎并非直接封装在ASIC基板上,而是封装在另一个基板上。光引擎仍然保持可插拔状态,可以从基板上拆卸下来。电信号仍然会从XPU封装上的SerDes通过铜通道传输到光引擎。
![]()
还有一种方案是板载光模块(OBO),它将光引擎集成到机箱内的系统PCB上,使其更靠近主机ASIC。然而,OBO继承了CPO的诸多挑战,但在带宽密度和功耗方面却优势不明显。我们认为OBO是“两头不讨好”的方案,因为它既包含了CPO的复杂性,又继承了前插拔式光模块的一些局限性。
![]()
共封装铜
CPO 的另一种替代方案是“共封装铜”(CPC:Co-packaged Copper)。CPC 使用直接从基板上的连接器引出的铜缆。CPC 使用的电缆与飞线电缆相同,用途也相同:绕过 PCB 走线。CPC 在飞线电缆的基础上更进一步,其插座直接位于封装基板上。所使用的电缆是绝缘良好的双轴电缆(Twinax 电缆),可有效降低串扰,从而显著降低插入损耗,远低于传统的电气走线。虽然该方案仍然使用铜,但它在信号完整性方面具有关键优势。CPC 可以为部署 448G SerDes 提供切实可行的途径,从而进一步扩展封装外互连技术。
![]()
CPC 的挑战在于封装基板的复杂性增加。基板必须将电源和信号路由到数千根这样的电缆。尽管面临这一挑战,CPC 仍然比 CPO 简单得多,后者仍需克服供应链多个环节的诸多制造难题。我们认为 CPC 对于某些短距离应用(例如机架内扩展连接)尤其具有吸引力,我们将在下文探讨这一点。通过绕过损耗较大的 CCL 走线,CPC 有望成为实现 448G 线路速度的技术。此外,由于这种带宽的信号在 PCB 中传输时会遭受不可接受的衰减,因此 CPC 也被广泛用于实现 448G 传输。
过去阻碍 CPO 市场准备的障碍:为什么现在才出现?
尽管CPO技术具有显著优势,但由于诸多挑战导致成本居高不下,其在实际应用中仍然非常有限。这些挑战包括:封装的复杂性(其成本甚至高于原始设备制造商本身)、制造工艺的复杂性、可靠性和良率问题,以及由紧密集成的光学和电子元件引起的散热管理问题。另一个障碍是缺乏行业标准。此外,客户对可维护性的担忧也阻碍了从传统可插拔光学器件向CPO解决方案的过渡。
客户的另一个主要担忧是,采用CPO模式可能会让他们失去控制成本的能力。相比于少数交换机厂商,向数量较多的收发器厂商压榨成本要容易得多。
与此同时,可插拔光器件(CPO 将取代的现有技术)不断改进,并且仍然能够为几乎所有应用提供足够好的性能,同时大大减少了最终用户的焦虑。
在第二部分的剩余部分,我们将深入探讨采用CPO的驱动因素。
首先,我们将解释SerDes的扩展性已达到瓶颈,因此需要采用其他接口类型,例如Wide I/O与CPO相结合。然后,我们将讨论制造方面的考量以及市场推广策略。我们将讨论CPO的关键组件,例如光引擎、光纤耦合器、外部激光源和调制器。最后,我们将介绍CPO带宽扩展的路线图。
超越基于DSP的收发器:从LPO到CPO
数字信号处理收发器负责光信号的发射和接收,其内部包含一个“光引擎”(OE),用于进行电光转换。光引擎由驱动器(DRV)和调制器(MOD)组成,用于发射光信号;同时还包含跨阻放大器(TIA)和光电探测器(PD),用于接收光信号。
另一个重要组件是光DSP芯片,它有时会将驱动器和/或TIA集成在一个封装中。从主机交换或处理芯片发出的高频电信号需要沿着损耗较大的铜线传输相对较长的距离,才能到达服务器机箱前端的收发器。DSP负责对该信号进行重定时和重新调整。它执行纠错和时钟/数据恢复,以补偿信号从交换机或ASIC芯片通过基板或其他传输介质传输过程中产生的电信号劣化和衰减。对于调制,以PAM4调制(四级脉冲幅度调制)为例,DSP将二进制信号映射到四个不同的幅度级别,以增加每个信号的比特数,从而实现更高的比特率和更大的带宽。
![]()
DSP芯片是收发器中最耗电、最昂贵的组件之一,甚至可以说是最耗电、最昂贵的组件。对于800G SR8收发器而言,DSP芯片的功耗几乎占模块总功耗的50%,这也是为什么人们如此重视如何去除DSP芯片的原因。
![]()
构建一个包含 18k GB300 服务器的集群,采用双层 InfiniBand 网络,需要 18,432 个 800G DR4 收发器和 27,648 个 1.6T DR8 收发器。使用 DSP 带来的额外成本和功耗会显著增加总拥有成本。假设每个 800G DSP 的功耗为 6-7W,每个 1.6T DSP 的功耗为 12-14W,那么仅整个集群的后端网络就需要 480kW 的 DSP 功耗,相当于每个服务器机架约 1.8kW。如果从知名品牌供应商采购,收发器的成本可能占集群总拥有成本的近 10%。因此,DSP 的功耗占总功耗的 50%,物料清单成本 (BOM) 的 20-30%,一些人甚至将其视为降低成本和提高能效的头号敌人。
![]()
反对DSP的运动
数字信号处理器(DSP)的高成本和高功耗促使业界寻找能够绕过DSP的技术。第一波攻击DSP的浪潮是线性可插拔光(LPO)——它试图完全移除DSP,让交换机中的SerDes直接驱动收发器中的TX和RX光元件。然而,正如DSP专家Loi Nguyen在2023年接受我们采访时准确预测的那样,LPO尚未普及。
CPO 将 LPO 的概念提升到了一个新的层次,它将光引擎与计算或交换芯片封装在同一芯片上。CPO 的一个关键优势在于,由于主机和光引擎之间的距离非常短,因此不再需要收发器中的 DSP。此外,CPO 还超越了 LPO,因为它无需使用功耗和面积都较大的长距离 SerDes,而是采用短距离 SerDes,甚至在宽 I/O 接口的情况下采用时钟转发的宽 D2D SerDes,从而显著提高了芯片的海岸线密度。
人们常说,CPO技术其实近在咫尺,但过去二十年来它为何始终未能普及?为什么业界更倾向于使用可插拔DSP收发器?
可插拔收发器的一大优势在于其高度互操作性。凭借 OSFP 和 QSFP-DD 等标准封装形式以及对 OIF 标准的遵循,客户通常可以独立于交换机和服务器供应商选择收发器供应商,从而享受采购灵活性和更强的议价能力。
另一个巨大的优势是现场可维护性。收发器的安装和更换非常简单,只需由远程人员将其从交换机或服务器机箱上拔下即可。相比之下,对于CPO(光纤光模块),光引擎的任何故障都可能导致整个交换机无法使用。即使是可维护的故障,排查和修复也可能非常复杂。通常,激光器是最常见的故障点,目前大多数CPO方案都采用可插拔的外部激光器以提高可维护性和可更换性,但人们仍然担心其他不可插拔的CPO组件会发生故障。
为什么需要CPO?I/O挑战、带宽密度和瓶颈
除了摆脱耗电且成本高昂的 DSP 和最大限度地减少或消除 LR SerDes 的使用之外,采用 CPO 的另一个巨大好处是相对于能耗而言更高的互连带宽密度。
带宽密度衡量单位面积或信道内传输的数据量,反映了有限空间用于高速数据传输的效率。能量效率量化了传输单位数据所需的能量。
因此,互连带宽密度与能耗之比是衡量给定互连客观质量的一个非常重要的指标(FoM)。当然,最优互连方案还应满足距离和成本参数的要求。
观察下图,可以发现一个明显的趋势:对于电链路而言,随着距离的增加,该性能指标呈指数级下降。此外,从纯电接口过渡到需要光电转换的接口,效率会大幅下降——甚至可能下降一个数量级。这种下降是由于需要能量来驱动信号从芯片传输到前面板的收发器。而为光DSP供电则需要更多能量。基于CPO的通信的性能指标曲线明显高于可插拔接口。如下图所示,在相同的距离范围内,CPO在单位面积和单位能耗下具有更高的带宽密度,因此是一种客观上更优的互连方式。
![]()
这张图表也印证了“能用铜缆就用铜缆,必须用光纤才用”这句格言。如果条件允许,短距离铜缆通信性能更优。英伟达在其机架级GPU架构中秉承了这一理念,其设计目的就是为了突破机架内部密度的极限,最大限度地提高可通过铜缆联网的GPU数量。这正是GB200 NVL72所采用的纵向扩展网络架构背后的逻辑,而英伟达在其Kyber机架中更进一步地实践了这一理念。然而,CPO技术的成熟只是时间问题,它终将使纵向扩展能够充分利用其在性能优化曲线中的优势,并从总体拥有成本(TCO)的角度带来更高的性价比。
输入/输出 (I/O) 障碍和阻碍
虽然晶体管密度和计算能力(以 FLOPs 表示)得到了很好的扩展,但 I/O 的扩展速度却慢得多,这造成了整体系统性能的瓶颈:由于要传输到片外的数据需要通过有机封装基板上有限数量的 I/O,因此可用于片外 I/O 的可用带宽是有限的。
此外,提高每个I/O的信号传输速度变得越来越困难且耗电,进一步限制了数据传输。这正是互连带宽在过去几十年中相对于其他计算趋势而言扩展性如此糟糕的一个关键原因。
![]()
由于单个倒装芯片BGA封装中凸点数量的限制,高性能计算(HPC)应用的封装外I/O密度已达到瓶颈。这制约了逃逸带宽的扩展。
![]()
电气串行器/解串器扩展瓶颈
在I/O数量有限的情况下,提高带宽的关键在于提升每个I/O信号的传输频率。目前,英伟达和博通在SerDes IP领域处于领先地位。英伟达在其Blackwell芯片中采用了224G SerDes,这正是其高速NVLink芯片的核心所在。同样,博通也从2024年底开始在其光DSP中提供224G SerDes的样品。这两家在AI浮点运算能力方面领先的公司同时也是高速SerDes IP领域的领军者,这绝非巧合。这进一步印证了AI性能与吞吐量之间的根本联系:最大化数据传输效率与提供强大的计算能力同样至关重要。
然而,在理想传输距离下提供更高的线路速度正变得越来越具有挑战性。如下图所示,随着频率的增加,插入损耗也会增加。我们可以看到,在更高的SerDes信号传输速度下,损耗会增加,尤其是在信号路径延长的情况下。
![]()
SerDes 的扩展性已接近瓶颈。在不增加信号恢复组件的情况下,更高的传输速率只能在极短的距离内维持——而这些组件反过来又会增加复杂性、成本、延迟和功耗。因此,实现 224G SerDes 一直困难重重。
展望 448G SerDes,能否突破几厘米的传输距离仍存在诸多不确定性。英伟达在 Rubin 芯片中采用双向 SerDes 技术,实现了每个电通道 448G 的连接。要实现真正的 448G 单向 SerDes,还需要进一步的研发。我们可能需要采用更高阶的调制方式,例如 PAM6 或 PAM8,而不是自 56G SerDes 时代以来一直沿用的 PAM4 调制。使用每个信号编码 2 位的 PAM4 来实现 448G 传输速率,需要 244Gbaud 的波特率,这很可能由于过高的功耗和插入损耗而难以实现。SerDes 扩展瓶颈成为 NVLink 扩展的障碍
在 NVLink 协议中,NVLink 5.0 的带宽相比 NVLink 1.0 提升了 11 倍以上。然而,这种增长并非源于通道数量的显著增加,通道数量仅从 NVLink 1.0 的 32 条略微增加到 NVLink 5.0 的 36 条。带宽扩展的关键驱动因素是 SerDes 通道速度的 10 倍提升,从 20G 提升至 200G。然而,在 NVLink 6.0 中,Nvidia 预计将继续使用 200G SerDes,这意味着它必须将通道数量翻倍——Nvidia 巧妙地利用双向 SerDes 实现了这一点,在物理铜线数量不变的情况下,有效地将通道数量翻倍。除此之外,无论是提升 SerDes 速度,还是克服有限的线路容量来容纳更多通道,都将变得越来越困难,最终总带宽将无法满足需求。
对于那些以吞吐量作为竞争优势的尖端企业而言,扩展逃逸带宽至关重要。对于拥有NVLink扩展架构的英伟达来说,这一障碍可能会让AMD等竞争对手以及超大规模数据中心运营商更容易迎头赶上。
![]()
![]()
解决这一难题的方案——或者说,必要的折衷方案——是尽可能缩短电气输入/输出距离,并将数据传输卸载到尽可能靠近主机ASIC的光链路上,以实现更高的带宽。这就是为什么CPO被认为是互连领域的“圣杯”。CPO允许在ASIC封装上进行光通信,无论是通过基板还是中介层。电信号只需在封装基板上传输几毫米,理想情况下,通过更高质量的中介层传输更短的距离,而无需像传统方式那样通过损耗较大的覆铜层压板(CCL)传输数十厘米。
SerDes可以针对短距离传输进行优化,所需的电路比同等长距离的SerDes少得多。这不仅简化了设计,还降低了功耗和芯片面积。这种简化使得高速SerDes更容易实现,并扩展了SerDes的扩展路线图。然而,我们仍然受到传统带宽模型的限制,即带宽密度仍然与SerDes的速度成正比。
为了实现更高的带宽密度,在极短距离下,宽 I/O PHY 是更佳选择,其单位功耗带宽密度优于 SerDes 接口。宽 I/O 也意味着需要更复杂的封装。然而,对于 CPO 而言,这无关紧要:其封装技术已经非常先进,因此集成宽 I/O PHY 几乎不会增加额外的封装复杂性。
宽 I/O 与 SerDes
一旦不再需要将电信号传输到相对较远的距离,我们就可以完全摆脱串行接口,转而使用宽接口,从而在短距离内提供更好的海岸线密度。
UCIe接口就是一个例子。UCIe-A可提供高达~10 Tbit/s/mm的海岸线密度,专为高级封装(例如,通过距离小于2mm的中介层连接的芯片组)而设计。在光罩尺寸芯片的长边上,这相当于高达330 Tbit/s(41TByte/s)的封装外带宽。这意味着从芯片两侧边缘可获得660 Tbit/s的双向带宽。相比之下,Blackwell接口的封装外带宽仅为23.6 Tbit/s,相当于约0.4 Tbit/s/mm的海岸线密度,两者差距巨大。
![]()
当然,这并非完全等同的比较,因为这些封装外的PHY芯片需要用于远距离传输。恰恰相反,这正是本文要说明的重点:采用CPO技术后,传输距离不再是问题,因为信号无需通过电信号进行远距离传输。在10 Tbit/s/mm的带宽密度下,瓶颈不再是电接口,而是链路的其他部分,即另一端光纤能够传输多少带宽。
达到这种限制条件距离目前的实际情况还很遥远,而且OE必须与主机共享一个中介层。将CPO集成到中介层本身,其研发进度甚至比将OE可靠地集成到基板上还要慢。当然,基板上的PHY性能会更差,UCIe-S的海岸线密度约为1.8Tbit/s/mm。但这仍然比我们认为224G SerDes的约0.4Tbit/s/mm的性能有了显著提升。
然而,尽管宽接口具有诸多优势,博通和英伟达仍然坚持在其产品路线图中推进电控SerDes技术。主要原因是他们相信SerDes仍具有可扩展性,并且需要针对铜缆进行设计,尤其是在光芯片普及速度缓慢的情况下。此外,混合封装的铜缆和光芯片解决方案似乎更有可能长期存在,这就要求他们同时针对这两种封装进行优化。采用这种方法是为了避免为不同的解决方案进行多次芯片流片。
链路弹性(Link Resiliency)
链路弹性和可靠性是CPO技术的其他重要驱动因素。在大型AI集群中,链路中断会显著影响集群的整体可用性,即使链路可用性和稳定性方面有微小的提升,也能为基础设施投资带来巨大的回报。
如今,在一个拥有近百万条链路且采用可插拔模块的大型人工智能集群中,每天可能会发生数十次链路中断。其中一些是“硬”故障,由组件故障或硬件质量问题导致;而许多则是“软”故障,其根本原因多种多样,源于可插拔解决方案固有的复杂性和可变性。故障模式多种多样,包括但不限于信号完整性问题和波动、连接器和引线键合质量、组件和引脚污染、噪声注入以及其他瞬态效应。这些故障与组件故障的相关性很低。因链路故障而退回的光模块中,80%经检测“未发现故障”。
CPO 通过以下方式显著降低了大规模 AI 网络中高速信号路径固有的复杂性和可变性:
1、显著减少光接口中的组件数量。光子级和芯片/封装级的高集成度降低了关键高速组件的复杂性,并提高了系统级的可靠性和良率。电光接口的数量也减少了,从而最大限度地降低了每个接口处的功率损耗。
2、显著改善主机ASIC(例如交换机)与光引擎之间主机电气接口的信号完整性。通过将光引擎封装在具有非常明确且确定的设计规则和制造公差的第一级封装上,显著降低了插入损耗、反射和其他非线性损伤。
3、降低交换机高速信号路径中端口间的差异,可以减少DSP信号处理、主机和模块均衡、主机和模块固件以及链路优化算法的开销和复杂性。所有可插拔模块解决方案以及主机SerDes都必须设计成能够适应这种端口间性能的差异,否则会导致复杂性增加和故障点增多。
消除光链路配置中的“人为”因素。CPO交换机或光引擎在出厂前已完成组装和测试,确保“已知良好”,无需进行大量的现场操作来配置交换机中的光模块,从而避免了安装差异、损坏、污染以及系统和光模块之间的兼容性问题。
CPO上市及部署挑战
CPO光学引擎制造考量及市场推广
CPO 的产量尚未达到大规模应用所需的水平。博通是唯一一家交付搭载 CPO 的生产系统的厂商,其产品包括 Bailly 和 Humboldt 交换机,但现在英伟达也加入了竞争。不过,这些产品的出货量仍然非常低。CPO 引入了许多新的制造工艺,给生产制造带来了巨大的挑战。可以理解的是,考虑到供应链的不成熟以及可靠性数据的缺乏,客户也不愿贸然采用这项技术。
要使CPO获得市场认可,行业领导者必须投资于这些产品的交付,并推动供应链开发可扩展的制造和测试流程。英伟达率先迈出了这一步,他们的目标是让供应链做好准备,识别并解决问题,并帮助数据中心运营商为我们认为的“杀手级”应用——纵向扩展网络——做好准备。关于CPO,有几个关键组成部分和注意事项需要关注,所有这些都会对性能和可制造性产生影响。这些组成部分和注意事项包括:
1、主机和光引擎封装(Host and Optical Engine packaging)
2、光纤和光纤耦合(Fibers and Fiber coupling)
3、激光源和波长复用(Laser Sources and Wavelength Multiplexing)
4、调制器类型(Modulator Type)
一、主机和光引擎封装
顾名思义,“共封装光学器件”从根本上来说是一个封装和组装方面的挑战。
光引擎包含光学元件和电子元件。光电探测器和调制器是光学元件,包含在光子集成电路(PIC)中。驱动器和跨阻放大器是电子电路,包含在电子集成电路(EIC)中。光引擎需要将PIC和EIC集成在一起才能正常工作。目前存在多种封装方法来实现PIC-EIC的集成。
![]()
光引擎可以通过在同一片硅晶圆上制造光子集成电路 (PIC) 和电子集成电路 (EIC) 来实现单片集成。就寄生参数、延迟和功耗而言,单片集成是最理想的方案。
Ayar Labs 的第二代 TeraPHY 芯片就采用了这种方案(尽管他们的下一代芯片将转向台积电 COUPE 工艺)。GlobalFoundries、Tower 和 Advanced Micro Foundry 等代工厂可以提供单片 CMOS 和 SiPho 工艺。然而,由于光子工艺无法像传统 CMOS 工艺那样扩展,单片工艺的几何尺寸通常止步于 35nm 左右。这限制了 EIC 的性能,尤其是在 CPO 系统中,由于需要更高的通道速度,单片集成就显得尤为重要。
尽管单片集成本身具有简洁性和优势,但这也使得它难以扩展。因此,Ayar Labs 正在将其产品路线图转向异构集成光引擎,以实现进一步的扩展。
异构集成正逐渐成为主流方法,该方法包括使用硅光电(SiPho)工艺制造光子集成电路(PIC),并通过先进封装技术将其与CMOS晶圆上的电子集成电路(EIC)集成。目前存在多种封装解决方案,更先进的封装方案可提供更高的性能。其中,3D集成可提供最佳的带宽和能效。EIC与PIC通信的一大难题是寄生效应,它会降低性能。大幅缩短走线长度可以显著降低寄生效应,从而提高耦合效率:从带宽和功耗的角度来看,3D集成是实现CPO性能目标的唯一途径。
台积电 COUPE 正在成为首选的集成方案
台积电正迅速成为下一代光引擎(OE)的首选代工合作伙伴,无论是大型无晶圆厂厂商还是初创公司都对其青睐有加。首批采用CPO(紧凑型通用光子引擎)终端的大批量产品以“COUPE”之名推出,COUPE是“Compact Universal Photonic Engine”(紧凑型通用光子引擎)的缩写。这包括EIC(电子集成电路)和PIC(光子集成电路)的制造,以及在台积电COUPE解决方案下的异构集成。
英伟达在GTC 2025大会上自豪地展示了其COUPE光引擎,这些产品将成为首批交付的COUPE产品。博通也已将COUPE纳入其未来产品路线图,尽管其现有几代光引擎由其他供应链合作伙伴提供。如前所述,此前依赖Global Foundries的Fotonix平台制造单片光引擎的Ayar Labs,现在也已将COUPE纳入其产品路线图。
与在传统CMOS逻辑领域的统治地位不同,台积电此前在硅光子学领域的份额有限,GlobalFoundries和Tower Semi是其首选的代工合作伙伴。然而,近年来,台积电在光子学方面的能力正在迅速追赶。台积电在用于EIC组件的尖端CMOS逻辑方面拥有无可争议的优势,以及领先的封装能力——台积电是唯一一家成功实现合理规模的芯片-晶圆混合键合技术的代工厂,已批量交付了多款AMD混合键合芯片。
混合键合是一种性能更高的PIC和EIC键合方法,但成本也显著更高。英特尔正在努力开发类似的技术,但在开创这项技术方面面临着诸多挑战。
总体而言,尽管台积电此前在独立硅光电器件(SiPho)领域实力较弱,但如今已成为封装封装(CPO)领域的关键参与者。与其他主要厂商一样,台积电的目标是尽可能多地占据价值链。通过采用台积电的COUPE解决方案,客户实际上承诺使用台积电制造的光子集成电路(PIC),因为台积电不封装其他代工厂的硅光电晶圆。许多专注于封装封装的公司已果断地将台积电的COUPE方案纳入其未来几年的市场推广解决方案中。
![]()
芯片制造:台积电提供全面的芯片制造解决方案。EIC采用N7工艺制造,集成了高速光调制器驱动器和TIA。它还包含加热器控制器,以实现波长稳定等功能。而PIC则采用SOI N65工艺制造,台积电为光子电路设计、光子布局设计和验证,以及光子电路的仿真和建模(涵盖射频、噪声和多波长等方面)提供广泛的支持。
EIC 和 PIC 采用 TSMC-SoIC 键合工艺进行键合。如前所述,较长的走线长度意味着更多的寄生效应,从而降低性能。TSMC 的 SoIC 是一种无凸点接口,可在不采用单片集成的情况下提供尽可能短的走线长度,因此是实现 EIC 和 PIC 异构集成的最佳性能方案。如下所示,在等功耗下,基于 SoIC 的 OE 的带宽密度是采用凸点集成的 OE 的 23 倍以上。
![]()
COUPE 支持整个光学引擎设计和集成流程。在光学 I/O 方面,它支持微透镜设计,可在晶圆或芯片级集成微透镜,并支持涵盖反射镜、微透镜、光栅耦合器 (GC) 和反射器等光学 I/O 路径的仿真。在 3D 堆叠方面,它支持 3D 布局规划、SoIC-X/TDV/C4 凸点布局实现、接口物理检查以及高频通道模型提取和仿真。为确保无缝开发,公司提供完整的 COUPE 设计和验证 PDK 和 EDA 工作流程,使设计人员能够高效地实现其技术。
耦合:稍后我们将详细介绍,主要有两种耦合方式——光栅耦合 (GCgrating coupling ) 和边缘耦合 (ECedge coupling)。COUPE 在无凸点 PIC 堆叠结构上使用相同的 EIC 来实现 GC 和 EC。然而,COUPE-GC 结构将采用硅透镜 (Si 透镜) 和金属反射器 (MR),而 COUPE-EC 结构则具有独特的 EC 端面(用于将 EC 端接至光纤)。对于 GC,Si 透镜设计在 770µm 厚的硅载体 (Si 载体) 上,MR 位于 GC 正下方,并带有优化光学性能所需的介质层。然后,Si 载体通过晶圆级 (WoW) 键合到芯片级 (CoW) 晶圆上。
![]()
光纤连接单元 (FAUFiber Attach Unit) :FAU 的设计需要与 COUPE 的光路相匹配。FAU 的作用是以低插入损耗将来自硅透镜的光耦合到光纤中。随着 I/O 数量的增加,制造难度也会增加,但如果业界能够遵循特定标准,则可以缩短开发时间并降低成本。总而言之,每个组件都需要优化设计才能实现最佳光学性能。
![]()
产品路线图:COUPE 的首批迭代产品将是基板上的光引擎,最终目标是将光引擎放置在中介层上。中介层可提供更高的 I/O 密度,从而实现光引擎与 ASIC PHY 之间更大的带宽,单个光引擎的带宽最高可达 12.8Tbit/s,相当于约 4Tbit/s/mm。集成中介层的挑战在于如何缩小中介层的尺寸(中介层比封装基板更昂贵)以容纳光引擎。
这就是为什么博通尽管此前已采用SPIL开发的扇出型晶圆级封装(FOWLP)技术迭代了多代CPO解决方案,最终还是决定转向台积电的COUPE技术。值得注意的是,博通已承诺在其未来的交换机和客户加速器产品路线图中采用COUPE技术。我们了解到,由于寄生电容过大,FOWLP技术无法实现单通道100G以上的扩展,因为电信号必须通过模内通孔(TMV)才能到达EIC。为了保持产品路线图的竞争力,博通必须转向COUPE技术,因为该技术具有更优异的性能和可扩展性。这凸显了台积电的技术优势,使其即使在以往被认为较弱的光学领域也能赢得市场。
![]()
将 OE 与主机打包
OE本身被放置在基板上,之后基板通过倒装芯片键合连接到主机封装上。共封装OE需要很大的封装面积。这就需要显著增大封装基板或中介层的尺寸,具体取决于OE的放置位置。例如,英伟达Spectrum-X Photonics开关ASIC封装的基板尺寸为110mm x 110mm。相比之下,Blackwell封装的尺寸为70mm x 76mm,而Blackwell本身也是一个非常大的芯片。
此外,将更多元件连接到基板上会带来良率方面的挑战。同样,对于 Spectrum-X 而言,需要先将 36 个已知良率良好的 OE 元件倒装键合到基板上,然后再将中介层模块键合到基板上,完成“基板上”组装步骤,从而完成 CoWoS 组件的组装。
同样,对于中介层而言,制造尺寸更大的中介层成本更高,需要粘合更多元件,这会带来良率方面的挑战。此外,随着中介层/基板尺寸的增大,翘曲问题会更加突出,从而加剧这些挑战。
二、FAU 和光纤耦合
光纤从OE引出用于数据传输。一条光通道由两根光纤或一对光纤组成(发送加接收)。光纤耦合——即将光纤与片上波导精确对准以实现平滑高效的光传输——是芯片光子输出 (CPO) 中至关重要且极具挑战性的步骤,而光纤阵列单元 (FAU) 在 CPO 中被广泛用于辅助这一过程。实现光纤耦合主要有两种方式:边缘耦合 (EC) 和光栅耦合 (GC)。
边缘耦合
边缘耦合将光纤沿芯片边缘对齐。从下图可以看出,光纤末端必须与芯片的抛光边缘精确对齐,以确保光束准确进入边缘耦合器。光纤末端的微透镜将光聚焦并导向芯片,引导光束进入波导。波导的锥形部分逐渐变宽,从而实现平滑的模式过渡,减少反射和散射,确保耦合效率。如果没有这样的透镜和锥形部分,光纤端面和波导端面之间的界面处将存在显著的光损耗。
![]()
边缘耦合因其耦合损耗低、可与宽波长范围的光配合使用以及对偏振不敏感而备受青睐。然而,它也存在一些缺点:
1、制造过程更加复杂,需要进行底切和深蚀刻;
2、由于纤维是一维结构,因此纤维密度可能受到限制;
3、它与芯片堆叠不兼容(因为TSV需要减薄);
4、机械可靠性方面的挑战包括外形尺寸、机械应力、翘曲和纤维处理;
5、它的热可靠性较低;
6、总体而言,生态系统兼容性不足。
在今年的超大规模集成电路(VLSI)大会上,Global Foundries(GFS)展示了一款单片集成的SiN边缘耦合器,该耦合器在其标志性的45nm“Fotonix”平台上实现了32个通道和127µm间距。
光栅耦合(GC)
在光栅耦合器(GC)中,光从顶部进入,光纤以较小的角度位于光栅上方。当光到达光栅时,周期性结构会散射光并将其向下弯曲进入波导。
光栅/垂直耦合的主要优势在于能够容纳多排光纤,从而允许每个光引擎使用更多光纤。此外,光栅耦合器无需放置在基板底部,因此可以将光引擎放置在中介层上。最后,光栅耦合器的定位精度要求不高,并且可以通过简单的两步蚀刻工艺轻松制造。光栅耦合器的缺点是单偏振光栅耦合器仅适用于有限的波长范围,并且对偏振非常敏感。
英伟达之所以偏爱GC技术,是因为它具有诸多优势——它能实现二维高密度封装,占地面积更小,制造工艺更简便,并且相比EC技术,晶圆级测试也更简单。然而,该公司也意识到GC技术的几个缺点——它通常会引入更高的光损耗,并且光带宽比EC技术更窄(后者通常可以容纳更宽的光谱范围)。
台积电显然也更偏爱GC,其COUPE平台支持GC。
![]()
三、激光器类型和波分复用(WDM)
将激光器集成到 CPO 中主要有两种方法。
第一种方法是片上激光器,它将激光器和调制器集成在同一光子芯片上,通常是通过将 III-V 族(InP)材料键合到硅上来实现的。虽然片上激光器简化了设计并降低了插入损耗,但也存在一些挑战:
众所周知,激光器是系统中故障率最高的组件之一——如果将其集成到 CPO 引擎中,故障将产生巨大的影响范围,因为它会摧毁整个芯片;
激光器对热也很敏感,将它们放在共封装的 OE 上会使激光器暴露在高温下,因为它会非常靠近系统中温度最高的部分——主体硅,这只会加剧这个问题;
片上激光器通常难以提供足够高的功率输出。
目前业界普遍认同的方案是采用外部光源(ELS)。激光器位于一个独立的模块中,通过光纤连接到光引擎。通常,这种激光器采用可插拔封装,例如OSFP。这种设计简化了激光器故障(这种情况相当常见)的现场维修。
ELS的缺点是功耗较高。如下图所示,在基于ELS的系统中,由于连接器损耗、光纤耦合损耗和调制器效率低下等多种因素,输出功率会在多个阶段损失。因此,该系统中的每个激光器必须提供24.5 dBm的光功率来补偿损耗并确保可靠传输。高功率激光器会产生更多热量,并且在热应力下性能下降更快,激光器和热电冷却器约占ELS功耗的70%。虽然激光器设计、封装和光路方面的改进有所帮助,但激光器高功率需求的问题尚未得到彻底解决。
在今年的 VLSI 大会上,Nvidia 重点介绍了其生态系统中的几家激光合作伙伴:Lumentum 提供单个高功率 DFB,Ayar Labs 提供 DFB 阵列,Innolume 提供量子点锁模梳,以及 Xscape、Enlightra 和 Iloomina 提供泵浦非线性谐振梳。
英伟达也曾讨论过探索使用VCSEL阵列作为潜在的替代激光解决方案。虽然单根光纤的数据速率会较低,并且可能存在一些散热问题,但VCSEL或许能够提供更高的功率和成本效益,并且适用于“宽带宽、低速”的应用。不过,我们认为这并非英伟达的当务之急。
![]()
波分复用 (WDM) 是指在同一根光纤上传输多个不同波长(或称λ)的光。WDM 的两种常见变体是粗波分复用 (CWDM) 和密集波分复用 (DWDM)。CWDM 通常承载较少的通道,通道间距相对较大(通常为 20 nm),而 DWDM 则承载许多通道,通道间距非常小(通常小于 1 nm)。CWDM 较宽的通道间距限制了其容量,而 DWDM 较窄的通道间距可以容纳 40、80 甚至 100 多个通道。WDM 非常重要,因为目前大多数 CPO 实现方案都受到可连接到光引擎的光纤数量的限制。有限的光纤对意味着必须最大化利用每一对光纤。
四、调制器类型
当激光进入光子集成电路(PIC)时,它们会经历一个调制阶段(由驱动器驱动),在此阶段,电信号被编码到激光的波长中。用于此过程的三种主要调制器是马赫-曾德尔调制器(MZM)、微环调制器(MRM)和电吸收调制器(EAM)。每个波长(单个光路上的单个波长)都需要一个调制器。马赫-曾德尔调制器(MZM)
1、马赫-曾德尔调制器( MZM:Mach-Zehnder Modulator )
通过将连续波光信号分成两路波导臂来编码数据,这两路波导臂的折射率可通过施加电压来改变。当两路波导臂重新组合时,它们的干涉图样会调制信号的强度或相位。
![]()
在三种调制器中,MZM 最易于实现,且热敏感性低,因此无需精确的温度控制。其高线性度支持 PAM4 和相干 QAM 等高级调制格式(尽管 QAM 不适用于高性能计算/人工智能工作负载)。MZM 的低啁啾特性提高了高阶调制和远距离传输的信号完整性。此外,MZM 还支持更高的单通道带宽:已证实每通道 200G 的带宽可行,并且据信使用非相干 PAM 调制可以实现每通道 400G 的带宽。
然而,MZM的缺点是:
由于MZM需要两个波导臂和一个合路区,其尺寸较大,以毫米级测量(相比之下,MRM的尺寸以微米级测量),这会占用更多的芯片面积,并限制光电集成电路(OE PIC)中调制器(以及通道)的密度。MZM的尺寸约为12,000mm² ,EAM约为250mm² (5x50mm),而MRM的尺寸在25mm²到225mm²之间(直径5-15mm² )。这是MZM的一个关键缺点,会限制其尺寸的缩小。然而,如果考虑到包含驱动器和调制器周围光电控制电路的完整PIC/EIC组合的尺寸,MZM的尺寸劣势可能就不那么明显了。
由于相移过程需要大量能量,因此马赫-曾德尔调制器(MZM)的功耗较高。此外,其偏置条件(即启动电压)也高于工作在亚电压下的MRM。然而,像Nubis这样的公司正在尝试开发巧妙的设计来改善MZM的功耗劣势。
在创业生态系统中,Nubis是主要利用MZM构建其规模化CPO解决方案的公司之一。由于MZM体积较大且lambda函数数量有限,因此在创业生态系统中并未得到广泛应用。微环调制器(MRM)
2、调制反射调制器( MRM:Micro-Ring Modulators )
使用一个紧凑的环形波导,该波导与一个或多个直波导耦合。电信号会改变环形波导的折射率,从而改变其谐振波长。通过调节谐振频率使其与输入光波长对齐或错位,MRM 可以调制光信号的强度或相位,从而实现数据编码。
光源从输入端口进入环形谐振器——对于大多数波长的光,环形谐振器不会发生谐振,因此光会从输入端口穿过器件到达直通端口。如果波长满足谐振条件,则光会在环形谐振器中发生相长干涉,并被引入下端口。如下图所示的归一化功率曲线所示,特定波长的光会在下端口引起传输功率的尖峰,并在直通端口引起相应的传输功率下降。这种效应可用于调制。
![]()
光引擎通常使用多个 MRM,每个环都可以调谐到不同的波长,从而可以使用环本身实现波分复用 (WDM),而无需额外的设备来实现 WDM。
MRM具有以下几个主要优势:
它们极其紧凑(尺寸在几十微米以内),因此可以比 MZM 具有更高的调制器密度。MZM 的尺寸约为 12,000mm² ,EAM 约为 250mm² (5x50mm),MRM 的尺寸在 25mm²到225mm²之间(直径 5-15mm²);
环形天线非常适合 WDM 应用(包括 8 或 16 个波长的 DWDM),并且具有内置复用/解复用功能;
MRM 可以非常节能(每比特功耗更低);
最后,环形天线的啁啾声很低,这提高了信号质量。
然而,MRM也面临一些挑战:
MRM 的温度敏感度可能比 MZM 和 EAM 高 10-100 倍,因此需要非常精确的控制系统,而这些控制系统的设计和制造都具有挑战性;
它们是非线性的,这使得 PAM4/6/8 等高阶调制变得复杂;
由于每个设计都有精确的要求,因此 MRM 的灵敏度和严格的温度控制公差使得标准化变得困难。
在众多解决方案提供商中,英伟达对微控制器模块(MRM)表现出明显的偏好。他们声称是首家设计并将MRM应用于CPO系统的公司。该公司认为MRM的关键优势在于其紧凑的尺寸和低驱动电压,这有助于降低功耗。然而,MRM技术也以难以控制而著称,因此设计精度对于成功实施至关重要——而这恰恰是英伟达的优势所在。
在制造方面,台积电先进的CMOS技术非常适合制造高精度、高品质因数的微反射镜。此外,Tower公司在光子学节点方面也拥有强大的制造能力。
MRM(混合存储器模块)的实现虽然具有挑战性,但并非完全不可行。它们有望实现比MZM(混合零模存储器)更高的带宽密度。正因如此,台积电、英伟达以及众多CPO(芯片产品)公司,例如Ayar Labs、Lightmatter和Ranovus,都将目光聚焦于这项技术路线图。电吸收调制器(EAM)
3、电吸收调制器(EAM:Electro-Absorption Modulators)
通过改变其对光的吸收能力来调制信号,这种改变取决于所施加的电压。更具体地说,当对EAM施加低电压或无电压时,该器件允许大部分入射激光通过,使其呈现透明或“开放”状态。当施加较高电压时,锗硅(GeSi)调制器的带隙会移动以覆盖高C波段范围(1500nm以上),从而增加这些波长的吸收系数,并衰减“关闭”通过附近波导的光信号。这被称为弗朗茨-凯尔迪什效应。这种“开放”和“关闭”状态之间的切换会调制光的强度,从而有效地将数据编码到光信号上。
![]()
如今,采用电吸收调制激光器 (EML) 进行调制的收发器也运用了相同的原理。连续波 (CW:continuous wave) 分布式反馈 (DFB:distributed feedback) 激光器和基于磷化铟 (InP) 的电吸收调制器 (EAM) 耦合在一起,构成一个独立的 EML,可以调制一条光纤通道。例如,一个 800G DR8 收发器在 8 条独立的光纤通道上使用 8 个 EML,每个 EML 使用 PAM4 调制(2 比特/信号),信令速率约为 56 GBaud。与基于锗硅 (GeSi) 的调制器不同,InP 调制器的带隙对应于 O 波段 (1310nm),这是所有数据通信 DR 光器件的标准波长,从而实现了高度的互操作性。
InP调制器存在一些缺点,使其不太适合用于CPO工艺。InP晶圆尺寸通常较小(3英寸或6英寸),且良率较低——这两个因素都会导致基于InP的器件单位成本高于可采用8英寸或12英寸工艺制造的硅器件。此外,将InP与硅耦合也比将GeSi与其他硅器件耦合要困难得多。
与 MRM 和 MZI 相比,EAM 具有以下几个优势:
显然,EAM 和 MRM 都具有控制逻辑和加热器,用于稳定其工作温度,但 EAM 对温度的敏感性从根本上来说要低。与 MRM 相比,EAM 在 50°C 以上具有更好的热稳定性,而 MRM 对温度非常敏感。MRM 的典型稳定性为 70-90 pm/°C,这意味着 2°C 的温度变化会导致谐振频率偏移 0.14nm,远远超过 MRM 性能崩溃所需的 0.1nm 谐振频率偏移。相比之下,EAM 可以承受高达 35°C 的瞬时温度变化。这种耐受性对于 Celestial AI 的方案尤为重要,因为他们的 EAM 调制器位于高功耗 XPU 计算引擎下方的中介层中,该引擎会消耗数百瓦的功率。EAM 还可以承受高达 80°C 的环境温度,这可能适用于位于 XPU 旁边而非下方的芯片组应用。
与马赫-曾德尔调制器 (MZI) 相比,电吸收调制器 (EAM) 的尺寸要小得多,功耗也更低。这是因为 MZI 的尺寸相对较大,需要较高的电压摆幅,而 EAM 需要通过放大串行器/解调器 (SerDes) 来实现 0-5V 的摆幅。马赫-曾德尔调制器 (MZM) 的面积约为 12,000mm² ,EAM 约为 250mm² ( 5x50mm),而马赫-曾德尔调制器 (MRM) 的面积则在 25mm² 到 225mm² 之间(直径5-15mm² )。此外,MZI 还需要更高的功率来驱动加热器,以维持如此大的器件在所需的偏置电压下工作。
另一方面,使用GeSi EAM进行CPO也存在一些缺点:
基于硅或氮化硅的物理调制器结构,例如MRM和MZI,通常被认为比基于GeSi的器件具有更高的耐久性和可靠性。事实上,鉴于锗基器件的加工和集成难度,许多人对基于GeSi的器件的可靠性表示担忧。但Celestial公司认为,基于GeSi的EAM(本质上是光电探测器的逆过程)的可靠性是毋庸置疑的,因为如今光电探测器在收发器中应用广泛。
GeSi调制器的能带边缘天然位于C波段(即1530nm-1565nm)。设计量子阱将其移至O波段(即1260nm-1360nm)是一个非常棘手的工程难题。这意味着基于GeSi的EAM很可能构成一个封闭式CPO系统,而难以融入开放式芯片生态系统。
与使用成熟的O波段连续波激光器生态系统相比,围绕C波段激光器构建激光生态系统可能会存在规模不经济的问题。大多数数据通信激光器都是为O波段设计的,但Celestial指出,目前也生产相当数量的1577nm XGS-PON激光器。这些激光器通常用于家庭和企业光纤到户连接应用。
SiGe EAM 的插入损耗约为 4-5dB,而 MRM 和 MZI 的插入损耗约为 3-5dB。虽然 MRM 可以直接复用不同波长,但 EAM 需要单独的复用器来实现 CWDM 或 DWDM,这会略微增加潜在的损耗预算。
总体而言,EAM 在当前的 CPO 实施中并未得到广泛应用,而 Celestial AI 是少数积极采用这种方法的公司之一。
OE路线图——扩大OE规模
目前市面上的光学引擎通常提供 1.6T 到 3.2T 的总带宽。英伟达的 Quantum CPO 包含一个 1.6T 的引擎,并计划为 Spectrum 推出 3.2T 版本。博通展示了其为 Bailly 平台开发的 6.4T 光学引擎,但其尺寸非常大(宽度是英伟达产品的 2-3 倍),并且需要两个 FAU,因此其带宽密度可能与英伟达的产品类似。Marvell 的 6.4T 光学引擎也存在同样的问题,需要两个 FAU,因此占用空间较大。据我们所知,Marvell 的光学引擎近期也不会应用于任何量产系统。
![]()
正如我们之前讨论过的,英伟达Spectrum-X光子交换机中采用的3.2T光引擎(OE)方案,其海岸线带宽密度并不比采用长距离SerDes的可插拔交换机更高。换句话说,光引擎密度必须成倍提升才能带来显著的性能优势并推动客户采用。这意味着既要扩展主机芯片与光引擎EIC之间的电气接口,也要扩展光纤输出的带宽。
但是,如果我们能够自由地设计下一代互连技术,那么有哪些方法可以为这一代以及未来的互连技术释放更大的带宽呢?扩展带宽的关键方法
让我们来探讨一下扩展共封装光引擎带宽的关键方法:
1、继续采用基于电SerDes的PHY:通过使用短距离(SR)SerDes而非长距离SerDes,可以简化设计实现、减小面积并降低功耗。但最终,这仍然会受到电接口处SerDes速度的限制,而我们在这方面已经接近极限。此处的想法是采用一种过渡方案,使芯片设计人员无需重新设计其I/O。此外,使用电SerDes还可以灵活地在同一芯片上使用现有的可插拔光模块和/或铜箔。
2、使用宽 I/O PHY(例如 UCIe),并采用较低的波特率(例如 56G)和 NRZ 调制。这可以降低光引擎的 EIC 要求,甚至可以省去昂贵的混合绑定,因为在低速传输时寄生效应的影响较小。然而,使用低信号速率意味着离开光引擎的光纤数量更容易成为瓶颈。波分复用 (WDM) 通过允许每根光纤并行传输多个数据流来解决这个问题。
3、使用诸如 UCIe 之类的宽 I/O PHY,然后让 EIC 将信号串行化到较少数量的光纤通道。继续使用高波特率和 PAM4 调制来最大化每条光通道的速度,如果需要,可以使用 WDM 方案添加多个波长,从而允许每对光纤传输多个波长,以进一步提高带宽。
解决了电气方面的问题后,下一个挑战是光纤能够承载多大的逃逸带宽。光纤总带宽取决于三个关键因素:1)光纤数量(决定光通道数量);2)每条光通道的传输速度;3)每根光纤的波长数量——每个因素都代表着一个扩展维度。
近来,业界将光纤传输理念分为两大类:快速窄带和慢速宽带(Fast and Narrow vs Slow and Wide)。快速窄带方案设想每个光纤单元 (FAU) 使用较少的光纤(最多不超过两位数),并且每对光纤都提供高速链路;而慢速宽带方案则基于更多的光纤对(可能采用更小的间距)以及每对光纤更低的带宽。
1、更多光纤对:光纤密度受光纤间距限制,而单个光纤阵列单元 (FAU) 内的光纤总数则受限于制造工艺,超过此限制,良率就会受到影响。目前,光纤的最小间距为 127 微米 (µm),这意味着每毫米最多可容纳 8 根光纤。业界正致力于研发 80 µm 间距和多芯光纤,以进一步提高特定区域可容纳的光纤数量。然而,增加光纤数量会带来制造方面的挑战:
A) 光纤对准仍然需要大量人工操作,容易造成良率损失,而且每增加一根需要对准的光纤,FAU 的良率都会下降;虽然像 Ficontec 这样的公司提供了自动化工具,但它们的吞吐量仍然很低;
B) 耦合方式的选择也很重要:边缘耦合将光纤阵列限制为单行,而光栅耦合可以支持多行。目前我们见过的最大光纤阵列是 Nubis 的二维 FAU,它包含 36 根光纤。
2、每lane的速度:影响lane速度的因素有两个:
A)波特率:定义每秒发送的符号数;目前先进的系统运行在 100 Gbaud,而业界正在努力实现 200 Gbaud。然而,更高的波特率对调制器提出了更高的要求,即需要以更高的频率进行切换;在各种类型的调制器中,MZM 在这方面表现最佳,并且相对而言,实现 200 Gbaud 的路径也最为清晰。
B)调制方式:定义每个符号携带的比特数。NRZ(每个符号 1 比特)和 PAM4(每个符号 2 比特,通过 4 种不同的幅度)目前被广泛采用。研究正在扩展到 PAM6(每个符号约 2.6 比特)和 PAM8(每个符号 3 比特)。通过使用不同相位的光信号以及多个幅度级别,可以实现更高阶的调制方案。 DP-16QAM 可实现两个正交平面,每个平面具有 4 种不同的幅度、4 种不同的相位,总共可产生 256 种可能的信号——每个信号可提供 8 位。
3、波分复用 (WDM) :光纤可以同时传输多个波长的光。例如,一根具有 8 个波长的光纤,每个波长传输 200Gbit/s 的数据,总传输容量可达 1.6Tbit/s。目前市售的 DWDM 解决方案通常提供 8 波长或 16 波长配置。研究人员也在探索宽光谱、频带复用和交织技术来增加波长数量。扩展波长数量的一个关键挑战是开发能够可靠高效地产生多条光通道的激光光源。
Ayar Labs 的 Supernova 光源配备了一个能够产生 16 个波长的激光器(该激光器由 Sivers 提供)。Scintil 的晶圆级 InP 激光器同样可以提供多达 16 个波长,而 Xscape Photonics 正在致力于开发一种可调谐的梳状激光器,其波长可达 64 个。在调制器中,MRM 最适合处理多个波长,并且具有内置的复用(mux)和解复用(demux)功能。
下表概述了将光学引擎扩展到 12.8T 及以上的几种方法。
![]()
CPO 的采用速度和部署挑战
英伟达的首批CPO产品将面向后端横向扩展交换机,其中InfiniBand CPO交换机将于2025年下半年上市,以太网CPO交换机将于2026年下半年上市。我们认为,这一初期阶段主要目的是进行市场测试,并为供应链的成熟做好准备。我们预计2026年的总出货量将在1万至1.5万台之间。
要使CPO部署能够更快、更广泛地推进并真正普及,就必须有更令人信服的理由来支持采用CPO。可能的原因有两种:一是采用CPO能够显著降低总体拥有成本;二是驱动信号从交换机ASIC传输到交换机盒前面板所需的长距离SerDes在速度或传输距离方面遇到了瓶颈。
数据中心运营商不喜欢部署基于 CPO 的系统,而这主要体现在两个方面,即缺乏互操作性和可维护性挑战,从而抵消了 TCO 的任何优势。
CPO的挑战不仅限于封装内部,还延伸至整个系统。光纤管理、前面板密度、外部激光器等都是至关重要的环节,但也极具挑战性。为了实现CPO,芯片公司需要提供客户可部署的端到端解决方案。这延续了我们目前观察到的趋势,尤其是在英伟达(Nvidia)身上,该公司专注于系统设计以扩展性能。
专有解决方案与标准
CPO 采用面临的一个关键挑战是实现互操作性,同时克服业界对成熟且高度互操作的可插拔光模块模型的根深蒂固的依赖。
互操作性主要有三种类型:(1)电气互操作性,(2)光学互操作性,以及(3)机械互操作性。对于可插拔设备而言,互操作性:
1、通常由光互联网论坛 (OIF) 负责处理,
2、通常由 IEEE(有时也由 OIF)负责处理。IEEE 通过其 IEEE 802.3 标准发挥着核心作用,该标准定义了以太网物理介质相关 (PMD) 层。这些规范涵盖了关键参数,例如调制格式、通道速度、通道数量、传输距离、介质类型以及光信号的波长。通过遵循这些标准化的 PMD,不同厂商的收发器可以互换使用,从而确保在多厂商生态系统中实现真正的即插即用兼容性,
3、通常由多源协议 (MSA) 负责处理。MSA 定义了专门的解决方案,并确保在官方 IEEE 标准之外的多厂商互操作性。
通过 OIF、IEEE 标准和 MSA 的结合,可插拔收发器实现了广泛的互操作性和强大的多厂商生态系统。对于 CPO 而言:
1、CPO 模块的电气兼容性至关重要,否则它们将无法与最先进的 SerDes 通信。
2、光兼容性也十分重要,因为它可以与集群中其他位置的标准可插拔设备兼容。
3、需要注意的是,CPO 目前仍处于“蛮荒西部”阶段,一些解决方案和架构决策导致了完全专有的外形尺寸。这正是新的 OIF 高密度互连方案(例如 CPX 范式)试图解决的问题。
一旦满足了 (1)+(2)+(3) 的要求,CPO 的操作方式将与可插拔设备非常相似,这将有助于其广泛应用。
然而,目前CPO在标准化方面还不如可封装芯片那样成熟,也无法像光收发器那样保证互操作性。部分原因是厂商更倾向于推广系统级解决方案,而不是单独向芯片制造商销售芯片。这是因为CPO的挑战不仅限于封装内部,还延伸到整个系统。光纤管理、前面板密度、调制器架构和外部激光器等都是至关重要的环节,同时也带来了诸多挑战。为了推动CPO的普及,像英伟达这样的公司需要首先提供端到端的解决方案。
实现这一目标的一种方法是采用组件级标准化解决方案,其中共封装的光电器件(OE)采用标准化的光纤接口,并集成符合以太网标准或多标准协议(MSA)的波长、速度和调制方式的光子组件,例如激光器、调制器和光电二极管。这将实现真正的互操作性,使客户能够混合搭配不同供应商的产品,而无需从单一...
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.