万字精读ISSCC：存储、光电互联、处理器和其他|gpu|英特尔|amd|hbm|知名企业

分享至

公众号记得加星标⭐️，第一时间看推送不会错过。

每年有三大半导体会议：IEDM 、VLSI和 ISSCC。过去几年，我们对前两个会议进行了详尽的报道。今天，我们将带来 ISSCC 2026 的综述，至此，我们将完成这三大会议的总结。

与IEDM和VLSI相比，ISSCC更侧重于集成电路。几乎每篇论文都包含电路图，以及清晰的测量结果和数据。

往年，ISSCC 的研究成果对行业的影响力参差不齐。但今年情况有所不同，大量论文和演讲都与市场趋势直接相关。涵盖的主题包括 HBM4、LPDDR6、GDDR7 和 NAND 的最新进展，以及共封装光学器件、先进的芯片间接口，还有来自联发科、AMD、英伟达和微软等公司的先进处理器。

本次综述将涵盖内存、光网络、高速电互连、处理器等主要类别。

存储

今年ISSCC展会上，最吸引我们关注的一个主题是内存，包括三星HBM4、三星和SK海力士LPDDR6以及SK海力士GDDR7。除了DRAM之外，基于逻辑的SRAM和MRAM也引起了我们的兴趣。

三星 HBM4

在三大内存厂商中，只有三星发表了关于HBM4的技术论文。在ISSCC大会之前，我们在加速器与HBM模型中就指出，三星的HBM4相比HBM3E有了显著的改进。ISSCC大会上公布的数据证实了我们的分析，三星的性能达到了同类最佳水平——几个月前，我们也曾在模型更新报告中详细介绍过这一进展。

ISSCC大会上公布的技术细节，结合我们收集到的行业信息，清晰地表明三星的HBM4在同级别产品中具有竞争力。值得注意的是，它在满足Rubin要求的引脚速度的同时，还能将电压保持在1V以下。虽然三星在可靠性和稳定性方面仍然落后于SK海力士，但该公司在技术方面取得了显著进展，有望挑战SK海力士在HBM领域的统治地位。他们基于1c架构的HBM4搭配SF4逻辑芯片，似乎在引脚速度方面表现更佳。

三星展示了一款 36 GB、12 层高的 HBM4 堆叠，具有 2048 个 IO 引脚和 3.3 TB/s 的带宽，采用第六代 10nm 级 (1c) DRAM 核心芯片与 SF4 逻辑基础芯片相结合制成。

从 HBM3E 到 HBM4，最显著的架构变化在于核心 DRAM 芯片和基片芯片的工艺技术差异。HBM4 仅对核心芯片采用 DRAM 工艺节点，而基片芯片则采用更先进的逻辑节点制造，这与之前几代 HBM 产品对核心芯片和基片芯片均采用相同工艺不同。

随着人工智能工作负载对HBM带宽和数据传输速率的需求不断增长，架构方面的关键挑战也随之而来。通过将基片工艺升级到SF4逻辑工艺，三星实现了更高的运行速度和更低的功耗。工作电压（VDDQ）降低了32%，从HBM3E的1.1V降至HBM4的0.75V。与采用DRAM工艺制造的基片相比，基于逻辑的基片由于晶体管尺寸更小、金属层堆叠面积更大，因此能够提供更高的晶体管密度、更小的器件尺寸和更高的面积效率。这使得三星的HBM4能够达到甚至显著超越JEDEC的HBM4标准。

结合自适应体偏置（ABB：adaptive body-bias ）控制技术（该技术可减轻堆叠核心芯片间的工艺偏差），翻倍的TSV数量进一步提升了时序裕量。三星的论文指出，ABB技术和4倍增加的TSV数量共同作用，使其HBM4单引脚运行速度高达13 Gb/s。

SF4 基片和 1c DRAM 核心芯片带来的性能提升并非没有代价。三星选择SF4 作为逻辑基片，虽然三星晶圆代工厂可以为内部基片使用提供折扣，但其成本仍然高于其他竞争方案。SK 海力士在其 HBM4 基片中采用了台积电的 N12 逻辑工艺，而美光则依赖于其自主研发的 CMOS 基片技术。即使考虑到垂直整合的成本优势，这两种方案的成本也低于接近领先的 SF4 工艺。

2025年，三星的1c前端制造工艺一直面临挑战，尤其是在该公司跳过1b节点，直接从基于1a的HBM3E过渡到1c世代的情况下。去年，1c节点的前端良率仅为50%左右，尽管近年来有所改善。较低的良率对其HBM4的利润率构成风险。

从历史数据来看，三星的HBM利润率一直低于其主要竞争对手SK海力士，我们在内存模型中对所有厂商的这一动态进行了全面建模。我们详细列出了各厂商在不同制程节点上的HBM、DDR和LPDDR的晶圆产量、良率、密度、成本等数据。

三星的策略似乎是积极采用更先进的制程工艺来制造基础芯片，以实现卓越的性能并超越竞争对手，尤其是在NVIDIA等领先客户对HBM的要求不断提高的情况下。

HBM 中另一个需要解决的关键问题是 tCCDR，即跨越不同堆栈 ID (SID：stack ID) 发出的连续 READ 命令之间的最小间隔。对于严重依赖跨多个通道并行内存访问的 AI 工作负载而言，tCCDR 直接影响可实现的内存吞吐量。

在堆叠式DRAM架构中，多个核心芯片垂直集成在一个基底芯片之上。这自然会在整个堆叠层中引入微小的延迟差异，其驱动因素包括核心芯片和基底芯片之间的工艺偏差、TSV传播差异以及局部沟道偏差。

堆叠高度和通道数（从 16 通道增加到 32 通道）的增加加剧了这一挑战。随着通道数和堆叠高度的增加，芯片间的差异会累积，导致通道和芯片间时序失配增大，从而影响可实现的 tCCDR 和整体 HBM 性能。

为了解决这个问题，三星引入了一种“单通道TSV RDQS时序自动校准方案”。上电后，系统使用一条与实际信号路径时序行为相匹配的RDQS副本路径来测量各通道间的延迟变化。时间数字转换器（TDC）量化这些时序差异，然后使用每个通道的延迟补偿电路（DCDL）进行补偿。

该校准方案同时考虑了堆叠核心芯片之间的全局延迟差异和单个通道的局部延迟差异，从而实现了整个堆叠芯片时序的对齐。通过补偿这些不匹配，三星显著提高了有效时序裕量，并在满足所需 tCCDR 约束的前提下，提升了最大可实现数据速率。仅此一项方案就将数据速率从 7.8 Gb/s 提升至 9.4 Gb/s。

一些精通内存技术的读者可能会问：芯片面积如何才能容纳如此显著增加的TSV数量？这就体现了1c工艺的重要性。与之前的1a工艺相比，1c工艺进一步缩小了DRAM单元面积，从而释放出更多的芯片空间，用于集成HBM4所需的更多TSV。

另一项由逻辑基片实现的关键创新是三星的可编程存储器内置自测试 (PMBIST：Programmable Memory Built-In Self-Test ) 架构。PMBIST 使基础die能够生成完全可编程的存储器测试模式，同时支持完整的 JEDEC 行和列命令集，这意味着测试引擎可以发出与实际系统相同的命令，并且可以在任何时钟沿和全接口速度下执行这些命令。实际上，这使得工程师能够模拟复杂的真实世界存储器访问模式，并在实际运行条件下对 HBM 接口进行压力测试，而这对于传统的固定模式测试引擎来说是难以实现的。

这种方法与HBM3E截然不同。如前所述，HBM3E的基础die采用DRAM工艺制造，这给MBIST（Memory Built-In Self-Test）引擎带来了严格的功耗和面积限制，并且由于DRAM本身在功耗和面积方面相对于逻辑芯片的劣势，测试只能局限于一小部分预定义的模式。通过将基础芯片转移到三星晶圆代工的SF4逻辑工艺，三星实现了完全可编程的测试框架，能够运行复杂的测试算法和灵活的访问序列。

这使得HBM的调试更加稳健，良率学习效果也更佳。工程师可以创建针对性的应力模式来验证关键时序参数，例如tCCDR和tCCDS，在制造早期识别极端情况下的故障，并加速芯片级（CoW）和系统级封装（SiP）测试期间的特性分析。简而言之，随着HBM堆叠结构日益复杂且运行速度不断提高，PMBIST能够提升测试覆盖率、调试效率，并最终提高生产良率。

三星的HBM4显存引脚速度也表现出色——在低于1V的内核电压（VDDC）下，其传输速率可达11Gb/s，在高电压下更可达到13Gb/s。尽管三星的竞争对手在可靠性和稳定性方面更胜一筹，但我们尚未看到它们展现出与之匹敌的性能。

三星的实现方案显著超越了官方 JEDEC HBM4 标准 (JESD270-4) 的基准规范，该标准规定每引脚最大数据传输速率为 6.4 Gb/s，带宽约为 2 TB/s。三星的实现方案达到了 JEDEC 标准引脚速度的两倍以上，每引脚可达 13 Gb/s，带宽高达 3.3 TB/s。即使在 VDDC/VDDQ 分别为 1.05V 和 0.75V 的情况下，该器件仍能维持 11.8 Gb/s 的数据传输速率。

三星 LPDDR6

三星和SK海力士都展示了各自的LPDDR6芯片。我们将首先讨论三星的芯片，稍后再讨论SK海力士的芯片。

三星展示了其 LPDDR6 架构，并详细介绍了所采用的节能技术。

LPDDR6 采用每芯片 2 个子通道的架构，每个子通道包含 16 个存储体。它还具有两种模式：普通模式和高效模式。在高效模式下，辅助子通道断电，主子通道控制全部 32 个存储体。但是，访问辅助子通道中的数据会增加延迟。

双子通道架构也意味着外围电路的数量翻倍，例如命令解码器、串行化和控制电路。根据三星和SK海力士提供的芯片照片，这种架构会使芯片总面积增加约5%，从而导致每片晶圆的总比特数减少。

与采用 PAM3 信号的 GDDR7 不同，LPDDR6 将继续使用 NRZ 编码。然而，它并非采用标准 NRZ 编码，因为标准 NRZ 编码会导致眼图裕量不足。LPDDR6 采用宽 NRZ 编码，每个子通道使用 12 个数据 (DQ) 引脚，每次操作的突发长度为 24。

如果你仔细计算过，12×24 等于 288，而不是 2 的幂。剩下的 32 位分为两种用途：16 位用于元数据（例如 ECC），16 位用于数据总线反转 (DBI)。

DBI 是一种节能和信号完整性机制。在发送突发数据之前，控制器会检查与前一次突发数据相比，是否有超过一半的比特会发生状态翻转。如果是，控制器会反转所有比特并设置 DBI 标志，以便接收器知道需要反转这些比特才能获得实际数据。这可以将同时切换的输出数量限制在总线宽度的一半以内，从而降低功耗和电源噪声。

要计算有效带宽，必须考虑这些元数据和 DBI 位，公式如下：带宽 = 数据速率 × 宽度 (24 位) × 数据 (32 位) / 数据包 (36 位)。例如，12.8 Gb/s 时，有效带宽为 34.1 GB/s；14.4 Gb/s 时，有效带宽为 38.4 GB/s。

LPDDR6 具有两个恒压域，VDD2C 为 0.875V，VDD2D 为 1.0V。通过精心选择哪些外设逻辑使用哪个电源域，读取功耗降低了 27%，写入功耗降低了 22%。

LPDDR 内存主要用于空闲状态下的低数据速率，例如 3.2 Gb/s 及以下。三星通过巧妙地利用电压域，着重提升低数据速率下的功耗，从而降低待机和读写操作的功耗。

通过使用重分布层 (RDL)，三星可以将相关电路在物理上更紧密地排列在一起。这缩短了关键延迟路径，并降低了它们对电压和温度变化的敏感性。在 LPDDR6 的高频应用中，更严格的时序和更小的波动至关重要。

三星的LPDDR6在0.97V电压下可达到12.8 Gb/s的数据传输速率，在1.025V电压下最高可达14.4 Gb/s。每个16Gb芯片的面积为44.5mm²，采用未知的10nm工艺制造，密度为0.360 Gb/mm²。这远低于LPDDR5X在1b工艺下的密度（0.447 Gb/mm²），仅略高于LPDDR5X在1a工艺下的密度（0.341 Gb/mm²）。虽然双子通道架构造成的面积损失是部分原因，但LPDDR6似乎还存在其他问题。根据上述内存密度，我们推测这款LPDDR6原型芯片采用的是三星的1b工艺制造。

三星 SF2 LPDDR6 PHY

三星还发布了用于LPDDR6逻辑芯片接口的PHY芯片。这些PHY芯片采用三星最新的SF2工艺制造，支持高达14.4 Gb/s的传输速率。PHY芯片的海岸线长度为2.32毫米，面积为0.695平方毫米，带宽密度分别为16.6 Gb/s/mm和55.3 Gb/s/mm²。

PHY 还支持 LPDDR6 芯片实现的效率模式，该模式可降低 39% 的读取功耗和 29% 的写入功耗。

PHY 可以通过对非活动辅助子通道的高速时钟路径进行门控来增强效率模式。通过时钟门控，读写功耗可降低近 50%，空闲功耗可降低 41%。

SK 海力士 1c LPDDR6

SK海力士发布了其首款1c DRAM产品，包括LPDDR6和GDDR7两种封装。其LPDDR6的数据传输速率最高可达14.4 Gb/s，比最快的LPDDR5X快35%，且功耗更低。

虽然 SK 海力士没有说明 LPDDR6 芯片的面积或密度，但根据其 GDDR7 的相对密度增加，我们估计其位密度将达到 0.59 Gb/mm²。

SK海力士在其shmoo图表中显示，在1.025V电压下，其芯片可达到14.4 Gb/s的数据传输速率，与三星相同。然而，在0.95V电压下，SK海力士的芯片数据传输速率仅为10.9 Gb/s，而三星在0.97V电压下则可达12.8 Gb/s。这表明，与三星相比，SK海力士在较低引脚速度下可能存在更高的能效问题，需要更高的电压才能保证可靠性。

与三星的LPDDR6内存类似，SK海力士的LPDDR6内存也提供两种模式：普通模式和节能模式。节能模式在单通道下以12.8 Gb/s的速率运行，与普通模式相比，待机电流和运行电流分别降低了12.7%和18.9%。

SK海力士1c GDDR7

虽然LPDDR6凭借其全新的内存技术实现了代际飞跃，但SK海力士采用1c工艺生产的GDDR7内存展现出更大的提升，在1.2V/1.2V电压下最高频率可达48Gb/s。即使在1.05V/0.9V电压下，其频率也能达到30.3Gb/s，高于RTX 5080显卡中30Gb/s的显存频率。

该工艺实现的位密度为 0.412 Gb/mm²，而三星 1b 工艺的位密度为 0.309 Gb/mm²，三星较早的 1z 工艺的位密度为 0.192 Gb/mm²。

GDDR7 的位密度低于 LPDDR5X，通常约为后者的 70%。虽然它的数据传输速率更高，但这也带来了更高的功耗和更大的面积。

GDDR7 密度较低是由于其外围区域显著增大，以实现更高的访问速度。因此，实际的内存阵列在芯片面积中所占的比例较小。GDDR7 中使用的 PAM3 和 QDR（每个时钟周期 4 个符号）信号需要更复杂的逻辑控制电路。

GDDR7 主要用于游戏 GPU 应用，这类应用需要比 HBM 更低的成本和容量，同时具备更高的内存带宽。NVIDIA 曾宣布将于 2025 年推出配备 128GB GDDR7 的 Rubin CPX 大型上下文 AI 处理器，但随着 NVIDIA 将重心转移到推出 Groq LPX 解决方案，该产品几乎已从 2026 年的路线图中消失。

三星 4F² COP DRAM

在2025年VLSI大会上，SK海力士详细介绍了其4F² Peri-Under-Cell (PUC) DRAM 。在今年的ISSCC大会上，三星公开了其4F² Cell-on-Peripheral (COP) DRAM的实现方案。PUC和COP是同一架构，只是名称不同。

4F² 单元的架构与 SK 海力士的相同，采用垂直沟道晶体管 (VCT)，漏极上方有电容器。

三星提出的垂直架构与SK海力士的架构基本相同，都是将单元晶圆混合键合到外围晶圆上。这种架构允许单元晶圆采用DRAM节点，而外围晶圆则采用更先进的逻辑节点。

三星指出，混合键合技术已应用于COP闪存，并已应用于NAND闪存。其他NAND闪存制造商也采用了这种技术，但三星尚未将混合键合技术应用于NAND闪存的大规模生产，距离实现这一目标仍需数年时间。

此外，DRAM的晶圆间互连数量比NAND高一个数量级，并且需要更小的间距。为了减少晶圆间互连的数量，三星采用了两种创新方法。

首先，他们将子词线驱动器 (SWD： sub-wordline drivers) 从每个单元格块 128 个重新组织成 16 组，每组 8 个。这使得 SWD 所需的信号数量减少了 75%。

接下来，他们将列选择信号分成偶数路径和奇数路径。这需要两倍的多路复用器（MUX：multiplexers），但每个数据引脚的列选择线（CSL： column select line ）数量减半至32条。

通过混合键合技术，可以将核心电路（即位线读出放大器 (BLSA) 和 SWD）放置在单元阵列下方。其目标是使核心电路与单元阵列占据相同的面积，从而提高整体密度。

三星采用了“三明治”结构，这使得他们能够最大限度地提高核心电路的面积效率，并减少边缘区域（不在任何单元下方）的面积。

核心电路所占面积从 17.0% 减少到仅 2.7%，这是一个显著的改进，直接转化为芯片整体尺寸的减小。

在传统DRAM中，增加每条位线上的单元数量会导致芯片面积显著增加，而对于VCT DRAM，由于核心电路都在单元下方，因此增加的面积几乎可以忽略不计。

三星没有提供该芯片的任何密度数据，只表示它是一款采用 10nm DRAM 工艺的 16Gb 芯片。

三星指出，VCT DRAM存在浮体效应，会导致漏电加剧并降低数据保持时间。缓解这一效应仍然是4F²技术普及应用的关键挑战。

尽管面临这些挑战，我们仍然预计 4F² 混合键合 DRAM 将在本十年后期，最早在 1d 之后的一代产品中问世。我们的内存模型详细跟踪了每个节点的时序和产能爬坡。当前的内存定价格局在很大程度上激励着厂商加快产能爬坡，并推出具有更高位密度的新节点，以提高单晶圆厂的位输出。另一方面，在许多应用场景中，内存的性能/价格比容量更为重要。

SanDisk/Kioxia BiCS10 NAND

SanDisk 和 Kioxia 展示了他们的 BiCS10 NAND 闪存，该闪存拥有 332 层和 3 个存储层。这是目前报道的最高 NAND 闪存位密度，达到 37.6 Gb/mm²，超越了之前的冠军SK 海力士的 321L V9 。

尽管SK海力士采用了类似的架构，拥有6个平面、3个层板和相近的层数，但其比特密度却低了30%。在QLC配置下，BiCS10的比特密度为37.6 Gb/mm²，而SK海力士的V9仅为28.8 Gb/mm²。在TLC配置下，二者的比特密度分别为29 Gb/mm²和21 Gb/mm²，这再次印证了SK海力士在该领域的落后地位。

此外，BiCS10采用6平面配置，I/O带宽提升50%。6平面配置有两种实现方式：1×6和2×3。SK海力士选择采用2×3配置，而闪迪和铠侠则选择采用1×6配置。

1x6 配置的接地焊盘数量较少，面积减少了 2.1%。然而，较少的接地焊盘和垂直电源线限制了电源分配。

通过采用 CBA（Cell Bonded Array）架构，SanDisk 和 Kioxia 能够定制 CMOS 晶圆工艺。通过在现有顶层金属层的基础上并联添加另一层顶层金属层，他们构建了更强大的电源网络，并克服了电源分配方面的限制。

堆叠更多芯片是提高存储密度的关键。然而，在多芯片架构中，未选中芯片的空闲电流会接近已选中芯片的激活电流。SanDisk 采用了一种门控系统，可以完全关闭未选中芯片的数据通路，从而将空闲电流降低了两个数量级。

联发科 xBIT Logic-based Bitcell

SRAM 微缩已死。尽管逻辑面积从 N5 到 N2 减少了 40%，但 8 晶体管高电流 SRAM 位单元的面积仅减少了 18%。6 晶体管高电流 (6T-HC) 位单元的情况更糟，面积仅减少了 2%。辅助电路的微缩效果更好，但这并非没有代价。

众所周知，N3E 的高密度位单元相比 N3B 有所退步，密度回落至 N5 的水平。本文中，联发科阐述了高电流位单元的相关情况。N3E 的高电流位单元面积比 N5 增加了 1-2%，密度则从约 39.0 Mib/mm² 下降至约 38.5 Mib/mm²。需要注意的是，这些数据并未考虑辅助电路的开销。

在现代逻辑节点中，6T 位单元包含 4 个 NMOS 晶体管和 2 个 PMOS 晶体管，而 8T 位单元则分别包含 6 个和 2 个 NMOS 晶体管。NMOS 晶体管和 PMOS 晶体管数量的不等需要特殊的布局规则，并且会降低布局效率。联发科的新型位单元 xBIT 是一种包含 10 个晶体管的单元，它包含 4 个 NMOS 晶体管和 6 个 PMOS 晶体管，或者反过来。这两种位单元可以组合成一个矩形块，包含 20 个晶体管，可存储 2 位数据。

与PDK的标准8T位单元相比，xBIT的密度提高了22%至63%，在字线宽度较小时提升最为显著。功耗也大幅降低，平均读写功耗降低了30%以上，0.5V电压下的漏电降低了29%。在0.9V电压下，其性能与8T位单元相近；在0.5V电压下，虽然比8T位单元慢16%，但速度仍然足够快，不会成为处理器的瓶颈，而且电压范围足够大，可以进行电压频率缩放。

联发科还展示了 xBIT 单元的 shmoo 图表，从 0.35V 时的 100MHz 到 0.95V 时的 4GHz。

台积电 N16 MRAM

台积电在其 N16 节点上展示了更新的 STT-MRAM，这是基于他们在 ISSCC 2023 上的先前工作。台积电将 MRAM 定位为嵌入式非易失性存储器 (eNVM)，用于汽车、工业和边缘应用，这些应用不需要最先进的技术，而是更注重可靠性。

MRAM 具有双端口访问功能，因此可以同时进行读取和写入操作——这对于汽车领域的空中下载 (OTA) 更新至关重要，因为系统在写入固件时不能停止读取操作。

它采用跨模块交错读取的方式，每个模块都有独立的时钟，在 200 MHz 频率下，吞吐量可提升至 51.2 Gb/s。在硅芯片上，这款 84 Mb 宏芯片在 -40 °C 至 150 °C 的温度范围内，0.8V 电压下可实现 7.5ns 的读取访问时间。

该架构采用模块化设计，可配置为 16 MB、8 MB 和 2 MB 的模块，这些模块可以组合成 8 MB 到 128 MB 的宏。通过将 16 MB 的大容量模块与少量 2 MB 和 8 MB 的小容量模块组合，可以根据任何设计需求对容量进行精细调整。例如，5 个 16 MB 模块和 2 个 2 MB 模块可以组成一个 84 MB 的宏。

如前所述，可靠性是嵌入式MRAM成败的关键。在-40°C下经过100万次耐久性循环后，硬错误率远低于0.01 ppm，完全在ECC纠错范围内。在150°C下，典型读取电压下的读取干扰低于10⁻²² ppm，几乎可以忽略不计。这款168 Mb测试芯片通过了回流焊，并在150°C下支持20年的数据保持，满足严格的汽车行业要求。

与同一N16节点上的旧款MRAM相比，位单元尺寸缩小了25%，从0.033 µm²缩小到0.0249 µm²，宏密度提升至16.0 Mb/mm²等效容量。读取速度从6 ns降至5.5 ns等效容量，双端口访问和交错读取是全新的技术。

虽然三星晶圆代工今年也发布了 8LPP eMRAM 的相关成果，但台积电的方案更有前景。它不仅满足了所需的功能，性能也十分出色，而且采用的是成本更低的 N16 工艺。

台积电已经在计划推出下一代“Flash-Plus”版本，其比特单元体积缩小25%，耐久性提高100倍。

光网络

多家主要光学设备供应商发表的论文探讨了光互连技术，该技术将在下一代 AI 加速器之间（包括数据中心内部和数据中心之间）传输数据。

Nvidia DWDM

光信号格式的选择将影响大规模共封装光器件 (CPO) 的上市时间表。英伟达正在加紧生产 COUPE 光引擎，该引擎支持每通道 200G PAM4，可在近期内用于横向扩展交换。

然而，在ISSCC会议上，英伟达提出每个波长使用32 Gb/s的传输速率，采用DWDM技术复用8个波长。第9个波长用于时钟转发，速率减半，即16 Gb/s。

时钟转发意味着可以通过移除时钟和数据恢复 (CDR) 电路以及其他电路来简化 SerDes，从而提高能源效率和芯片海岸线效率。

3月初，就在OFC 2026之前，光计算互连MSA （OCI MSA）宣布成立，该协议将专注于200 Gb/s的双向链路，发送和接收均使用4个波长的50G NRZ，这些波长将在同一根光纤上双向传输。我好像听到有人提到OCS？

有趣的是，OCI MSA 没有使用额外的波长进行时钟转发，看来将所有波长保留用于实际数据传输才是首要任务。

英伟达已发表的关于纵向扩展光网络（CPO）的大部分研究都集中在密集波分复用（DWDM）技术上，但如今的CPO光引擎却面向200G PAM4动态范围光网络（DR Optics），后者更适用于横向扩展网络。OCI MSA以DWDM为核心的纵向扩展光网络方案解决了这一明显的矛盾，因为现在很明显，英伟达和其他厂商将以DWDM为纵向扩展核心，以动态范围光网络为横向扩展核心。

OCI MSA 还展示了不同的实现方案，包括板载光模块 (OBO)、通过 ASIC 封装基板集成的 CPO 版本，以及光引擎直接集成在中介层上的版本。中间图 (b) 所示的实现方案将在未来几年内成为 CPO 横向扩展和纵向扩展应用中最常用的方案，但它仍然需要某种形式的串行链路来穿过 ASIC 基板，并且仍然需要在两端使用某种形式的 SerDes。例如，UCIe-S 可以用作此类传输的协议。

现CPO的“最终目标”在于将光引擎集成到中介层本身，并通过并行化的芯片间（D2D）连接与ASIC连接，如上图(c)所示。这将显著提高海岸线带宽密度，实现更高的基数，并提升能效。因此，这种实现方式能够以其他实现方式无法企及的方式释放CPO的优势，但实现这一目标仍需数年时间，并且需要先进封装技术的进一步发展。

Marvell Coherent-Lite 收发器

Marvell公司推出了一款适用于轻型相干通信应用的800G收发器。传统收发器的传输距离有限，通常不足10公里。相干收发器虽然传输距离更远，但结构复杂、功耗更高、成本也更高。Marvell的轻型相干收发器在功耗、成本和传输距离之间寻求平衡，非常适合链路跨度在几十公里以内的大型数据中心园区。

相干收发器主要使用C波段波长，因为其衰减低。然而，相干传输所应用的长距离链路通常具有非常高的色散，需要大量的数字信号处理（DSP）。对于建筑物间距仅为几十公里的数据中心园区而言，传统相干光器件的远距离传输能力往往过剩。

Coherent-Lite 收发器则使用 O 波段波长，这种波长在数据中心园区相对较短的距离内色散接近于零。这可以最大限度地减少 DSP 处理，从而节省功耗并降低延迟。

Coherent-lite 收发器是一个基于 DSP 的可插拔模块，由两个 400G 通道组成。每个 400G 通道运行双极化 QAM，并由两个并行的调制流 X 和 Y 组成。

本次演示的关键在于重点介绍针对校园应用优化的其他信道带宽扩展方法。

采用高阶调制结合X轴和Y轴双极化技术，可实现400G信道带宽。如上所示，每个信道包含8比特，总共32个星座点。这8比特乘以62.5GBd的信号速率，等于约400G的总带宽。

这种调制方案对于业界来说并非完全是新的，但现在它正被引入数据中心园区环境，用于较短的链路。

Marvell 的方法显著降低了功耗，在不考虑硅光子学的情况下，功耗仅为 3.72 pJ/b，仅为其他成熟相干收发器的一半。他们的测量是在 40 公里的光纤长度上进行的，延迟小于 300 ns。

博通 6.4T 光学引擎

博通展示了其6.4T MZM光引擎（OE）的最新进展，该光引擎采用PAM4调制，包含64条~100G通道。这些光引擎在Tomahawk 5 51.2T CPO系统中进行了测试。一个CPO封装包含八个6.4T光引擎，每个光引擎都包含一个光集成电路（PIC）和一个电子集成电路（EIC），采用台积电N7工艺制造。

英伟达采用 COUPE 封装技术，而博通则为这款 OE 产品采用扇出型晶圆级封装 (FWAP)。博通未来将转向 COUPE 封装技术，但像这款 OE 这样的老一代产品目前仍使用其他供应链合作伙伴。以下是他们演示中取得的令人鼓舞的结果：

高速电气互连

随着多芯片设计成为主流，芯片间互连成为关键瓶颈。各大晶圆代工厂和芯片设计公司纷纷提出各种方案，旨在通过有机衬底和先进封装技术提升带宽密度和能效。

英特尔 UCIe-S

英特尔发布了其兼容 UCIe-S 的芯片间 (D2D) 接口。该接口采用 UCIe-S 协议，单通道传输速率最高可达 48 Gb/s（16 通道），而采用定制协议时，单通道传输速率最高可达 56 Gb/s。它采用标准有机封装，传输距离最远可达 30 毫米。值得一提的是，该接口采用英特尔的 22 纳米工艺制造。

在2025年VLSI大会上，Cadence展示了其基于N3E工艺的UCIe-S芯片间互连技术。尽管制程工艺处于劣势，英特尔在数据速率、通道长度和海岸线带宽方面仍然超越了Cadence的互连技术，仅在能效方面略逊一筹。

英特尔展示的互连技术很可能是其Diamond Rapids Xeon CPU未来将采用的互连技术的原型。与这款22nm测试芯片相比，采用英特尔3工艺设计的互连技术效率应该会更高，并有望取代Granite Rapids芯片上采用的EMIB等先进封装技术。Diamond Rapids由两颗IMH芯片和四颗CBB芯片组成。由于每颗CBB芯片与两颗IMH芯片之间都存在较长的走线，我们认为这种互连方式是连接芯片的理想选择，无需使用EMIB，即可在标准封装基板上实现芯片间的无缝连接。

台积电有源LSI

台积电先进封装事业部展示了其有源局部硅互连（aLSI）解决方案。与标准的CoWoS-L或EMIB相比，aLSI能够提升信号完整性，并降低顶层芯片上PHY和SerDes的复杂性。

台积电展示的器件采用了一款32 Gb/s的类UCIe收发器。由于大规模集成电路（aLSI）技术提高了信号完整性，收发器的面积得以缩小，凸点间距也从45 µm减小到38.8 µm。更小的间距以及曼哈顿网格的引入，使得物理层（PHY）深度从1043 µm减小到850 µm，节省的空间可用于计算、存储或I/O，或进一步缩小芯片尺寸。需要注意的是，该收发器只是类UCIe，并非真正的UCIe，因为UCIe要求使用六边形凸点布局，而非此处使用的曼哈顿网格。

随着设计师们为下一代人工智能加速器竭尽所能地利用每一寸芯片空间，向 aLSI 的转变势在必行。

aLSI 的“有源”部分源于用有源晶体管取代桥接芯片中无源的长距离金属通道，从而构成边沿触发收发器 (ETT) 电路，以在更长的传输距离内保持信号完整性。这还降低了顶层芯片发送/接收端口的信号驱动要求。aLSI 中的 ETT 电路仅增加 0.07pJ/b 的能耗，最大限度地减少了在堆叠芯片中添加有源电路带来的散热问题。通过将信号调理电路移至桥接芯片，可以使用更小的预驱动器和时钟缓冲器来减小顶层芯片发送/接收端口的 PHY 面积，并消除接收端对信号放大的需求。

该ETT集成了驱动器、交流耦合电容（Cac）、具有正负反馈的放大器以及输出级。信号经过Cac后，会在信号转换边沿引入峰值，这些峰值随后会被双环路放大器拾取，因此被称为边沿触发式电路。放大器利用正负反馈环路来稳定电压电平。在本设计中，对于1.7 mm的通道长度，Cac设置为180 fF，芯片A上的电阻为2 kΩ，芯片B上的电阻为3 kΩ。

这些aLSI桥接器还可以在前端集成嵌入式深沟槽电容（eDTC），以改善对PHY和D2D控制器的供电。与通过桥接芯片来影响电源网络不同，采用eDTC的aLSI可以同时改善D2D接口的电源和信号路由。

仅需 388 µm 的海岸线即可满足 64 条 TX 和 64 条 RX 数据通道的需求，总面积仅为 0.330 mm²。信号布线仅需最上面的两层金属层，其余金属层可用于前端电路。

台积电解释了如何分多个阶段测试有源LSI。第一阶段是已知良好芯片（KGD），仅测试LSI本身，用于验证芯片性能。第二阶段是已知良好堆栈（KGS），将SoC通过LSI连接起来，用于验证堆栈功能。最后阶段是已知良好封装（KGP），对整个封装进行全面验证，以验证其功能、性能和可靠性。

他们展示了 KGD 和 KGP 阶段的 shmoo 图，两者均显示互连在 0.75V 时达到 32 Gb/s，在 0.95V 时达到 38.4 Gb/s。

封装图显示包含两颗SoC芯片和两颗I/O芯片。有趣的是，该测试芯片的设计似乎与AMD的MI450 GPU类似，包含两颗相互连接的基础芯片、12个HBM4显存堆叠以及两颗带有主动式LSI的I/O芯片。不同之处在于，MI450 GPU的每个HBM4显存堆叠并非拥有独立的主动式LSI，而是两颗HBM4显存堆叠共用一个主动式LSI。

至于功耗，在 0.75V 电压下总功耗仅为 0.36 pJ/b，其中主动式 LSI 中的 ETT 仅消耗 0.07 pJ/b。以下是与其他 D2D 解决方案的比较。

微软D2D互连

微软还详细介绍了他们的芯片间互连（D2D）技术。他们的测试平台包含两颗芯片和两对用于互连的D2D节点。此外，还搭建了完整的电源传输网络和布线模型，以模拟时钟门控和串扰。

测试芯片上的互连线占据了 532 µm 的海岸线，深度为 1350 µm。测试芯片采用台积电的 N3P 节点制造，互连线在两种数据速率下进行了测试：0.65V 下的 20 Gb/s 和 0.75V 下的 24 Gb/s。

微软公布了两组功耗数据，一组包含模拟和数字系统功耗，另一组仅包含模拟功耗。后者与大多数芯片间互连的功耗一致。在 24 Gb/s 速率下，系统功耗为 0.33 pJ/b，模拟功耗为 0.226 pJ/b；而在 20 Gb/s 速率下，系统功耗为 0.25 pJ/b，模拟功耗为 0.17 pJ/b。空闲状态下的功耗为 0.05 pJ/b。

微软还将他们的互连技术与台积电之前针对其主动式LSI所做的相同研究进行了比较。

正如我们在之前的文章中解释的那样，微软的 Cobalt 200 CPU 由两个计算芯片组成，这两个芯片通过定制的高带宽互连线连接。我们认为本次演示详细介绍了这种互连线。

处理器

从小型移动CPU到大型AI加速器，ISSCC首次全面展示了联发科、英特尔、AMD、Rebellions和微软等公司的架构图。许多产品甚至还展示了芯片实物图。

联发科天玑9500

每年，联发科都会重点展示其旗舰移动CPU的不同方面。今年也不例外，今年的移动CPU发布会聚焦于睿频加速和散热管理。

台积电为N3E和N3P工艺提供两种不同的接触栅间距（CGP）选项：48nm和54nm。大多数芯片采用的是48nm的窄间距CGP，因为它能实现更小的单元尺寸和更大的芯片尺寸缩小。然而，由于关键尺寸较小，它也面临着漏电、布线和制造方面的挑战。

联发科在其天玑9500的C1 Ultra高性能核心上采用了更大的54nm CGP工艺，以提高能效。这使得他们在降低散热的同时实现了更高的性能，在漏电相同的情况下性能提升了4.6%，或在性能相同的情况下功耗降低了3%。

联发科论文的其余部分重点介绍了如何利用未使用的老化预算和减少热过冲来优化动态性能。最终，他们成功地将睿频频率从 4.21 GHz 提升至 4.4 GHz。

Intel 18A-on-Intel 3 混合键合

英特尔发布了其首款混合键合芯片 M3DProc。该芯片由一个 Intel 3 下芯片和一个 18A 上芯片组成。每个芯片分别包含 56 个网格单元、核心单元和深度神经网络加速器单元。这两个芯片采用 Foveros Direct 混合键合技术，键距为 9μm。

网格单元排列成 14×4×2 的 3D 网格，两个芯片共享 SRAM。

英特尔发现，3D网格结构可将延迟降低近40%，吞吐量提升近40%。他们还测试了数据传输的能效，其中2D测试是在底部芯片的56个网格单元内进行的，而3D测试则是在两个芯片上相邻的28个网格单元内进行的。结果表明，混合键合互连（HBI）对能效的影响微乎其微。

每个Tile有 552 个焊盘，其中不到一半用于数据传输，不到四分之一用于供电。

在封装方面，M3DProc 与 Clearwater Forest (CWF) 类似。CWF 采用 Intel 3 基本芯片，并通过 9μm Foveros Direct 连接到 18A 计算芯片。

M3DProc 的 3D 带宽高达 875 GB/s，而每个 CWF 计算芯片的带宽仅为 210 GB/s。该芯片的 3D 片上网络 (NoC) 具有显著更高的带宽密度。CWF 使用 Foveros Direct 将 CPU 核心集群的 L2 缓存与基础 L3 缓存分离，每个顶层芯片包含 6 个集群，每个集群的带宽为 35 GB/s，因此每个顶层芯片的总带宽为 210 GB/s。M3DProc 的 875 GB/s 3D 带宽通过 56 个垂直连接进行聚合，每个连接仅需 15.6 GB/s，覆盖面积却小得多。

AMD MI355X

AMD 展示了其 MI355X GPU。在以往的会议演讲中，AMD 通常会重复之前发布的消息，只引入一两项新的信息。但这次的演讲在这方面做得更好，详细解释了 MI355X 的 XCD 和 IOD 相较于 MI300X 有哪些改进。

AMD详细介绍了他们如何在保持总面积不变且CU数量基本不变的情况下，将每个CU的矩阵吞吐量提高了一倍。首先，当然是从N5到N3P的转变；这带来了晶体管密度提升的大部分。N3P提供的额外两层金属层优化了布线，从而提高了单元利用率。AMD像之前在N5中那样，设计了自己的标准单元，以针对其高性能计算（HPC）应用场景优化节点。

他们还采用了更密集的布局算法，类似于 EPYC Bergamo CPU 中使用的 Zen 4c 内核比 EPYC Genoa CPU 中使用的 Zen 4 内核小得多。

当使用多种不同的数据格式（例如 FP16、FP8、MXFP4 等）执行相同的计算时，有两种方法。第一种方法是使用共享硬件，即所有格式都通过相同的电路进行处理。然而，这种方法会带来额外的功耗，因为每种格式的优化程度都很低。第二种方法是为每种数据格式使用完全不同的电路集进行计算。然而，这种方法会占用大量额外的空间。当然，最佳方法介于两者之间。这种优化是 AMD 重点关注的领域。

作为采用改进型晶体管的下一代工艺节点，N3P本身就能带来性能提升。然而，在工艺节点改进之前，AMD就已经能够将频率等效功耗提升5%。他们还设计了多种具有不同功耗和性能特性的触发器，并根据用途和架构要求，将其部署在芯片的不同区域。

MI300X 拥有 4 个 I/O 芯片，而 MI355X 则减少到两个。通过这种方式，AMD 节省了芯片间互连的面积。更大的单芯片尺寸改善了延迟，并减少了 SerDes 和转换次数。此外，通过增加互连宽度，HBM 的效率也得到了提升。节省下来的功耗可以重新分配给计算芯片，从而提高性能。

由于芯片面积较大，且芯片上任意两个区域之间都有多种布线方案，AMD 必须投入大量精力来优化线缆和互连。通过对线缆进行定制设计，AMD 成功将互连功耗降低了约 20%。

Rebellions Rebel100

Rebellions 是一家韩国初创公司，专注于人工智能加速器。在 ISSCC 大会上，他们首次公开了其新型加速器 Rebel100 的架构图。与其他通常由台积电 (TSMC) 代工的加速器不同，Rebellions 选择了三星晶圆代工的 SF4X 工艺节点。由于英伟达 (Nvidia)、AMD、博通 (Broadcom) 等公司占据了台积电的大部分产能，这为他们提供了更大的灵活性。

在2025年Hot Chips大会上，Rebellions展示了运行Llama 3.3 70B固件的芯片。Hot Chips和ISSCC大会上的规格参数保持一致。值得注意的是，该芯片采用了三星的I-CubeS中介层技术。虽然Hot Chips大会的幻灯片中提到了台积电的CoWoS-S技术，但我们已澄清幻灯片上的错误，实际使用的是I-CubeS技术。

我们最近提到过，CoWoS-S 的产能限制有所缓解。也就是说，三星可能为了将 I-CubeS 的先进封装技术与其前端工艺捆绑销售，提供了大幅折扣，从而使这家初创公司免去了寻找和验证独立先进封装供应商的麻烦。三星可能还将 HBM的供应与使用 I-CubeS 技术挂钩。

I-CubeS尚未被任何主流AI加速器采用，这可能是三星试图打入该市场的尝试。目前已确认的I-CubeS用户仅有5家：eSilicon、百度、Nvidia、Rebellions和Preferred Networks。

首先是eSilicon采用三星14LPP工艺和HBM2显存的网络ASIC芯片。百度昆仑1加速器与之类似，同样采用三星14LPP工艺和两层HBM2显存。2023年CoWoS-S产能紧张时，英伟达曾将少量H200芯片的生产外包给I-CubeS。此外还有Rebel100，以及Preferred Networks计划推出的基于SF2工艺的加速器。

Rebel100 采用 4 个计算芯片和 4 个 HBM3E 内存堆栈。每个芯片有 3 个 UCIe-A 接口。但是，每个芯片上只使用了两个接口，时钟频率为 16 Gb/s。

Rebellions 声称该设计可在封装级别进行重新配置，可以通过添加额外的 I/O 或内存芯片来集成以太网，从而实现规模扩展。剩余的 UCIe-A 接口将用于此用途。

Rebellions公司表示，IO芯片将于2026年第一季度完成流片。但并未提供内存芯片的流片时间表。

他们还在每个 HBM3E 堆叠旁边集成了硅电容器，以提高 HBM3E 和关键控制模块的电源质量。

微软 Maia 200

微软详细介绍了他们的 Maia 200 AI 加速器。与其说这是一篇研究论文，不如说它更像是一份白皮书，其中只有一张图片和一个规格表，将 Maia 200 与 Maia 100 进行了比较。考虑到 Maia 200 的许多数据都值得怀疑，例如每平方毫米浮点运算次数 (flops/mm2) 和每瓦浮点运算次数 (flops/w)，这样的安排也合情合理。

Maia 100 的设计始于 GPT 出现之前，而 Maia 200 则面向当前的模型时代，特别是推理领域。今年早些时候，Maia 200 节点已在 Azure 上正式发布。

Maia 200 是目前唯一坚持光罩级单芯片设计的芯片。所有主流的配备 HBM 的训练和推理加速器都已转向多芯片设计，每个封装包含 2 个、4 个甚至 8 个计算芯片。芯片上的每一平方毫米都针对特定用途进行了高度优化。与 Nvidia 或 AMD 的 GPU 不同，Maia 200 没有用于媒体或向量运算的传统硬件。微软在台积电的 N3P 工艺上将光罩级单芯片设计发挥到了极致，集成了超过 10 PFLOPs 的 FP4 计算能力、6 个 HBM3E 堆栈以及 28 条 400 Gb/s 全双工 D2D 链路。

在封装层面，Maia 200 非常标准，模仿了 H100。它是一款 CoWoS-S 中介层芯片，包含 1 个主芯片和 6 个 HBM3E 堆叠芯片。

芯片的长边各覆盖 3 个 HBM3E PHY，短边各有 14 条 400 Gb/s D2D 链路（共 28 条）。芯片中心有 272 MB 的 SRAM，其中包含 80 MB 的 TSRAM（L1）和 192 MB 的 CSRAM（L2）。

Maia 200 具有两种不同的链路：同一节点内其他芯片之间的固定链路，以及芯片与交换机之间的交换链路。其中 21 条链路配置为固定链路，每 7 条链路连接到其他芯片；其余 7 条链路配置为交换链路，连接到四个机架式交换机之一。

其他亮点

三星SF2温度传感器

三星在SF2上展示了一款紧凑型温度传感器，用后端金属电阻取代了传统的双极型晶体管（BJT）方案。这或许不如新一代内存或处理器那样引人注目，但对于芯片的正常工作而言却至关重要。

这种金属电阻器的薄层电阻比同等规格的布线金属电阻器高 518 倍，而所需面积却只有后者的约 1%。由于它位于上层金属层，因此为下方的电路留出了充足的空间，并消除了前端工艺 (FEOL) 的面积开销。虽然它的分辨率较低，但其优势足以弥补这一不足。

该传感器采用全堆叠式电容-电阻电路结构，总面积仅为 625 μm²。作为特性明确的 PDK 元件，其特性已由代工厂建模并验证。它更适用于对工艺偏差控制要求严格的大规模生产。即使在单个芯片上，也可以在热点附近使用数千个这样的传感器。

如前所述，金属电阻的温度系数 (TCR) 较低，仅为布线金属的 0.2 倍，这限制了传感分辨率。三星通过增加基极电阻来弥补这一缺陷。然而，由于 RC 时间常数增大，这会延长传感时间。为了解决这个问题，三星采用了一种时间偏移压缩技术：利用低电阻 (0.1R) 快速充电路径迅速为 RC 滤波器充电，然后在波形的温度敏感部分，电路切换到全电阻。

对于时间数字转换 (TDC)，他们用紧凑的基于环形振荡器 (RO) 的 TDC 取代了先前工作中使用的大型线性延迟发生器，将延迟发生器面积减少了 99.1%。RO 还兼作系统时钟，相位交错计数可防止非单调性。

新型温度传感器的精度品质因数 (FoM) 为 0.017 nJ·%²，优于之前基于三星 5LPE、台积电 N3E 和英特尔 4 (JSSC 2025) 的同类产品。以往的温度传感器只能在面积或速度之间进行二选一的优化。例如，N3E 上的传感器面积小巧（900 μm²），但响应时间为 1 ms；而三星 5LPE 上的传感器速度快（12 μs），但面积巨大（6356 μm²）。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4378内容，欢迎关注。

加星标⭐️第一时间看推送

求推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.