从RTL到芯片：EDA最强科普|晶体管|amd|eda|fpga

分享至

公众号记得加星标⭐️，第一时间看推送不会错过。

过去几年，人工智能的需求推动了计算能力的爆炸式增长，导致芯片设计日益复杂，为了追求更高的性能，芯片面积和单封装功耗持续增长。每一代芯片的迭代都伴随着更多设计规则和限制，新的工艺节点进一步推高了芯片设计成本。

与此同时，为了尽快将计算技术推向市场，设计团队承受着巨大的压力，他们必须压缩研发周期，将验证周期从数年缩短到数月。如果速度不够快，就会被竞争对手抢占先机，最终被淘汰。哪怕仅仅三个月的延误，也意味着数十亿美元的损失。

所有这一切都发生在工程人才储备日益萎缩的同时。丰厚的薪资和灵活的工作安排吸引了大多数学生选择软件和信息系统专业，导致能够进入芯片设计领域的电气工程毕业生人数锐减。西门子指出，这些数量众多的复杂人工智能加速器设计需要大量的工程师工时，远远超过了新进入市场的工程人才数量。

目前美国半导体行业三分之一的员工年龄超过55岁。应届毕业生的数量远远无法弥补这一缺口。即使是苹果公司也在积极资助教育项目，以鼓励人们投身工程领域。虽然他们的“新硅计划”确实提高了人们对电子工程专业的兴趣，也增加了电子工程专业毕业生的数量，但与晶体管数量按照摩尔定律快速增长所带来的劳动力需求激增相比，该计划的作用微乎其微。

芯片复杂性不断提升、设计周期日益缩短以及工程师短缺这三重因素叠加，导致设计阶段出现了巨大的瓶颈。最新的AMD MI455X芯片采用2nm和3nm工艺，在12个逻辑芯片上集成了3200亿个晶体管，并采用了先进的混合键合3D芯片堆叠技术、HBM4内存集成以及高速224G SerDes。如此大规模的设计并非仅仅是增加工程师数量或购买更多验证服务器就能完成的。它考验的是公司的工具、方法论和人力资源组织，决定着设计的成败。

在耗资数亿美元设计全新SoC芯片后，并不能保证芯片一定能正常工作。通常需要多次迭代，每次迭代都需要新的掩模版，而A0版本很少能直接投入生产。一套高级掩模版的成本就高达数千万美元，每一次重新设计都会给公司造成沉重的打击。此外，还会使大规模量产的启动时间延长数月。

随着设计日趋复杂，测试变得愈发重要，以确保芯片内所有模块的互操作性和局部完整性。验证，即在将设计投入芯片制造之前证明其功能完全符合预期，如今已耗费高达项目总工作量的70%，具体比例取决于设计本身。验证工程师是芯片开发领域增长最快的职位类别，但行业仍然供不应求。

尽管受制于新制程工艺和更大尺寸SoC的驱动，芯片复杂度每年增长约50%，但设计效率每年仅提升约20%。这种设计效率的差距意味着每一代新芯片都需要指数级增长的工程投入、计算能力和更复杂的自动化流程。

半导体行业持续制造更强大芯片的能力，不仅取决于物理学或光刻技术，还取决于EDA（电子设计自动化）软件。这些工具能够有效地将人类的意图转化为可制造的硅片。如果没有EDA，20世纪80年代中期以后设计的任何芯片都将不复存在。

本入门指南将带您了解半导体行业的EDA（电子设计自动化）。在第一部分中，我们将完整地介绍从RTL（寄存器传输级）代码（工程师实际编写的高级硬件描述语言）到最终制造和封装的芯片的整个过程。我们将介绍各种工具，解释它们的优缺点，并阐述为什么EDA是技术领域中最具影响力却又最容易被低估的领域之一。

在第二部分，我们的EDA市场入门指南深入探讨了EDA业务，重点介绍了主要公司（Synopsys、Cadence、Siemens）及其收入和商业模式。我们提供全面的市场分析，并监测中国EDA的发展动态，以及IP许可和外包给设计合作伙伴的情况，以及超大规模ASIC设计向客户自有工具（COT）的过渡。

第三部分将评估人工智能如何颠覆EDA行业，涵盖从初创公司和工程师仪表盘到NVIDIA和三大巨头提供的智能芯片设计流程的方方面面。利用人工智能加速器创建超人设计，并将其应用于未来的人工智能加速器，这一概念是近几十年来我们行业最激动人心的发展。敬请关注我们对即将到来的芯片设计革命的报道。

简史：从美工刀到三巨头

在20世纪60年代和70年代，集成电路的设计意味着要手工绘制。工程师们在方格纸上绘制布局草图，技术人员再将这些草图转移到红宝石光刻胶（Rubylith ）上。红宝石光刻胶是一种覆膜在透明聚酯薄膜（Mylar）上的红色玻璃纸。他们使用美工刀和透光台，切割光刻胶的各个部分，从而确定芯片的每一层。最终的母版会被放大多达100次，以制作生产用的光掩模。刀片稍有不慎就可能毁掉数周的工作。这便是直到英特尔8080（其红宝石光刻胶如上图所示）之前的标准设计流程。

自动化的第一步始于1971年，当时Calma公司向英特尔公司交付了其图形设计系统（GDS），使工程师能够在小型计算机上数字化和编辑布局。1978年，Calma公司发布了GDS II ，其流文件格式成为交换掩模数据的实际标准。值得注意的是，近五十年后的今天，GDS II及其现代后继者OASIS仍然是主要的交换格式。

我们所熟知的EDA行业诞生于1981年，当时三家公司在短短几个月内相继成立：Daisy Systems 、Mentor Graphics和Valid Logic Systems 。这三家公司统称为“DMV”，它们将计算机辅助工程引入设计流程的前端，包括原理图捕获、仿真和逻辑验证，并在专用工作站上运行。到了20世纪80年代末，这三家公司都迁移到了Apollo和Sun Microsystems的标准Unix工作站，从而确立了如今EDA行业以软件为中心的商业模式。

现代EDA领域由三家公司主导。Synopsys由Aart de Geus及其通用电气研究团队的同事于1986年创立，并于1987年推出了Design Compiler ，这是首款商用逻辑综合工具。逻辑综合实现了将高级硬件描述自动转换为优化的门级网表，这一突破性技术使得晶体管设计从手工放置数千个晶体管跃升至如今数十亿个晶体管的设计规模。Cadence Design Systems由SDA Systems和ECAD于1988年合并而成，迅速成为集成电路布局和布线工具的领先供应商。Mentor Graphics是最初的DMV三巨头之一，于2017年被西门子以45亿美元收购，并于2021年更名为西门子EDA ，将其深厚的验证和物理设计专业知识融入西门子数字化工业产品组合。

与早期的红宝石芯片时代相比，逻辑综合不仅加快了设计速度，而且从根本上改变了设计的可能性。它通过抽象化手动门布局，使设计复杂度提高了数百万倍，从而形成了如今拥有数十亿个晶体管的SoC。

芯片设计流程图

芯片制造是一项历时多年的接力赛，共有十三棒。任何一个环节的交接失误都会导致整个进度延误，可能长达数月，甚至数个季度。下图展示了从空白设计图到量产的完整流程。本文将详细介绍设计流程中EDA工具的应用阶段。

规划：明确产品需求、目标市场和 PPA（功率、性能、面积）目标，这将约束下游的每一个决策。

架构：设计微架构：指令集选择、缓存层次结构、总线宽度以及将芯片划分为可管理单元的框图。

RTL 设计：编写实际的硬件描述代码（几乎总是用SystemVerilog ），该代码指定设计中的每个寄存器、多路复用器和状态机。

RTL验证：对RTL进行详尽的测试或证明，确保其在数十亿种场景下运行正确。可通过测试平台或形式化证明来实现。

RTL冻结：设计已锁定。不允许再进行任何功能性更改，仅允许通过严格变更控制审核的错误修复。

固件/软件开发（并行）：固件和软件团队开始在模拟器和 FPGA 原型上进行调试，通常与物理设计并行进行，以节省数月的进度。

物理设计：逻辑综合（将 RTL 转换为门级网表）、布局（将门电路放置到芯片上）、布线（将它们连接在一起）和布局规划（为每个功能模块分配芯片区域）。

最终验收：进行最终检查，确保设计满足时序收敛（每个信号按时到达）、功率预算和DRC/LVS （制造规则）要求。

代工厂交接：最终的布局设计将导出为GDSII文件，这是一个多 GB 的蓝图，代工厂用它来创建光刻掩模。这被称为“流片”里程碑。

制造：晶圆在晶圆厂中制造需要 3-4 个月的时间，期间要经过数十台设备的数千道工序。

芯片验证后阶段：实际芯片从晶圆厂返回。芯片验证工程师会在定制电路板和探针卡上进行测试，调试缺陷，并制定分级策略（将良率和性能不同的芯片产品化为不同的SKU）。此阶段可能会进行多次测试。可靠性测试包括老化测试和最终测试。

系统集成：经过验证的芯片被集成到电路板、封装中，并连接到设备，驱动程序、BIOS 和操作系统支持均通过系统级测试验证。

生产：逐步提高产量以满足需求，同时不断优化产量并协调供应链。

这是一个简化的“瀑布式”视图。实际上，这些阶段之间存在大量重叠和迭代。验证过程中发现的架构缺陷会迫使工程师修改RTL代码；物理设计中的时序问题则需要工程师重新优化关键路径。现代SoC项目需要同时管理数十个这样的反馈循环，而这正是EDA工具存在的意义所在——任何人工团队都无法追踪所有这些循环。

1.规划

任何芯片设计的第一步都是确定其用途。每个设计部门通常专注于特定系列的芯片，从中央处理器和加速器到更常见的系统控制器和嵌入式传感器。产品需求和高级规格的制定，会参考市场上现有产品，并对目标市场中的其他产品进行竞争分析。

最初提出的方案只是初步构想，随着项目经理根据各个设计团队提供的、可能已准备好集成的IP模块的插入计划开展工作，这些构想会迅速演变。以往项目的经验总结也被纳入考量，从而形成一个知识库，用于判断哪些方案行之有效，哪些方案在特定时间范围内过于雄心勃勃。

这里的关键高级指标是PPACt ：性能和功耗，通常以相对于上一代产品的百分比提升来表示，并评估其在竞争格局中的定位；以及在特定工艺节点上，此类设计在硅片上占用的面积，这最终转化为成本。上市时间是决定产品是否可行的最终指标，它既考虑了设计时间，也考虑了产品竞争力。在一个性能每隔几年就翻一番的快速增长的市场中，延迟一年上市就可能意味着项目失败。

这些可行性研究需要获得管理层的批准，项目才能正式启动。每家公司都必须在研发预算和有限的工程资源范围内开展工作。在路线图中，为了合理安排资源分配，需要严格设定完成期限，以便工程师能够腾出时间投入到下一个项目中。尽早与供应商沟通，预测每种设计所需的晶圆、存储器和封装需求，对于确保产能而言变得日益重要。

2. 架构布局

架构布局与规划紧密相关，并与设计空间探索同步进行。高层平面图为每个逻辑和I/O模块设计团队设定了初始区域边界框。每个功能模块都被分解成更小的元素，这些元素更易于设计，并且可以在整个设计中重复使用。这些面积预算可能会在设计周期中根据后续添加的占用更多面积的功能而增加。例如，指令集架构（ISA）中的功能更新，需要添加额外的计算单元来支持新的指令。在AI加速器方面，这相当于添加数据流加速器并将矩阵乘法引擎的宽度增加一倍。

框图的绘制需明确各功能模块之间的关系以及片上网络 (NoC) 的带宽需求，内存总线宽度和 SRAM 面积的预算则基于缓存层次结构以及早期性能与内存压力的模拟结果。这些模拟，即设计空间探索，传统上是通过有针对性的实验设计来完成的，旨在模拟各功能模块之间的性能影响和交互作用，通过改变单元尺寸、宽度和带宽，找到提升性能的最有效途径。

展望未来，人工智能的出现加速了这一进程，因为在多维输入空间中，利用可分配的奖励函数可以轻松验证PPA任务。诸如Synopsys的DSO.ai等第一方人工智能驱动的探索工具，紧随众多无晶圆厂设计公司利用人工智能加速路径寻找和规划决策的内部努力。本EDA系列文章的第三部分将对此进行深入分析。

3. RTL设计

确定架构后，工程师必须精确描述芯片的功能。这需要在寄存器、数据通路和组合逻辑层面进行，这些描述最终会被转换成晶体管实现。这种描述被称为 RTL（寄存器传输级）代码，它用一种人机和综合工具都能理解的语言定义了芯片的设计行为。芯片设计流程中的大部分工程时间都花费在编写和验证 RTL 代码上。下面我们将探讨 RTL 设计的各个方面。

（1）信号定时

在现实世界中，晶体管的开关并非瞬时完成。存在一个传播延迟，即输入信号的变化需要一段时间才能产生稳定的输出。该延迟包含两个部分：门延迟（晶体管自身的开关速度）和导线延迟（电信号沿金属互连线传输到下一个门所需的时间）。在先进的工艺节点上，随着晶体管开关速度的提升以及复杂设计导致数据通路长度的增加，导线延迟最终会超过门延迟。

数字芯片使用时钟信号来同步所有操作。两个时序约束决定了芯片的正确性。建立时间要求输入数据在时钟沿到来之前至少保持稳定一段时间。保持时间要求数据在时钟沿到来之后至少保持稳定一段时间。时钟周期（频率的倒数）必须足够长，以容纳整个设计中最慢的信号路径。这条最慢的路径被称为关键路径。如果你的关键路径耗时 0.2 纳秒，而你想要一个 5 GHz 的时钟（周期为 0.2 纳秒），那么你就已经接近极限，没有余量来应对工艺偏差。这就是为什么时序优化在芯片设计中需要耗费大量精力，并且需要在性能和复杂性之间做出诸多权衡。

（2）状态要素

组合逻辑根据输入计算输出，但它需要与存储器结合才能构建诸如计数器、处理器流水线级或协议引擎等实用功能。这些存储器寄存器由触发器实现。触发器在每个时钟沿捕获并保存一位数据，充当一个微型的一位存储器。多个触发器与组合逻辑串联起来，构成有限状态机(FSM)。该电路按时钟周期依次执行预定义的状态序列。这就是时序逻辑，它是芯片进行计算的基础。因此，RTL 是一种抽象，它描述了数据在每个时钟周期如何在寄存器和组合逻辑之间移动。

（3）编写 RTL

RTL是用硬件描述语言（HDL）编写的。目前主流的选择是SystemVerilog ，它是Verilog语言的扩展，增加了用于设计和验证的功能。VHDL是较早的替代方案，仍然出现在航空航天和传统应用中。编写RTL的设计人员会指定每个时钟沿发生的情况，例如寄存器之间的数据移动、算术运算的执行以及状态机的转换。综合工具（将在下一节中介绍）随后会将这些描述转换为实际的门电路和晶体管。

RTL 代码编写完成后，会经过代码检查（linting），这是一种静态分析，可以检测编码错误、竞态条件和语法错误。这相当于一次快速的代码审查，无需仿真。Synopsys公司的VC SpyGlass是业界标准的代码检查工具，能够标记出看似细微但可能导致芯片间歇性故障的问题。这本质上相当于芯片设计中的编译器警告标志，只不过后果要严重得多。

（4）IP集成

在大多数现代片上系统 (SoC) 设计中，只有大约 20-30% 的 RTL 代码是真正自主设计的逻辑。对于非关键组件，复用之前的设计更为便捷，其余部分则由授权的 IP 模块构成。这些模块是预先设计、预先验证的，通常从第三方供应商处购买。ARM 提供处理器内核、GPU 和其他 IP。Synopsys DesignWare提供 USB、PCIe、DDR 内存控制器以及数百种其他接口模块。如果芯片设计的其他部分由 Broadcom 负责，则可以采用 Broadcom 出色的高速 I/O 模块。此外，规模较小的 IP 供应商也销售从 GPIO 接口到加密加速器等各种产品。

IP授权是经济因素的产物。从零开始设计一个定制的PCIe Gen 6控制器需要组建一支专门的I/O设计和验证工程师团队，以证明其符合PCI-SIG规范。而授权一个现成的控制器成本仅为其一小部分，并且已经预先通过了规范验证。然而，IP集成本身可能充满挑战。

4. RTL验证

RTL 代码随后会经过验证过程，这对于消除代码中的任何错误或设计缺陷至关重要。验证过程通过仿真来实现，仿真会在软件中运行设计，施加激励并检查输出。目前市场上主要有三种商用仿真器，按普及程度排序如下：

VCS （Synopsys）：市场领导者，以原始的仿真速度和与 Synopsys 其他流程的深度集成而闻名。

Xcelium（Cadence）：Cadence 的仿真器，在多核性能和混合信号仿真方面具有竞争力。

Questa （西门子EDA）：在高级调试和覆盖率分析方面功能强大，并具有深厚的UVM支持。

大多数大型芯片公司至少会购买其中两项的授权。在复杂的SoC上运行包含数万个测试用例的完整回归测试套件，每次运行可能消耗数千个CPU核心小时。如今，专用的本地验证服务器通常已无法满足需求，因此，在流片前的冲刺阶段，团队会利用AWS和Azure等云平台上的仿真服务来应对短期需求，以提升产能。由此产生的数据量也十分惊人，仅存储单个芯片的全部定义和测试项目就需要数PB的磁盘空间。

如上所述，在芯片设计公司中，验证工程师的数量通常比其他任何单一职位都多。随着芯片变得越来越复杂，需要相互验证的环节也越来越多，这对验证人员提出了巨大的要求。

验证流程分为两条路径：一端是标准 DV 测试，另一端是带有证明的形式化验证。

（1）UVM 测试平台

RTL 仿真采用UVM（通用验证方法）架构。UVM 是一个行业标准的 SystemVerilog 库和方法，用于构建可重用的测试平台。在 Accellera 于 2011 年将 UVM 标准化之前，每个团队都自行开发测试平台架构。UVM 通过定义一套通用组件，将整个行业整合起来：

序列器：生成事务序列并将其提供给驱动程序。测试场景在此处定义。

驱动程序：将抽象事务（例如“发送 32 字节读取请求”）转换为设计输入引脚上的摆动信号。

监视器：被动地观察设计接口上的信号，并重建发生的事务。

评分板：将参考模型的预期输出与设计的实际输出进行比较。任何不匹配之处都会被标记为错误。

该测试平台用于约束随机验证。工程师无需手动编写定向测试的每个测试用例，而是定义一些约束条件，例如合法的地址范围、有效的包格式和协议规则。然后，该工具会在这些约束范围内随机生成数百万种输入组合。这种方法可以发现定向测试可能无法捕获的极端情况错误。由于样本范围很大，这些约束随机回归测试非常消耗资源，但通常比编写定向测试更有效地检测故障。

（2）形式验证

形式化验证与仿真有着本质的区别。它并非通过施加特定输入并检查输出来进行验证，而是使用诸如 SAT 求解器和模型检测器之类的数学证明引擎，穷举地证明设计属性对于所有可能的输入和所有可能的状态序列都成立。如果该属性可以被违反，工具会生成一个具体的反例，精确地展示如何违反。形式化验证通常使用属性，通常是定义预期行为的SystemVerilog 断言(SVA)。

目前主流的工具是JasperGold （Cadence）和VC Formal （Synopsys）。形式化验证在协议合规性（例如，握手信号的持续时间不超过 3 个周期）、控制逻辑正确性和安全性（例如，该寄存器仅供具有更高权限的软件使用）方面表现出色。然而，形式化验证的局限性在于其可扩展性。对于总线宽、数据通路密集的设计，形式化引擎会遇到容量限制。实际上，形式化验证和仿真可以互补。形式化验证可以对目标模块进行详尽的关键属性验证，而仿真则可以以统计置信度覆盖整个芯片。

5. RTL冻结

为了确定验证何时完成，工程师会查看多个覆盖率指标，这些指标是对每个测试平台已执行内容的量化衡量。这些指标分为两类：

代码覆盖率衡量结构完整性：

行覆盖率：RTL 的每一行都执行完毕了吗？

分支机构覆盖率：所有可能的分支机构都已被覆盖吗？

切换覆盖范围：每个信号是否都在 0 和 1 之间切换过？

FSM覆盖范围：每个FSM的每个州和过渡区域是否都已访问过？

功能覆盖范围衡量意图：

我们是否真正测试了我们关心的那些场景？

是否存在需要重点关注的已知特殊情况？（例如：对同一地址的并发写入、中断挂起时 FIFO 缓冲区已满）

要测试这些场景，需要对哪些具体变量进行采样？ SystemVerilog 中定义了覆盖组，其中包含对这些测试用例的明确描述，并跟踪回归测试是否命中特定变量。

覆盖率收敛是验证过程的最后一步。虽然 90% 的测试用例都能很快完成，但要确保剩余 10% 的功能覆盖率却需要付出巨大的努力，有时甚至需要数周时间来编写针对性的测试用例，同时还要在其他测试用例中添加或修改约束和排除项。测试用例越具体、越复杂，就越需要深入研究设计是否存在漏洞。设计公司会利用以往设计中积累的丰富经验，来指导和确定最重要的测试用例的优先级。

当所有代码覆盖率目标均已达成，且目标严重级别下不存在任何未解决的缺陷时，项目的RTL代码将被冻结。这一正式里程碑，即RTL冻结，标志着RTL代码的功能性变更不再被允许。从此之后，任何修改都必须经过正式的工程变更单（ECO）流程，并需要重新验证和等效性检查。在设计过程的后期，可能需要提交ECO来修复之前未发现的缺陷或调整时序。RTL冻结确保了下一步——物理设计——拥有一个坚实的基础，从而将前端设计与后端物理实现分离。

虽然验证常常被认为是芯片设计中不那么引人注目的部分，但它对新架构的开发至关重要。设计芯片很容易，但要确保你的设计在所有可能的情况下都能正常工作却很难。

6. 固件/软件开发

芯片开发过程本身就耗时数年，软件团队无法承受等待芯片到货后才开始编写软件的局面。操作系统、固件栈和驱动程序套件必须在首颗芯片从晶圆厂返回之前基本准备就绪。为了实现软件与硬件开发同步进行，工程师们依赖于芯片前硬件仿真技术。芯片的RTL设计被映射到大型FPGA阵列上，这些FPGA以50MHz的速度执行芯片的功能。FPGA中的可编程逻辑元件的布线与每个设计的逻辑配置大致匹配，使得这些仿真器的运行速度比在CPU上进行纯软件RTL仿真快1000倍。

目前两大主流平台分别是Synopsys 的ZeBu和Cadence 的Palladium。Synopsys最新的 ZeBu-200 集群可模拟高达 230 亿个门，运行性能是其前代产品的两倍。Cadence 的 Palladium Z3 可扩展至高达 480 亿个门的设计，速度比 Z2 快 1.5 倍。这些系统使固件团队能够在芯片交付前数月启动 Linux 系统、测试固件并进行软件验证。

7.物理设计

到目前为止，芯片仅以高级RTL描述的形式存在。在进行物理设计之前，必须完成一个关键的转换步骤。

（1）逻辑综合

逻辑综合将RTL代码转换为门级网表，即从代工厂标准单元库中提取的逻辑门连接图。这些综合工具解析RTL代码，并确定以特定顺序连接的正确逻辑门组合，以实现RTL描述的功能。我们将在下文解释这些逻辑门是什么。

此外，该综合器还会优化网表，并在设计设定的限制范围内运行。它会在时序（电路中的门能否在 4 个时钟周期内完成操作？）、面积（在架构描述规定的面积内可以容纳多少个门？）和功耗（这些逻辑门的动态和静态漏电会造成多少瓦的功率损耗？）之间取得平衡。为了缓解这些相互冲突的目标，可以采用一些技术，例如尽量减少重复逻辑、在多个功能之间共享逻辑门以及重新调整功能时序以降低关键路径上的负载。该工具会探索数千种备选方案，以找到这些需求之间的最佳平衡点。

Synopsys 的Design Compiler是目前仍占据主导地位的原始工具，它开创了整个统一EDA类别，并推出了 NXT 和 Ultra 等多个版本，集成度更高，并配备了Design Vision功能——一个供工程师评估综合流程的图形界面。Cadence 提供Genus作为其综合器。Synopsys 现在主推 Fusion Compiler，它将综合与布局布线整合到一个统一的流程中，从而允许在 RTL、时序和布局之间进行交叉探测。我们将在下文中更详细地介绍这些统一EDA流程。

（2）等价性检查

将 RTL 代码综合成门级网表后，需要检查综合工具是否引入了任何错误。为此，需要使用等效性检查（Equivalence Checking ）进行数学验证。等效性检查是一种形式化技术，用于验证设计的两种表示形式（RTL 和门级网表）在功能上是否完全相同，包括输入和输出。Formality （ Synopsys ）和Conformal LEC （Cadence）是常用的标准工具。

等效性检查在每个主要转换步骤中都会运行，而不仅仅是在综合之后。后续的门到门转换，例如时钟树插入、扫描链拼接、布线优化以及每次工程变更单 ( ECO)之后，都会进行等效性检查。每次转换都可能引入错误。因此，等效性检查就像一张安全网，可以捕获工具自身引入的错误。

（3）逻辑门

合成器从标准单元库中选择一系列逻辑门，每个逻辑门执行一个布尔函数，将给定的二进制输入转换为输出。输入和输出之间的所有排列组合列在真值表中，如上所示。七种基本逻辑门包括：如上所示的非门 (INV) 和与非门 (NAND)、与门 (AND)、或门 (OR)、或非门 (NOR)、异或门 (XOR) 和同或门 (XNOR)。在实际应用中，标准单元中的晶体管执行这些运算，输出电压上拉至 Vdd 表示“1”，下拉至 Vss 表示“0”。

（4）标准单元库

上述逻辑门并非从零开始设计。相反，其布局取自标准单元库，该库是由代工厂或第三方IP供应商提供的预先设计、预先表征的逻辑构建模块目录，并遵循所有设计规则。每个单元具有固定的高度和可变的宽度，像砖块砌墙一样整齐地排列在芯片上。这种标准化的有序布局，包含两个晶体管位置（通常是PMOS位于NMOS上方）以及标准的电源间距，对于实现自动化布局布线至关重要。

除了上述基本逻辑门之外，还提供功能更高级的复杂标准单元。这些单元将逻辑运算组合成更高级别的功能，并在整个设计中反复使用。与代工厂密切合作的人员还可以为这些复杂运算设计自己的定制标准单元。例如（按复杂度递增排列）：AOI、OAI、寄存器、多路复用器、D触发器和全加器。设计中还包含一些特殊用途单元，用于处理逻辑计算之外的功能。例如：I/O焊盘单元、抽头单元、填充和去电容单元、高电平和低电平连接单元、电源和时钟门单元以及用于在多个电压域之间传输信号的电平转换器。每个节点还包含SRAM宏编译器，用于生成静态RAM块，这些块是逻辑工艺中最密集的存储单元。

适用于台积电N2等先进工艺节点的现代标准单元库包含数万个独立单元。每个逻辑门都有多种布局选项可供选择，具体取决于布线和信号引脚的可访问性。每个逻辑门还提供多种驱动强度选项，当其输出需要驱动多个输入信号时，则使用驱动强度更高的单元。这些单元会根据实际情况选择性使用，因为高驱动电流晶体管的漏电功耗更大。现代台积电工艺节点提供多达6种阈值电压选项，以便对信号可靠性和功耗进行精细调整。英特尔最初的18A芯片存在的问题之一是只有4种阈值电压选项（英特尔只使用了3种），而台积电则有6种。这意味着即使英特尔芯片在特定点上性能更佳，其设计也很难在所有阈值电压下都达到帕累托最优曲线。英特尔的18AP芯片解决了这个问题。

综合工具会根据时序和功耗约束为每个单元选择合适的尺寸。由于有数百万种排列组合可供选择，因此在综合和物理设计阶段，EDA 工具对于解决这一优化问题至关重要。

随着摩尔定律增速放缓，采用新型面积缩放技术的新型制程节点进一步加剧了布局的复杂性。台积电的N3 FinFlex和N2 NanoFlex将不同高度的标准单元混合在一起，增加了设计约束。每个制程节点还提供多种库选项，例如HD高密度库和HP高性能库，它们具有不同的标准单元尺寸和功耗特性。对于全环栅工艺（SF3、18A、N2），每个标准单元高度都有多种纳米片宽度选项。设计人员可以针对芯片的每个区域混合搭配不同的库，以从新工艺中获得最佳的PPA（每像素面积）。例如，苹果公司在其高性能CPU核心中使用了台积电的3-2 FinFlex，而芯片的其余部分则采用了密度更高、功耗更低的2-1 FinFlex库。

标准单元库是晶圆代工厂与芯片设计人员的主要商业接口。它不仅编码了逻辑功能，还将晶圆代工厂的制造能力、设计规则和工艺特性编码成EDA工具可以读取的形式。当一家无晶圆厂公司将设计“移植”到新的晶圆代工厂时，迁移标准单元库是第一步，也是影响最大的一步，它会导致整个工具流程中返工最多。

（5）流程角（Process Corners）

物理设计工具还必须考虑现实世界的影响，特别是制造过程中的变异性。单元的速度和功耗可能会因工艺、电压和温度 (PVT) 的变化而发生显著变化。因此，库会在一系列 PVT 角条件下进行表征，如下所示。

TT（typical-typical）代表正常情况。FF（fast-fast）表示 NMOS 和 PMOS 晶体管的响应速度均高于正常值。SS（slow-slow）表示两者的响应速度均低于正常值。FS 和 SF 分别表示 NMOS 和 PMOS 之间的响应偏差。这些情况尤其棘手，因为它们会影响电路平衡，而对称角则不会。

电压在标称电源电压附近变化。例如，标称电压为 0.75 V，拐点电压分别为 0.675 V (-10%) 和 0.825 V (+10%)。电压越低，开关速度越慢，功耗也越低。温度范围取决于应用。消费级芯片的工作温度范围可能为 0°C 至 105°C，而汽车级库则必须在 -40°C 至 125°C 的温度范围内进行特性分析。设计必须满足慢速拐点的时序要求，并在漏电拐点保持在功耗预算范围内。

（6）金属互连

标准单元定义了金属互连底部的有源晶体管层。单元内部最底层的金属层 M0 和 M1 用于将晶体管连接到引脚。这些导线很细，电阻很高，适合单元内部的短距离传输，但不适合跨芯片布线。每个交替的金属层上的导线方向相互垂直，奇数层用于南北向布线，偶数层用于东西向布线。

半全局金属层（M3 至 M5）负责模块级布线，将功能单元内的标准单元相互连接。这些金属层逐渐加厚加宽，从而降低长距离布线的电阻。最厚的顶层金属层用于电源分配网络和全局时钟树。金属层总数取决于芯片的复杂程度，从低成本移动 SoC 的 10 层到高性能 AI 处理器的 19 层不等。背面供电方案（例如上文提到的英特尔 18A）通过分离电源线和信号线，降低寄生电容和信号干扰，为布线工具开辟了新的应用空间。

（7）流程设计工具包（PDK：Process Design Kit）

以上所有参数均由代工厂在工艺设计工具包 (PDK) 中详细说明并提供。这个包含大量文件、模型和规则的软件包将代工厂的制造工艺转化为 EDA 工具可以理解的术语。

每个 PDK 都包含以下信息，并且每个信息都有其自身的行业标准文件格式：

LEF 文件（库交换格式）提供了标准单元的物理描述，包括引脚位置、金属阻挡区域（需要避开的区域）和单元边界。布局布线工具使用 LEF 文件，因为它包含足够的几何信息来定位单元和连接导线。

LIB 文件（Liberty 格式）包含时序弧，用于定义信号的传播和衰减时间、功耗表以及抗噪数据。每个 PVT 角组合都会生成一个单独的 .lib 文件。

SPICE模型（集成电路仿真程序）能够捕捉晶体管的详细模拟特性，例如阈值电压、漏电流、电容以及它们在不同工艺角下的变化。此外，还可以包含电阻器、电感器和电容器等无源器件的其他仿真模型。

模拟 I/O 区域采用参数化单元（P 单元），根据设计人员可调整的特定变量生成晶体管尺寸。这比为每个变量尺寸绘制单个单元要高效得多。

寄生参数提取表告诉提取工具如何计算布局中每根导线和过孔的电阻和电容。为了考虑制造误差，这些参数分为多个角、RC-max（最差情况下的慢速互连）和 RC-min（最佳情况下的快速互连）。

设计规则手册 (DRM) 包含数千条几何约束，例如最小间距、最小宽度、围护结构规则、遮挡和密度要求。物理验证参数将在下一节中详细介绍。

还可以提供 GDS（GDSII 流）布局参数，其中包含每个晶体管和金属层的完整、精确的物理布局示例，包括扩散区、多晶硅栅极、触点和过孔。此文件最终将发送给代工厂进行流片。

这是在GDS查看器中看到的标准单元。每种颜色代表不同的制造层。多晶硅栅极（红色）、金属互连（蓝色）以及层间垂直接触/过孔（蓝色方块）。

（8）PDK 版本

随着工艺的不断开发，客户开始设计测试芯片并了解工艺特性。因此，PDK 在最终发布 1.0 版本用于量产流片之前，需要经历多次修订。PDK 的主要里程碑版本包括：

PDK 0.1 / PDK 0.3：完全基于 TCAD（技术计算机辅助设计）仿真构建，而非实际硅片数据。用于早期架构探索和路径规划，具有较大的不确定性范围。仅根据联合开发协议 (JDA) 提供给核心客户，最多可在量产前两年使用。标准单元尺寸已定义，但此阶段的库非常有限。

PDK 0.5：整合了来自短循环晶圆和初始测试芯片的早期硅测试数据。真正的芯片设计通常从测试芯片开始。模型已大幅改进，但PVT角覆盖仍不完整。工艺角数据将可用，但完整的硅模型尚未提供。标准单元库正在不断完善，但尚未最终定稿。常规代工厂客户在此阶段即可访问。

PDK 0.9：提供涵盖所有PVT角的完整芯片特性分析。接近最终的物理验证套件已准备就绪，并针对数百万个测试结构进行了验证。所有主流EDA工具供应商都将获得广泛支持，并拥有可用的IP。

PDK 1.0：最终量产就绪版本。包含所有Vt变体和电路模型的完整标准单元库。这是量产流片所使用的版本。PDK 1.0是代工厂的一个重要里程碑，标志着产品已准备就绪。

在每个主要版本之间，代工厂会发布一些小版本更新，以收紧设计规则，缩小模型不确定性，并添加从实际制造数据中发现的 DFM（可制造性设计）热点规则。

（9）PDK 许可和访问

代工厂 PDK 普遍受 NDA 保护，访问权限通过严格的分级系统进行控制，该系统既反映了业务关系，也反映了知识产权安全。

第一梯队：核心/联合开发协议 (JDA) 客户（例如移动领域的苹果公司、高性能计算领域的 AMD/Nvidia 公司）。这些公司深度参与工艺技术的定义和联合开发，并在量产前三年以上获得技术使用权。他们主导设计规则，甚至可能“资助”代工厂开发特定的工艺特性。作为回报，他们获得先发优势和最深入的合作。

第二层级：EDA 和 IP 合作伙伴。Synopsys、Cadence、西门子等 EDA 厂商以及 Arm 等 IP 供应商可提前获得 PDK 访问权限，用于工具验证和 IP 开发。他们的标准单元库、存储器编译器和接口 IP 必须经过认证并可供无晶圆厂设计公司使用，这需要数月的工程开发时间才能实现。

第三级：标准代工厂客户。这些公司采用既定工艺设计芯片，但不参与工艺开发。他们接受现有的设计规则。

第四层级：学术和研究。限制非常严格。大学可能只能获得有限的PDK子集用于研究，而且通常是在该流程成熟多年之后。

即便如此，一级客户也永远看不到代工厂的物理配方。芯片设计人员看到的是电气特性，无需了解精确的掺杂浓度、工艺温度或蚀刻化学成分。PDK 作为一个抽象层，使得无晶圆厂模式成为可能，从而保护了代工厂和客户之间的知识产权。

（10）PDK 时间表：Intel 18A

2022 年 9 月：PDK 0.3现已交付给早期设计客户，测试芯片正在设计中，计划于年底进行流片。

2023 年 3 月：与主要客户分享了PDK 0.5 （工艺设计套件）的工程版本，预计将在未来几周内发布最终生产版本。

2023 年 9 月：PDK 0.9即将发布，工厂内正在运行许多用于内部和代工客户的 18A 测试芯片和穿梭机。

2024年7月：英特尔向代工厂客户发布了PDK 1.0

2026年1月：英特尔内部Panther Lake CPU在18A发布

（11）开源PDK

由于代工厂的PDK（工艺设计套件）属于高度机密，很少有人有机会学习和使用它们。迄今为止，只有少数几个量产PDK以完全开源的形式发布。2020年，谷歌与SkyWater Technology合作发布了SKY130 PDK，这是一个完整的、可制造的设计套件，适用于天水科技的130nm工艺。SKY130最初由赛普拉斯半导体（Cypress Semiconductor）开发，包含SPICE模型、DRC/LVS模块、标准单元库和I/O单元。从RTL到芯片制造所需的一切都已发布在GitHub上，并采用Apache 2.0许可证。GF180MCU和iHP130也是开源的，而且发布时间也差不多，甚至更早。

虽然这项技术已有20多年的历史，但它对教育、开源研究以及物理设计领域的开源模型培训至关重要。开源EDA生态系统包括用于布局布线的OpenROAD和用于自动化流程编排的OpenLane。谷歌曾资助多个多项目晶圆（MPW）穿梭试验，免费制造社区设计的芯片，使学生能够在无需任何商业许可的情况下完成从RTL到GDSII的整个流程。遗憾的是，谷歌已停止对这些领域的资助。

（12）物理设计工具和功能

目前两大主流的物理设计平台是IC Compiler II （Synopsys）和Innovus （Cadence）。它们几乎可以处理当今所有流片的先进节点芯片。选择哪一款通常取决于团队对哪一款工具的熟练程度。数十年来在数十个项目中积累的经验使得切换工具既困难又昂贵。这些工具会考虑上述所有参数和因素，以及综合后的网表和代工厂的 PDK，从而生成完整的 GDSII 流片布局。工程师使用这些 EDA 工具进行以下操作：

布局规划：定义芯片的物理轮廓和内部结构，类似于确定房屋中所有墙壁和房间的确切位置。它基于上述的高级架构规划。大型宏模块（SRAM、PLL、模拟IP）沿芯片周界放置，I/O引脚位置也随之确定。

电源规划：电源分配网络(PDN) 为芯片上的每个晶体管提供供电电压。水平和垂直的电源条带以及过孔堆叠构成电源网格，为晶体管提供所需的电源轨。PDN 必须能够处理多个电压域以实现更高的能效，并且能够在空闲时选择性地关闭某些区域的电源，这种技术称为电源门控。其目标是最大限度地减少导线电阻造成的 IR 压降。整个芯片区域的电压必须均匀，尤其是在电源网格密集的热点区域，例如浮点单元和张量核心。

布局：为平面图内数百万个标准单元分配物理位置。全局布局优化总线长并最大限度地减少拥塞热点。详细布局则进一步规范这些位置，将标准单元锁定到定义的网格行中并解决重叠问题。现代布局器以时序为驱动，并能感知拥塞情况，在布线效率和线长之间进行权衡。上图显示了设计中的单元密度分布。此外，还添加了基础设施单元，例如填充单元、抽头单元和用于工程变更单 (ECO) 调试的备用单元。

布线：将所有放置的单元连接到上方的金属互连堆叠层，以传输信号和电源。局部、半全局和全局布线均由 PnR 工具处理，以满足供电和时钟时序预算。该工具会将标准单元分散开来，并在布线拥塞严重的区域降低面积利用率，这些区域的单元引脚密度过高，金属堆叠层无法处理。

时钟树综合：构建时钟信号分配网络，将中央时钟源的信号传递到时钟域内的每个晶体管，确保同步运行。其目标是最小化时钟偏移，即任意两个功能单元之间时钟到达时间的差异。时钟偏移的变化会消耗大量的时序预算。芯片中的不同模块可能在不同的时钟域中运行以提高能效，这就需要信号跨越时钟域才能在它们之间传输。

可测试性设计 (DFT)：在物理实现中插入可测试性结构。通过添加扫描链和 DFT 访问焊盘以及长移位寄存器，测试设备可以加载测试模式并检索结果。内存内置自测试 (MBIST) 为内存芯片添加片上测试逻辑。自动测试模式生成 (ATPG) 软件计算出实现最大测试覆盖率的最佳输入向量集。

物理设计是通过多个优化循环完成的。在每个主要步骤之后，工具会运行时序优化，在长网络或高扇出网络上插入缓冲器，调整门电路尺寸（将标准单元替换为更大或更小的变体），应用有意时钟偏移（移动时钟到达时间以优化关键路径），重新映射逻辑（重构门级拓扑结构），以及保持时间修正（添加延迟单元以防止数据过早到达）。工具会迭代执行这些技术，以获得最佳的PPA（物理性能分析）。

8.签核（Signoff）

与RTL冻结阶段锁定RTL设计和验证类似，物理设计在签核阶段锁定GDSII之前，需要经过物理验证（PV）。签核阶段验证设计在所有工作条件和功率场景下，功能和可制造性均能正常运作。Synopsys提供IC Validator ，Cadence提供Pegasus ，西门子提供Calibre 。这三家公司都与代工厂有着深厚的合作关系，对于无晶圆厂设计公司而言，这些工具对于他们充分利用特定的代工厂工艺至关重要。签核阶段之前需要验证的主要组件包括：

设计规则检查 (DRC)：验证代工厂提供的几何约束。确保满足最小线宽、形状间距、强制遮挡和图案密度限制。高级节点会施加数千条此类规则，设计规则手册超过 1000 页。

版图与原理图对比 (LVS)：验证物理版图是否精确实现了预期的电路连接，是否存在意外的短路或断路。从物理版图中提取网表，并将其与原始门级网表进行比较，以确保逻辑正确性。

电气规则检查 (ERC)：检测电网中的浮空节点、短路电源和其他电气违规行为。ERC 检查电流密度限制和静电放电 (ESD) 可靠性。

静态时序分析 (STA)：验证设计中的每条时序路径是否满足其建立时间和保持时间约束。Synopsys的PrimeTime和Cadence 的Tempus等工具具有更高级的功能，可以分析 PVT 角和 DVFS（动态电压频率调节）曲线的时序，即多角多模式 (MCMM) 分析。

电源签核：IR压降分析验证电源分配网络在静态（平均）和动态（开关）条件下是否能为每个晶体管提供足够的电压。同时检查导线电流是否达到电迁移极限，即电子在金属导线中逐渐移动，导致短路和断路。Synopsys RedHawk-SC和 Cadence Voltus工具用于电源完整性验证。

有时，为了通过签核，可能需要实施工程变更请求 (ECO) 流程。功能性 ECO 通过重新利用预先放置的备用单元来修复逻辑错误，仅需在最底层金属层使用新的掩模。时序 ECO 由 PrimeTime 指导，通过调整单元大小或重新映射来满足时序要求，可能需要更换整套掩模。每种类型的 ECO 都以灵活性、成本和周转时间为代价，其具体机制将在下文“步骤详解”部分进行解释。

传统上，芯片设计流程的每个阶段都是独立运作的。RTL团队编写代码并将其交给综合团队。综合团队生成网表并将其交给布局布线团队。布局布线团队生成版图并将其交给最终验收团队。每个工具独立运行，一旦下游发现问题，需要从版图甚至RTL阶段进行修复，就会造成协调上的噩梦。这些不可避免的错误会导致项目延期数周，因为需要各个垂直部门协同合作才能完成修复。为了解决这个问题，EDA厂商统一了物理设计流程，使每个步骤都能并行处理，而不是顺序执行。

Synopsys Fusion Compiler是解决这一问题的首个重要方案。它基于单一数据模型，将综合、布局布线和时序分析整合到一个引擎中。Cadence 随后推出了iSpatial ，它将 Innovus 的布局和优化引擎直接嵌入到 Genus 综合工具中。统一的流程带来了“左移”设计理念，即在设计过程早期进行签核质量分析，以避免后期出现意外情况。

9. 流片输出

所有审核通过后，设计将导出为GDSII或OASIS文件，这些行业标准格式描述了每一层的几何形状。该文件将被发送至代工厂，标志着一个重要的里程碑——流片（tapeout）。流片一词源于过去 GDSII 文件通过磁带卷轴传输的时代。随后，开始设计第一套掩模。OPC （光学邻近校正）算法会使用 SRAF（亚分辨率辅助特征）修改掩模图案，以补偿光刻过程中的光学畸变。之后，开始掩模制作，最后进行晶圆制造。

10. 制造与封装

从流片到首片硅片交付，整个制造过程通常需要 8-12 周。然而，通过购买优先批次（Hot Lots），可以加快首批硅片的交付速度，利用更高优先级的硅片运输服务，将周期缩短数周。这使得硅片交付后的工程师能够更早地接触到芯片，从而开始调试新芯片。

在进行调试之前，需要对硅芯片进行封装，以保护脆弱的芯片，并将硅表面的微小I/O凸点封装到可靠的插槽式封装中。在现代先进处理器中，异构集成（芯片组）和先进封装技术在此发挥作用。每个封装包含多个芯片、3D芯片堆叠以及2.5D中介层（例如台积电的CoWoS （芯片-晶圆-基板）技术）被用于突破26 x 33毫米光刻胶的限制（即每台光刻机可曝光的最大芯片尺寸），从而扩展性能。

11. 芯片后验证与启动

来自 Teradyne 和 Advantest 等公司的自动测试设备(ATE) 会对生产线上的每一颗芯片进行评估，应用由 ATPG 工具先前生成的数千个测试向量。芯片内部的JTAG调试接口可直接访问芯片内部，以便在芯片行为偏离预期时进行硅后调试。初始启动阶段包含多轮测试，通过更新在 FPGA 仿真器上开发的原始固件来发现更多错误并实施相应的解决方法。在生产运行中，此步骤称为最终测试(FT)，通过返回简单通过/失败结果的测试来验证功能。

为了访问封装中引出的每一根导线，需要使用称为探针卡的大型分线板。调试工程师使用探针卡将每个信号引脚与封装隔离，并将示波器连接到端子上，以测量信号的完整性和强度，确保其符合设计要求。

EDA 供应商也参与其中，Synopsys TestMAX 系列后硅测试工具提供全面的覆盖范围，包括设计阶段的 ATPG、良率诊断、测试模式运行的 DFT 结构，以及用于运行和管理芯片测试和结果记录的软件。

（1）老化测试

认证流程的下一阶段是高温工作寿命(HTOL) 测试，用于评估芯片的热可靠性。这是一种加速老化测试，芯片将在超出典型工作温度的条件下进行测试，从而淘汰任何可能无法在额定工作环境和预期寿命内承受热循环的缺陷芯片。剔除这些“早期失效”的芯片可以大大降低客户收到在可靠性曲线早期就可能出现故障的芯片的风险。

测试时长取决于每种设计的可靠性要求，平均范围为 72 至 168 小时。可靠性要求极高的应用，例如航空航天和汽车，可能需要进行长达 1000 小时的压力测试。而对于低端、成本敏感的消费电子产品，可能只会从每个生产批次中随机抽取部分芯片进行扩展测试。测试要求由 JEDEC 制定标准，其中 JESD47 涵盖高温运行寿命 (HTOL) 测试，JESD22 则涵盖封装在高湿度和温度循环下的可靠性测试。

（2）Steppings

从晶圆厂返回的第一颗芯片被称为A0芯片。理想情况下，A0芯片能够满足性能、功耗和可靠性目标，无需任何调整即可投入量产。然而，有时第一颗芯片根本无法启动，必须找出根本缺陷。因此，大多数设计团队会预留额外的开发时间进行多次迭代，这意味着芯片设计需要更新，并将新的GDSII文件发送给晶圆厂进行掩模制作和生产。

以英特尔为例，需要制作多轮工程样品(ES)，最终会制作一个验证合格的最终样品，然后才会投入生产晶圆。不同的工艺步进版本有很多不同的代号，例如 B1 甚至E5，就像之前延期很久的英特尔蓝宝石 Rapids 芯片那样。以下是工艺步进编号的含义：

重大步骤（A0 到 B0）：需要从 DE 到 DV 到PV 的完整流程，验证工程师必须创建一个新的覆盖率收敛，通常需要完整的掩码集更新。

小步进（A0 到 A1）：通常是对金属堆叠层进行少量掩模更改以修复缺陷，这些更改已通过前一步进的电路编辑验证。需要进行少量设计和物理验证。

这种电路编辑采用先进的聚焦离子束 (FIB) 工具，可以在保持芯片功能完好的情况下添加跳线或更改晶体管互连模式，以便对修复进行测试。设计中可以通过设置缓冲单元或备用单元以及金属线来适应这一过程，从而为修复布线故障留出更大的余地。由于此过程可能耗时较长，因此主要用于对计划在下一步骤中实施的布局更改进行物理验证。

（3）Binning

最后一步是速度分级（speed binning），即对每个芯片进行逐步提高频率的测试，通过最高频率测试的芯片将作为高端产品出售。这种性能差异是制造过程中自然波动造成的。虽然所有芯片在这个阶段都能正常工作，但有些芯片可能需要比其他芯片略高的电压才能达到目标工作频率。分级还包括良率回收，即芯片中的某些核心或子组件可能存在缺陷。这些缺陷芯片将被熔断，并以较低的性能折扣出售。

通过分级技术，英特尔得以打造其产品组合，例如著名的酷睿 i5、i7 和 i9 CPU 品牌，而英伟达 GPU 由于良率控制，几乎从未启用过所有 SM 单元。

12. 系统集成

经过验证的芯片随后被安装到参考板上，并连接到存储和网络等设备，其驱动程序、BIOS 和操作系统支持均通过系统级测试(SLT) 进行验证。芯片会运行各种压力测试基准程序，并运行典型的软件应用程序，以确保最终用户的功能正常。

此外，这些电路板与ES芯片捆绑销售，并提供给合作伙伴和开发商进行样品测试，以便尽早收集客户反馈。这些参考验证平台（RVP）让客户参与到开发周期中。主流应用开发商可以开始优化其软件，以充分利用新芯片的特性，并确保在芯片上市后立即获得软件支持。

13. 生产

一旦生产就绪的芯片设计通过验证并达到令人满意的良率，该设计即可开始逐步扩大生产规模并交付给客户。然而，工作并未就此结束。对客户退回的缺陷芯片进行故障分析，有助于通过对生产流程进行微调，消除设计中的最后缺陷。设计公司会继续与台积电合作，作为持续改进流程 (CIP) 的一部分，以帮助提高芯片良率。故障分析工程师使用Synopsys Avalon等工具，将给定的缺陷映射到相应的电路原理图，从而识别设计中受影响的门电路和导线。

（1）Foundry 中的 EDA

除了无晶圆厂设计公司使用的工具外，EDA 在晶圆代工厂中也发挥着重要作用，用于模拟和设计下一代工艺节点。此外，晶圆代工厂和无晶圆厂公司之间通过 DTCO 和 STCO 等形式开展紧密合作，以进一步提高晶圆代工工艺的 PPA（生产性能评估）。

技术计算机辅助设计 (TCAD)是一个物理仿真层，它使工程师能够在完全使用软件的情况下设计新的晶体管架构，而无需花费数千万美元进行硅片实验。目前主流的工具套件是Synopsys Sentaurus ，它包含两个核心引擎，按顺序运行。Sentaurus Process 可以模拟每个物理制造步骤，包括离子注入、氧化、薄膜沉积、等离子体刻蚀和光刻图案化，并预测器件最终的三维结构，精确到纳米级掺杂分布。只需输入工艺配方，它即可模拟输出器件的几何形状。

Sentaurus Device随后会获取该3D结构并模拟其电学特性，包括I-V曲线、电容、漏电流和击穿电压。这些特性共同帮助工艺工程师迭代复杂的晶体管设计，这对于全环栅晶体管（GEAT）以及后续的电容场效应晶体管（CFET）和新型材料（例如我们在IEDM 2025报道中重点介绍的钌）至关重要。

Synopsys Mystic随后会获取模拟晶体管，并从输出中提取紧凑模型参数（例如BSIM-CMG等行业标准 SPICE 模型）。这些器件仿真结果用于构建最早的 PDK 0.1 版本，以便电路设计人员在实际硅片问世前数月即可开始设计工作。

Synopsys QuantumATK是一款用于材料研究的软件，它能够将模拟尺度缩小到原子级别，并应用于单个原子的尺度。该软件采用密度泛函理论 (DFT)和非平衡格林函数 (NEGF)方法来模拟量子输运和电子隧穿，从而实现材料界面工程。这在精确控制晶体管阈值电压的功函数金属化方案中尤为有用。

（2）设计反馈回路

硅测量数据，例如晶体管特性、IR压降和当前工艺节点上制造的芯片的良率图，会直接反馈到代工厂的下一代PDK开发以及设计团队对未来节点更新的规划中。最佳实践（BKM）会随着节点生命周期的推移而不断改进，以帮助客户提高良率并降低代工厂的成本。这形成了一个高效的反馈循环，客户参与定义了下一代代工厂工艺。

（3）DTCO：混合工艺和设计

几十年来，芯片制造一直遵循着严格的交接流程。工艺工程师开发晶体管技术，对其进行特性分析，然后“交给”芯片设计师。设计师只能在现有基础上进行开发。设计技术协同优化（DTCO）打破了这一壁垒。它从工艺开发的第一天起，就利用芯片级PPA指标来评估各种工艺方案。

DTCO流程将整个工具栈串联成一个反馈回路：Sentaurus TCAD（器件物理）→ Mystic（PDK）→ SiliconSmart/HSPICE（单元特性分析）→ IC Compiler II/StarRC/PrimeTime（芯片级PPA评估），并将结果反馈给工艺工程师。通过调整工艺参数，突破保守的标准单元设计规则。苹果、英伟达和AMD等大型公司都设有专门的代工厂部门，与台积电紧密合作，开发定制的单元库，使PPA比标准库提升高达15%。布线性能的提升直接转化为更低的延迟、更高的性能、更低的功耗，甚至在布线拥挤的区域，通过提高面积利用率来减小芯片面积。

诸如台积电的 FinFLEX 和 NanoFlex 等新型晶体管方案，使得双通道互连 (DTCO) 几乎成为有效利用性能和漏电特性差异显著的交替排列晶体管的必要手段。采用 Intel 18A 和台积电 A16 的背面电源设计，为信号和电源布线开辟了新的维度，有望催生出绕过晶体管层两侧的新型标准单元布线方案。

（4）STCO：协同优化整个系统

系统技术协同优化 (STCO) 将 DTCO 的概念提升了一个层次，从芯片和工艺协同设计扩展到系统和封装协同设计。它涵盖了芯片单元划分决策、封装技术选择、跨芯片单元的带宽和延迟权衡、多芯片热管理以及整个封装的电源完整性等问题。随着单芯片尺寸缩小达到经济和物理极限，STCO 正是业界持续实现代际性能提升的关键所在。

英特尔的Ponte Vecchio GPU 是需要大量 STCO（单芯片技术改进）的典型案例。它集成了 47 个采用五种不同工艺节点制造的活性芯片，并使用EMIB （嵌入式多芯片互连桥，一种 2.5D 硅桥）和Foveros （英特尔的 3D 面对面芯片堆叠技术）两种技术拼接在一起。然而，这款芯片面临诸多设计挑战，发布时间被推迟了数年，最终性能远未达到预期目标。如今，通过合理的 STCO 和完善的设计实践，复杂的芯片设计也能按时按质完成，AMD 计划在 2026 年晚些时候发布的 MI455X GPU 正是如此。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4405内容，欢迎关注。

加星标⭐️第一时间看推送

求推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.