网易首页 > 网易号 > 正文 申请入驻

高带宽内存左移测试策略助力AI芯片良率提升

0
分享至

高带宽内存(HBM)堆叠层数不断增加,硅通孔(TSV)间距持续收窄,这些变化正在对AI模组的最终良率产生深远影响。应对之策是将测试环节前移至制造流程的更早阶段,但这一转变也伴随着额外成本的挑战。


HBM已成为AI系统的核心组件。随着需要处理和存储的数据量持续攀升,AI系统对内存的需求近乎无止境。过去十年间,HBM芯片堆叠层数已从2层增长至12层,并即将突破16层。与此同时,AI数据中心多芯片封装中的HBM堆叠数量也从4个增加至8个。

如今,HBM芯片的成本几乎占AI芯片总成本的一半。因此,在最终测试阶段才发现存在缺陷的内存堆叠,将造成极高的损失。这正是业界越来越重视"已知良好堆叠"(KGS)的核心原因。然而,芯片堆叠本身是一项精密而复杂的制造工艺:TSV与微凸点的对准精度以微米为单位;晶圆减薄和划片过程中产生的机械应力,可能加剧已有的裂纹、滑移和划痕;热压键合则可能引发断路、短路以及"枕头效应"和高阻抗连接等问题。

更棘手的是,检测这些潜在缺陷本身就是一大难题。堆叠芯片测试需要在测试覆盖率与测试时间、机械处理、热管理以及供电之间寻求平衡。工程团队虽然可以通过可测性设计(DFT)和高并行多站点测试来降低测试成本,但堆叠芯片因堆叠高度大、功耗高,热管理问题相当棘手。而随着HBM4和HBM5的到来,这一切都将变得更加复杂。

新思科技(Synopsys)SLM产品管理总监Faisal Goriawalla表示:"来自超大规模数据中心的数据显示,HBM故障是数据中心GPU故障的首要原因。研究同样表明,由于其复杂的垂直堆叠结构,HBM比传统DRAM更容易出现故障,其中列故障(如TSV缺陷)尤为常见。从HBM3升级到HBM4,将需要在多芯片支持方面进一步演进。2048位内存接口要求显著增加穿越内存堆叠的TSV数量,这意味着随着微凸点总数大幅增加,外部凸点间距必须进一步缩小。此外,对16层高TSV堆叠的支持,为在不引入缺陷的前提下连接更多DRAM芯片带来了全新的复杂性。"

这一现状迫切要求在制造流程更早阶段开展更多测试,从而在封装之前将有缺陷的堆叠淘汰出局。目前,为了生产可交付的HBM堆叠芯片,测试流程在晶圆级和堆叠芯片级均包含多个测试插入点:HBM逻辑芯片和HBM DRAM芯片均需经过晶圆测试;每颗DRAM还需经历多次测试插入,包括晶圆级老化、高低温测试以及修复。之后,DRAM晶圆经过减薄、植球和划片,再将DRAM芯片堆叠至逻辑基底芯片晶圆上,并进行一系列测试。具体测试节点因封装厂的工艺不同而有所差异——可在每层DRAM堆叠后进行,也可在堆叠2层或4层后进行,最终完成堆叠晶圆划片。

从理论上讲,可以对已划片的HBM DRAM堆叠单独进行测试,但目前这一方案尚未投入实际应用。

泰瑞达(Teradyne)内存事业部产品营销经理Hanh Lai解释道:"左侧测试流程是当前的行业标准。它被认为是最具成本效益且风险最低的方案,因为无需对已划片的堆叠芯片这类特殊结构进行探针测试,尽管在晶圆上堆叠芯片确实存在平整度挑战。不过,业界对已划片堆叠芯片的测试兴趣正在增加,探针设备企业也在积极开发相应解决方案。其背后的驱动力在于,英伟达(Nvidia)、超威半导体(AMD)等系统集成商非常关注最终封装良率——在典型的GPU封装中,一颗GPU周围环绕着八个HBM堆叠,任何一个HBM堆叠出现缺陷,损失都极为高昂。"

随着单颗坏芯片或坏堆叠的成本不断攀升,测试左移的呼声也越来越高。

Aehr Test Systems销售与市场营销执行副总裁Vernon Rodgers表示:"归根结底,这是成本问题。降低报废率、提升良率、减少浪费,这些目标共同驱动着测试方案的选择。也许过去左移的代价过高,但如今良率成本曲线正在越来越强烈地推动测试向更早阶段迁移。以晶圆级老化测试为例,它能有效减少与早期失效相关的缺陷。随着堆叠层数增加、封装尺寸增大,这一点只会变得愈加重要。"

FormFactor高级产品营销总监Kevin Tran也持相同观点:"随着HBM器件的复杂度和成本不断提升,测试内容持续向流程前端迁移。这种左移有助于防止缺陷芯片进入成本高昂的堆叠工序,同时推动晶圆测试阶段对高速测试、更大并行度以及更严格热控制的需求。"

晶圆测试与老化

实现"已知良好堆叠"的起点,是确保每颗芯片为"已知良好芯片"(KGD)。对每颗DRAM及逻辑基底芯片进行全面的晶圆测试,需要覆盖内部电路、核心存储单元以及TSV。

DRAM测试需要数千种针对特定内存架构的测试图案。由于存储单元密度极高,冗余修复技术在测试过程中发挥着至关重要的作用——缺少它,晶圆级良率将大幅下降。测试图案由自动测试设备(ATE)提供,为降低测试成本,DRAM芯片通常以64至128个站点并行测试。

业界专家强调逻辑基底芯片测试的重要性,因为它是访问堆叠内存芯片的唯一通道,对堆叠芯片的最终良率影响举足轻重。Rodgers指出:"考虑一个堆叠结构——一颗逻辑基底芯片加上8到16颗HBM芯片。确保基底逻辑芯片的最高质量至关重要,因为一旦它存在缺陷,16颗芯片都将一并报废,这对良率曲线的影响是巨大的乘数效应。"

逻辑基底芯片的测试重点集中在DFT电路上,这些电路支撑着HBM DRAM在整个堆叠过程及产品全生命周期内的测试能力。测试通过JEDEC规范的直接访问接口或IEEE 1500标准,利用有限数量的焊盘或微凸点来实施。在逻辑晶圆测试阶段施加测试内容,可确保内部逻辑、IEEE 1500电路、直接访问总线、内存内建自测(MBiST)、TSV连通性以及PHY电路均无缺陷。

然而,随着HBM每一代产品的演进,晶圆探针测试的挑战也在不断加剧。

Tran表示:"在先进DRAM工艺节点(尤其是HBM所采用的节点)上,晶圆级测试已不再局限于接触和功能筛选,而是演变为涵盖机械性能、供电、信号完整性和吞吐量等多个维度的综合挑战。焊盘几何尺寸缩小的问题,可通过先进MEMS探针技术来应对——该技术能够提供更小的间距和更优的精度控制。HBM4和HBM5对速度与功耗提出了新要求,未来几代产品的数据传输速率将突破10 Gbps,每个HBM堆叠的功耗也将高达100瓦。MEMS探针具备更高的电流承载能力,与经过优化的探针卡级供电设计相结合,能够满足KGD测试的高功率、高速度需求。"

典型的DRAM测试流程包含晶圆级老化环节,通过加速激活潜在缺陷,以便后续标准测试能够有效检出。Rodgers解释说:"老化测试解决两个问题:第一,筛查薄弱器件,例如栅氧化层缺陷问题;第二,由于存储单元本质上是电容,需要对其数值进行稳定化处理。行业内一直存在争论——究竟应该在晶圆级、单颗芯片级还是封装级进行老化?但现在,当我们开始进行芯片堆叠时,目标是尽量前移,这正是推动晶圆级老化测试兴起的核心驱动力。"

晶圆级老化测试的接触方案需要应对探触测试访问焊盘/凸点时的机械挑战,可通过MEMS技术或微弹簧针(micro-pogo)来实现,适用于300mm晶圆。

将DFT与铝制测试焊盘上的探针测试相结合,有助于进一步降低测试成本。在规定HBM I/O微凸点布局时,JEDEC标准预留了添加牺牲测试焊盘的空间。Rodgers指出:"当你使用牺牲焊盘并适当拉开间距时,探针卡的成本会大幅下降,无需花费50万美元购置一张探针卡,最高可节省80%的探针卡成本。DFT不仅保障了测试质量,更重要的是,它带来了一种低成本的晶圆级老化测试方案——你可以选择微弹簧针而非MEMS。我可以在两个截然不同的成本区间提供技术方案,而DFT将决定你实际所处的成本层级。"

堆叠芯片测试

对堆叠芯片进行测试,能够有效降低AI产品最终测试阶段的良率风险。如前所述,当前标准的制造与测试流程是在晶圆形态下将HBM堆叠至基底芯片上,再由测试接口从晶圆背面进行探针测试,多站点并行测试已成为行业标配。但芯片堆叠在热管理、供电以及机械处理方面带来了严峻挑战,而随着测试插入次数的增加,控制测试成本也愈发困难。对于12层堆叠芯片而言,测试插入次数因封装厂的质量标准不同,可从3次到12次不等。

Tran指出:"DRAM芯片堆叠过程中可能引入新的错误,包括堆叠内部高速数据传输相关问题、更高堆叠对更大功率和电流的需求,以及由此带来的散热挑战。通过对堆叠芯片进行测试和分选,可以在早期剔除缺陷芯片,从而有效降低整体测试成本。堆叠芯片测试要求对准精度达到个位数微米级别,而HBM5要求最高16层堆叠,这使得对准精度的要求愈发严苛,必须充分考虑TSV和键合容差。"

也有观点强调了在封装过程中进行中间测试的重要性。

安靠(Amkor Technology)全球测试服务副总裁Omer Dossani表示:"随着HBM成本持续攀升,封装过程中的中间测试变得越来越关键。为此,业界正在开发新型接触机制,以实现在中间阶段的可靠测试。许多挑战在我们工厂进入大批量生产(HVM)阶段之前便已得到解决,但它们仍是重要的制造考量因素,需要在测试过程中对温度稳定性实施越来越严格的管控,并使用专用测试插座、专用清洁材料,以及在整个制造过程中加强数据监控。"

在测试方案的选择上,供电和热管理始终是核心考量,但随着堆叠高度增加,复杂程度也随之上升。Rodgers用了一个生动的比喻:"如果你看一栋16层的建筑,阳光照射外墙,中心部分几乎感受不到热量。而堆叠芯片恰恰相反——外层可以散热,但中心层的热量如何导出?在堆叠芯片老化或测试过程中,如何管理中间芯片层的温度至关重要。"

Teradyne的Lai也指出了这一问题:"难点在于如何管理这些器件产生的热量。探针设备公司需要为HBM堆叠提供有效散热方案。目前,我们的测试机可根据器件引脚数和功率需求,支持最高128个器件的并行测试。从HBM3到HBM4,功耗增幅预计超过两倍,这对探针设备和探针卡公司都提出了严峻的散热挑战。"

在2.5D集成封装之前对已划片的堆叠芯片进行测试,是一种颇具吸引力的左移测试方案,同时还支持主动热控制(相对于全晶圆测试所采用的被动热控制),能够在测试过程中实现更精确的温度管理。针对已划片堆叠芯片的测试方案涉及多项技术——堆叠芯片载板、上下料设备、堆叠芯片处理机以及主动热控制系统,均价格不菲,且都需要进一步开发成熟的HVM量产解决方案。

目前对堆叠芯片进行测试的主流方案,是在划片前从逻辑基底芯片背面的铝制焊盘进行探针测试,这些焊盘位于微凸点布局中预留的专用空间内。因此,ATE需要同时具备逻辑和内存测试能力,在多达128个测试站点并行测试时,供电需求极为可观。

将DRAM堆叠至基底芯片后,可利用逻辑基底芯片的MBiST(通常可编程)或直接访问总线对核心存储单元进行测试,并在每次测试插入时对有缺陷的TSV实施修复。

Goriawalla表示:"SoC设计者必须能够部署一套灵活的BiST引擎,支持在不同应用场景(制造测试、上电自测(POST)、系统内调试与诊断)下切换不同算法,以实现高覆盖率与测试时间之间的平衡。该引擎必须可编程,以适应不同DRAM厂商在延迟、地址范围及测试操作时序上的差异,还可能需要支持针对HBM DRAM的封装后修复(PPR),以推迟现场服务的介入时机。BiST引擎所执行的诊断必须精确到位,能够在检测到DRAM堆叠存在缺陷时,准确指出发生故障的Bank、行地址、列地址等信息。"

结语

尽管HBM DRAM厂商目前具有一定的溢价能力,但其核心关注点依然是降低成本。Teradyne的Lai指出:"内存厂商的思维模式是,测试方案必须经过优化且尽可能低成本——这一点比那些产品生命周期极短的SoC厂商更为突出。HBM厂商在这个竞争激烈的市场中深耕多年,历来利润空间有限。"

尽管如此,报废损失带来的经济压力正在推动HBM堆叠芯片厂商在流程更早阶段开展更多测试,这不可避免地增加了测试成本。但这一成本或许能通过在基底芯片上部署灵活的MBiST来部分抵消,后者允许对测试内容进行灵活权衡。然而,以高并行度对堆叠芯片进行测试,对ATE的供电和散热方案提出了更高要求。此外,对已划片堆叠芯片进行测试的方案仍有待验证,其经济影响尚存不确定性。

Q&A

Q1:为什么HBM测试需要向制造流程的更早阶段迁移?

A:随着HBM芯片堆叠层数增加(最高可达16层),单个坏芯片或坏堆叠的损失成本急剧攀升。HBM成本已接近AI芯片总成本的一半,如果缺陷堆叠到最终测试阶段才被发现,损失极为高昂。通过在制造流程更早阶段(如晶圆级老化测试)筛查出缺陷,可以避免缺陷芯片进入昂贵的后续堆叠工序,从而有效降低报废损失,提升整体良率。

Q2:HBM堆叠芯片测试在热管理方面面临哪些挑战?

A:堆叠芯片的散热问题与普通芯片完全不同。外层芯片可以正常散热,但中间层产生的热量难以有效导出。随着HBM从HBM3升级到HBM4,每个堆叠的功耗预计增加超过两倍,未来甚至可能达到100瓦。这对探针设备和探针卡公司提出了严峻挑战,需要通过主动热控制等手段,确保测试过程中各层芯片的温度均处于可控范围内。

Q3:DFT(可测性设计)在降低HBM测试成本方面具体能发挥哪些作用?

A:DFT在降低HBM测试成本方面作用显著。一方面,通过在微凸点布局中预留牺牲测试焊盘,可将探针卡成本降低高达80%,无需购置价格高达50万美元的高端探针卡;另一方面,基底芯片上可编程的MBiST引擎支持在制造测试、上电自测和系统内调试等不同场景下灵活切换测试算法,在测试覆盖率和测试时间之间实现最优平衡,从而在保证测试质量的同时有效控制成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外甥让我代买3台最新款手机,说已转账,我没收到便取消订单,次日他在专卖店里给我发了30条催促语音

外甥让我代买3台最新款手机,说已转账,我没收到便取消订单,次日他在专卖店里给我发了30条催促语音

飞碟专栏
2026-05-21 17:09:07
体检报告中,若3个指标都正常,基本可以排除很多疾病

体检报告中,若3个指标都正常,基本可以排除很多疾病

芹姐说生活
2026-05-08 19:06:29
我国目前仍有两个机场公安局实行垂直管理,其中一个设在高校内

我国目前仍有两个机场公安局实行垂直管理,其中一个设在高校内

小圣杂谈原创
2026-05-09 15:58:24
“同一批杨梅,合格飞欧洲,泡药发全国”,这拷问让人更扎心!

“同一批杨梅,合格飞欧洲,泡药发全国”,这拷问让人更扎心!

迷世书童
2026-05-21 17:53:04
Shams:湖人向雄鹿提出今年25号签+未来2首轮+多首轮互换的报价

Shams:湖人向雄鹿提出今年25号签+未来2首轮+多首轮互换的报价

林子说事
2026-05-22 14:28:46
房价将全面回升并创新高,多数城市都会迎来上涨

房价将全面回升并创新高,多数城市都会迎来上涨

流苏晚晴
2026-05-22 18:12:17
于娜自曝胖到230斤原因:激素药致食欲大增,男友去年刚过世

于娜自曝胖到230斤原因:激素药致食欲大增,男友去年刚过世

嘴角上翘的弧度
2026-05-23 07:51:27
两性关系:男性过了75,不管跟谁处,牢记4句话,余生少心酸

两性关系:男性过了75,不管跟谁处,牢记4句话,余生少心酸

匹夫来搞笑
2026-05-14 00:32:20
打脸来得太快!留几手撤销对孙杨评价,公开向网友道歉

打脸来得太快!留几手撤销对孙杨评价,公开向网友道歉

雷科技
2026-05-22 14:45:11
卡车司机借金·卡戴珊内衣走私近970万美元可卡因

卡车司机借金·卡戴珊内衣走私近970万美元可卡因

赛场速报局
2026-05-23 00:22:47
73年,许世友大骂中央副主席:你坐政治火箭行,领导军队你不行!

73年,许世友大骂中央副主席:你坐政治火箭行,领导军队你不行!

莫地方
2026-04-06 10:44:04
比金螳螂还猛?19元低位半导体洁净室龙+436亿订单  主力净抢5亿

比金螳螂还猛?19元低位半导体洁净室龙+436亿订单 主力净抢5亿

元芳说投资
2026-05-23 06:30:12
尴尬!520全副武装的外卖员,本以为鲜花会爆单,结果拉了泡大的

尴尬!520全副武装的外卖员,本以为鲜花会爆单,结果拉了泡大的

火山詩话
2026-05-23 07:37:02
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
《歌手2026》首播全是惊喜!齐豫第一实至名归,庾澄庆意外被淘汰

《歌手2026》首播全是惊喜!齐豫第一实至名归,庾澄庆意外被淘汰

水中烧烤的娱
2026-05-22 23:08:35
普京:准备报复!

普京:准备报复!

每日经济新闻
2026-05-22 23:36:15
3人突围资格赛!中国选手8人征战法网正赛,郑钦文首轮对手确定

3人突围资格赛!中国选手8人征战法网正赛,郑钦文首轮对手确定

全景体育V
2026-05-23 06:28:11
热刺队长生死战竟缺席回国看球,球迷怒斥:立刻剥夺其袖标!

热刺队长生死战竟缺席回国看球,球迷怒斥:立刻剥夺其袖标!

星耀国际足坛
2026-05-22 21:14:12
流拍后降价超千万!恒大海上威尼斯酒店6949万开启二次拍卖

流拍后降价超千万!恒大海上威尼斯酒店6949万开启二次拍卖

界面新闻
2026-05-22 12:02:43
薪金专家:詹姆斯合理年薪是3000万美元 仍具备顶薪级别影响力

薪金专家:詹姆斯合理年薪是3000万美元 仍具备顶薪级别影响力

罗说NBA
2026-05-23 06:21:17
2026-05-23 08:39:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18709文章数 49707关注度
往期回顾 全部

科技要闻

雷军:输给特斯拉不丢人

头条要闻

76岁马英九亲笔信:外界谣传我失智 听了觉得可笑

头条要闻

76岁马英九亲笔信:外界谣传我失智 听了觉得可笑

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

富途拟被罚18.5亿元 老虎 长桥也回应了

汽车要闻

11万级直接上四驱 银河星耀7限时权益价9.88万起

态度原创

时尚
房产
亲子
旅游
艺术

真顶流批量涌现,强女当道的时代来了

房产要闻

疯抢511轮!今年海南最魔幻的地块,被福建能源企业抢了!

亲子要闻

双儿夫妇 糖糖天天惦记她阿公,今天终于可以接他出院回家休养了

旅游要闻

“中国味道”暨“你好!中国”活动在悉尼举行

艺术要闻

八大山人那些涂鸦的画

无障碍浏览 进入关怀版