韩国半导体公司SK海力士日前宣布,已完成下一代超高性能AI存储器产品HBM4的开发,并且已经为全球首次量产准备就绪。
HBM4将是下一代数据中心和AI芯片的首选标准,是存储三巨头海力士、三星和美光争压的一张王牌。将使用它的英伟达Rubin GPU,已经最近在台积电成功流片,2026年量产。
(从HBM3到HBM4架构)
HBM4 拥有业界最佳的数据处理速度和能效,采用2,048 个 I/O 端口,带宽较上一代翻倍,能效提升 40% 以上。预计该产品应用后,AI 服务性能将提升高达 69%,从而解决数据瓶颈问题,并大幅降低数据中心的电力成本。
SK海力士表示:“HBM4的开发完成将成为行业新的里程碑。”未来,HBM将不再是标准化产品。为了降低整体的功耗和性能损失,上游AI芯片厂商纷纷开启了定制化趋势。它主要是用针对特定AI加速器架构定制的基底裸片(custom base die),取代了传统的通用裸片,优化信号路径、电源分配和接口协议,从而实现更高的能效和带宽密度。Semianalysis认为,这是一次革新架构层面的重大飞跃,彻底改变了HBM与AI加速器的集成方式。
今年6月,SK海力士已与英伟达、微软、博通达成HBM4E定制合作,三星也在与博通、AMD谈判。这对中国厂商意味着更高的技术门槛与商业壁垒。亚马逊AWS高管甚至称,定制化可能“关闭其他玩家的大门”。HBM国产替代仍要加速奔跑,尽早实现国产AI算力生态闭环。
HBM5时代,英伟达杀入
存储墙的长期存在,成本持续上涨,威胁着英伟达未来的市场地位。从Ampere到Blackwell Ultra,HBM不仅在材料清单(BOM)中成本超过一半,而且还在继续增长,BOM增长中绝对和相对增长的最大部分都来自HBM。
在计算与存储架构融合的趋势下,HBM决定着未来AI芯片制高点,英伟达从去年即开始布局掌握核心技术。最近更是传出英伟达将自己设计HBM基础裸片。这是一项至关重要的核心技术,英伟达已经决定,今后无论用谁家的HBM,基础裸片必须自家设计。据业内盛传,3纳米制程的基础裸片,预计将于2027年下半年小规模量产。
实际上,英伟达已经于2024年8月就向美国专利局提交了一份专利申请,并于12月获批。这项专利是一种 3D 堆叠式“近存储计算”架构,通过让处理器裸芯片与存储裸层层堆叠并一一对应,提升了数据局部性和运算效率,特别适用于 AI 大模型训练和高性能计算场景。
这样的话,英伟达的自己设计的裸芯片将有可能用于HBM5。据韩国科学技术院(KAIST)的Tera Lab最近展望,HBM5 将于 2029 年上市,瞄准英伟达的费曼(Feynman)产品。
HBF将取代HBM
HBM 已经成为韩国半导体产业同义词,而韩国 KAIST(韩国科学技术研究院)的金正浩教授被称为“HBM之父”。他让韩国AI半导体享誉世界,为三星电子、SK海力士等韩国半导体企业主导全球高宽带存储产业,提供了理论与技术的支持。
今年6月,金教授指导TeraLab 公布了一份至2038年的 HBM 路线图,规划了从HBM4 到HBM8的技术进步。
金教授预测:“在HBM4中,一些GPU功能将被整合进基底芯片,同时使用LPDDR 存储器,可以缓解数据瓶颈。”到了HBM5阶段,构成 HBM 的DRAM 中的TSV(硅通孔)数量将增加到 4000 根以上,嵌入SRAM 缓存,并且将封装直接浸入冷却液,这种浸没式冷却会成为标准。HBM6将在基底芯片上以“双子塔”的形式排列多个HBM堆栈,并引入玻璃与硅结合的混合中介层。
金教授认为,这时真正的变革才开始。
HBM7将采用嵌入式冷却技术,让冷却液直接在存储晶片之间流动。更重要的是,在这一阶段,一个名为高带宽闪存(HBF)的新概念将出现,它利用 NAND。最终,HBM8将演化为完全的3D结构,HBM 将同时置于GPU的上下两侧,带宽有望达到每秒64TB。
9月3日,在仁川松岛会展中心举行的国际先进半导体基板·封装产业展(KPCA Show)Insight 2025主旨演讲中,金教授表示:“未来,将NAND闪存像高带宽内存(HBM)一样堆叠的HBF,将左右整个业界的性能表现。”
HBF是一种基于NAND闪存的堆叠式内存,其技术概念与HBM相似。今年初,美国存储公司SanDisk公开表示正在开发这项技术。它与HBM的实现方式类似,后者是将DRAM芯片像塔一样垂直堆叠,然后通过硅通孔(TSV)进行垂直互连。HBF的不同之处在于,它用NAND闪存取代了DRAM芯片,以特定的方式进行堆叠。
Sandisk认为,今年以来发布的大模型出现了明显的趋势。每一代新模型尺寸和上下文长度都在增加,这推动了对更高内存容量的需求,而混合专家 (MoE) 等架构创新的实施导致计算需求呈下降趋势。这种对更多内存和更少计算需求的组合催生了一种新范式,Sandisk称之为“以内存为中心的 AI”的新范式——它最适合基于 HBF 的系统。
而基于 NAND 的架构可提供 8 到 16 倍于HBM的容量,同时以相同的价格提供相同的读取带宽。
(来源:Sandisk)
金教授指出:“目前,三星电子和SK海力士的业绩主要由HBM决定,但十年后,HBF将取而代之。”
他说:“HBM负责速度,而HBF将负责容量。”他的设想是堆叠数百层NAND闪存,将其重构为类似HBM的高带宽结构。预计在未来10年内,HBF可能会成为存储市场的另一大支柱。已有一些海外公司希望在这一研究上与金教授进行合作。
HBF可以取代HBM基底芯片上LPDDR的位置。通过补充HBM的容量限制,HBF可以直接在GPU内存储大型AI模型。在这种架构中,HBM将扮演临时快速处理数据的缓存角色,而HBF则充当存储海量AI模型本身的主内存角色。金教授预测:“同时生产DRAM和NAND闪存的三星电子和SK海力士这两家公司将迎来巨大的发展机遇。”Sandisk已经与 SK海力士合作,共同制定HBF的全面行业标准。
除了内存带宽和容量之外,金教授还将HBM的稳定供电和散热管理列为重要的AI性能决定因素。他分析道:“TSV在供电和散热管理中扮演着重要角色。三星电子和SK海力士的产品在质量上可能存在差异,部分原因可能在于对TSV的精简。”
金氏定律
如果说在加速计算领域有“黄氏定律”,在存储领域就有“金氏定律”(Kim's law)。金教授于2017年提出,密集三维集成电路中堆叠和层数大约每两年翻一番,并预测这一增长率将持续多年。
金教授的预测多年来已被证实。它已被用于指导韩国半导体行业的长期规划和制定研发目标。高带宽系统的进步与金氏定律密切相关:数据带宽、I/O数量和内存容量。高数据带宽系统促进了图形计算、高性能计算系统和机器学习应用的最新发展。
当HBM刚开始研发时,很多人质疑谁会使用这样昂贵而复杂的存储器,但金教授团队追求学术成就,坚持研究,随着ChatGPT的出现,他们的成果迎来了爆发。SK海力士和三星电子开发的HBM都融合了金教授的研究。实验室的成果也在ISSCC、VLSI等国际会议上发表,并为 HBM 标准化进程提供了关键理论。
金教授表示:“决定AI性能的不是 GPU,而是HBM的带宽和连接数量。”其团队的使命,就是为了实现这一蓝图奠定理论基础。
其原因在于,人工智能(AI)的性能提升越来越依赖于内存带宽和容量。金教授解释说:“当前的AI主要基于Transformer深度学习架构的生成式AI。要处理一个输入Token达到100万个的模型,需要TB级别的数据。”他补充道:“当每秒需要对TB级别的大数据进行数千次的读写操作时,如果内存带宽不足,就会出现瓶颈现象。”
一旦出现瓶颈,基于OpenAI的ChatGPT或Google Gemini等大型语言模型的生成式AI服务响应速度就会变慢。这种瓶颈源于当前计算机的基础架构,即冯·诺依曼架构。在这种架构下,CPU或GPU与内存是物理分离的,因此两者之间的数据传输速度(即带宽)至关重要。金教授强调:“即使GPU的尺寸扩大一倍,如果内存带宽不足,也无济于事。AI的性能最终受限于内存,并由内存的性能决定。”
Teralab,HBM研究枢纽
(金教授在TeraLab门口)
自 2000 年代初金正浩教授创建 TeraLab 以来,这里就成为一个专注于存储与封装的全球研究枢纽。HBM是其中的核心。TeraLab把 HBM从一个概念变为现实,并且一步一步地把曾经被视为低价值元件的存储半导体,转变为高价值的半导体和AI的核心部件。金教授也因此被称为“HBM 之父”。
金教授的团队和实验室连接着产业现场。自2010年代初期起,他们便参与与三星电子、SK海力士的HBM商用化研究,架起了学界与产业的桥梁。实验室开发的封装仿真技术,以及电源与信号完整性分析方法,成为全球首款 HBM 产品开发的基石。
TeraLab的论文在学术界和业界被广泛引用,尤其是封装与存储接口论文已被引用数百次,实验室提出的“基于混合键合的TSV结构”,直接被应用于HBM3E和下一代HBM的设计中。
HBM并不是唯一的研究重点。实验室的2.5D 和 3D封装技术同样世界领先。他们提出的微通道冷却设计和中介层功耗优化分析,已经成为全球公司在设计下一代 GPU 和 AI 芯片时参考的基础模型。金教授还代表韩国参与了《国际半导体技术路线图》(ITRS)和 IEEE 《异构集成路线图》(HIR),把TeraLab的研究成果带入全球标准化讨论。
这些研究成果也促进了人才培养。迄今为止,已有 200 多名学生在 TeraLab 获得硕士和博士学位,许多人如今在三星电子、SK 海力士、英伟达、谷歌和苹果等全球半导体公司担任核心技术人员。许多科技巨头都热衷于招募拥有半导体背景经验的学生。这些学生不仅进入主要的半导体公司,还加入了 Meta、特斯拉和 Groq。金教授说:“如今,连苹果都迫切希望招收我们实验室的学生。”
TeraLab 的运营模式非同寻常。金教授认为:“靠短期的政府项目是无法中大奖的。”他认为政府主导的研究支持实际上会限制创造力。相反,实验室通过与企业的合作研究项目来保证研究费用,而硕博生的论文研究则专注于 HBM。在金教授办公室外,可以看到众多与其合作过的公司 Logo,甚至包括现代汽车。实验室通过企业项目筹资,而论文研究则完全专注于长期的特定主题,学生获得了企业研究环境的经验,成为可立即投入工作的技术人才。
金教授在研究成果处理上也采取了不同的做法。他说:“HBM 能成功,是因为我们没有执着于专利。”他认为如果把申请专利当作目标,技术反而会受到束缚。“让更多人自由使用和发展想法更重要。”加州大学伯克利分校发明 FinFET 技术的胡正明教授(自 2010 年以来推动半导体小型化),也因类似原因没有为该技术申请专利。
最近,金教授对Agentic AI产生了浓厚兴趣。即便离退休不远,他仍全力投入新领域。他和学生们如今正在研究利用 Agentic AI 实现自动化的 HBM 设计。
参考:
https://www.thelec.kr/news/articleView.html?idxno=40242
https://cm.asiae.co.kr/en/article/2025091111213906379
https://tera.kaist.ac.kr/
https://www.sandisk.com/company/newsroom/blogs/2025/memory-centric-ai-sandisks-high-bandwidth-flash-will-redefine-ai-infrastructure
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.