网易首页 > 网易号 > 正文 申请入驻

IEEE论文:用HBF重塑HBM

0
分享至

SK 海力士近期发表一篇 IEEE 论文,提出一种全新架构:在同一中介层(interposer)上,将高带宽内存(HBM)的速度高带宽闪存(HBF)的容量相结合,并直连 GPU,用以加速 AI 大模型与智能体的推理处理。

目前的 GPU,以及即将推出的英伟达 Rubin 架构,均通过中介层连接 HBM,为 GPU 核心提供高速、高带宽的数据供给。但随着 AI 大语言模型(LLM)规模不断扩大,HBM 容量不足的问题愈发突出,数据不得不从速度更慢的本地 SSD 中调取,显著拉长了推理耗时。

HBF 的访问速度虽慢于 HBM,但远快于普通本地 SSD,且容量更大。SK 海力士的H³ 设计将其与 HBM 置于同一片中介层上,可让 HBF 充当 HBM 的高速缓存,大幅缩短超大模型的处理时间。

我们可以这样理解这一思路:


框图展示HBM、HBF 与 GPU 基于中介层的互联结构

未来几代 HBM 会继续提升容量与带宽,但远水难解近渴,无法及时解决当前推理延迟问题 —— 这会让 GPU 陷入显存瓶颈(memory-bound),持续等待数据。

该论文指出,H³ 架构非常适合解决推理过程中KV 缓存环节的痛点。AI 模型推理时,会将上下文记忆序列(词元与向量)以键值(KV)缓存的形式存放在 HBM 中。H³ 论文提到:


“最新的 Llama 4 大模型支持最长达
1000 万词元
的序列长度。

这一规模需要高达5.4TB 的缓存,“仅存储这些数据就需要数十张 GPU”。

英伟达的 ICMSP 软件可将 KV 缓存扩展至本地 NVMe SSD,相比 HBM 容量耗尽后重新计算词元与向量,能显著加快处理速度。

而 HBF 的优势在于:将 KV 缓存部署在更靠近 GPU的位置,省去 SSD 经由 PCIe 总线的传输延迟,提供比本地 SSD 更低的延迟、更高的带宽访问能力。

论文总结了HBF 的预期优缺点:

优势:

1.容量最高可达 HBM 的16 倍

2.带宽与 HBM 接近

劣势:

1.访问速度更慢(纳秒级 vs 微秒级)

2.写入寿命更低

3.功耗最高比 HBM 高4 倍

由于 HBF 写入寿命有限(仅约10 万次擦写循环),它最适合读密集型负载。H³ 论文摘要明确指出:


“搭载 H³ 的系统,在相同 GPU 数量下,能比纯 HBM 系统同时处理更多请求,使其非常适合 LLM 推理中的
大规模只读场景
,尤其是使用
共享预计算键值缓存
的场景。

缓存增强生成(CAG)就是典型的这类负载:


“当大语言模型接收到查询时,会读取庞大的共享预计算 KV 缓存,完成计算后输出结果。换言之,共享预计算 KV 缓存本质就是
只读
的。

H³ 架构结构详解


论文中的示意图展示了完整设计:

·D2D:裸片间直连传输

·HBM 与 HBF 控制器分别位于各自的基底裸片上

·模型权重与共享预计算 KV 缓存存放在HBF

·生成式 KV 缓存及其他数据存放在HBM

为弥补 NAND 闪存延迟较高的问题,设计在 HBM 基底裸片中集成了延迟隐藏缓存(LHB),本质是一种预取缓冲。

H³ 设计思路:GPU 边缘(周边)搭载 HBM 堆叠,GPU 与 HBM 均置于中介层上(对应图 a);HBM 与 HBF 以菊花链方式连接。


“在 HBM 基底裸片内部,通过地址解码器与路由单元将内存访问分为两路:一路访问 HBM,另一路访问 HBF。如此一来,GPU 可
通过
HBM 基底裸片直接访问 HBF

简单说:HBM 与 HBF 共同作为 GPU 的主存。示意图中的全局统一编址方案显示:


“GPU 主机使用统一地址空间,划分不同区域分别访问 HBM 与 HBF。”

性能测试数据

SK 海力士 H³ 架构仿真测试环境:英伟达 Blackwell GPU(B200)+ 8 颗 HBM3E 堆叠 + 8 颗 HBF 堆叠。

性能对比纯 HBM 方案:

·100 万词元场景:吞吐量提升1.25 倍

·1000 万词元场景:吞吐量提升6.14 倍

能效表现:相比仅配备 8 颗 HBM、无 HBF 的 Blackwell GPU,每瓦性能提升 2.69 倍

在 1000 万词元 KV 缓存测试中:HBM+HBF 方案可同时处理的查询数(批次大小),是纯 HBM 方案的18.8 倍。原本需要 32 张 GPU+HBM 才能完成的负载,借助 HBF 仅需2 张 GPU即可实现,大幅降低功耗。

文末摘要(论文官方摘要)

大语言模型(LLM)推理需要海量内存来处理长序列,而高带宽内存(HBM)的容量限制带来了巨大挑战。高带宽闪存(HBF)是一种基于 NAND 闪存的新型存储器件,拥有接近 HBM 的带宽与远超 HBM 的容量,但同时存在访问延迟更高、写入寿命更短、功耗更大等缺点。

本文提出H³ 混合架构,旨在充分发挥 HBM 与 HBF 各自的优势:将只读数据存放在 HBF,其他数据存放在 HBM。

搭载 H³ 的系统,在相同 GPU 数量下可处理更多并发请求,非常适合 LLM 推理中大规模只读场景,尤其是使用共享预计算键值缓存的场景。

仿真结果表明:采用 H³ 的 GPU 系统,每瓦吞吐量最高提升 2.69 倍,验证了 H³ 在处理超大只读数据 LLM 推理时的高性价比。

西门子EDA直播报名(4月2日)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
暗示将离队?林葳接受采访袒露心声 他已成男篮下一代后卫领袖

暗示将离队?林葳接受采访袒露心声 他已成男篮下一代后卫领袖

大嘴爵爷侃球
2026-02-19 11:59:32
属虎的 春节后有人要走?别哭,那是老天爷在帮你清场

属虎的 春节后有人要走?别哭,那是老天爷在帮你清场

小陆搞笑日常
2026-02-19 21:25:15
丈夫变心20年,妻子没提过一句离婚,孙子满月宴上,丈夫却崩溃了

丈夫变心20年,妻子没提过一句离婚,孙子满月宴上,丈夫却崩溃了

第7情感
2026-02-19 16:48:27
美国召集20多国,包括5大中国友国!特朗普知道:不能让中国笑话

美国召集20多国,包括5大中国友国!特朗普知道:不能让中国笑话

混沌录
2026-02-19 23:02:04
按购买力计算,中国GDP已经达到美国的1.3倍!

按购买力计算,中国GDP已经达到美国的1.3倍!

荆楚寰宇文枢
2026-02-05 23:18:10
定了!iPhone Flip小折叠手机曝光,苹果折叠屏有两条产品线!

定了!iPhone Flip小折叠手机曝光,苹果折叠屏有两条产品线!

i王石头
2026-02-19 23:21:05
您可能不知道,世界已经停止发展了!中国已成为人类希望!

您可能不知道,世界已经停止发展了!中国已成为人类希望!

甜到你心坎
2026-02-13 16:01:27
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
放心吧,我们不是日本,也不会有“失去的三十年”

放心吧,我们不是日本,也不会有“失去的三十年”

六爷阿旦
2026-01-19 17:10:26
你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

你最爽的经历是什么?网友:约过一个比我大好几岁的姐姐

带你感受人间冷暖
2026-02-16 01:10:39
中国股市炒股其实很简单:牛股启动前都符合这种特征,从不例外!

中国股市炒股其实很简单:牛股启动前都符合这种特征,从不例外!

股经纵横谈
2026-01-29 18:37:49
未解之谜!全国年味都淡了,为啥广东把过年传统延续得如此完整?

未解之谜!全国年味都淡了,为啥广东把过年传统延续得如此完整?

另子维爱读史
2026-02-19 21:51:32
康熙将鳌拜满门抄斩,问其女:可知罪?女孩反问后,当场脸色大变

康熙将鳌拜满门抄斩,问其女:可知罪?女孩反问后,当场脸色大变

暮雨咋歇着
2026-02-17 22:32:22
春晚主持人刘心悦透露体重仅93斤:压力瘦,收获近年体重最低

春晚主持人刘心悦透露体重仅93斤:压力瘦,收获近年体重最低

大象新闻
2026-02-17 22:43:05
太励志!詹姆斯1598场断崖式领先,现役只16人1000场

太励志!詹姆斯1598场断崖式领先,现役只16人1000场

布斯基
2026-02-19 23:35:45
如今的年轻人吃不了苦吗?网友:变聪明了,避开很多没必要吃的苦

如今的年轻人吃不了苦吗?网友:变聪明了,避开很多没必要吃的苦

带你感受人间冷暖
2026-02-19 23:04:15
从终结点到发起点,范乔丹:申京能扛起组织大旗

从终结点到发起点,范乔丹:申京能扛起组织大旗

大眼瞄世界
2026-02-19 22:30:51
夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

夫妻性生活:别再傻傻用力了!让妻子上瘾的三个技巧,男人必看!

精彩分享快乐
2025-11-20 00:05:03
儿子离家多年成三野参谋长,回乡却发现,母亲已是四野连级干部

儿子离家多年成三野参谋长,回乡却发现,母亲已是四野连级干部

兴趣知识
2026-01-06 01:52:56
韦德亲述:飞机上没了饼干那一刻,我就知道留不住詹姆斯了

韦德亲述:飞机上没了饼干那一刻,我就知道留不住詹姆斯了

爱体育
2026-02-18 23:53:38
2026-02-20 00:20:49
EETOP半导体社区 incentive-icons
EETOP半导体社区
国内著名的电子工程师社区
7279文章数 15587关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

媒体:高市2.0 日本政局发生了意料之中的变动

头条要闻

媒体:高市2.0 日本政局发生了意料之中的变动

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

房产
旅游
家居
手机
公开课

房产要闻

顶豪抢房潮席卷全国! 中旅馥棠公馆项目395㎡大平层加推入市!

旅游要闻

拓印、剪纸、糖画“圈粉”外籍游客 沉浸式感受传统文化体验喜庆中国年

家居要闻

本真栖居 爱暖伴流年

手机要闻

vivo V70手机海外发布:骁龙7 Gen 4、6系铝合金中框

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版