IT之家2月12日消息,SK海力士在一篇发布于本月4日的论文中提出了H3混合存储架构,其混合配置HBM高带宽内存与HBF高带宽闪存,充分发挥两种介质各自的优势而避免其短板。
SK海力士在论文中表示,HBF与HBM相比,带宽相当、容量更大、访问延迟更长、写入耐久更差、功耗更高,因此H3将HBF作为HBM的“二级扩展”,HBF存储只读数据、HBM则负责其余数据。
![]()
▲简略手绘概念图,H3即HBM+HBF的整体
具体在结构方面,H3上GPU与HBM的BaseDie通过中介层互联,HBMBaseDie内置了HBM控制器和与HBF系统配套的“延迟隐藏缓冲”,HBMBaseDie再通过中介层与HBFBaseDie连接,后者则包含HBF堆栈的控制器。
这一设计使得H3能存储大量只读数据,适合LLM推理工作负载环境,特别是那些采用共享预计算键值缓存的用例。仿真测试结果表明,相较于仅使用HBM的传统系统,配备H3的GPU单位功耗的吞吐量提高了2.69倍,显示出该架构在处理具有海量只读数据的LLM推理方面的成本效益。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.