网易首页 > 网易号 > 正文 申请入驻

SRAM停止微缩,怎么办?

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

内存延迟、带宽、容量和能耗日益成为性能提升的瓶颈。在本文中,我们重新审视了由大量(从数太字节到拍字节规模)内存供众多CPU共享的系统架构。我们认为,扩展性(scaling)和信号传输(signaling)这两个实际的工程难题限制了此类设计。

为此,我们提出了一种相反的方法。系统不是创建大型、共享、同质的内存,而是明确地将内存分割成更小的片,这些片与计算单元更紧密地耦合。利用单片/2.5D/3D集成技术的进步,这种“计算-内存节点”提供私有本地内存,通过微米级距离访问节点独占数据,并大幅降低访问成本。封装内内存元件支持处理器内的共享状态,提供比封装外的DRAM更好的带宽和能效,而DRAM用于大型工作集和冷数据的主内存。通过硬件明确内存容量与访问距离,软件能够高效地构建这种内存层次结构,从而实现对数据布局和迁移的管理。

引言

一个大型分布式内存地址空间的想法颇具吸引力。它能让应用程序在单个主机之外无缝扩展,同时将缓存、一致性以及放置的复杂性留给底层系统处理。在 20 世纪 80 年代和 90 年代,这一想法以分布式共享内存(DSM)的形式得到了探索,为现代多核和多处理器系统的内存一致性模型提供了借鉴。

随着内存逐渐成为数据中心和云服务器的瓶颈,研究工作正在重新审视这些理念,以期打造新一代系统,这些系统拥有巨大的网络连接内存,且这些内存可在众多处理器间共享。本文认为,由于现代工程面临的两个障碍——扩展性和信号传输,这种做法是不可行的。这些障碍是基于物理原理的实际限制。

首先是缩放能力,指的是利用更精密的工具和复杂的制造工艺,使晶体管和电路变得更小、更便宜的能力。存储器技术的缩放已实质终结。静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)的每字节成本均趋于平稳,且未来五年内无显著降本路径。随着逻辑器件持续缩小(尽管速度较以往放缓),存储器在系统成本中的占比日益攀升,导致配置大容量存储器在经济性与架构设计上均不具优势。我们应当着力提升存储器利用效率。

第二道障碍在于信号传输——在给定带宽下,组件间信号传输所需能量决定了内存能效与带宽必须通过与计算逻辑的深度集成来提升[1]。在芯片片内,访问远端SRAM缓存行的速度更慢且能耗更高,而跨芯片片访问成本则更为高昂。通过电路板走线访问DRAM的成本高出一个数量级;而通过CXL或RDMA访问远程内存则会增加更多开销。这些性能代价使得远程内存变得极其昂贵。

面对这些障碍,我们提出了一种不同的方法:物理可组合的分解架构。系统由计算内存节点构成,这些节点将计算能力与私有本地内存及封装内共享内存紧密集成,同时利用封装外DRAM提供大容量存储。软件通过显式组合内存系统来决定:哪些数据保留在本地,哪些在节点间共享,哪些移交至DRAM等。

2D缩放的终结:SRAM与DRAM

二维(2D)半导体缩放技术曾以更低成本实现更高存储密度与容量。然而图1显示,无论是SRAM还是DRAM,传统2D缩放都已走到尽头。DRAM的每字节成本十余年来始终停滞不前,这正是服务器规模扩大后DRAM成本占据系统成本主导地位的原因。[2] SRAM同样面临类似瓶颈:我们已无法制造更微小的SRAM单元。


对于SRAM而言,主要限制源于晶体管尺寸接近原子尺度:制造公差限制了交叉耦合反相器对的晶体管匹配度,从而降低信号裕度。计算逻辑不受此问题影响,因各级电路均可恢复数字信号。对于DRAM而言,主要制约因素在于高长宽比电容器的蚀刻成本以及确保低漏电流的复杂晶体管几何结构。更先进的制程节点虽能缩小DRAM单元的物理尺寸,却无法降低单存储单元成本。我们虽可继续制造更大容量的DRAM DIMM,但其每字节成本并不会下降。

从这些限制中得到的主要结论是:海量存储必然伴随天价成本。片上缓存的增长速度无法超越芯片面积的扩张,而现代服务器处理器已然庞大(AMD SP5达5,428mm²)。系统必须更高效地利用存储资源。

局部性=效率与带宽

更紧密的集成提升了数据在内存间传输的带宽与能效。缓存正是这一原理的典范:L1、L2和L3缓存均采用相同SRAM技术,但L1缓存通过更小的存储器银行尺寸、更精细的访问粒度以及更接近CPU核心的物理位置实现了卓越性能。

处理器插槽的DRAM带宽正缓慢提升:现代DDR5-5600内存条带宽达358Gbps,且每插槽内存条数量从8条增至12条,总带宽达4.3Tbps。然而同期,每插槽核心数量的增长已超越或匹配带宽提升幅度。图2展示了自2018年以来英特尔与AMD服务器处理器封装的单核带宽:该指标已陷入停滞。


DRAM的带宽限制和能耗问题源于其在印刷电路板(PCB)上的连接方式——该板载铜走线和凸点引脚数量有限(例如DDR5仅有288个引脚)。高带宽内存(HBM)通过改进集成技术,将DRAM芯片重新定位并紧密排列。通过在多个DRAM芯片下方嵌入封装内硅基逻辑芯片,并采用硅通孔技术连接,每组HBM3E堆栈可实现1024个引脚与更短的互连距离。这种引脚数量的显著差异直接转化为HBM的带宽优势。表1展示了更紧密的物理集成如何实现更高引脚密度、更宽带宽及更低能耗。较低的引脚密度则需要更高速度的信号电路,从而增加能耗。


这些集成限制意味着核心性能无法通过DRAM获得提升。电路板无法容纳更多DIMM模块,其引脚数量已达实际极限。铜线传输更高信号速率将带来高昂的能耗代价。

物理可组合的解耦方案

这些扩展挑战迫使我们对内存层次结构设计进行根本性重构——将关注点从原始容量转向局部性、带宽和能效。

我们提出颠覆传统内存“解耦”思路,强调更精细的计算与内存集成,并优先提升内存利用率——即使这可能导致计算利用率小幅下降。该方案的核心是计算内存节点,通过3D集成技术将计算单元与本地内存堆叠集成,典型代表是AMD的VCache设计和Milan-X处理器。

与普通缓存不同,这种私有本地内存能够采用显式管理机制,并且是专用于存储节点特有的数据(如执行栈及其他线程私有状态)。通过微凸点、混合键合、硅通孔或单片晶圆级互连实现的微米级距离访问,极大缓解了大地址空间带来的延迟、能耗和带宽瓶颈。借鉴现代多芯片处理器的实践,跨节点共享状态(如锁机制)被置于封装内共享内存(如HBM)中。尽管其速度低于私有局部片段,但仍远优于封装外DRAM的带宽与能效表现。

然而,集成度受限于物理约束(例如散热、模块尺寸等)³。大容量存储仍需依赖封装外DRAM。DRAM不再作为共享的扁平地址空间池,而是转变为面向大型工作集和冷数据的容量驱动型存储层,而性能关键型访问则通过更快的封装内分散存储器进行管理。软件需自行构建内存系统:通过抽象层将“近零距离本地内存”与“更高延迟共享层级”一并呈现,决定哪些数据保留在本地、哪些共享、哪些移至封装外DRAM,从而实现数据布局与迁移的高效管理。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4159期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢



求推荐


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关晓彤罕见晒大尺度泳装照,身材比例一绝!这是真跟鹿晗分手了?

关晓彤罕见晒大尺度泳装照,身材比例一绝!这是真跟鹿晗分手了?

好叫好伐
2025-09-17 22:36:42
惊呆了!曾经被人忽略的小国塞尔维亚,这次彻底震惊了整个欧洲!

惊呆了!曾经被人忽略的小国塞尔维亚,这次彻底震惊了整个欧洲!

青青子衿
2025-09-17 23:46:42
梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

梁晓声:中国富豪家庭92%将子女送往英美私校,既规避教育内卷...

清风拂心
2025-09-14 13:15:08
董小姐事件后,王辰被悄然免职

董小姐事件后,王辰被悄然免职

燕梳楼频道
2025-09-17 12:24:57
雷阵雨!中到大雨!7级阵风!江西降温时间来了

雷阵雨!中到大雨!7级阵风!江西降温时间来了

鲁中晨报
2025-09-18 07:23:14
演员李明德参加酒吧商演疑复出,此前因酒后砸车被判有期徒刑6个月赔偿20万

演员李明德参加酒吧商演疑复出,此前因酒后砸车被判有期徒刑6个月赔偿20万

极目新闻
2025-09-17 13:16:22
公职人员被指在他人耕地修坟,河南方城县多方回应

公职人员被指在他人耕地修坟,河南方城县多方回应

极目新闻
2025-09-17 19:38:20
“钥匙自取”,上海男子将百万房车停街头,免费给陌生人用!网友:太佩服你了…本人最新回应

“钥匙自取”,上海男子将百万房车停街头,免费给陌生人用!网友:太佩服你了…本人最新回应

大风新闻
2025-09-17 19:47:08
苏有朋的瓜,这次有点大……

苏有朋的瓜,这次有点大……

可乐谈情感
2025-09-18 07:44:43
大规模驱逐哈粉留学生后,卢比奥:这些白痴将遭驱逐吊销签证

大规模驱逐哈粉留学生后,卢比奥:这些白痴将遭驱逐吊销签证

移光幻影
2025-09-17 14:44:21
医院“苦日子”要来了?国家医保局发文:医保付费方式再改革!

医院“苦日子”要来了?国家医保局发文:医保付费方式再改革!

医脉圈
2025-09-17 21:40:59
10月1日起执行!中小学教师房补新政落实,退休教师也能跟着沾光吗?

10月1日起执行!中小学教师房补新政落实,退休教师也能跟着沾光吗?

娱乐的宅急便
2025-09-17 11:45:22
员工深夜家中死亡,被伪造成工伤骗100万补助未遂!温州一鞋企老板、死者妻子等6人被行拘

员工深夜家中死亡,被伪造成工伤骗100万补助未遂!温州一鞋企老板、死者妻子等6人被行拘

极目新闻
2025-09-18 10:10:55
日本网民天塌了!以色列大骂日本:原子弹是对日本侵略者的奖赏!

日本网民天塌了!以色列大骂日本:原子弹是对日本侵略者的奖赏!

青青子衿
2025-08-11 01:56:11
莱昂纳多主演电影《一战再战》口碑大爆 登顶2025年最高分电影

莱昂纳多主演电影《一战再战》口碑大爆 登顶2025年最高分电影

Lee奇奥观影
2025-09-18 09:23:57
泽连斯基指责中国,不想促成俄乌停火,给出的理由很荒唐

泽连斯基指责中国,不想促成俄乌停火,给出的理由很荒唐

第一军情
2025-09-17 18:25:04
山东一市纪委监委通报,2人被查

山东一市纪委监委通报,2人被查

鲁中晨报
2025-09-18 10:07:13
公司精简结构开除我,临走时人事问我有多少股权,我淡定说:58%

公司精简结构开除我,临走时人事问我有多少股权,我淡定说:58%

今天说故事
2025-08-28 18:12:15
中国女篮90-81逆转取胜,谁是本场取胜最大功臣,数据一目了然

中国女篮90-81逆转取胜,谁是本场取胜最大功臣,数据一目了然

体坛小李
2025-09-17 21:38:54
非必要,不做CT!JAMA子刊:每多做一次CT,癌症风险或增加43%

非必要,不做CT!JAMA子刊:每多做一次CT,癌症风险或增加43%

医诺维
2025-09-14 14:48:47
2025-09-18 11:39:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
11774文章数 34648关注度
往期回顾 全部

科技要闻

DeepSeek称R1训练费200万,不依赖蒸馏对手

头条要闻

特朗普再访英成"历史性时刻" 英国展现"罕见外交姿态"

头条要闻

特朗普再访英成"历史性时刻" 英国展现"罕见外交姿态"

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

《731》全球首映震撼!导演泣不成声

财经要闻

美联储重启降息!新任理事投了反对票

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

艺术
亲子
手机
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

哈哈

手机要闻

华为鸿蒙 HarmonyOS 6 系统被曝新增两种个性水印

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列攻入加沙城 多国寻求将其逐出联合国

无障碍浏览 进入关怀版