公众号记得加星标⭐️,第一时间看推送不会错过。
编者按
日前,由Xiaoyu Ma和David Patterson联合署名的文章《Challenges and Research Directions for Large Language Model Inference Hardware》正式发布。这篇文章被发布以后,引起了广泛关注。文章中,作者围绕LLM推理芯片的挑战以及解决方案,给出了建议。
![]()
以下为文章正文:
大型语言模型 (LLM) 推理难度很高。底层 Transformer 模型的自回归解码阶段使得 LLM 推理与训练有着本质区别。受近期人工智能趋势的影响,主要挑战在于内存和互连,而非计算能力。
为了应对这些挑战,我们重点介绍了四个架构研究方向:高带宽闪存,可提供 10 倍内存容量,带宽堪比 HBM;近内存处理和 3D 内存逻辑堆叠,可实现高内存带宽;以及低延迟互连,可加速通信。虽然我们的研究重点是数据中心人工智能,但我们也探讨了这些方案在移动设备上的应用。
引言
当一位作者于 1976 年开始其职业生涯时,计算机体系结构会议上约 40% 的论文来自业界。到 2025 年 ISCA 会议时,这一比例已降至 4% 以下,表明研究与实践之间几乎完全脱节。为了帮助恢复二者之间的历史联系,我们提出了一些研究方向,如果这些方向得以推进,将有助于解决人工智能行业面临的一些最严峻的硬件挑战。
大型语言模型 (LLM) 推理正面临危机。硬件的快速发展推动了人工智能的进步。预计未来 5-8 年,推理芯片的年销售额将增长 4-6 倍。虽然训练展现了人工智能的显著突破,但推理的成本决定了其经济可行性。随着这些模型使用量的急剧增长,企业发现维护最先进的模型成本高昂。
新的趋势使推理变得更加困难。LLM 的最新进展需要更多资源来进行推理:
专家混合模型 (MoE:Mixture of Experts)。与单一的密集前馈模块不同,MoE 使用数十到数百个专家(DeepSeekv3 为 256 个)进行选择性调用。这种稀疏性使得模型规模能够显著增长,从而提高模型质量,尽管训练成本仅略有增加。MoE 在帮助训练的同时,也通过扩展内存和通信能力,加剧了推理过程。
推理模型。推理是一种先思考后行动的技术,旨在提高模型质量。额外的“思考”步骤会在最终答案之前生成一长串“想法”,类似于人们逐步解决问题的过程。思考会显著增加生成延迟,而长长的想法序列也会占用大量内存。
多模态。LLM 已从文本生成发展到图像、音频和视频生成。更大的数据类型比文本生成需要更多的资源。
长上下文。上下文窗口指的是 LLM 模型在生成答案时可以查看的信息量。更长的上下文有助于提高模型质量,但会增加计算和内存需求。
检索增强生成 (RAG:Retrieval-Augmented Generation)。RAG 访问用户特定的知识库,获取相关信息作为额外上下文,以改进 LLM 结果,但这会增加资源需求。
扩散。与顺序生成标记的自回归方法不同,新型扩散方法一步生成所有标记(例如,整幅图像),然后迭代地对图像进行去噪,直至达到所需的质量。与上述方法不同,扩散方法只会增加计算需求。
不断增长的市场和LLM推理面临的挑战表明,创新既是机遇也是需求!
当前LLM推理硬件及其效率低下之处
我们首先回顾LLM推理的基础知识及其在主流AI架构中的主要瓶颈,重点关注数据中心中的LLM。移动设备上的LLM受到不同的限制,因此也需要不同的解决方案(例如,HBM不可行)。
LLM的核心是Transformer,它包含两个特性截然不同的推理阶段:预填充(Prefill)和解码(Decode) (图1)。预填充类似于训练,它同时处理输入序列中的所有标记,因此本质上是并行的,并且通常受限于计算能力。相比之下,解码本质上是顺序的,因为每个步骤都会生成一个输出标记(“自回归:autoregressive”),因此它受限于内存。KV(Key Value)缓存连接这两个阶段,其大小与输入和输出序列的长度成正比。尽管在图1中预填充和解码同时出现,但它们并非紧密耦合,通常运行在不同的服务器上。分解推理允许使用批处理等软件优化方法,从而降低解码过程的内存占用。一项关于高效LLM推理的调查回顾了许多软件优化方法。
![]()
GPU 和 TPU 是数据中心常用的加速器,可用于训练和推理。历史上,推理系统通常是在训练系统的基础上缩减而来,例如减少芯片数量或使用内存或性能更低的小型芯片。迄今为止,还没有专门为 LLM 推理设计的 GPU/TPU。由于预填充与训练类似,而解码则截然不同,因此 GPU/TPU 在解码方面面临两个挑战,导致效率低下。
解码挑战 1:内存
自回归解码使得推理本质上受限于内存,而新的软件趋势加剧了这一挑战。相比之下,硬件发展趋势则完全不同。
1.AI 处理器面临着内存瓶颈
目前的数据中心 GPU/TPU 依赖于高带宽内存 (HBM),并将多个 HBM 堆栈连接到单个单芯片加速器 ASIC(图 2 和表 1)。然而,内存带宽的提升速度远低于计算浮点运算能力 (FLOPS) 的提升速度。例如,NVIDIA 64位GPU的浮点运算性能
从2012年到2022年增长了80倍,但带宽仅增长了17倍。这种差距还将继续扩大。
![]()
2.HBM 的成本日益高昂
以单个 HBM 堆栈为例,其容量(美元/GB)和带宽(美元/GBps)的标准化价格均随时间推移而上涨。图 3(a) 显示,从 2023 年到 2025 年,两者的价格均增长了 1.35 倍。这一增长是由于随着每个 HBM 堆栈芯片数量的增加以及 DRAM 密度的增长,制造和封装难度也随之增加。相比之下,图 3(b) 显示,标准 DDR4 DRAM 的等效成本随时间推移而下降。从 2022 年到 2025 年,容量成本降至 0.54 倍,带宽成本降至 0.45 倍。尽管由于意外的需求,所有内存和存储设备的价格在 2026 年大幅上涨,但我们认为,从长远来看,HBM 和 DRAM 价格走势的分化趋势将持续下去。
3.DRAM 密度增长正在放缓
对于单个 DRAM 芯片而言,其扩展性也令人担忧。自2014年推出的8Gb DRAM芯片以来,实现四倍增长需要超过10年的时间。此前,四倍增长通常每3-6年发生一次。
4.仅使用SRAM的解决方案已不足以应对挑战
Cerebras和Groq曾尝试使用填充SRAM的全光罩芯片来规避DRAM和HBM的挑战。(Cerebras甚至采用了晶圆级集成。)虽然在公司十年前成立时这种方案看似可行,但LLM很快就超过了芯片上SRAM的容量。两家公司后来都不得不进行改造,加装外部DRAM。
![]()
解码挑战 2:端到端延迟
1.面向用户的推理意味着低延迟
与耗时数周的训练不同,推理与实时请求紧密相关,需要在几秒甚至更短的时间内得到响应。低延迟对于面向用户的推理至关重要。(批量或离线推理没有低延迟要求。)根据应用场景的不同,延迟的衡量标准可以是所有输出标记完成的时间,也可以是第一个标记的生成时间。两者都存在挑战:
完成时间挑战。解码过程一次生成一个标记,因此输出序列越长,延迟就越长。较长的输出序列会拉长延迟,但较长的输入序列也会降低延迟,因为在解码和预填充过程中访问V Cache需要更多时间。每次解码迭代都存在较高的内存访问延迟,因为它受限于内存。
第一个标记的生成时间挑战。较长的输入序列和随机数生成器(RAG)会增加生成标记之前的工作量,从而增加第一个标记的生成时间。推理模型也会增加这种延迟,因为它们在第一个用户可见的tokens之前会生成许多“thought”tokens。
2.互连延迟比带宽更重要
在 LLM 出现之前,数据中心的推理通常在单个芯片上运行,而训练则需要超级计算机。超级计算机互连的目标显然更侧重于带宽而非延迟。LLM 推理改变了这一切:
由于权重较大,LLM 推理现在需要一个多芯片系统,并采用软件分片技术,这意味着需要频繁通信。MoE 和长序列模型进一步增加了系统规模,以满足更大的内存容量需求。
与训练不同,考虑到 Decode 的批次大小较小,网络消息的大小通常也较小。对于大型网络中频繁发送的小消息而言,延迟比带宽更重要。
表 2 总结了 Decode 推理的主要挑战。只有 Diffusion 需要增加计算能力——这相对容易实现——因为它与 Transformer Decode 的本质不同。因此,我们专注于改善内存和互连延迟的有前景的方向,而不是计算能力。最后四行是满足这些需求的研究机会,接下来将进行介绍。
![]()
重新思考LLM推理硬件的四个研究机会
性能/成本指标衡量人工智能系统的效率。现代指标强调实际的性能归一化、总拥有成本 (TCO)、平均功耗和二氧化碳当量排放量 (CO2e),这为系统设计提供了新的目标:
性能必须有意义。对于 LLM 解码推理而言,在大芯片上实现高 FLOPS 并不一定意味着高性能。相反,我们需要高效地扩展内存带宽和容量,并优化互连速度。
性能必须在数据中心容量范围内实现,而数据中心容量通常受到功耗、空间和 CO2e 预算的限制。
功耗和 CO2e 是首要的优化目标。功耗影响 TCO 和数据中心容量。功耗和能源清洁度决定了运行 CO2e。制造良率和生命周期决定了隐含 CO2e。
接下来,我们将介绍四个有前景的研究方向,以应对解码挑战(表 2 底部)。尽管它们是独立描述的,但它们是协同作用的;一种架构可以有效地结合其中的许多方向。全面提升性能/总拥有成本、性能/二氧化碳当量和性能/功率。
![]()
1
高带宽闪存,容量提升 10 倍
高带宽闪存 (HBF) 通过堆叠闪存芯片(类似于 HBM)的方式,将 HBM 的带宽与闪存容量相结合(图 4 (a))。HBF 可使每个节点的内存容量提升 10 倍,从而缩小系统尺寸,降低功耗、总拥有成本 (TCO)、二氧化碳排放量 (CO2e) 和网络开销。表 3 将 HBF 与 HBM 和 DDR DRAM 进行了比较。其他方案的缺点分别是:DDR5 的带宽、HBM 的容量以及 HBF 的写入限制和较高的读取延迟。HBF 的另一个优势是可持续的容量扩展;闪存容量每三年翻一番,而如上所述,DRAM 的增长速度正在放缓。
需要解决两个众所周知的闪存限制:
写入耐久性有限。写入/擦除周期会损耗闪存。因此,HBF 必须存储更新频率较低的数据,例如推理时的权重或变化缓慢的上下文。
基于页面的读取延迟较高。闪存读取以页为单位(数十KB),延迟远高于DRAM(数十微秒)。小数据读取会降低有效带宽。
这些问题意味着HBF无法完全取代HBM;系统仍然需要普通DRAM来存储不适合HBF存储的数据。
![]()
HBF 的加入为 LLM 推理带来了令人兴奋的新功能:
10 倍权重内存(weight memory)。权重在推理过程中会被冻结,因此 HBF 10 倍的容量可以容纳更多权重(例如巨型 MoE),从而支持比目前可承受的规模更大的模型。
10 倍上下文内存(context memory)。由于写入耐久性有限,HBF 不适用于每次查询或生成标记都会更新的键值缓存数据。但是,它适用于变化缓慢的上下文。例如:
LLM 搜索使用的 Web 语料库,存储了数十亿篇互联网文档。
AI 编码使用的代码数据库,存储了数十亿行代码。
AI 辅导使用的论文语料库,追踪了数百万篇研究论文。
更小的推理系统。内存容量决定了运行模型所需的最小硬件。HBF 可以缩小系统规模,从而提升通信、可靠性和资源分配效率。
更大的资源容量。 HBF 将降低对仅使用 HBM 架构的依赖,并缓解主流内存设备全球短缺的问题。
HBF 也引出了新的研究问题:
软件如何应对有限的写入耐久性和基于页面的高延迟读取?
系统中传统内存与 HBF 的比例应该是多少?
我们能否降低 HBF 技术本身的限制?
移动设备和数据中心的 HBF 配置应该有何不同?
2
内存附近处理技术
(Processing-Near-Memory)实现高带宽
内存内处理(Processing-in-Memory,PIM)技术诞生于20世纪90年代,它通过在内存芯片上添加小型低功耗处理器来增强内存容量,从而实现高带宽。虽然PIM提供了卓越的带宽,但其主要挑战在于软件分片和内存逻辑耦合。前者限制了能够在PIM上良好运行的软件内核数量,后者则降低了计算逻辑的功耗和面积效率。相比之下,内存附近处理(Processing-Near-Memory,PNM)技术将内存和逻辑放置在附近,但仍然使用分离芯片。PNM的一种形式是3D计算逻辑堆叠(参见③)。
遗憾的是,一些近期的论文模糊了PIM和PNM之间的区别。它们将PIM作为一个通用术语,而不管计算逻辑是否直接放置在内存芯片中。我们在此提出一个简单而明确的区分:PIM指的是处理器和内存位于同一芯片中的设计,而PNM指的是它们位于相邻但独立的芯片上。这种区别使得 PIM 和 PNM 的概念清晰明确。
如果软件难以使用,硬件优势就毫无意义,而这正是我们在 PIM 和数据中心 LLM 方面的经验。表 4 列出了 PNM 在 LLM 推理方面优于 PIM 的原因,尽管 PNM 在带宽和功耗方面存在不足。具体来说,PIM 需要软件将 LLM 的内存结构分片成许多很少交互的小块,才能装入 32-64MB 的内存块中;而 PNM 中的分片可以大 1000 倍,从而更容易地对 LLM 进行分区,且通信开销极低。此外,考虑到 DRAM 技术工艺节点的功耗和散热预算非常有限,PIM 的计算能力是否足够也尚不明确。
![]()
虽然对于数据中心LLM而言,PNM 优于 PIM,但对于移动设备而言,两者的比较并不那么明显。移动设备的能耗更为受限,并且由于单用户运行,其 LLM 的权重更少、上下文更短、数据类型更小、批处理大小也更小。这些差异简化了分片,降低了计算和散热需求,使得 PIM 的弱点不再那么突出,因此 PIM 在移动设备上可能更具可行性。
3
用于高带宽的 3D 内存逻辑堆叠
与内存 I/O 位于芯片边缘的 2D 硬件不同,3D 堆叠(参见图 4(b))采用垂直硅通孔 (TSV) 来实现宽而密的内存接口,从而在低功耗下实现高带宽。
3D 内存逻辑堆叠有两种版本:
1. 基于 HBM 芯片的计算方案:通过将计算逻辑插入 HBM 基片来复用 HBM 设计。由于内存接口保持不变,带宽与 HBM 相同,而由于数据路径缩短,功耗降低了 2-3 倍。
2. 定制 3D 解决方案:通过使用更宽更密的内存接口和更先进的封装技术,实现比复用 HBM 更高的带宽和每瓦带宽。
尽管带宽和功耗更低,3D 堆叠仍面临以下挑战:
1. 散热。由于表面积较小,3D 设计的散热难度高于 2D 设计。一种解决方案是通过降低时钟频率和电压来限制计算逻辑的浮点运算次数(FLOPS),因为LLM解码推理的运算强度本身就很低。
2. 内存逻辑耦合。3D计算逻辑堆叠的内存接口可能需要一个行业标准。
3D堆叠带来了新的研究问题:
内存带宽与容量或计算浮点运算次数的比值与现有系统显著不同。软件如何适应?
设想一个包含多种内存类型的系统。我们如何高效地映射LLM?
如何与其他内存逻辑堆叠以及主AI处理器(如有必要)进行通信?
各种设计选择(例如,计算芯片位于顶部还是底部、每个堆叠的内存芯片数量等)在带宽、功耗、散热和可靠性方面有哪些权衡?
这些机遇对于移动设备和数据中心LLM加速器有何不同?
4
低延迟互连
技术①-③有助于降低延迟和吞吐量:更高的内存带宽可以减少每次解码迭代的延迟,而每个加速芯片更高的内存容量可以减小系统尺寸,从而节省通信开销。数据中心另一个有前景的降低延迟方向是重新思考网络延迟与带宽之间的权衡,因为推理对互连延迟更为敏感。例如:
高连通性拓扑。具有高连通性的拓扑结构(例如树形、蜻蜓形和高维环面形)需要的跳数更少,从而降低延迟。这些拓扑结构可能会降低带宽,但可以改善延迟。
网络内处理。LLM(低延迟模型)使用的通信集合(例如广播、全归约、MoE调度和收集)非常适合网络内加速,可以同时改善带宽和延迟。例如,具有网络内聚合的树形拓扑结构可以实现低延迟和高吞吐量的全归约。
AI芯片优化。延迟问题会影响芯片设计,并带来以下几种可能的优化:
将到达的小数据包直接存储到片上 SRAM 中,而不是片外 DRAM;
将计算引擎放置在靠近网络接口的位置,以减少传输时间。
可靠性。可靠性和互连性的协同设计有助于:
本地备用节点可以减少系统故障,并降低在没有备用节点的情况下将故障作业迁移到其他正常节点所带来的延迟和吞吐量损失。
如果 LLM 推理不需要完美的通信,则可以通过在消息超时时使用伪数据或先前结果,而不是等待延迟到达的消息,来降低延迟并提供令人满意的结果质量。
相关工作
高带宽闪存 (HBF)。SanDisk 最初提出了 HBF,这是一种类似 HBM 的闪存架构,旨在克服其带宽限制。(SK 海力士后来也加入了开发)微软的研究人员提出了一种新型内存,该内存专注于读取性能和高密度,而非写入性能和保持时间,用于人工智能推理。虽然没有明确提及,但 HBF 是这种新型人工智能内存的一个具体示例。另一篇研究论文提出将闪存集成到移动处理器中,用于设备端 LLM 推理,并采用 LPDDR 接口来满足预填充的低带宽需求,以及采用近闪存处理来满足解码的高带宽需求。
近内存处理。3D 计算逻辑堆叠作为一种带宽高于 HBM 的技术,越来越受到关注,例如基于 HBM 芯片的计算方案和 AMD 的概念。
在非 3D 领域,三星 AXDIMM9 和 Marvell Structera-A将处理器连接到商用 DDR DRAM 上。前者将计算逻辑集成到 DIMM 缓冲芯片中。后者利用 CXL 接口提高了可编程性并简化了系统集成。(一篇综述文章提供了更多 PNM/PIM 的示例。)许多论文讨论了在移动设备中使用 PIM/PNM,但这并非本文的重点。
低延迟互连。大量论文描述了低跳数网络拓扑结构,包括树形、蜻蜓形和高维环面形。(由于本刊参考文献数量限制,无法引用。)商用网络内处理 (PIN) 的示例包括支持交换机内缩减的 NVIDIA NVLink 和 Infiniband 交换机,以及通过 SHARP 实现的多播加速。以太网交换机最近也出现了类似的 AI 工作负载功能。
软件创新。除了本文重点关注的硬件创新之外,还有丰富的软硬件协同设计空间,可用于算法和软件创新,以改进 LLM 推理。例如,Transformer 解码的自回归特性是其根本原因之一。一种避免自回归生成的新算法(例如用于图像生成的扩散算法)可以极大地简化人工智能推理硬件。
结论
LLM推理的重要性日益凸显,难度也随之增加,而LLM又迫切需要降低成本和延迟,因此,LLM的推理正成为一个极具吸引力的研究方向。自回归解码本身就对内存和互连延迟构成重大挑战,而模态优化(MoE)、推理、多模态数据、RAG以及长输入/输出序列等因素更会加剧这一挑战。
计算机体系结构领域在拥有真实模拟器的情况下,曾为解决这些挑战做出过巨大贡献,例如之前在分支预测和缓存设计方面所做的贡献。由于LLM推理的主要瓶颈在于内存和延迟,因此,基于屋顶线的性能模拟器可以有效地在许多场景下提供初步的性能估算。此外,此类框架还应跟踪内存容量,探索对性能至关重要的各种分片技术,并使用现代的性能/成本指标。我们希望学术研究人员能够抓住这一机遇,加速人工智能研究。
当前的人工智能硬件理念——采用高浮点运算性能(FLOPS)的全光罩芯片、多个HBM堆栈以及带宽优化的互连——与LLM解码推理并不匹配。尽管许多研究人员致力于数据中心的计算,但我们建议从四个方面改进内存和网络:HBF、PNM、3D堆叠和低延迟互连。此外,关注数据中心容量、系统功耗和碳足迹的新型性能/成本指标,相比传统指标,提供了新的机遇。HBF、PNM、PIM和3D堆叠的受限版本也可能适用于移动设备的LLM。
这些进展将促进各方合作,共同推进世界亟需的重要创新,以实现经济实惠的AI推理。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4292期内容,欢迎关注。
加星标⭐️第一时间看推送


求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.