他们抛弃了HBM！|hbm|知名企业|英伟达|英特尔|内存|amd|gpu

分享至

　　公众号记得加星标⭐️，第一时间看推送不会错过。

　　AI浪潮的汹涌席卷，让原本以周期波动著称的存储市场，进入前所未有的“超级繁荣周期”。在AI大模型训练和推理的双重驱动下，算力需求暴增，HBM成为AI服务器的关键组件。它通过堆叠多层DRAM，与GPU紧密结合，为AI计算提供更快的数据通道，成为AI时代最炙手可热的“黄金存储”。

　　而HBM的火热也带动了整个存储产业链的升温。三星电子、SK海力士和美光科技等全球三大存储巨头，纷纷迎来业绩爆发。三星第三季度净利润同比增长21%，SK海力士创下公司史上最高季度利润，美光则实现净利同比增长三倍。SK海力士也表示，其2025年前的HBM产能已被客户预订一空。

　　与此同时，传统DRAM和NAND芯片也正意外走俏。

　　由于存储厂集中扩产HBM，常规内存产能趋紧，市场供需出现再平衡。亚马逊、谷歌、Meta等数据中心巨头，为了扩充AI推理与云服务能力，正大规模采购传统DRAM。事实上，在AI推理阶段，普通内存依然发挥着不可替代的作用——这让整个存储市场呈现“全线紧俏”的局面。

　　LPDDR5的爆火

　　先一步爆火的，是所有智能手机几乎都会用到的LPDDR。

　　近日，高通发布了全新的AI200和AI250数据中心加速器，预计将于2026年和2027年上市。据称，这两款新加速器将在运行大规模生成式AI工作负载时，凭借更高的效率和更低的运营成本，与AMD和英伟达的机架级解决方案展开竞争。此次发布也重申了高通每年发布更新产品的计划。

　　Qualcomm AI200 和 AI250 加速器均基于专为数据中心 AI 工作负载定制的 Qualcomm Hexagon 神经处理单元 (NPU)。近年来，该公司一直在逐步改进其 Hexagon NPU，因此这些处理器的最新版本已经配备了标量、矢量和张量加速器（采用 12+8+1 配置），支持 INT2、INT4、INT8、INT16、FP8、FP16 等数据格式，以及用于减少内存流量的微块推理、64 位内存寻址、虚拟化和用于额外安全性的 Gen AI 模型加密。对于 Qualcomm 来说，将 Hexagon 扩展到数据中心工作负载是一个自然的选择，尽管该公司将为其 AI200 和 AI250 单元设定什么样的性能目标还有待观察。

　　高通的 AI200 机架级解决方案将是该公司首款由 AI200 加速器驱动的数据中心级推理系统，该系统配备 768 GB LPDDR 内存（对于推理加速器而言，这已是相当可观的内存容量），并将使用 PCIe 互连实现纵向扩展，并使用以太网实现横向扩展。该系统将采用直接液冷，每机架功率高达 160 kW，这对于推理解决方案而言也是前所未有的功耗。此外，该系统还将支持企业部署的机密计算，该解决方案将于 2026 年上市。

　　一年后推出的 AI250 保留了这一架构，但增加了近内存计算架构，有效内存带宽提升了 10 倍以上。此外，该系统将支持分解推理功能，使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款更高效、高带宽的解决方案，针对大型 Transformer 模型进行了优化，同时保留了与 AI200 相同的散热、散热、安全性和可扩展性特性。

　　但不少人关注的并不是又一家芯片制造商试图挑战英伟达的老故事，而是高通在这场AI军备竞赛中选择的一条截然不同的技术路线——每张加速卡配备高达768GB的LPDDR显存，约为英伟达H100配置HBM容量的10倍。

　　高通没有采用业界主流的昂贵HBM，而是将其在智能手机领域发展完善的低功耗LPDDR技术直接搬上了数据中心，看似“降维”的选择背后，昭示了目前AI存储的另一种可能性。

　　有意思的是，高通并非孤军奋战。几乎同一时间，其他巨头也纷纷展示了类似的技术路线。

　　在2025年GTC大会上，GPU霸主英伟达展示了其下一代Vera Rubin超级芯片。这款定于2026年底量产的产品首次在其88核Vera CPU周围采用了SOCAMM2模块搭载的LPDDR内存。尽管两颗Rubin GPU仍然配备了八个HBM4内存堆栈，但LPDDR的出现本身就是一个意味深长的信号——即便是最坚定的HBM拥趸，也开始在系统架构中为LPDDR留出位置。

　　值得注意的是，英伟达还推出了新的Rubin CPX AI芯片，这是一款专门针对推理优化的"分解式"架构产品，进一步印证了其在推理端的战略调整。

　　而在2025年OCP全球峰会上，英特尔发布了代号"Crescent Island"的数据中心GPU，这款专为AI推理工作负载设计的产品配备了160GB LPDDR5X内存。英特尔首席技术官Sachin Katti直言:"AI正在从静态训练转向实时、无处不在的推理——由智能体AI驱动。扩展这些复杂工作负载需要异构系统，将正确的硅片匹配到正确的任务上。"

　　这款基于Xe3P微架构、针对风冷企业服务器优化的GPU预计将于2026年下半年开始客户采样，英特尔明确强调其"功耗和成本优化"的定位，以及"针对推理工作流程优化的大容量内存和带宽"。

　　技术路线的分野

　　可以说，三大芯片巨头不约而同地转向LPDDR，并不是什么偶然事件，而是整个产业的一次调整，有机构指出，到2030年，推理工作负载的数量将是训练工作负载的100倍。

　　业内人士开始将AI目前的瓶颈称为“马提尼吸管问题”：计算引擎是酒杯，而数据却通过吸管流动。无论芯片多么强大，其性能都受限于数据流入和流出的速度。现代AI推理工作负载越来越受内存限制而非计算限制——随着模型规模扩大和上下文窗口扩展，挑战不在于芯片计算速度，而在于如何快速将数据输送给处理器。

　　存储的瓶颈，正是LPDDR方案的价值所在。根据高通引用的研究，LPDDR内存的性价比比HBM高出13倍，使得大型语言模型推理工作负载可以直接在内存中运行，而无需频繁数据混洗。实际效果是:更快的响应速度、更低的延迟和更低的能耗。高通声称其Cloud AI 100 Ultra架构在某些推理工作负载下比同类英伟达配置的功耗低20到35倍。

　　当然，LPDDR方案并非没有代价。相比HBM，它存在内存带宽较低、由于较窄接口导致的更高延迟，以及在24/7高温服务器环境中尚未充分验证的可靠性等问题。但关键在于应用场景的差异。

　　在训练场景中，需要极致的内存带宽来处理海量数据的反向传播，HBM不可替代，而在推理场景中，模型参数已固定，重点是大容量存储和高效读取，LPDDR的容量和成本优势远超其带宽劣势。

　　值得关注的是，高通的AI250方案更进一步，引入了基于”近内存计算“的创新内存架构，声称可提供超过10倍的有效内存带宽和更低的功耗，实现了分解式AI推理以高效利用硬件。两款方案均采用直接液冷，机架级功耗仅160千瓦——在数据中心能源消耗每三年翻一番的当下，这个数字极具吸引力。

　　当数据中心开始攫取手机内存

　　而AI存储技术路线的转变，也在酝酿一场可能波及全球消费电子市场的供应链危机。

　　首先可以明确是，一个AI推理机架配备的LPDDR内存量级是惊人的。以高通AI200为例，单个机架可能包含数十张加速卡，每张768GB，总内存容量可达数十TB。这相当于数十万甚至上百万部智能手机的内存用量。

　　而这仅仅是一家公司的一款产品。当高通、英特尔、英伟达以及其他潜在进入者(如AMD、博通)都在2026-2027年大规模量产LPDDR方案时，对LPDDR的需求将呈现指数级增长。

　　目前来看，LPDDR产能并非无限，主要由三星、SK海力士和美光三家供应商控制。数据中心客户的特点是采购量巨大、利润率高、订单稳定且长期。相比之下，智能手机市场虽然体量庞大，但单机用量小、价格敏感、季节性波动明显。

　　从供应商的角度，优先级显而易见。这不仅可能导致数据中心订单挤占消费电子份额，类似2017-2018年加密货币挖矿导致GPU短缺，2020-2021年芯片荒让汽车制造商停产等，还让手机厂商面临LPDDR采购成本上升、交货周期延长，最终导致中高端手机可能不得不在内存配置上妥协，或者大幅提高售价。

　　但对其他手机厂商而言，这可能意味着2026-2027年将面临一个艰难的选择:要么接受更高的内存成本，要么在旗舰机型上降低内存配置，要么寻找替代方案。

　　LPDDR6的到来

　　所谓的替代方案，可能就包括了更昂贵的LPDDR6

　　近日，全球半导体标准制定组织 JEDEC（固态技术协会）正式发布了最新标准文档 JESD209-6，标志着下一代低功耗内存——LPDDR6 正式登上舞台。这不仅是LPDDR系列的重大进化，也是首个在官方规范中提及 DDR6 的标准。距DDR5标准发布已过去五年，随着AI算力、移动设备与边缘智能的迅猛发展，业界亟需一种兼具高带宽、低功耗与高可靠性的全新内存架构，LPDDR6的诞生正当其时。

　　JEDEC表示，LPDDR6在性能、能效、安全性和稳定性方面均实现了系统性升级。其核心架构由传统的双通道（DDR4的单64位通道在DDR5时代被拆分为两个独立的32位子通道）演进为四个24位子通道，实现更高的并行度与更低的访问延迟。此外，LPDDR6在功耗管理上进行了深度优化，不仅进一步降低了工作电压，还引入了 DVFSL（低功耗动态电压频率调节）等新机制，可根据运行负载动态调节功耗，以延长电池续航。

　　在性能指标上，LPDDR6的数据速率可达 10,667至14,400 MT/s，有效带宽约为 28.5至38.4 GB/s。这一速度已经超越目前DDR5-12054的超频纪录，为AI手机、轻薄笔电与车载智能系统提供了更充裕的带宽与响应能力。

　　作为全球半导体标准的制定核心，JEDEC成员涵盖了从芯片设计到制造测试的整个产业链。此次LPDDR6标准发布后，Cadence、Synopsys、Advantest、Keysight、MediaTek、Qualcomm、三星、美光、SK海力士等企业已率先表态支持。这意味着新一代LPDDR6有望在短时间内被行业广泛采用。虽然目前JEDEC尚未公布面向桌面平台的DDR6最终规范，但官方表示相关标准也将在年内发布。

　　从时间节奏来看，DDR5在2020年发布后约一年便进入量产市场，LPDDR6预计也将遵循类似路径。尤其在主要厂商计划于2025年起逐步停产DDR4的背景下，LPDDR6的到来正是新旧标准更迭的关键节点。

　　值得一提的是，Synopsys 已率先完成基于台积电N2P工艺节点的 LPDDR6 IP“硅验证（silicon bring-up）”。所谓“硅验证”是芯片设计中首次上电测试的重要阶段，标志着其核心设计已具备可量产的技术成熟度。该IP包含控制器（Controller）与物理层接口（PHY）两大部分，前者负责JEDEC协议解析与低功耗管理，后者则基于N2P的金属堆叠与I/O库构建，实现更高信号完整性与密度。

　　得益于N2P在性能、功耗与面积（PPA）上的领先表现，Synopsys的LPDDR6 IP带宽可达 86 GB/s，并具备更高的能效与更紧凑的物理尺寸，为AI终端与高能效计算平台提供强力支撑。JEDEC标准的理论峰值甚至可达 115 GB/s，这意味着与LPDDR5相比，新一代标准在速率与能耗表现上均实现了跨代式飞跃。

　　随着LPDDR6预计在明年正式进入量产阶段，在未来可能会取代LPDDR5，成为智能手机的标配，只不过其售价也可能愈发水涨船高。

　　LPDDR 5，贵到买不起？

　　这场从HBM到LPDDR的转向，本质上是AI产业从不计成本的技术竞赛走向精打细算的商业化部署的标志。

　　英伟达的CUDA软件栈在AI训练领域仍然无可匹敌，开发者锁定效应极强。但推理领域的情况完全不同：模型已经训练完成，只需要高效运行，开发者锁定远没有那么强大，而且对价格极为敏感。

　　这为高通、英特尔等公司以全新方式竞争打开了大门。它们并非试图制造更大的GPU来正面挑战英伟达，而是着眼于一个现实：大多数AI模型无需每天重新训练，只需要高效运行且能在任何地方运行。

　　高通的优势正在于此，其将移动领域的基因与数据中心级可扩展性相结合。英特尔也在强调其从AI PC到数据中心和工业边缘的端到端能力，以及与开放计算项目(OCP)等社区的协作。

　　未来的AI硬件市场可能呈现明显的分层结构，训练市场中HBM依然不可替代，英伟达/AMD继续主导，但在推理市场中LPDDR有望异军突起异军突起，成为新一代AI芯片的选择。

　　但LPDDR的崛起，可能需要全球数十亿智能手机用户来承担背后的代价。当数据中心开始攫取本属于消费电子的LPDDR供应，我们或许将见证一个讽刺的场景：训练AI的超级计算机装备着最尖端的HBM，运行AI服务的推理集群使用着”手机内存“，而真正的手机用户却可能在2026-2027年面临内存短缺、价格上涨或配置缩水。

　　这就是技术进步的吊诡之处：AI推理的效率革命，可能正在以牺牲消费者利益为代价。当芯片巨头们为数据中心的TCO优化而欢呼时，普通用户手中的智能手机，正在成为这场产业变革中最脆弱的一环。

　　*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

　　今天是《半导体行业观察》为您分享的第4212期内容，欢迎关注。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.