当GPU不再够用，英伟达开始押注另一种计算|gpu|黄仁勋|nvidia|人工智能时代

分享至

2025年12月24日，当大多数人仍沉浸在节日氛围中时，英伟达却以约200亿美元悄然完成了一笔分量十足的技术并购。

交易的对象是Groq——这家由前谷歌工程师乔纳森·罗斯创立的AI推理芯片公司，主打名为LPU（语言处理单元）的芯片架构，其设计路径与英伟达长期依赖的GPU体系截然不同。

比交易更耐人寻味的，是典型的“英伟达速度”：从并购敲定到在GTC 2026舞台正式亮相，前后仅用不到四个月。Groq团队负责人甚至将这一过程称为“半导体史上产品化速度最快的案例之一”。

这一速度背后，是清醒的战略判断，英伟达并不是在收编一个竞争对手，而是在为接下来的AI计算重心转移提前落子。

推理经济的崛起

过去几年，衡量AI竞争力的核心坐标是训练算力。谁能堆更多GPU、训练更大规模的模型，谁就站在行业前沿。这一逻辑推动了大量资本涌入Hopper架构、Ampere架构GPU集群，也让英伟达的GPU成为AI基础设施的绝对代名词。

但这一等式正在悄然改变。

据机构数据显示，2026年，推理工作负载将占据全部AI计算需求的三分之二左右，而2023年这一比例仅为三分之一。Gartner预测，55%的AI优化基础设施支出将流向推理侧。此外，推理市场的体量也在快速膨胀，预计从2025年的1060亿美元增长至2030年的2550亿美元，年复合增长率接近20%。

与训练任务相比，推理运行的经济学逻辑截然不同。训练是一次性支出，花钱买权重，而推理则会持续消耗，生产系统中每一次预测都需要完整运行前向传播，理论上占据AI系统生命周期总成本的80%至90%。

更深层的压力来自AI Agent的兴起。当AI从简单的对话问答演变为能够规划任务、调用工具、跨系统执行的自主智能体，每一个推理步骤都意味着大量token生成。一个复杂的代理工作流，token消耗量可能是普通聊天的15倍甚至更多。其往往还会将多个模型调用串联起来，最终成本可能是单次推理的5到10倍。

在GTC 2026主题演讲上，英伟达CEO黄仁勋将这一现象称为“上下文爆炸”，随着历史记录、工具输出和推理步骤反复传递，token总量以指数级增长，推理成本随之急剧上升。

这正是GPU最难解的一道题。

通用引擎遭遇专用挑战

GPU的崛起，根植于其处理并行计算任务的独特优势。大量浮点运算、灵活的动态调度、配合高带宽显存（HBM）实现的极高吞吐，让它在模型训练场景中有着几乎无可替代的地位。

然而训练和推理是两种本质不同的计算方式。训练追求吞吐量，任务可以批量堆叠、并行流水；推理（尤其是实时推理）追求的是延迟，每个token必须尽快产出。GPU的通用架构在推理场景中开始暴露出结构性短板。

从推理流程的内部结构来看，可以将其分为两个阶段：预填充（prefill）和解码（decode）。预填充是计算密集型任务，与训练相似；解码则是内存带宽密集型任务，每生成一个token，都需要将模型的全部活跃参数从内存中流过一遍。这意味着解码对内存带宽的依赖程度极高，而HBM的带宽终究有上限。

另一个角度是成本结构。GPU的物料成本很大程度上集中在HBM堆叠内存和配套中介层上，例如英伟达的Rubin GPU，其大部分成本都花在HBM4内存及其与GPU连接所需的中介层上。对于那些不需要海量参数存储、只需要快速解码的推理场景，这部分投入的性价比极低。

这是一个结构性缺口，靠持续堆叠GPU算力显然是无法填补的。

LPU：为确定性而生

Groq的LPU走的是一条几乎相反的设计路径。

LPU的核心设计哲学是确定性执行。与GPU依赖动态硬件调度、多级缓存层次不同，LPU将控制平面完全交给编译器，在编译器完成所有执行路径的规划，实现精确到时钟周期的可预测执行。

这意味着，在芯片运行之前，推理过程要花多长时间已经被编译器算清楚了。

实现这一特性的关键硬件是巨大的片上SRAM。LP30芯片搭载500MB的片内SRAM，这些SRAM与计算单元之间的内存带宽高达150TB/秒。

相比之下，Rubin GPU搭载288GB的HBM，内存带宽为22TB/秒。LP30的内存容量只有GPU的几百分之一，但内存带宽却高出7倍。

这一优势完美契合了推理的需求。解码阶段的瓶颈不是算力，而是数据流速。权重需要在每个token生成时被快速访问，访存速度越快，单token延迟越低，而SRAM可以用极小的容量换极高的速度，用静态调度换确定性延迟。

在这种设计下，随着更多LPU芯片加入集群，单token延迟会随着系统规模扩展而近似线性下降，这是传统GPU架构极难实现的特性。LPU大规模部署后，整个集群可以作为一个巨型单处理器运作，以极低且稳定的延迟服务高价值用户。

当然，LPU也有明确的局限。500MB的片内SRAM对于万亿参数模型来说远远不够，需要大量芯片协同才能装下完整模型权重。对于单机来说，LPU的经济性也并不出色。它的价值在于在规模扩展时，能够将速度优势兑换成商业溢价，服务那些愿意为极低延迟支付高溢价的用户。

从某种角度来看，GPU是高通量的“脱粒机”，适合处理大批量、多用户并发的推理任务；而LPU则是极速的“单车道”，适合服务极低延迟、高价值、单用户或少量用户的推理场景。

英伟达的选择：异构计算的系统重构

弄明白了GPU和LPU各自的优势边界，就不难理解英伟达在GTC 2026上展示的架构选择了。

Vera Rubin平台整合了七款芯片，包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太网交换机，以及新纳入的Groq 3 LPU。这七款芯片协同工作，构成一台大规模预训练、后训练、测试时扩展到智能体式推理、覆盖AI全周期的超级计算机。

其中最具技术含量的创新，是GPU与LPU在推理流水线内部的职责分工。英伟达将推理过程拆解得更加精细：预填充阶段及解码中仍受益于高吞吐的注意力计算继续由Rubin GPU承担，而前馈网络（FFN）的执行则交由LPU处理。这种分工被称为注意力与前馈网络解耦（AFD），是专为压缩解码延迟设计的系统级优化路径。

配备256个LP30 LPU的LPX机架拥有128GB片上SRAM和640TB/秒的扩展带宽。与Vera Rubin NVL72集成后，Rubin GPU和LPU通过对每个输出token的每一层模型进行联合计算，可将解码速度显著提升，每兆瓦推理吞吐量最高可提升35倍，万亿参数模型的收益机会最高可提升10倍。

从性能曲线的角度理解，GPU和LPU的优势区间形成互补。GPU在中低端推理层级（高并发、低成本）提供强大的吞吐能力，LPU则将性能曲线向高端延伸，覆盖那些对单用户延迟要求极端苛刻、愿意支付高溢价的推理层级。

连接这套异构系统的软件层是Dynamo推理框架。Dynamo拥有许多能力特点，其中在异构计算环境下可灵活分配负载，根据请求特征——批次大小、上下文长度、延迟敏感度——在GPU与LPU之间动态路由，从而在整个吞吐与延迟范围内实现更均衡的性能曲线。推理优化的重点从单芯片性能，提升到了系统级资源编排的层面。

存储层的同步演进：NVIDIA BlueField-4 STX全新的存储基础设施

GPU与LPU的协同还不是完整图景。代理式AI的另一个基础设施瓶颈在于存储，长上下文推理需要实时访问海量历史记忆和上下文数据，而传统存储架构的响应速度无法匹配。

NVIDIA BlueField-4 STX机架式架构专为解决这一问题设计。它将BlueField-4处理器与Vera CPU和ConnectX-9 SuperNIC相结合，提供高带宽共享层，针对存储和检索大语言模型和智能AI工作流生成的海量键值缓存数据进行了深度优化，与传统存储相比，每秒可处理的token提升高达5倍。

这一系统通过NVIDIA DOCA Memos软件框架实现专用的键值缓存存储处理，最终目标是在整个数据中心POD范围内实现上下文信息的快速流通，从而加快多轮对话中的AI代理响应速度，提升并行任务的连贯性。存储层的升级，是整个推理基础设施中容易被忽视却至关重要的一环。

协同设计

将以上所有模块拼在一起，英伟达正在勾勒一种分层化的AI计算秩序：GPU继续主导大规模训练与批量推理，承担高吞吐、多用户并发的基础计算任务；LPU专注于解码阶段的极低延迟推理，覆盖高价值的单用户实时交互；Vera CPU则承担系统调度、强化学习环境验证和控制逻辑；BlueField-4 STX负责上下文记忆的快速存取。

Vera CPU拥有88个定制Olympus核心，效率是传统机架式CPU的两倍，速度提升50%，专为智能AI所需的极端利用率提供稳定响应。其重要性在AI Agent时代尤为突出。强化学习和智能AI工作负载需要大量CPU环境来测试和验证模型的行为，CPU的规模与质量直接影响AI系统的反馈速度。

这种分工体系的背后，是对不同计算负载特性的精准匹配：训练与批量推理的高吞吐特性对应GPU，解码延迟敏感性对应LPU，系统级调度与环境模拟对应CPU，上下文持久化对应存储加速层。每种计算单元都被部署在最能发挥其价值的位置，而不是用一种硬件强行覆盖所有场景。

这一协同设计也在重塑AI基础设施的成本模型。通过让不同负载匹配最合适的硬件，整体功耗和每token成本都能大幅改善。与Blackwell平台相比，Vera Rubin NVL72使用四分之一数量的GPU即可训练大型混合专家模型，每瓦推理吞吐量提高10倍，每个token的成本降至其十分之一。

竞争格局的重塑

英伟达将Groq纳入麾下，也彻底重塑了外部竞争格局。

在低延迟推理领域，Cerebras和SambaNova等公司已经构建了类似逻辑的架构，以SRAM为核心实现高速推理。英伟达通过收编Groq，将这一技术路线直接整合进自己的平台，同时封堵了潜在的市场缺口。

亚马逊与Cerebras宣布合作，将AWS的Trainium-3加速器与Cerebras的晶圆级加速器结合部署，逻辑与英伟达的GPU-LPU系统如出一辙。这说明异构推理架构并非英伟达独有的判断，而是行业内已经形成的技术共识。差别在于谁能以更完整的软件栈、更大规模的生态和更快的量产节奏建立优势。

英伟达在这场竞争中握有显著的结构性优势。不只是芯片本身，而是从CUDA生态、Dynamo调度框架、NVLink互连，到合作伙伴体系和模型开发者关系的整体绑定能力。

黄仁勋甚至将Groq与Mellanox的并购相提并论：Mellanox的技术成为NVLink和InfiniBand的基础，为英伟达构筑了AI集群互联的护城河，而Groq的LPU，正在以同样的方式成为推理基础设施的内嵌组件。

放在更长的时间维度下审视，英伟达的这轮技术布局，指向的是一个更清晰的趋势：AI正从实验室中的研究工具，转变为支撑产业运行的基础设施，其计算价值的重心也随之从“短期建造”转向“长期运行”。

黄仁勋在GTC上明确划定了这种分工，纯粹的高吞吐训练与批量推理继续由Vera Rubin承担；实时代理式AI、对话推理和低延迟交互工作负载，则需要LPU的加持。

这意味着，行业竞争的核心指标正在迁移。从单芯片的FLOPs比拼，转向系统级架构整合与调度效率的较量。谁能更有效地将不同计算范式无缝编排在一套基础设施中，谁就能在推理经济时代获得更强的定价权和平台地位。

GTC 2026上展示的三套新系统，共同指向同一个信号：英伟达已不再只是GPU供应商，而是在向覆盖推理优化、CPU编排和存储层的全栈AI基础设施平台演进。

从Hopper到Blackwell再到Vera Rubin，每一代平台都在扩展英伟达的覆盖边界。而这一次，LP30的加入意味着英伟达第一次主动引入了一个与GPU架构哲学根本不同的计算单元，不是作为补充，而是作为整个系统设计的有机组成部分。

当GPU不再够用，英伟达给出的答案，是让不同逻辑的芯片在同一个框架下找到各自的最优位置。这种选择，标志着AI基础设施竞争从单一硬件的极限堆砌，正式进入异构协同的新阶段。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4392内容，欢迎关注。

加星标⭐️第一时间看推送

求推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.