网易首页 > 网易号 > 正文 申请入驻

当GPU不再够用,英伟达开始押注另一种计算

0
分享至

2025年12月24日,当大多数人仍沉浸在节日氛围中时,英伟达却以约200亿美元悄然完成了一笔分量十足的技术并购。

交易的对象是Groq——这家由前谷歌工程师乔纳森·罗斯创立的AI推理芯片公司,主打名为LPU(语言处理单元)的芯片架构,其设计路径与英伟达长期依赖的GPU体系截然不同。

比交易更耐人寻味的,是典型的“英伟达速度”:从并购敲定到在GTC 2026舞台正式亮相,前后仅用不到四个月。Groq团队负责人甚至将这一过程称为“半导体史上产品化速度最快的案例之一”。


这一速度背后,是清醒的战略判断,英伟达并不是在收编一个竞争对手,而是在为接下来的AI计算重心转移提前落子。

推理经济的崛起

过去几年,衡量AI竞争力的核心坐标是训练算力。谁能堆更多GPU、训练更大规模的模型,谁就站在行业前沿。这一逻辑推动了大量资本涌入Hopper架构、Ampere架构GPU集群,也让英伟达的GPU成为AI基础设施的绝对代名词。

但这一等式正在悄然改变。

据机构数据显示,2026年,推理工作负载将占据全部AI计算需求的三分之二左右,而2023年这一比例仅为三分之一。Gartner预测,55%的AI优化基础设施支出将流向推理侧。此外,推理市场的体量也在快速膨胀,预计从2025年的1060亿美元增长至2030年的2550亿美元,年复合增长率接近20%。

与训练任务相比,推理运行的经济学逻辑截然不同。训练是一次性支出,花钱买权重,而推理则会持续消耗,生产系统中每一次预测都需要完整运行前向传播,理论上占据AI系统生命周期总成本的80%至90%。

更深层的压力来自AI Agent的兴起。当AI从简单的对话问答演变为能够规划任务、调用工具、跨系统执行的自主智能体,每一个推理步骤都意味着大量token生成。一个复杂的代理工作流,token消耗量可能是普通聊天的15倍甚至更多。其往往还会将多个模型调用串联起来,最终成本可能是单次推理的5到10倍。

在GTC 2026主题演讲上,英伟达CEO黄仁勋将这一现象称为“上下文爆炸”,随着历史记录、工具输出和推理步骤反复传递,token总量以指数级增长,推理成本随之急剧上升。

这正是GPU最难解的一道题。

通用引擎遭遇专用挑战

GPU的崛起,根植于其处理并行计算任务的独特优势。大量浮点运算、灵活的动态调度、配合高带宽显存(HBM)实现的极高吞吐,让它在模型训练场景中有着几乎无可替代的地位。

然而训练和推理是两种本质不同的计算方式。训练追求吞吐量,任务可以批量堆叠、并行流水;推理(尤其是实时推理)追求的是延迟,每个token必须尽快产出。GPU的通用架构在推理场景中开始暴露出结构性短板。

从推理流程的内部结构来看,可以将其分为两个阶段:预填充(prefill)和解码(decode)。预填充是计算密集型任务,与训练相似;解码则是内存带宽密集型任务,每生成一个token,都需要将模型的全部活跃参数从内存中流过一遍。这意味着解码对内存带宽的依赖程度极高,而HBM的带宽终究有上限。

另一个角度是成本结构。GPU的物料成本很大程度上集中在HBM堆叠内存和配套中介层上,例如英伟达的Rubin GPU,其大部分成本都花在HBM4内存及其与GPU连接所需的中介层上。对于那些不需要海量参数存储、只需要快速解码的推理场景,这部分投入的性价比极低。

这是一个结构性缺口,靠持续堆叠GPU算力显然是无法填补的。

LPU:为确定性而生

Groq的LPU走的是一条几乎相反的设计路径。

LPU的核心设计哲学是确定性执行。与GPU依赖动态硬件调度、多级缓存层次不同,LPU将控制平面完全交给编译器,在编译器完成所有执行路径的规划,实现精确到时钟周期的可预测执行。

这意味着,在芯片运行之前,推理过程要花多长时间已经被编译器算清楚了。

实现这一特性的关键硬件是巨大的片上SRAM。LP30芯片搭载500MB的片内SRAM,这些SRAM与计算单元之间的内存带宽高达150TB/秒。

相比之下,Rubin GPU搭载288GB的HBM,内存带宽为22TB/秒。LP30的内存容量只有GPU的几百分之一,但内存带宽却高出7倍。

这一优势完美契合了推理的需求。解码阶段的瓶颈不是算力,而是数据流速。权重需要在每个token生成时被快速访问,访存速度越快,单token延迟越低,而SRAM可以用极小的容量换极高的速度,用静态调度换确定性延迟。


在这种设计下,随着更多LPU芯片加入集群,单token延迟会随着系统规模扩展而近似线性下降,这是传统GPU架构极难实现的特性。LPU大规模部署后,整个集群可以作为一个巨型单处理器运作,以极低且稳定的延迟服务高价值用户。

当然,LPU也有明确的局限。500MB的片内SRAM对于万亿参数模型来说远远不够,需要大量芯片协同才能装下完整模型权重。对于单机来说,LPU的经济性也并不出色。它的价值在于在规模扩展时,能够将速度优势兑换成商业溢价,服务那些愿意为极低延迟支付高溢价的用户。

从某种角度来看,GPU是高通量的“脱粒机”,适合处理大批量、多用户并发的推理任务;而LPU则是极速的“单车道”,适合服务极低延迟、高价值、单用户或少量用户的推理场景。

英伟达的选择:异构计算的系统重构

弄明白了GPU和LPU各自的优势边界,就不难理解英伟达在GTC 2026上展示的架构选择了。

Vera Rubin平台整合了七款芯片,包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太网交换机,以及新纳入的Groq 3 LPU。这七款芯片协同工作,构成一台大规模预训练、后训练、测试时扩展到智能体式推理、覆盖AI全周期的超级计算机。


其中最具技术含量的创新,是GPU与LPU在推理流水线内部的职责分工。英伟达将推理过程拆解得更加精细:预填充阶段及解码中仍受益于高吞吐的注意力计算继续由Rubin GPU承担,而前馈网络(FFN)的执行则交由LPU处理。这种分工被称为注意力与前馈网络解耦(AFD),是专为压缩解码延迟设计的系统级优化路径。

配备256个LP30 LPU的LPX机架拥有128GB片上SRAM和640TB/秒的扩展带宽。与Vera Rubin NVL72集成后,Rubin GPU和LPU通过对每个输出token的每一层模型进行联合计算,可将解码速度显著提升,每兆瓦推理吞吐量最高可提升35倍,万亿参数模型的收益机会最高可提升10倍。

从性能曲线的角度理解,GPU和LPU的优势区间形成互补。GPU在中低端推理层级(高并发、低成本)提供强大的吞吐能力,LPU则将性能曲线向高端延伸,覆盖那些对单用户延迟要求极端苛刻、愿意支付高溢价的推理层级。

连接这套异构系统的软件层是Dynamo推理框架。Dynamo拥有许多能力特点,其中在异构计算环境下可灵活分配负载,根据请求特征——批次大小、上下文长度、延迟敏感度——在GPU与LPU之间动态路由,从而在整个吞吐与延迟范围内实现更均衡的性能曲线。推理优化的重点从单芯片性能,提升到了系统级资源编排的层面。

存储层的同步演进:NVIDIA BlueField-4 STX全新的存储基础设施

GPU与LPU的协同还不是完整图景。代理式AI的另一个基础设施瓶颈在于存储,长上下文推理需要实时访问海量历史记忆和上下文数据,而传统存储架构的响应速度无法匹配。

NVIDIA BlueField-4 STX机架式架构专为解决这一问题设计。它将BlueField-4处理器与Vera CPU和ConnectX-9 SuperNIC相结合,提供高带宽共享层,针对存储和检索大语言模型和智能AI工作流生成的海量键值缓存数据进行了深度优化,与传统存储相比,每秒可处理的token提升高达5倍。


这一系统通过NVIDIA DOCA Memos软件框架实现专用的键值缓存存储处理,最终目标是在整个数据中心POD范围内实现上下文信息的快速流通,从而加快多轮对话中的AI代理响应速度,提升并行任务的连贯性。存储层的升级,是整个推理基础设施中容易被忽视却至关重要的一环。

协同设计

将以上所有模块拼在一起,英伟达正在勾勒一种分层化的AI计算秩序:GPU继续主导大规模训练与批量推理,承担高吞吐、多用户并发的基础计算任务;LPU专注于解码阶段的极低延迟推理,覆盖高价值的单用户实时交互;Vera CPU则承担系统调度、强化学习环境验证和控制逻辑;BlueField-4 STX负责上下文记忆的快速存取。

Vera CPU拥有88个定制Olympus核心,效率是传统机架式CPU的两倍,速度提升50%,专为智能AI所需的极端利用率提供稳定响应。其重要性在AI Agent时代尤为突出。强化学习和智能AI工作负载需要大量CPU环境来测试和验证模型的行为,CPU的规模与质量直接影响AI系统的反馈速度。

这种分工体系的背后,是对不同计算负载特性的精准匹配:训练与批量推理的高吞吐特性对应GPU,解码延迟敏感性对应LPU,系统级调度与环境模拟对应CPU,上下文持久化对应存储加速层。每种计算单元都被部署在最能发挥其价值的位置,而不是用一种硬件强行覆盖所有场景。

这一协同设计也在重塑AI基础设施的成本模型。通过让不同负载匹配最合适的硬件,整体功耗和每token成本都能大幅改善。与Blackwell平台相比,Vera Rubin NVL72使用四分之一数量的GPU即可训练大型混合专家模型,每瓦推理吞吐量提高10倍,每个token的成本降至其十分之一。

竞争格局的重塑

英伟达将Groq纳入麾下,也彻底重塑了外部竞争格局。

在低延迟推理领域,Cerebras和SambaNova等公司已经构建了类似逻辑的架构,以SRAM为核心实现高速推理。英伟达通过收编Groq,将这一技术路线直接整合进自己的平台,同时封堵了潜在的市场缺口。

亚马逊与Cerebras宣布合作,将AWS的Trainium-3加速器与Cerebras的晶圆级加速器结合部署,逻辑与英伟达的GPU-LPU系统如出一辙。这说明异构推理架构并非英伟达独有的判断,而是行业内已经形成的技术共识。差别在于谁能以更完整的软件栈、更大规模的生态和更快的量产节奏建立优势。

英伟达在这场竞争中握有显著的结构性优势。不只是芯片本身,而是从CUDA生态、Dynamo调度框架、NVLink互连,到合作伙伴体系和模型开发者关系的整体绑定能力。

黄仁勋甚至将Groq与Mellanox的并购相提并论:Mellanox的技术成为NVLink和InfiniBand的基础,为英伟达构筑了AI集群互联的护城河,而Groq的LPU,正在以同样的方式成为推理基础设施的内嵌组件。

放在更长的时间维度下审视,英伟达的这轮技术布局,指向的是一个更清晰的趋势:AI正从实验室中的研究工具,转变为支撑产业运行的基础设施,其计算价值的重心也随之从“短期建造”转向“长期运行”。

黄仁勋在GTC上明确划定了这种分工,纯粹的高吞吐训练与批量推理继续由Vera Rubin承担;实时代理式AI、对话推理和低延迟交互工作负载,则需要LPU的加持。

这意味着,行业竞争的核心指标正在迁移。从单芯片的FLOPs比拼,转向系统级架构整合与调度效率的较量。谁能更有效地将不同计算范式无缝编排在一套基础设施中,谁就能在推理经济时代获得更强的定价权和平台地位。

GTC 2026上展示的三套新系统,共同指向同一个信号:英伟达已不再只是GPU供应商,而是在向覆盖推理优化、CPU编排和存储层的全栈AI基础设施平台演进。

从Hopper到Blackwell再到Vera Rubin,每一代平台都在扩展英伟达的覆盖边界。而这一次,LP30的加入意味着英伟达第一次主动引入了一个与GPU架构哲学根本不同的计算单元,不是作为补充,而是作为整个系统设计的有机组成部分。

当GPU不再够用,英伟达给出的答案,是让不同逻辑的芯片在同一个框架下找到各自的最优位置。这种选择,标志着AI基础设施竞争从单一硬件的极限堆砌,正式进入异构协同的新阶段。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4392内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《蜜语纪》大结局:魏思源为500万,送鲁贞贞入狱,许蜜语赢麻了

《蜜语纪》大结局:魏思源为500万,送鲁贞贞入狱,许蜜语赢麻了

楼兰娱姐
2026-04-30 12:32:39
全球首创!字节跳动首个AI药物曝光,背后37人团队亮相,前信达总裁任顾问!

全球首创!字节跳动首个AI药物曝光,背后37人团队亮相,前信达总裁任顾问!

智药局
2026-04-28 19:01:39
迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

夏侯看英超
2026-04-29 23:12:46
“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

新浪财经
2026-04-29 17:07:23
赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

DS北风
2026-04-29 15:00:15
孙艺珍晒儿子全身照,小甜豆穿搭像童模,3岁用筷子比大人还稳

孙艺珍晒儿子全身照,小甜豆穿搭像童模,3岁用筷子比大人还稳

赏心悦目的我
2026-04-29 14:28:53
世锦赛4强落位:吴宜泽vs艾伦,希金斯vs墨菲,以下2人有望进决赛

世锦赛4强落位:吴宜泽vs艾伦,希金斯vs墨菲,以下2人有望进决赛

小火箭爱体育
2026-04-30 07:05:49
最烦是自发免费做“躺平”内容的人

最烦是自发免费做“躺平”内容的人

不主流讲话
2026-04-28 23:10:32
实在没法搞了!美菲军演提前结束,两艘中国815A围着演习转

实在没法搞了!美菲军演提前结束,两艘中国815A围着演习转

创造精彩剧情
2026-04-30 13:06:56
男闺蜜回国当晚妻子彻夜不归,我决心放手,她却红着眼拦住了我

男闺蜜回国当晚妻子彻夜不归,我决心放手,她却红着眼拦住了我

荷兰豆爱健康
2026-04-30 15:21:56
车越造越大,我被卡在停车位出不来了......

车越造越大,我被卡在停车位出不来了......

楼市前线
2026-04-27 21:26:22
你的身边有没有让你三观尽毁的事?看完网友分享简直大开眼界了!

你的身边有没有让你三观尽毁的事?看完网友分享简直大开眼界了!

夜深爱杂谈
2026-04-30 07:20:32
湖南某医院职工举报院长儿子“吃空饷”涉百万奖金,医院纪委查实“重复拿钱”2万元并退款,否认“吃空饷”,举报人要求提级调查

湖南某医院职工举报院长儿子“吃空饷”涉百万奖金,医院纪委查实“重复拿钱”2万元并退款,否认“吃空饷”,举报人要求提级调查

大风新闻
2026-04-29 20:46:09
特斯拉财报崩了,北京车展疯了

特斯拉财报崩了,北京车展疯了

字节漫游指南
2026-04-27 16:55:33
随着中国新星吴宜泽13-8晋级,斯诺克世锦赛4强已经诞生3席

随着中国新星吴宜泽13-8晋级,斯诺克世锦赛4强已经诞生3席

侧身凌空斩
2026-04-30 04:24:21
俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

俄方宣布红场阅兵不再展示重型装备,从“一辆坦克”到彻底取消

桂系007
2026-04-29 05:18:10
五一期间,深圳男篮将在北京打热身赛

五一期间,深圳男篮将在北京打热身赛

刺猬篮球
2026-04-30 16:15:51
CPU突然跟GPU一样重要了,英特尔咸鱼翻身股价创新高

CPU突然跟GPU一样重要了,英特尔咸鱼翻身股价创新高

知危
2026-04-29 18:29:27
伊朗足协官方:代表团有签证,但因加拿大警察侮辱行为选择回国

伊朗足协官方:代表团有签证,但因加拿大警察侮辱行为选择回国

懂球帝
2026-04-30 05:27:09
高校丨“大儒”杨念群被举报与十数名女子发生不正当关系,自称“学术布拉德皮特”(简明版)

高校丨“大儒”杨念群被举报与十数名女子发生不正当关系,自称“学术布拉德皮特”(简明版)

忘忧杂话店
2026-04-29 15:25:20
2026-04-30 17:11:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13547文章数 34894关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

中国船员滞留霍尔木兹60天:奖发到位 大部分愿继续干

头条要闻

中国船员滞留霍尔木兹60天:奖发到位 大部分愿继续干

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

医美偷税手法曝光 借免税优惠来避税被封堵

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

房产
数码
健康
手机
艺术

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

数码要闻

英雄联盟/DOTA2 2026HyperX 暗影精灵 PRO 16 Intel MOBA 解析

干细胞治烧烫伤能用了么?

手机要闻

“史诗级”更新:YouTube画中画功能将免费向苹果iOS用户开放

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

无障碍浏览 进入关怀版