网易首页 > 网易号 > 正文 申请入驻

200亿美元的人才收购值了!英伟达 Groq 芯片下半年问世

0
分享至

早在去年 12 月底,英伟达就以200 亿美元的价格对 Groq 开展了一次 “人才收购”,拿下了该公司大部分开发团队,并获得了其用于 AI 推理的 LPU 数据流引擎底层技术授权。外界原本预计,英伟达会迅速部署由乔纳森・罗斯打造的张量流处理器。这位前谷歌工程师在离开这家搜索巨头后,设计出了一款全调度、可编程的张量处理器。随着生成式 AI 热潮兴起,这款处理器被更名为语言处理单元(LPU),但架构并未改变。如今,英伟达正与三星合作,将第三代LP30 芯片推向市场。英伟达联合创始人兼首席执行官黄仁勋在2026 年 GTC 大会开幕主题演讲中表示,这款芯片将在今年下半年上市,极有可能是第三季度。

英伟达一刻也没有耽误,因为它根本耗不起。Groq 原本已经开始在低延迟推理领域崭露头角,就像 Cerebras Systems 以及 SambaNova Systems 一样 —— 这两家公司主打超高带宽 SRAM,搭配相对精简的算力,在大量计算引擎上实现极速推理。在对速度要求极高的场景下,这些系统厂商以及数十家试图规模化做推理的初创公司,就像一群食人鱼扑向站在亚马逊河里的一头肥牛。所以英伟达必须火速行动……

于是就有了这笔轰动业界的 200 亿美元 Groq 人才收购。之所以没有直接全资收购,是因为那样可能需要一两年时间,还未必能通过全球反垄断机构的审查。也正因如此,Groq 的技术被立刻整合进了Vera-Rubin平台。鉴于黄仁勋在主题演讲中提到,低延迟、高定价的 Token 生成算力,大约会占到 AI 集群总算力的 25%,这个平台其实更应该被称作Vera-Rubin- Groq 平台

还记得英伟达在 2025 年 9 月曝光的RubinCPX 大上下文计算引擎吗?那款基于Rubin架构变体、搭配更便宜、供应更充足的 GDDR7 显存的产品?

“我们想到了一个绝佳的思路,” 英伟达 AI 与高性能计算副总裁伊恩・巴克在 GTC 2026 会前的系统发布沟通会上表示,“将 LPU 和 LPX 整合进我们的Rubin平台,对解码环节进行优化。这是我们当前的重点,我们也很期待将它推向市场。”

换句话说,RubinCPX 项目直接被砍掉了

黄仁勋在台上对比了两款芯片:一边是我们推测的“Rubin” R200 GPU 加速器,另一边是 Groq 的 “Alan-3” LP30 推理加速器。前者是通用型、动态调度的计算引擎,非常擅长批量处理大量推理任务,通过 HBM 堆叠内存做流水线处理,延迟适中,能支持大量并发用户。(这就是 GPU。)后者则是以机柜为单位、算力相对精简、专为推理设计、静态调度、确定性运行的计算引擎,多芯片协同工作,通常只为少量用户服务 —— 大多数时候甚至只服务一个用户。它会把模型权重(而非数据)分布在整体 SRAM 中,机器加得越多,Token 生成的响应速度就越快。

如果把 GPU 比作脱粒机,那 LPU 就是速度狂魔。二者可以通过 Dynamo 推理软件栈协同工作,在吞吐量和延迟区间内形成一条更均衡的推理性能帕累托曲线。

以下是R200 和 LP30 芯片的规格与性能:


更完整的对比还需要考虑整套系统的内存层级,包括主机处理器中的闪存和主存,但大致意思已经很明显。另外,如果统一按 FP8 浮点算力计算,相同精度下二者性能差距为21 倍;如果 AI 工作负载的解码部分能用上 FP4—— 这个前提条件并不容易满足 —— 那么 R200 的理论峰值性能将达到 LP30 的42 倍

但再看看 GPU 的复杂程度,这直接和成本挂钩。R200 的物料成本里,绝大部分都会花在 HBM4 堆叠内存以及连接内存与 GPU 所需的中介层上。所以必须认清一点:这位 “速度狂魔” 不仅延迟比 “脱粒机” 低得多,在达到合理交互体验的前提下,单 Token 成本也可能更低

当下,AI 正从人类和聊天机器人交互,转向智能体 AI 之间高速对话、自主完成任务的时代。这类场景速度更快、推理更强,Token 生成量呈指数级增长。在这种趋势下,一个关键点显而易见:像 Groq、Cerebras、SambaNova 这样的架构将会变得越来越重要。谷歌 TPU、亚马逊 Trainium 也必然会推出专门面向智能体 AI 推理的版本,在内存带宽和算力之间取得更好平衡,同时不牺牲内存容量。

后续我们会对硬件做更深入的拆解,敬请期待。目前我们先梳理黄仁勋与巴克披露的战略思路。你只需要看懂两条帕累托性能曲线:一条是传统、当前和未来连贯 GPU 内存域系统的曲线,另一条是加入 Groq 设计的 LP30 之后的曲线。按照黄仁勋对推理市场的构想,目标是用推理硬件覆盖从免费到高端的全层级服务,这个思路是合理的。

下面是Hopper NVL8、Grace-Blackwell NVL72 和Vera-Rubin NVL72 系统在吞吐量(每兆瓦每秒 Token 数)和交互性(每用户每秒 Token 数)上的对比:


显而易见,借助 NVSwitch 实现的更大 GPU 共享内存域,让性能曲线从Hopper延伸到了布莱克威尔;但升级到Rubin GPU 后,内存、带宽和算力的提升只能让曲线向上抬升,却无法向右延展。英伟达未来会扩大这个内存域,但 2026 这一代硬件不会实现。

下面是系统中加入 Groq LP30 之后的效果:LP30 主攻中高端市场,随着部署数量增加,还能拓展到利润极高的顶级市场:


这条惊人的曲线说明了什么?我用大白话给你总结一下:

如果你只做低成本推理,对响应时间无所谓,比如人类慢悠悠地跟聊天机器人对话,或是几个智能体辅助做一些自动化工作,那Vera-Rubin完全够用。而且训练大概率也离不开它。但在智能体 AI 时代,需要生成的 Token 数量极其庞大,Token 生成延迟必须极低,才能让海量智能体完成任务 —— 任何延迟都是真金白银的损失,就像在数据中心地板上、或是在纽约证券交易所里直接烧钱。在这种场景下,没有人,我是说绝对没有人,会选择 CPU-GPU 混合系统来做解码工作。

这就是英伟达花200 亿美元把 Groq 精华收入囊中的原因。

我目前只能透露一句:AMD 和 Cerebras 的联合创始人关系非常不一般。

Vera-Rubin架构由 88 核 “维拉” CV100 Arm 服务器处理器(搭载定制 “奥林匹斯” 核心)搭配 “Rubin” R200 GPU 加速器组成。整套方案包含七款不同芯片,可构成五种机架级系统,在Vera-Rubin AI 超算中自由组合搭配。


黄仁勋还展示了一组对比:1 吉瓦算力的 “Hopper” H100 GPU 搭配 X86 处理器,组成 HGX NVL8 系统(8 张 GPU 在纵向扩展网络中共享内存,通过 InfiniBand 横向扩展),对阵我们推测的 VR200 NVL72 机架级系统集群(GPU 实现 72 路内存共享)。

对比结果是:GPU 数量减半,AI 处理性能提升 13.3 倍。公平地说,H100 最低只支持到 FP8 精度,而 R200 支持 FP4 格式(和上一代布莱克威尔 GPU 一样)。所以 13.3 倍的提升里,有 2 倍来自精度压缩。而且 FP4 也不只是跑分噱头 —— 模型正在被持续优化,在把数据和运算精度减半的同时,让答案精度只比 FP8 低一两个点。业内已经在实际生产负载中做这种取舍。

但问题在于:即便 GPU 数量减半,可单颗价格却是原来的三四倍。英伟达通过卖出至少两倍数量的芯片,实现营收大幅增长;而你的 IT 预算并不会下降,如果 AI 负载继续扩张 —— 未来肯定会 —— 你的 IT 预算只会上涨。其他所有部署 AI 的机构也是如此。最终需求再次远超供应,推动价格进一步上涨,让英伟达的营收和利润比在供应不受限的环境下还要高。

当上“推理之王” 的滋味,确实不错。

但这一宝座本几乎属于乔纳森・罗斯—— 谷歌 TPU 的缔造者,也是设计出 Groq 这种堪称更优秀架构的人。罗斯收到了一份无法拒绝的邀约,而我认为,Cerebras 也极有可能收到类似的邀约。英特尔错过了与 SambaNova Systems 合作的机会,不过或许现在还有时间和资金促成一笔交易。

原文:

https://www.nextplatform.com/ai/2026/03/17/nvidia-finally-admits-why-it-shelled-out-20-billion-for-groq/5209495

邀约|AMD 技术日 :GPU+CPU+FPGA(4.2,北京)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
快观察 | 多国政要密集访华,世界看懂了一个大趋势

快观察 | 多国政要密集访华,世界看懂了一个大趋势

上观新闻
2026-04-14 18:52:07
交警提醒:路口新标线已启用,违规直接扣6分罚200,开车务必留意

交警提醒:路口新标线已启用,违规直接扣6分罚200,开车务必留意

复转这些年
2026-04-14 12:08:14
“我那么相信老师,为什么他要这样对我”,班主任猥亵女生被行拘10日,家长希望追究刑责;教体局:已降级做后勤

“我那么相信老师,为什么他要这样对我”,班主任猥亵女生被行拘10日,家长希望追究刑责;教体局:已降级做后勤

大风新闻
2026-04-14 20:58:12
法西等17国外长联合声明呼吁黎以把握谈判机遇

法西等17国外长联合声明呼吁黎以把握谈判机遇

财联社
2026-04-15 00:16:09
特朗普在伊朗战争中犯下的7个致命错误

特朗普在伊朗战争中犯下的7个致命错误

史政先锋
2026-04-12 18:27:18
穿衣不自由!女解说被批裙子太短 全身涂黑上镜回击

穿衣不自由!女解说被批裙子太短 全身涂黑上镜回击

游民星空
2026-04-12 12:56:12
石油储备防线全面失守,日本四处求油接连碰壁,恐重蹈40亿巨亏路

石油储备防线全面失守,日本四处求油接连碰壁,恐重蹈40亿巨亏路

比利
2026-04-14 23:38:03
多家银行披露“最高薪5人”:中行一员工年薪超1800万元,在境外子公司任职

多家银行披露“最高薪5人”:中行一员工年薪超1800万元,在境外子公司任职

红星新闻
2026-04-14 19:39:39
郑丽文与洪秀柱正面交锋:不是谁对谁错,而是两种逻辑在碰撞

郑丽文与洪秀柱正面交锋:不是谁对谁错,而是两种逻辑在碰撞

蓝色海边
2026-04-15 07:08:29
迈阿密官宣换帅:41岁小马哥辞职 曾率队首夺美职联冠军 新帅公布

迈阿密官宣换帅:41岁小马哥辞职 曾率队首夺美职联冠军 新帅公布

我爱英超
2026-04-15 05:07:02
以色列计划永久占领黎巴嫩部分领土,并彻底摧毁真主党

以色列计划永久占领黎巴嫩部分领土,并彻底摧毁真主党

山河路口
2026-04-14 13:48:39
董军防长警告:海峡封锁不适用于中国油轮,纯属外媒的虚假报道

董军防长警告:海峡封锁不适用于中国油轮,纯属外媒的虚假报道

国平视野
2026-04-14 16:03:17
武大杨某媛,去当女装销售了

武大杨某媛,去当女装销售了

大张的自留地
2026-04-14 13:21:50
输球又输人!江俊多次中断比赛、现场发火,球迷怒斥:丢人现眼!

输球又输人!江俊多次中断比赛、现场发火,球迷怒斥:丢人现眼!

徐扙老表哥
2026-04-15 08:10:38
赵文芳任国家铁路局副局长,安路生卸任

赵文芳任国家铁路局副局长,安路生卸任

澎湃新闻
2026-04-14 12:32:32
12位专家预测火湖对决:11人看好火箭,但无法横扫!1人力挺湖人

12位专家预测火湖对决:11人看好火箭,但无法横扫!1人力挺湖人

熊哥爱篮球
2026-04-15 11:38:32
男子下兽药后勒死房东,转走对方21万元,今日被执行死刑!

男子下兽药后勒死房东,转走对方21万元,今日被执行死刑!

小虎新车推荐员
2026-04-15 09:13:34
美方的谣言不攻自破,巴拿马总统亲自澄清:希望缓和与中国的关系

美方的谣言不攻自破,巴拿马总统亲自澄清:希望缓和与中国的关系

兵说
2026-04-14 09:04:04
许家印当庭认罪,夏海钧资产冻结600亿,任泽平天价薪酬要吐回

许家印当庭认罪,夏海钧资产冻结600亿,任泽平天价薪酬要吐回

网络易不易
2026-04-15 10:17:52
刚刚!许家印当庭认罪!2万亿巨债谁来买单?

刚刚!许家印当庭认罪!2万亿巨债谁来买单?

澳洲红领巾
2026-04-14 14:18:38
2026-04-15 11:52:49
EETOP半导体社区 incentive-icons
EETOP半导体社区
国内著名的电子工程师社区
7475文章数 15645关注度
往期回顾 全部

科技要闻

手机无死角上网?亚马逊砸百亿硬刚马斯克

头条要闻

媒体:苏林刚到北京就乘坐高铁 不难看出是为了什么

头条要闻

媒体:苏林刚到北京就乘坐高铁 不难看出是为了什么

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

曾志伟办73岁生日派对,逾百艺人到场

财经要闻

特朗普称美国对伊朗的战争已经结束

汽车要闻

海豹08内饰首秀 大满配“海王”旗舰

态度原创

本地
手机
数码
家居
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

手机要闻

国内售价约1.4万元!苹果首款折叠屏曝光:将采用石墨烯+VC散热

数码要闻

千问AI眼镜S1宣布正式开售:双目显示+热插拔换电

家居要闻

简而不减 暖居之道

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版