网易首页 > 网易号 > 正文 申请入驻

英伟达为何斥资200亿美元收购Groq

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

今年夏天,人工智能芯片初创公司Groq融资7.5亿美元,估值达69亿美元。仅仅三个月后,英伟达就在假期期间斥资近三倍于此,用于授权其技术并挖走其人才。

接下来的几天里,网络上的人工智能专家们纷纷猜测,英伟达如何才能证明花费 200 亿美元收购 Groq 的技术和人才是合理的。

专家们认为英伟达掌握着我们所不知道的信息。各种猜测层出不穷,从英伟达打算放弃HBM转而使用SRAM,到为了从三星获得更多代工产能,再到试图扼杀潜在竞争对手,不一而足。有些猜测比其他猜测更有说服力,我们自己也有一些看法。

我们目前所了解的情况

英伟达支付了200 亿美元,获得了 Groq 的知识产权的非独家授权,其中包括其语言处理单元 (LPU) 和配套软件库。

Groq 的 LPU 是其高性能推理即服务产品的基础,交易完成后,Groq 将保留该产品并继续不间断地运营。

这项安排显然是为了规避监管审查而设计的。英伟达并非收购Groq,而是获得其技术授权。但实际上……它确实是收购了Groq。

还有什么比这更能形容Groq首席执行官Jonathan Ross和总裁Sunny Madra连同其大部分工程人才一起跳槽到英伟达的交易呢?

没错,从技术上讲,Groq 仍然是一家独立公司,由 Simon Edwards 担任新任 CEO,但由于很多人才流失,很难想象这家芯片初创公司如何才能长期生存下去。

因此,英伟达此举彻底消灭竞争对手的说法是成立的。但考虑到此举可能引发反垄断诉讼,它是否真的值200亿美元则是另一回事。

应该是给SRAM用的吧?

关于英伟达动机的一个著名理论是,Groq 的 LPU 使用静态随机存取存储器 (SRAM),其速度比当今 GPU 中使用的高带宽存储器 (HBM) 快几个数量级。

目前,单个 HBM3e 内存堆栈每个模块的内存带宽约为 1 TB/s,每个 GPU 的内存带宽约为 8 TB/s。Groq 的 LPU 中的 SRAM 速度可比 HBM3e 快 10 到 80 倍。

由于大型语言模型 (LLM) 推理主要受限于内存带宽,Groq 可以实现惊人的词元生成速度。在 Llama 3.3 70B 测试中,Artificial Analysis 的基准测试人员报告称,Groq 的芯片可以达到 350 tok/s 的生成速度。当运行混合专家模型(例如 gpt-oss 120B)时,性能甚至更佳,芯片可以达到 465 tok/s 的生成速度。

目前全球正面临内存短缺,对HBM的需求空前高涨。因此,我们理解为什么有些人会认为Groq的这笔交易可以帮助英伟达应对即将到来的内存危机。

最简单的答案往往是正确的——只是这次不是。

很遗憾地告诉你,SRAM 并没有什么特别之处。它几乎存在于所有现代处理器中,包括英伟达的芯片。

SRAM 也有一个非常明显的缺点。它的空间利用率并不高。每个芯片最多只有几百兆字节,而 12 层 HBM3e 堆栈则有 36 GB,每个 GPU 总共有 288 GB 的存储空间。

Groq 的 LPU 每个只有 230 MB 的 SRAM,这意味着仅仅运行一个中等规模的 LLM 就需要数百甚至数千个这样的 LPU。如果精度为 16 位,则需要 140 GB 的内存来存储模型权重,并且每 128,000 个 token 序列还需要额外的 40 GB 内存。

Groq 需要使用高速互连织物将 574 个 LPU 缝合在一起才能运行 Llama 70B。

你可以通过制造更大的芯片来解决这个问题——Cerebras 的每片 WSE-3 晶圆都集成了超过 40 GB 的 SRAM,但这些芯片的尺寸堪比餐盘,功耗高达 23 千瓦。不过,Groq 并没有采用这种方案。

简而言之,如果英伟达想要制造一款使用 SRAM 而不是 HBM 的芯片,它根本不需要收购 Groq。

顺着数据流走

那么,英伟达为什么会斥资收购 Groq 呢?

我们推测,这实际上是指 Groq 的“流水线架构”。这本质上是一种可编程数据流设计,其明确目的是为了加速推理过程中计算的线性代数运算。

如今大多数处理器都采用冯·诺依曼架构。指令从内存中取出,经过解码、执行后,写入寄存器或存储在内存中。现代实现引入了分支预测等技术,但其原理基本相同。

数据流的工作原理不同。数据流架构并非进行大量的加载-存储操作,而是在数据流经芯片的过程中对其进行处理。

正如 Groq 所解释的那样,这些数据传送带“在芯片的 SIMD(单指令/多数据)功能单元之间传输指令和数据”。

“在装配过程的每个步骤中,功能单元都会通过传送带接收指令。这些指令会告诉功能单元应该去哪里获取输入数据(哪条传送带),应该用这些数据执行什么功能,以及应该把输出数据放在哪里。”

Groq 表示,这种架构有效地消除了导致 GPU 运行缓慢的瓶颈,因为这意味着 LPU 永远不会等待内存或计算跟上。

Groq 可以通过 LPU 实现这一点,而且多个 LPU 之间可以协同工作,这无疑是个好消息,因为 Groq 的 LPU 本身性能并不强劲。理论上,它们可以达到 BF16 的性能,大致相当于 RTX 3090 或 L40S 的 INT8 性能。但是,请记住,这是在理想情况下测得的峰值浮点运算性能。理论上,数据流架构应该能够在相同的功耗下实现更好的实际性能。

值得一提的是,数据流架构并非仅限于以 SRAM 为中心的设计。例如,NextSilicon 的数据流架构就采用了 HBM。Groq 选择纯 SRAM 设计是为了简化流程,但 Nvidia 完全可以基于 Groq 的 IP,使用 SRAM、HBM 或 GDDR 构建数据流加速器。

既然数据流真的好这么多,为什么没有更普及呢?因为要正确实现它真的非常麻烦。不过,Groq 已经成功地实现了这一点,至少在推理方面是这样。

正如Ai2的蒂姆·德特默斯(Tim Dettmers)最近所说,像英伟达这样的芯片制造商已经很快会发现,他们能用来提升芯片性能的手段越来越少。数据流为英伟达寻求更高速度提供了新的技术选择,而与Groq的合作意味着黄仁勋的公司在将其商业化方面处于更有利的地位。

一个针对推理进行优化的计算栈?

Groq 还为英伟达提供了一种推理优化的计算架构,而这正是英伟达一直以来所严重缺乏的。不过,它究竟能为英伟达带来什么,目前还不得而知。

英伟达的大多数“推理优化”芯片,例如H200或B300,与它们的“主流”同系列芯片并没有本质区别。事实上,H100和H200之间的唯一区别在于后者使用了速度更快、容量更大的HBM3e显存,而这恰好有利于推理密集型工作负载。

提醒一下,LLM 推理可以分为两个阶段:计算量大的预填充阶段,在此阶段处理提示;以及内存带宽密集型的解码阶段,在此阶段模型生成输出标记。

这种情况将随着英伟达在 2026 年推出的 Rubin 系列芯片而改变。Rubin CPX于 9 月份发布,其设计旨在加速推理管道中计算密集型的预填充阶段,从而释放其搭载 HBM 的 Vera Rubin 超级芯片来处理解码任务。

这种分散式架构最大限度地减少了资源争用,有助于提高利用率和吞吐量。

Groq 的 LPU 在设计上针对推理进行了优化,但它们的 SRAM 容量不足,无法作为优秀的解码加速器。不过,它们作为推测性解码部件可能很有意思。

如果你还不熟悉,推测性解码是一种利用小型“草稿”模型来预测大型模型输出的技术。当这些预测正确时,系统性能可以提升两到三倍,从而降低每个代币的成本。

这些推测性的草图模型通常都很小,最多也就几十亿个参数,因此 Groq 现有的芯片设计对于这种设计来说是合理的。

我们需要专门的加速器来进行推测性解码吗?当然需要,为什么不呢?它值200亿美元吗?这取决于你如何衡量。与市值在200亿美元左右的上市公司(例如惠普或Figma)相比,200亿美元似乎很高。但对英伟达来说,200亿美元相对来说是一个可以承受的数额——仅上个季度,其运营现金流就达到了230亿美元。最终,这意味着英伟达可以销售更多的芯片和配件。

那么,晶圆制造业多元化发展如何呢?

或许我们见过的最不可能的说法是,Groq 以某种方式为英伟达开放了额外的代工厂产能。

Groq目前使用GlobalFoundries的芯片制造服务,并计划采用三星的4纳米工艺技术制造其下一代产品。相比之下,英伟达几乎所有芯片都由台积电代工,并且严重依赖这家中国台湾巨头的先进封装技术。

这个理论的问题在于它根本站不住脚。英伟达并非不能找三星代工芯片。事实上,英伟达之前就曾委托三星代工——这家韩国巨头为英伟达生产了大部分安培架构的产品。英伟达确实需要台积电的先进封装技术来制造一些部件,比如A100,但它并不需要这家台湾公司来生产Rubin CPX芯片。三星或者英特尔或许都能胜任这项工作。

这一切都需要时间,获得 Groq 的知识产权许可并聘请其团队并不能改变这一点。

现实情况是,英伟达可能不会对Groq的当前一代LPU采取任何行动。Jensen可能只是在进行长远布局,正如他一贯的作风。

原文链接:https://www.theregister.com/2025/12/31/groq_nvidia_analysis/

(来源:编译自theregister )

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4274期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢

求推荐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
朱雨玲又夺冠!连赢日本3人,决赛连扳4局逆转,一周内斩获2金

朱雨玲又夺冠!连赢日本3人,决赛连扳4局逆转,一周内斩获2金

郝小小看体育
2026-01-19 00:37:43
玄学提醒:这两样东西再好也别收,容易透支你的福报

玄学提醒:这两样东西再好也别收,容易透支你的福报

听风喃
2026-01-18 15:27:12
马钞从炒作到崩盘:谁在制造“供不应求”的有价无市假象!

马钞从炒作到崩盘:谁在制造“供不应求”的有价无市假象!

老孟谈钱
2026-01-19 03:25:03
贾玲现身机场高冷霸气,冯巩自豪的很!网友:还会继承师傅衣钵吗

贾玲现身机场高冷霸气,冯巩自豪的很!网友:还会继承师傅衣钵吗

蒂蒂茱家
2026-01-18 12:06:40
遭到中方拒绝后,欧盟内部终于意识到:中国已不把他们放在眼里了

遭到中方拒绝后,欧盟内部终于意识到:中国已不把他们放在眼里了

顾史
2026-01-18 23:48:12
特朗普发布个人黑白照

特朗普发布个人黑白照

环球时报国际
2026-01-18 16:09:01
36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

36万亿美债压顶,中国拒不接盘!特朗普决定“弄死”大债主!

毒sir财经
2025-10-12 20:07:17
他是CBA唯一拥有交易否决权的球员,26岁拿顶薪,女友超漂亮

他是CBA唯一拥有交易否决权的球员,26岁拿顶薪,女友超漂亮

大西体育
2026-01-18 15:33:16
77岁港星梁小龙去世!家中装修简单,晚年行程太忙碌,团队惹争议

77岁港星梁小龙去世!家中装修简单,晚年行程太忙碌,团队惹争议

古希腊掌管月桂的神
2026-01-18 17:24:06
哈里夫妇恩爱照曝光!终卸下王室包袱,梅根穿搭都比凯特王妃自由

哈里夫妇恩爱照曝光!终卸下王室包袱,梅根穿搭都比凯特王妃自由

夜深爱杂谈
2026-01-17 19:07:49
张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

张不开嘴就别尬演!黄晓明“吃泡面”,戳穿了多少演员最后的体面

十里电影
2026-01-18 10:07:37
欧尔班:西欧正准备与俄罗斯开战

欧尔班:西欧正准备与俄罗斯开战

参考消息
2026-01-18 21:33:05
同性恋为何没有在进化中消失?《Nature》头条:同性性行为有助于灵长类生存和繁衍

同性恋为何没有在进化中消失?《Nature》头条:同性性行为有助于灵长类生存和繁衍

医护健康科普
2026-01-14 10:32:11
132-116!哈登要坐立不安,快船季后赛警报拉响

132-116!哈登要坐立不安,快船季后赛警报拉响

民哥台球解说
2026-01-18 15:18:06
委内瑞拉,有“内鬼”?

委内瑞拉,有“内鬼”?

澎湃新闻
2026-01-18 12:07:05
王皓欣慰笑了!19岁新王牌产生能兼三项若搭王楚钦,为林诗栋分担

王皓欣慰笑了!19岁新王牌产生能兼三项若搭王楚钦,为林诗栋分担

郝小小看体育
2026-01-19 04:16:57
随着尤文爆大冷0-1,那不勒斯1-0,国米0-1,意甲最新积分榜出炉

随着尤文爆大冷0-1,那不勒斯1-0,国米0-1,意甲最新积分榜出炉

俯身冲顶
2026-01-18 08:56:37
股民站稳扶好!不出意外的话,1月19日,明天周一将迎核弹级别行情?

股民站稳扶好!不出意外的话,1月19日,明天周一将迎核弹级别行情?

股市皆大事
2026-01-18 10:32:55
对话张水华:不跑步浑身没劲,希望大家叫我水华而不是“最快女护士”

对话张水华:不跑步浑身没劲,希望大家叫我水华而不是“最快女护士”

极目新闻
2026-01-18 21:34:32
养老金并轨完成!事退6000元企退3000元,并轨后差距缩小了吗?

养老金并轨完成!事退6000元企退3000元,并轨后差距缩小了吗?

猫叔东山再起
2025-11-28 09:40:03
2026-01-19 05:03:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12721文章数 34769关注度
往期回顾 全部

财经要闻

BBA,势败如山倒

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

科技要闻

AI大事!马斯克:索赔9300亿元

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

数码
教育
亲子
健康
艺术

数码要闻

保时捷设计推C-Seed折叠电视,售价超三台911

教育要闻

2025山东政法大学录取分揭秘!各省差异大

亲子要闻

文咏珊带助理游曼谷,生娃3个多月瘦出“排骨胸”,不像母乳喂养

血常规3项异常,是身体警报!

艺术要闻

放大看油画,细节之美令人惊叹不已!

无障碍浏览 进入关怀版