英伟达(NVIDIA)首席执行官黄仁勋,为其芯片团队送上了一份出人意料的“圣诞大礼”——这家科技巨头已与专业人工智能硬件制造商Groq公司达成合作协议。而双方合作的绝非普通芯片,这或将成为英伟达抢占推理类算力市场主导地位的关键抓手。
要理解为什么这是一场“大师课”,我们需要审视两个截然不同的维度分析:黄仁勋巧妙的用了监管漏洞,以及他所获得的硬件主导地位。
看似收购,实则“非排他性合作”
美国消费者新闻与商业频道(CNBC)率先披露这一重磅消息,称英伟达正以200亿美元(约1400亿元人民币)的天价“收购”Groq公司,这也将成为黄仁勋执掌英伟达以来规模最大的一笔收购案。消息一出,立刻在科技行业掀起轩然大波:有人认为这一交易将面临严苛的监管审查,也有人直言Groq此番难逃被吞并的命运。然而不久后,Groq官方在其网站发布声明,明确表示与英伟达签署的是一份“非排他性技术授权协议”,仅向这家AI巨头开放其推理技术的使用权。
我们计划将
Groq
的低延迟处理器整合至英伟达
AI
工厂架构中,进一步拓展平台的适用边界,以满足更广泛的
AI
推理及实时性算力需求。本次合作中,我们确实吸纳了
Groq
的核心人才,并获得了其知识产权授权,但并未收购
Groq
公司本身。
英伟达
CEO
黄仁勋,内部邮件内容
Groq的声明一出,这场看似“并购”的交易在官方层面便不攻自破。在笔者看来,整个事件的发展脉络耐人寻味——这宗交易其实只差“在官方公告中明确定义为收购”这一步,就完全符合全面收购的所有特征。
这正是英伟达祭出的经典“反向人才收购”策略。对于不熟悉该策略的读者,这里可以参考微软2024年的操作案例:当时微软以6.53亿美元与Inflection公司达成合作,不仅将穆斯塔法·苏莱曼、卡伦·西蒙娅等AI领域顶尖人才招致麾下,更借此一举夯实了自身的AI战略布局。
所谓“反向人才收购”,是指企业通过合作协议吸纳初创公司的核心人才,同时保留对方“空壳化”的企业架构。这种模式的精妙之处在于,它能从法律层面规避“并购”的定性。此次黄仁勋显然复刻了这一思路,目的就是避开美国联邦贸易委员会(FTC)的审查——通过将合作定义为“非排他性技术授权”,英伟达成功脱离了《哈特-斯科特-罗迪诺反垄断改进法案》(HSR Act)的监管范畴。值得玩味的是,Groq在声明中提到旗下GroqCloud云计算平台将继续运营,但仅保留最基础的运营架构。
综上,英伟达以传闻中的200亿美元代价,斩获了Groq的核心人才与知识产权,同时巧妙规避了监管审查,让整笔交易在短短数天内便尘埃落定。而比交易本身更值得关注的,是英伟达通过此次合作获得的硬件技术——这才是双方合作的核心价值所在。
Groq的LPU架构:英伟达称霸推理市场的“关键拼图”
这正是笔者最想深入探讨的部分。Groq打造的硬件生态,极有可能复刻英伟达在AI训练时代的辉煌成就,以下将逐层拆解其底层逻辑。过去数月间,AI行业的算力需求格局发生了翻天覆地的变化:以OpenAI、Meta、谷歌为代表的科技巨头,在深耕前沿大模型训练的同时,纷纷加速布局高性能推理算力体系——原因很简单,推理业务才是超大规模云计算服务商的核心盈利点。
此前谷歌推出Ironwood张量处理单元(TPU)时,曾被业界誉为“推理算力的最优解”,这款专用集成电路(ASIC)甚至一度被视作英伟达的“替代者”。究其原因,外界普遍认为英伟达当时尚未推出一款能够主导推理吞吐量的标杆产品(尽管英伟达已有Rubin CPX系列产品,但下文将具体分析其局限性)。
![]()
要理解这一点,首先要明确:训练与推理的算力需求存在本质差异。模型训练阶段,行业更看重算力吞吐量、高运算密度,这也是为何现代加速器普遍搭载高带宽内存(HBM)和大规模张量计算核心。
但当超大规模云计算服务商将重心转向推理业务时,市场对算力的需求就转变为高速、稳定、前馈式的执行能力——毕竟,响应延迟才是推理场景的核心瓶颈。
为应对这一需求,英伟达推出了Rubin CPX系列产品,主攻超长上下文推理(包括预填充和通用推理)场景;谷歌则凭借TPU主打高能效比优势。然而,在模型解码这一关键环节,市场上的优质解决方案却寥寥无几。
解码,指的是Transformer大模型推理过程中的“token生成阶段”,如今已成为划分AI算力负载类型的核心维度。该环节对算力的核心要求是确定性与低延迟,而传统推理硬件普遍采用的HBM技术,恰恰存在延迟高、功耗大的短板。正是瞄准这一痛点,Groq推出了独创的解决方案——基于静态随机存取存储器(SRAM)的算力架构。在剖析其技术优势前,我们先明确:当前AI推理算力市场,正迫切需要一种全新的技术路径。
Groq LPU:破解解码延迟难题,实现极致token生成稳定性
LPU(语言处理单元)由Groq前首席执行官乔纳森·罗斯主导研发——值得一提的是,随着本次合作落地,罗斯已正式加盟英伟达。罗斯曾深度参与谷歌TPU架构的研发工作,由此可见,英伟达此番收获的是一笔足以改写市场格局的核心资产。
作为Groq专为推理类算力负载打造的解决方案,LPU的核心竞争力源于两大技术决策:确定性执行机制与片上SRAM作为权重数据主存储介质。这正是Groq实现“以稳定性换速度”的底层逻辑。
![]()
此前Groq曾对外展示过两款核心产品:自研的GroqChip芯片,以及与合作伙伴联合开发的GroqCard加速卡。根据官方披露的参数,这类芯片集成了230MB的片上SRAM,片上内存带宽高达80TB/s。
采用SRAM是LPU的核心技术优势,这使其延迟水平较传统方案降低了数个数量级。对比HBM技术:传统架构需要通过DRAM存取数据,再加上内存控制器的队列等待时间,延迟劣势十分明显,而SRAM在这方面的优势堪称碾压。超大的片上SRAM带宽,让Groq得以实现远超行业平均水平的推理吞吐量。
除此之外,SRAM还赋予了LPU高能效比的优势:访问SRAM的单位比特能耗远低于HBM,同时还能省去物理层(PHY)的额外开销。对于内存密集型的解码任务而言,这意味着单位token生成能耗的大幅优化。
![]()
以上是LPU的架构优势,但这只是其技术实力的冰山一角。另一大核心竞争力,在于其编译期调度机制——该机制可彻底消除不同计算核心间的时序差异,确保解码流水线的零延迟等待。这一特性带来了极致的流水线利用率,让LPU的吞吐量远超当前主流加速器产品。
综合来看,LPU是一款完全贴合超大规模云计算服务商推理需求的硬件产品,但目前行业对其存在一个普遍忽视的短板:LPU虽是性能卓越的推理专用硬件,但因功能高度专用化,尚未成为市场主流算力平台。而这,恰恰是英伟达的机会所在。
尽管目前英伟达尚未公布LPU与自身产品生态的整合方案,但一个极具可行性的路径是:将LPU纳入机架级推理系统(类似Rubin CPX的部署模式),并搭配英伟达的高性能网络基础设施。通过这种组合,英伟达可以实现“GPU负责预填充与长上下文处理,LPU专攻解码任务”的协同模式——如此一来,英伟达将在推理算力市场实现全场景覆盖。这一整合,不仅能让LPU从一款实验性产品升级为行业标准推理方案,更能推动其在超大规模云计算服务商中实现全面普及。
![]()
毫无疑问,这笔交易是英伟达拓展产品版图的里程碑式成就。种种迹象表明,推理业务将成为英伟达下一阶段的战略核心,而LPU架构,正是英伟达在这一赛道制胜的关键王牌。
https://wccftech.com/no-nvidia-isnt-acquiring-groq-but-jensen-just-executed-a-surgical-masterclass
邀请函
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.