公众号记得加星标⭐️,第一时间看推送不会错过。
对于 GPU 加速器和互连制造商而言,人工智能推理最终可能会采用一种全新的方法——以至于英伟达在几代之后最终制造的设备根本不能再被称为 GPU 了。
以英伟达目前推出的数据中心级 GPU 加速器为例,几乎可以得出这样的结论。这些加速器看起来越来越不像图形处理单元,而更像是向量和张量引擎、缓存和互连结构的复杂集合,用于执行相对低精度的数学运算,而这些运算正是 GenAI 和其他类型的机器学习以及有时 HPC 的基础。
与 Groq 的这笔交易在很多方面都显得十分奇特。首先,Groq 的投资者当初为何要出售股份,这一点值得深思。正如我们在分析AI 模型制造商 OpenAI 与 AI 硬件初创公司 Cerebras Systems(该公司与 Groq 几乎同时成立于 2015 年,当时 AI 机器学习正开始蓬勃发展)之间价值 100 亿美元的交易时所指出的那样,令人费解的是,在低延迟、高吞吐量的 AI 推理至关重要,而 Groq 又是少数几家能够与英伟达 (Nvidia) 在该领域一较高下的供应商之一的情况下,Groq 为何会在此时出售?Cerebras 的 CS-2 晶圆级计算引擎、谷歌的 TPU 以及亚马逊网络服务 (AWS) 的 Trainium(由于 Trainium 可以同时进行 AI 训练和推理,因此现在几乎没人再提起 Inferentia 了)是仅有的几款真正获得市场认可的 AI XPU,而英伟达的 GPU 在训练和推理领域都占据主导地位,AMD 则凭借其数据中心 GPU 占据了一席之地。
从 Groq 的角度来看,现在正是推出英伟达 GPU 替代方案的最佳时机。英伟达的 GPU 虽然功能强大,但价格昂贵。此次收购交易中,英伟达获得了 Groq 的学习处理单元 (LPU) 技术授权,并挖走了 Groq 的大部分核心工程师,包括联合创始人 Jonathan Ross 和首席运营官 Sunny Madra,总价高达 200 亿美元。对于一家此前仅完成五轮融资、总计 17.5 亿美元的公司来说,这笔交易可谓天价。该公司在 2025 年 9 月完成 E 轮融资(7.5 亿美元)后,估值仅为 69 亿美元。Ross 还曾获得沙特阿拉伯承诺的 15 亿美元投资,用于在达曼建设一座大型 GroqCloud 数据中心,但据我们所知,该项目至今尚未启动。这将是 Groq 剩余部分将要追求的业务,因为它基本上是 GroqCloud 服务、大量知识产权,而且据我们所知,并没有针对未来 LPU 或 GroqWare 产品线的计划。
收购通常兼具防御和进攻的双重目的,罗斯主导开发的完全调度编译器——这使得LPU与罗斯在谷歌最初开发的TPU截然不同——是英伟达绝对不想看到落入对手之手的关键资产。英特尔需要收购人工智能的未来,尤其是基于推理的未来。如果它像传闻所说的那样对SambaNova感兴趣,那么它也同样对Groq和Cerebras感兴趣。但英特尔资金短缺,而且美国政府如今也成为了它的投资者,时刻关注着它。AMD也曾是Groq的潜在收购方,如果Groq的软件栈确实与众不同,那么理论上AMD仍然有权授权该软件栈以及任何它认为有用的硬件。
是的,我们知道。这真是太搞笑了。
沙特阿拉伯承诺为GroqCloud在沙漠中建立前哨站投资15亿美元,但这与实际合同,甚至支票或电汇都截然不同。此外,如今15亿美元对于人工智能硬件而言也算不上巨额资金,毕竟OpenAI已经承诺投入约30吉瓦的容量用于人工智能硬件。根据不同的报价和具体情况,每吉瓦的成本在350亿美元到500亿美元之间。如果按照Sam Altman的容量规划愿景,30吉瓦的容量需要1.5万亿美元。Groq与沙特阿拉伯的合作承诺比Cerebras刚刚与OpenAI签署的协议规模小6.7倍,比OpenAI计划构建的规模还要小三个数量级。
所以,当罗斯和黄仁勋开始交谈时,考虑到所有超大规模云服务商和云平台构建商都在创建自己的AI XPU,同时也在使用英伟达(有时也用AMD)的GPU,而像Anthropic这样的模型构建商也承诺使用谷歌的TPU和AWS的Tranium,2.9倍的估值或许看起来是一个相当不错的退出价格。Groq的LPU进入中国市场将会面临一些问题,因为那里才是真正的AI中心,而欧洲尚未找到以独特且本土化的方式更充分地参与到GenAI热潮中的方法。
即使抛开英伟达可能出于防御目的而收购Groq的所有理由,你也能理解为什么罗斯和Groq的投资者们对这笔交易感到满意。因此,Groq的两位联合创始人之一 乔纳森·罗斯现在成为了英伟达的首席软件架构师,而桑尼·马德拉 则成为了英伟达的硬件副总裁。事情就是这样。
此次收购的结构很简单:鉴于全球反垄断监管机构对英伟达以69亿美元收购Mellanox Technologies的行动迟缓,以及黄仁勋400亿美元收购Arm的计划被否决,英伟达此次选择保留部分股权,以免给人留下收购整个Groq的印象。可以肯定的是,美国政府将会修改相关规则,但我们也推测,黄仁勋此次收购也得到了特朗普总统的默许。
在我们看来,如果Groq团队已被剥离,且剩余的Groq公司未来不再进行LPU的研发,那么英伟达就可能面临反垄断的风险,因为世界各国政府无论是否愿意,都对这类并购拥有发言权。如果英伟达不想触怒监管机构,它本可以以远低于Groq当前估值的价格进行交易——那样的话,Groq的创始人和投资者们就可以笑着关上大门,然后给AMD打个电话了。这里面充满了胆量博弈。
还有一点:并没有规定英伟达必须使用其已获得授权的技术。公司被收购后却被束之高阁,只因为它们可能颠覆现状,这种情况屡见不鲜。我们最喜欢的例子就是Transitive公司,其QuickTransit模拟器只需稍作修改即可在Unix系统上运行大型机应用程序,或在Linux系统上运行Unix应用程序。QuickTransit被用于苹果公司创建的“Rosetta”模拟环境,该环境旨在实现其PC从PowerPC处理器向X86处理器的过渡,而且效果出奇地好。IBM担心QuickTransit会对其造成严重冲击,因此在2008年末收购了Transitive。在一番关于在其Power Systems机器上模拟其他系统的花言巧语之后,这家蓝色巨人在2011年彻底关闭了所有相关业务,并且再也没有提及此事。
Enfabrica 的收购与 Groq 的收购类似,都可能预示着架构的改变……也可能不会。这或许只是 Nvidia 路线图上技术融合的一种伪装,实则是一种防御性策略。(Nvidia 以前从未这样做过,但如今的 Nvidia 已非五年前或十年前的 Nvidia。)
Enfabrica 于 2021 年 6 月正式发布新作,当时我们对该公司未来的发展方向并不太了解。到了 2023 年 3 月,我们看到了它的进展:Enfabrica 的“Millenium”ACF-S 芯片将扩展内存和主机 I/O 全部集成到单个芯片上,从而在机架式架构中取代了网卡、PCI-Express 交换机、CXL 交换机以及机架顶部或叶交换机。
首款应用 ACF-S 技术的产品名为 SuperNIC,它基于 CXL 技术打造了一款扩展内存服务器,旨在大幅提升 AI 推理工作负载核心——键值缓存的规模和性能。这款名为 Emfasys 的内存扩展器于 2025 年 7 月发布。值得一提的是,该公司创始人当时告诉我们,在四机架 GB200 NVL72 机架级服务器上添加一机架 Emfasys 内存扩展器,即可将每个令牌的成本降低一半(这意味着通过扩展内存,GPU 的吞吐量翻了一番)。
我们认为,英伟达有可能想要打造一台性能更强大的推理机器,而这台机器并非完全基于其现有的GPU架构,Groq和Enfabrica的技术将在其中发挥作用。但同样有可能的是,这两笔收购交易的真正目的是为了阻止其他公司抢占先机。而更有可能的是,两者兼而有之。
https://www.nextplatform.com/2026/01/16/is-nvidia-assembling-the-parts-for-its-next-inference-platform/
(来源:编译自nextplatform)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4290期内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.