![]()
当行业领导者花费200亿美元去授权一家创业公司的技术时,这通常意味着两件事,要么他们看到了致命威胁,要么他们看到了未来。对于英伟达与Groq达成的战略授权协议而言,这两者都成立。2026年初的这笔交易,标志着统治人工智能领域近十年的通用GPU架构正在走向终结,一个高度专业化的推理时代已经到来。
这不是一次简单的技术收购。英伟达首席执行官黄仁勋动用了公司据称高达600亿美元现金储备的三分之一,换取的是Groq的推理技术授权和工程团队。这种结构让所有人都得到了回报,但更重要的是,它揭示了英伟达对未来的判断,拥有92%市场份额的巨头承认,单一架构无法应对即将到来的推理革命。
2025年末,德勤的一份报告标志着行业的拐点。推理阶段的收入首次超过了训练阶段,在数据中心总收入中占据主导地位。这场"推理翻转"改变了游戏规则,衡量标准不再只是准确率,延迟和自主代理维护状态的能力成为新的竞争焦点。
从统一到分裂的必然
要理解这笔交易的深层逻辑,需要了解推理工作负载的本质变化。大型语言模型的推理分为两个截然不同的阶段,预填充和解码,它们的计算特征完全不同。
预填充阶段是用户"提示"的处理过程。模型必须接收海量数据,无论是10万行代码库还是一小时的视频,并计算出上下文理解。这是一个计算密集型过程,需要大量的矩阵乘法运算,正是英伟达GPU历来擅长的领域。GPU通过成千上万个并行计算核心,能够高效处理这种大规模数据吞吐。
解码阶段则是逐个词元生成的过程。一旦接收到提示信息,模型就会一次生成一个单词或词元,并将每个词元反馈到系统中以预测下一个。这一阶段受限于内存带宽,如果数据无法足够快地从内存传输到处理器,无论GPU性能多么强大,模型都会出现卡顿。
Groq投资者加文·贝克简洁地总结了交易的核心驱动力,推理正在分解为预填充和解码。这种分解不是理论推演,而是实际需求的必然结果。当代理型人工智能需要处理百万级上下文窗口时,传统的统一架构开始力不从心。
英伟达的应对策略体现在即将推出的Vera Rubin系列芯片中。该系列中的Rubin CPX组件是指定的预填充主力,针对超大上下文窗口进行了优化。为了以经济高效的方式处理庞大数据规模,它摒弃了成本高昂的高带宽内存HBM,转而采用128GB的GDDR7。虽然HBM提供了极高的速度,但其在GPU上的供应有限且成本高昂,限制了规模化应用,GDDR7则提供了一种更具成本效益的方式来摄取海量数据集。
与此同时,英伟达正在整合Groq风格的芯片作为高速解码引擎。这种专用芯片的核心优势在于SRAM,即静态随机存取存储器。与PC中的DRAM或英伟达H100 GPU上的HBM不同,SRAM直接蚀刻在处理器的逻辑芯片中。
微软风险投资基金M12的管理合伙人迈克尔·斯图尔特指出,SRAM是短距离低能耗数据传输的最佳选择。在SRAM中传输一个比特所需的能量只有0.1皮焦耳甚至更少,而在DRAM和处理器之间传输数据,能耗则要高出20到100倍。
CUDA护城河的防御战
这笔交易的战略意义远超技术本身。英伟达面临的威胁来自多个方向,其中最具颠覆性的是Anthropic成功实现了技术栈的跨平台移植。
该公司构建了一个可移植的训练和推理工程方法,使其Claude模型能够在多个AI加速器系列上运行,包括英伟达的GPU和谷歌的TPU。直到最近,英伟达的统治地位才得以巩固,因为在英伟达技术栈之外运行高性能模型是一项技术难题。Weka公司首席人工智能官Val Bercovici表示,Anthropic能够构建一个既能在TPU上运行也能在GPU上运行的软件栈,这一点在市场上还没有得到足够的重视。
Anthropic近期承诺从谷歌获取多达100万个TPU,相当于超过1吉瓦的计算能力。这种多平台策略确保该公司不会受制于英伟达的价格或供应限制。对英伟达而言,收购Groq同样是一项防御性举措,通过整合Groq的超高速推理IP,英伟达确保了对性能要求最高的工作负载能够在CUDA生态系统中得到满足。
CUDA是英伟达十多年来的主要竞争优势所在。这个专用软件平台为开发者提供了集成GPU的便捷途径,但也构建了一道高耸的护城河。一旦开发者的代码深度依赖CUDA,转向其他平台的成本就变得极其高昂。贝克预测,英伟达授权Groq的举措将导致所有其他专用AI芯片被边缘化,除了谷歌的TPU、特斯拉的AI5和AWS的Trainium之外。
代理型人工智能的崛起进一步强化了这种架构分离的必要性。Meta两天前收购代理先驱Manus,恰好发生在Groq交易之前,凸显了状态维护的重要性。
键值缓存是大型语言模型在预填充阶段构建的短期记忆。Manus报告称,对于生产级代理,输入词元与输出词元的比例可以达到100比1。这意味着代理每说一个词,它都在思考和记住其他100个词。在这种环境下,键值缓存命中率是最重要的指标,如果该缓存从内存中清除,代理就会中断其思路,模型必须消耗大量能量来重新计算提示信息。
Groq的SRAM可以作为这些代理的暂存区,主要适用于较小的模型,因为它允许近乎瞬时地检索状态。结合英伟达的Dynamo框架和KVBM,英伟达正在构建一个推理操作系统,使推理服务器能够将状态分层存储在SRAM、DRAM、HBM以及其他基于闪存的产品中。
2026年的新游戏规则
Supermicro公司技术赋能高级总监Thomas Jorgensen指出,计算能力不再是高级集群的主要瓶颈。此前瓶颈在于如何向GPU提供数据,而突破这一瓶颈需要内存。整个集群现在就是一台计算机,网络变成了这台巨兽的内部组成部分,向这台巨兽输送数据变得越来越困难,因为GPU之间的带宽增长速度比其他任何因素都快。
这就是英伟达大力推进解耦式推理的原因。通过分离工作负载,企业应用可以使用专用存储层以内存级性能传输数据,而专用的Groq内核芯片则负责高速词元生成。
Weka的Bercovici认为,市场细分正是基于这种技术特性。Groq兼容的AI工作负载指的是那些使用参数量在80亿及以下的小型模型,但这并非一个小市场。这是一个巨大的细分市场,此前英伟达并未涉足,它涵盖了边缘推理、低延迟、机器人、语音、物联网设备等领域。
80亿参数这个最佳平衡点意义重大,因为2025年模型精简技术迎来爆发式增长,许多企业正在将庞大的模型缩小为高效的小型版本。虽然SRAM不适用于参数量高达万亿的前沿模型,但它非常适合这些小型高速的模型。
M12的斯图尔特指出,英伟达正在发出信号表明它不会重蹈英特尔的覆辙。英特尔长期以来对低功耗技术的忽视导致其在移动时代失去主导地位,如果连行业领头羊都会去招揽人才引进技术,这表明整个市场都渴望拥有更多选择。
对于技术领导者而言,关键在于停止将技术栈架构设计成单一机架单一加速器单一解决方案。到2026年,那些能够明确标记工作负载并将其路由到正确层级的团队将占据优势,预填充型对解码型,长语境与短语境,交互式与批处理,小型号与大型号,边缘约束与数据中心假设。
你的架构将遵循这些标签。到2026年,GPU策略不再是购买决策,而是路由决策。赢家不会问他们买了哪款芯片,而是会问每个词元运行在哪里,以及为什么。
通用GPU的时代正在落幕,但这并非英伟达的衰落,而是其自我进化的开始。当统治者主动拆解自己的王冠重新铸造时,革命就已经被纳入了体制之内。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.