GPU帝国松动：哪些推理芯片正在重写AI算力格局|内存|gpu|英伟达|英特尔|固态硬盘|知名企业|nvidia

分享至

芯片界曾有句老话：真正的硬汉，要有自己的晶圆厂。

现在这句话正在被改写：真正的大模型公司，迟早都要掌握自己的算力命运。

谁能以更低成本、更低延迟、更高稳定性生产token，谁就能建立起真正可持续的AI商业模式。

过去，通用GPU几乎是AI算力的唯一答案。它足够强、足够通用，也有最成熟的软件生态。但进入推理和智能体时代，一个能同时训练和推理的通用GPU，开始暴露出两个越来越明显的弱点：一方面，它未必是最低成本、最低延迟的推理机器；另一方面，它要求围绕单一GPU集群构建巨大的算力系统，越来越难以适应AI应用日益灵活、分布式、低延迟的需求。

AI算力正在按照任务重新分工。训练、预填充、解码、长上下文、KV缓存、工具执行和系统编排，不再天然属于同一种芯片。

智能体与“推理危机”

上半年推理收入增长快的背后，是巨大的毛利压力。每家AI企业都面临训练的资本开支，以及推理的持续运营成本。智能体、多轮推理、长上下文、代码生成、工具调用会让每个用户请求背后的token消耗成倍放大。推理不是一次性买设备的问题，而是日复一日烧电、烧带宽、烧HBM、烧机房的成本问题。从扎克伯格在内部承认Meta的智能体技术进展“没有像预期那样加速”，到中国号称token工厂的企业顶着巨额亏损准备上市，都可以看出在诸多AI企业中，token经济仍有待于确立。

GPU不只是一块芯片，而是一整条稀缺供应链，用紧缺的供应链支撑高毛利的通用GPU芯片——它迫使短期内专用定制的功能成本更高，这是黄仁勋高明的策略。但是，当这种供应链短缺和英伟达GPU高毛利长期化时，企业开始把AI工作负载拆开，把最稀缺、最昂贵的GPU留给最适合它的任务，把其他任务交给更专用、更便宜、更低延迟或更省电的芯片。

HBM和先进封装的瓶颈，会直接推动内存架构创新。当电力和机房成为硬约束时，企业就会更愿意采用专用芯片。因为哪怕专用芯片不如GPU通用，但如果它在某一类推理任务上能把每瓦token产出提高几倍，就值得部署。

主要用于推理的定制芯片（ASIC），正在成为与CPU、GPU并列的芯片。在推理领域，还会出现进一步分化，在预填充（prefill）阶段和解码（decode）阶段，需要的算力也非常不一样。前者需要消耗大量的计算和高带宽存储，后者需要更快的速度。现在，开始出现专门用于预填充和专门用于解码的芯片了。

更有甚者，英特尔主张把预填充交给GPU，解码交给专用推理芯片，智能体工具执行和系统编排交给CPU。

AI推理成为巨大的瓶颈，它正在定义AI算力的竞争，不再为了谁的GPU更强，而是开始按推理阶段、延迟要求、内存结构、数据流方式重新分化。甚至Flops都不再是最重要的指标。

所有这些，既是“推理危机”给芯片带来的创新机会，也是各大AI企业摆脱过于依赖甚至替代通用GPU的共识和集体行动。

上半年，OpenAI不仅宣布与Cerebras合作，而且推出自研芯片Jalapeño；Anthropic也开始研发自己的定制芯片，媒体传制程可能放到2纳米；谷歌的TPU推出了第八代，明确区分了训练与推理；Anthropic准备采购Fractile芯片。此外，还有英特尔加大投资SambaNova，以及微软支持的D-Matrix。最近，一家名叫Etched的初创公司也开始撩起面纱，很快交付机架级别的产品。

黄仁勋则早已果断地用200亿美元获得了Groq-LPU技术和团队。Cerebras首席执行官费尔德曼（Andrew Feldman）认为，“这反映了一个日益严峻的行业现实——推理市场正在碎片化，一个新的类别已经出现，在这个类别中，速度不再是优势，而是全部价值所在。而这种价值只有通过不同于GPU的芯片架构才能实现。”

五种“反GPU”路径

Cerebras的极端方法，是用整片晶圆消灭跨芯片通信瓶颈。它的核心创新是晶圆级计算（wafer-scale computing）。传统GPU是把一片晶圆切成很多小芯片，再通过NVLink、InfiniBand、以太网等方式把许多芯片连起来。Cerebras反过来，直接把整片晶圆做成一个巨型处理器WSE-3。

WSE-3 的规格非常极端：46,225 平方毫米，4 万亿晶体管，90 万个 AI 优化核心，125 PFLOPS 算力。CS-3 系统还标称 44GB 片上 SRAM、21PB/s 内存带宽、214Pb/s片上互连带宽。所以 Cerebras 试图反GPU之道而行之，用一个超大芯片，减少多芯片系统的同步、通信和调度成本。

这样的架构把原来GPU集群里最麻烦的跨芯片通信，尽量压缩到一片晶圆内部完成。这对推理尤其关键。因为解码阶段每生成一个token都要经过模型层，层与层之间、张量分片之间的通信如果要跨很多GPU，就会带来不可忽视的延迟。Cerebras试图用一个巨型片上架构把这些通信内部化。

OpenAI正是看中了Cerebras会作为其推理栈中的专用低延迟方案。双方合作的750MW超低延迟推理算力，将分阶段上线，也可以看成OpenAI对这种路线的正式验证。

（WSE 3与GPU B200对比，来源：Cerebras官网）

Groq的LPU路线和Cerebras不同。它不是做一整片晶圆，而是做一种确定性、数据流式、面向语言模型推理的专用处理器。所谓确定性，就是它的并行计算与GPU动态概率式的不同，牺牲了一些通用性，增加了推理速度。

Groq的核心思想是：GPU用大量线程掩盖延迟；LPU尽量让延迟变得可预测。LPU强调片上SRAM、固定调度、显式数据流。

英伟达把Groq技术纳入Vera Rubin平台之后，推出了NVIDIA Groq 3 LPX。官方规格显示，每个LPU有500MB SRAM、150TB/s SRAM带宽、2.5TB/s机架内（scale up）带宽；一个LPX机架有256个LPU，总计128GB SRAM、40PB/s SRAM带宽、640TB/s机架外（scale-up）带宽。这个就是要用极高带宽的SRAM来加速低延迟token生成。

更关键的是，英伟达并不是把Groq LPU 当成 GPU 的替代品，而是把它和 Rubin GPU 配成一个异构系统， Vera Rubin NVL72 + LPX 是把 Rubin GPU 的大 HBM 容量与 SRAM-only LPU 的高带宽结合起来，以同时满足长上下文、高吞吐和低延迟。

黄仁勋也到处强调，英伟达不是一家GPU公司，而是一家加速计算系统公司，因为他对形势洞若观火，未来推理不是单一GPU架构包打天下，而是GPU + LPU + CPU +网络+存储的系统级组合。

Google TPU 8t / 8i，第一次把训练TPU和推理TPU明确分化，这是谷歌第八代TPU最重要的范式变化。TPU 8t面向大规模预训练，TPU 8i面向采样、服务和推理。训练和推理的硬件需求已经明显分化。

TPU 8t：

-继续使用3D torus拓扑，扩大到9,600芯片级别的超级节点；

-稀疏核（SparseCore）处理嵌入查表（embedding lookup）和不规则内存访问，主要用于推荐、广告、搜索这类超大嵌入表场景中，因为这些场景的稀疏查表非常重；

-向量处理单元/矩阵乘单元(VPU / MXU)重叠执行，让softmax、层归一化（layernorm）、量化等向量操作和矩阵乘更好重叠；提高芯片利用率。

-原生FP4，降低带宽压力；

-Virgo Network提高横向扩展网络能力。

TPU 8i：

-片上SRAM比上一代增加3倍，让更大的KV cache留在硅片上；

-新增集体加速引擎（Collectives Acceleration Engine），用于加速自回归解码、思维链中的归约（reduction）和同步（synchronization）；

-使用Boardfly拓扑，减少全互联通信（all-to-all）跳数，把1024芯片节点的网络直径从3D torus的16跳降到7跳，从而降低尾延迟；

-TPU 8i还拥有更高HBM容量和更高HBM带宽，官方显示288GB HBM、384MB片上SRAM、8,601GB/s HBM带宽。

TPU 8i的架构语言其实和Groq、Cerebras、d-Matrix、SambaNova同频：更大SRAM、更低通信跳数、更快的集体加速、更明确服务解码和推理。

Fractile现在还比较早期，要做新一代处理器，把内存和计算物理交织，以同时实现低延迟和高吞吐，并宣称可让前沿模型推理快25倍、成本降到1/10。

Anthropic与Fractile讨论了早期采购，但这还不是确定的大规模部署。Fractile的芯片可能要到2027年左右才具备商业可用性；其路线是把内存和计算放在同一块裸片硅上，用SRAM代替频繁访问外部DRAM，以缓解GPU与离片DRAM之间的数据搬运瓶颈。

所以Fractile可以看成是更激进的近内存/存内推理（near-memory / in-memory inference）路线。它不是做更快的GPU，而是试图在物理结构上改写冯·诺依曼式内存-计算分离。

但它的风险也最大：目前还没有大规模生产验证，性能更多来自设计目标、早期测试或模拟，难以和Cerebras、TPU、NVIDIA/Groq这类已经进入系统部署的方案等量齐观。

SambaNova的核心是RDU，即可重构数据流单元（Reconfigurable Dataflow Unit）。它的关键不是固定功能ASIC，而是把AI模型图映射到处理器上的数据流路径。SambaNova认为，RDU通过数据流架构和三层内存架构来减少数据移动，降低延迟并提高能效；SN50是第五代RDU，面向大规模智能体负载。

SN50的技术特点包括：

-数据流架构，把模型执行路径映射到处理器上；

-三层内存架构，结合大容量内存、HBM和SRAM；

-支持模型驻留和快速切换，适合智能体在多个模型之间频繁切换；

-支持输入token缓存，以减少预填充和首个输出token时间；

-SambaRack SN50把16个SN50芯片连接起来，支持更大的模型和更高并发。

更有意思的是英特尔与SambaNova的合作。英特尔官方称，这个异构推理蓝图会用GPU做预填充，用SambaNova RDU做高吞吐解码，用Xeon 6做主机和执行CPU。

这几乎是当下推理架构分化的教科书案例：预填充交给GPU，解码交给专用推理芯片，智能体工具执行和系统编排交给CPU。这里面依稀看到英特尔在AI时代重回计算中心的野心。

d-Matrix的路线是DIMC，即数字内存计算（Digital In-Memory Compute）。传统加速器使用HBM，但受限于内存和计算物理分离的冯·诺依曼结构；d-Matrix的方法是在逻辑处理中把乘法器集成进内存位单元，让计算更靠近数据，从而降低能耗和延迟。它还强调数字存内计算相比模拟存内计算更抗噪、更灵活。

这个存内计算AI平台Corsair的特点包括：

-数字存内计算；

-高性能片上内存，用于高速交互；

-容量型片外内存，用于更大批处理推理；

-block floating point / microscaling数值格式；

-微芯粒(chiplet)架构；

-DMX Link / DMX Bridge等低延迟互连，即chiplet中不同祼芯片之间的连接，以及不同Corsair芯片之间的连接；

-JetStream自定义NIC，用于加速器之间通信。

Corsair双卡有4GB Performance Memory、300TB/s带宽；一个8卡推理服务器有16GB Performance Memory、1200TB/s；一个推理机架有128GB高性能片上内存、9.6PB/s，并宣称可在Llama3 8B单服务器上做到60,000 tokens/s、1ms/token，在Llama3 70B单机架上做到30,000 tokens/s、2ms/token。d-Matrix和Fractile都认为，推理芯片的未来不只是加更多算力，而是把计算挪到内存附近，甚至内存内部。

最近，Etched撩开了一点面纱。它号称要为Transformer定制一款芯片，以放弃通用性换取极致效率。今年初也在台积电完成4纳米制程的流片，其数学单元在“低于大多数AI芯片一半的电压”下工作，从而提升FLOPs密度，并声称能让“万亿参数级稀疏MoE”在80%以上峰值FLOPs下运行而不热到降频。

它在机架域内设计了一个低延迟共享内存池，主要是在芯片间显著降低了内存互访的延迟。HBM/SRAM混合设计同时解决了内存容量和内存到内存时延的问题，从而能够同时兼顾高吞吐和交互式响应能力。

基于这一所谓集群规模内存（Cluster Scale Memory），Etched要打造AI硬件的“新物种”：前沿推理集群。它们手中有10亿美元订单，将于夏季交付第一台机架部署到数据中心。

对于解决“推理危机”有多大帮助

这些芯片看起来有点五花八门，但共同点非常清楚。

第一，它们都在围绕“内存墙”做文章。

第二，都不再把FLOPS当作唯一指标。推理真正关心的是：

-首token延迟(time to first token)；

-单用户token生成速度(tokens per second per user)；

-尾延迟(tail latency)；

-单位token成本(cost per token)；

-单位能耗产出(tokens per watt)；

-高并发下是否还能保持延迟(concurrency)。

第三，都在做“数据流化”。GPU更像动态调度的通用并行机器，而这些新架构更像把模型图映射到硬件流水线上，让数据在哪里、什么时候到达、经过哪个单元，都尽量提前安排。

第四，都在成为异构化算力的核心部件。英伟达的Vera Rubin + Groq 3 LPX、Intel + SambaNova、Google TPU 8t / 8i，都说明未来不会是一种芯片做完所有事情，而是训练、预填充、解码、KV缓存、工具执行、网络、存储各自分工。

第五，都服务于“智能体推理”。智能体不是一次问答，而是多轮推理、多次工具调用、多模型切换、长上下文复用。

它们要解决问题的核心，是低延迟解码，这是Groq LPU、Cerebras、TPU 8i、d-Matrix、SambaNova、Fractile共同瞄准的目标。

能耗和成本也是一个重要考虑。如果减少离片内存访问，能耗会显著降低，因为数据搬运往往比计算本身更贵。

智能体的链式调用速度决定了用户体验，如果一个智能体要调用模型几十次、几百次，单次响应从300ms降到30ms，工作流能力会发生质变。费尔德曼说“速度不再是优势，而是全部价值”，主要就是针对这种场景。

但它们不能完全解决超大模型容量问题，SRAM很快，但密度低、成本高。没有人真的只靠SRAM解决所有模型容量问题。

软件迁移问题也很麻烦，CUDA、PyTorch、Triton、vLLM、TensorRT-LLM、XLA、JAX这些软件栈非常重要，AI就“原生”其间。硬件快，但如果编译器、运行时、内核、模型支持不成熟，很难大规模替代GPU。

低延迟和高吞吐有时是矛盾的，极低延迟往往牺牲批处理效率（batch efficiency）；高吞吐批处理又可能牺牲交互速度。不同客户会选择不同最优点。

供应链和部署也是必须要跨越的死亡之谷，Cerebras的晶圆级封装、Fractile的新型内存-计算结构、d-Matrix的数字存内计算（DIMC）和芯粒互连，都会面临量产、良率、可靠性、冷却和数据中心适配问题。

英伟达的护城河还挺深

这些芯片会让推理市场碎片化，也不会立即毁了英伟达的护城河。英伟达的真正护城河早已不只是GPU芯片本身，而是协同设计的软件和硬件，有机的系统和庞大的生态。

黄仁勋最初用CUDA构筑了一个生态，一道深深的护城河。虽然他主张主权AI，但是，他认为所有的主权AI，都应该跑在美国的AI平台上，实际上也就是英伟达的通用GPU平台上。他还抛出了一个五层蛋糕理论，从电力到应用，构成了英伟达以算力为核心经济与产业体系，也从上游的供应链到下游的模型和应用，构筑了它的战略防御纵深。

除了技术和系统，英伟达还在扮演“算力央行”，用其强大的资产负责表，支持整个生态中的重大、前沿项目的融资。它们不仅短期支撑着英伟达业务的增长和高毛利，还长期锁定客户、供应链和前沿技术。

黄仁勋对于整个算力基础设施拥有最深刻的洞察，他总能最先发现下一个瓶颈，并通过研发、并购、供应链锁定、生态合作等方式，把瓶颈的解决内化到他的系统中去。

在推理芯片市场，英伟达近年来市场份额实际上已增长至74%。黄仁勋坚称，英伟达的芯片在推理处理方面比任何其他替代方案都更有效。

参考文献：

https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale "Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale| Groq is fast, low cost inference."

https://sambanova.ai/blog/introducing-the-sn50-rdu-purpose-built-for-agentic-inference "Introducing the SN50 RDU: Purpose-Built for Agentic Inference"

https://openai.com/index/cerebras-partnership/ "OpenAI partners with Cerebras | OpenAI"

https://www.cerebras.ai/chip "Product - Chip - Cerebras"

https://www.cerebras.ai/system "Product - System - Cerebras"

https://www.nvidia.com/en-us/data-center/lpx/ "AI Inference Accelerator | NVIDIA Groq 3 LPX "

https://developer.nvidia.com/blog/nvidia-vera-rubin-pod-seven-chips-five-rack-scale-systems-one-ai-supercomputer/ "NVIDIA Vera Rubin POD: Seven Chips, Five Rack-Scale Systems, One AI Supercomputer | NVIDIA Technical Blog"

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive "TPU 8t and TPU 8i technical deep dive | Google Cloud Blog"

https://www.fractile.ai/ "Fractile - Radically Accelerate Frontier Model Inference"

https://www.tomshardware.com/tech-industry/artificial-intelligence/anthropic-in-early-talks-to-buy-inference-chips-from-uk-startup-fractile "Anthropic in early talks to buy DRAM-less AI inference chips from UK startup—Fractile's SRAM architecture reduces need for pricey memory during extreme pricing and shortage crunch | Tom's Hardware"

https://sambanova.ai/products/rdu-ai-chips "RDU | Next-Gen AI Chip for Inference at Scale"

https://newsroom.intel.com/artificial-intelligence/intel-and-sambanova-advance-agentic-ai-with-xeon-6 "Intel and SambaNova Advance Agentic AI with Xeon 6 - Intel Newsroom"

https://www.d-matrix.ai/product/ "d-Matrix Corsair AI Platform | In-Memory Computing for AI"

https://www.d-matrix.ai/announcements/d-matrix-raises-275-million-to-power-the-age-of-ai-inference/ "d-Matrix Raises $275 Million to Power the Age of AI Inference - d-Matrix"

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.