网易首页 > 网易号 > 正文 申请入驻

GPU帝国松动:哪些推理芯片正在重写AI算力格局

0
分享至

芯片界曾有句老话:真正的硬汉,要有自己的晶圆厂。

现在这句话正在被改写:真正的大模型公司,迟早都要掌握自己的算力命运。

谁能以更低成本、更低延迟、更高稳定性生产token,谁就能建立起真正可持续的AI商业模式。

过去,通用GPU几乎是AI算力的唯一答案。它足够强、足够通用,也有最成熟的软件生态。但进入推理和智能体时代,一个能同时训练和推理的通用GPU,开始暴露出两个越来越明显的弱点:一方面,它未必是最低成本、最低延迟的推理机器;另一方面,它要求围绕单一GPU集群构建巨大的算力系统,越来越难以适应AI应用日益灵活、分布式、低延迟的需求。

AI算力正在按照任务重新分工。训练、预填充、解码、长上下文、KV缓存、工具执行和系统编排,不再天然属于同一种芯片。

智能体与“推理危机”

上半年推理收入增长快的背后,是巨大的毛利压力。每家AI企业都面临训练的资本开支,以及推理的持续运营成本。智能体、多轮推理、长上下文、代码生成、工具调用会让每个用户请求背后的token消耗成倍放大。推理不是一次性买设备的问题,而是日复一日烧电、烧带宽、烧HBM、烧机房的成本问题。从扎克伯格在内部承认Meta的智能体技术进展“没有像预期那样加速”,到中国号称token工厂的企业顶着巨额亏损准备上市,都可以看出在诸多AI企业中,token经济仍有待于确立。

GPU不只是一块芯片,而是一整条稀缺供应链,用紧缺的供应链支撑高毛利的通用GPU芯片——它迫使短期内专用定制的功能成本更高,这是黄仁勋高明的策略。但是,当这种供应链短缺和英伟达GPU高毛利长期化时,企业开始把AI工作负载拆开,把最稀缺、最昂贵的GPU留给最适合它的任务,把其他任务交给更专用、更便宜、更低延迟或更省电的芯片。

HBM和先进封装的瓶颈,会直接推动内存架构创新。当电力和机房成为硬约束时,企业就会更愿意采用专用芯片。因为哪怕专用芯片不如GPU通用,但如果它在某一类推理任务上能把每瓦token产出提高几倍,就值得部署。

主要用于推理的定制芯片(ASIC),正在成为与CPU、GPU并列的芯片。在推理领域,还会出现进一步分化,在预填充(prefill)阶段和解码(decode)阶段,需要的算力也非常不一样。前者需要消耗大量的计算和高带宽存储,后者需要更快的速度。现在,开始出现专门用于预填充和专门用于解码的芯片了。

更有甚者,英特尔主张把预填充交给GPU,解码交给专用推理芯片,智能体工具执行和系统编排交给CPU。

AI推理成为巨大的瓶颈,它正在定义AI算力的竞争,不再为了谁的GPU更强,而是开始按推理阶段、延迟要求、内存结构、数据流方式重新分化。甚至Flops都不再是最重要的指标。

所有这些,既是“推理危机”给芯片带来的创新机会,也是各大AI企业摆脱过于依赖甚至替代通用GPU的共识和集体行动。

上半年,OpenAI不仅宣布与Cerebras合作,而且推出自研芯片Jalapeño;Anthropic也开始研发自己的定制芯片,媒体传制程可能放到2纳米;谷歌的TPU推出了第八代,明确区分了训练与推理;Anthropic准备采购Fractile芯片。此外,还有英特尔加大投资SambaNova,以及微软支持的D-Matrix。最近,一家名叫Etched的初创公司也开始撩起面纱,很快交付机架级别的产品。

黄仁勋则早已果断地用200亿美元获得了Groq-LPU技术和团队。Cerebras首席执行官费尔德曼(Andrew Feldman)认为,“这反映了一个日益严峻的行业现实——推理市场正在碎片化,一个新的类别已经出现,在这个类别中,速度不再是优势,而是全部价值所在。而这种价值只有通过不同于GPU的芯片架构才能实现。”

五种“反GPU”路径


Cerebras的极端方法,是用整片晶圆消灭跨芯片通信瓶颈。它的核心创新是晶圆级计算(wafer-scale computing)。传统GPU是把一片晶圆切成很多小芯片,再通过NVLink、InfiniBand、以太网等方式把许多芯片连起来。Cerebras反过来,直接把整片晶圆做成一个巨型处理器WSE-3。

WSE-3 的规格非常极端:46,225 平方毫米,4 万亿晶体管,90 万个 AI 优化核心,125 PFLOPS 算力。CS-3 系统还标称 44GB 片上 SRAM、21PB/s 内存带宽、214Pb/s片上互连带宽。所以 Cerebras 试图反GPU之道而行之,用一个超大芯片,减少多芯片系统的同步、通信和调度成本。

这样的架构把原来GPU集群里最麻烦的跨芯片通信,尽量压缩到一片晶圆内部完成。这对推理尤其关键。因为解码阶段每生成一个token都要经过模型层,层与层之间、张量分片之间的通信如果要跨很多GPU,就会带来不可忽视的延迟。Cerebras试图用一个巨型片上架构把这些通信内部化。

OpenAI正是看中了Cerebras会作为其推理栈中的专用低延迟方案。双方合作的750MW超低延迟推理算力,将分阶段上线,也可以看成OpenAI对这种路线的正式验证。


(WSE 3与GPU B200对比,来源:Cerebras官网)

Groq的LPU路线和Cerebras不同。它不是做一整片晶圆,而是做一种确定性、数据流式、面向语言模型推理的专用处理器。所谓确定性,就是它的并行计算与GPU动态概率式的不同,牺牲了一些通用性,增加了推理速度。

Groq的核心思想是:GPU用大量线程掩盖延迟;LPU尽量让延迟变得可预测。LPU强调片上SRAM、固定调度、显式数据流。

英伟达把Groq技术纳入Vera Rubin平台之后,推出了NVIDIA Groq 3 LPX。官方规格显示,每个LPU有500MB SRAM、150TB/s SRAM带宽、2.5TB/s机架内(scale up)带宽;一个LPX机架有256个LPU,总计128GB SRAM、40PB/s SRAM带宽、640TB/s机架外(scale-up)带宽。这个就是要用极高带宽的SRAM来加速低延迟token生成。

更关键的是,英伟达并不是把Groq LPU 当成 GPU 的替代品,而是把它和 Rubin GPU 配成一个异构系统, Vera Rubin NVL72 + LPX 是把 Rubin GPU 的大 HBM 容量与 SRAM-only LPU 的高带宽结合起来,以同时满足长上下文、高吞吐和低延迟。

黄仁勋也到处强调,英伟达不是一家GPU公司,而是一家加速计算系统公司,因为他对形势洞若观火,未来推理不是单一GPU架构包打天下,而是GPU + LPU + CPU +网络+存储的系统级组合。

Google TPU 8t / 8i,第一次把训练TPU和推理TPU明确分化,这是谷歌第八代TPU最重要的范式变化。TPU 8t面向大规模预训练,TPU 8i面向采样、服务和推理。训练和推理的硬件需求已经明显分化。

TPU 8t

-继续使用3D torus拓扑,扩大到9,600芯片级别的超级节点;

-稀疏核(SparseCore)处理嵌入查表(embedding lookup)和不规则内存访问,主要用于推荐、广告、搜索这类超大嵌入表场景中,因为这些场景的稀疏查表非常重;

-向量处理单元/矩阵乘单元(VPU / MXU)重叠执行,让softmax、层归一化(layernorm)、量化等向量操作和矩阵乘更好重叠;提高芯片利用率。

-原生FP4,降低带宽压力;

-Virgo Network提高横向扩展网络能力。

TPU 8i

-片上SRAM比上一代增加3倍,让更大的KV cache留在硅片上;

-新增集体加速引擎(Collectives Acceleration Engine),用于加速自回归解码、思维链中的归约(reduction)和同步(synchronization);

-使用Boardfly拓扑,减少全互联通信(all-to-all)跳数,把1024芯片节点的网络直径从3D torus的16跳降到7跳,从而降低尾延迟;

-TPU 8i还拥有更高HBM容量和更高HBM带宽,官方显示288GB HBM、384MB片上SRAM、8,601GB/s HBM带宽。

TPU 8i的架构语言其实和Groq、Cerebras、d-Matrix、SambaNova同频:更大SRAM、更低通信跳数、更快的集体加速、更明确服务解码和推理。

Fractile现在还比较早期,要做新一代处理器,把内存和计算物理交织,以同时实现低延迟和高吞吐,并宣称可让前沿模型推理快25倍、成本降到1/10。

Anthropic与Fractile讨论了早期采购,但这还不是确定的大规模部署。Fractile的芯片可能要到2027年左右才具备商业可用性;其路线是把内存和计算放在同一块裸片硅上,用SRAM代替频繁访问外部DRAM,以缓解GPU与离片DRAM之间的数据搬运瓶颈。

所以Fractile可以看成是更激进的近内存/存内推理(near-memory / in-memory inference)路线。它不是做更快的GPU,而是试图在物理结构上改写冯·诺依曼式 内存-计算分离。

但它的风险也最大:目前还没有大规模生产验证,性能更多来自设计目标、早期测试或模拟,难以和Cerebras、TPU、NVIDIA/Groq这类已经进入系统部署的方案等量齐观。

SambaNova的核心是RDU,即可重构数据流单元(Reconfigurable Dataflow Unit)。它的关键不是固定功能ASIC,而是把AI模型图映射到处理器上的数据流路径。SambaNova认为,RDU通过数据流架构和三层内存架构来减少数据移动,降低延迟并提高能效;SN50是第五代RDU,面向大规模智能体负载。

SN50的技术特点包括:

-数据流架构,把模型执行路径映射到处理器上;

-三层内存架构,结合大容量内存、HBM和SRAM;

-支持模型驻留和快速切换,适合智能体在多个模型之间频繁切换;

-支持输入token缓存,以减少预填充和首个输出token时间;

-SambaRack SN50把16个SN50芯片连接起来,支持更大的模型和更高并发。

更有意思的是英特尔与SambaNova的合作。英特尔官方称,这个异构推理蓝图会用GPU做预填充,用SambaNova RDU做高吞吐解码,用Xeon 6做主机和执行CPU。

这几乎是当下推理架构分化的教科书案例:预填充交给GPU,解码交给专用推理芯片,智能体工具执行和系统编排交给CPU。这里面依稀看到英特尔在AI时代重回计算中心的野心。

d-Matrix的路线是DIMC,即数字内存计算(Digital In-Memory Compute)。传统加速器使用HBM,但受限于内存和计算物理分离的冯·诺依曼结构;d-Matrix的方法是在逻辑处理中把乘法器集成进内存位单元,让计算更靠近数据,从而降低能耗和延迟。它还强调数字存内计算相比模拟存内计算更抗噪、更灵活。

这个存内计算AI平台Corsair的特点包括:

-数字存内计算;

-高性能片上内存,用于高速交互;

-容量型片外内存,用于更大批处理推理;

-block floating point / microscaling数值格式;

-微芯粒(chiplet)架构;

-DMX Link / DMX Bridge等低延迟互连,即chiplet中不同祼芯片之间的连接,以及不同Corsair芯片之间的连接;

-JetStream自定义NIC,用于加速器之间通信。

Corsair双卡有4GB Performance Memory、300TB/s带宽;一个8卡推理服务器有16GB Performance Memory、1200TB/s;一个推理机架有128GB高性能片上内存、9.6PB/s,并宣称可在Llama3 8B单服务器上做到60,000 tokens/s、1ms/token,在Llama3 70B单机架上做到30,000 tokens/s、2ms/token。d-Matrix和Fractile都认为,推理芯片的未来不只是加更多算力,而是把计算挪到内存附近,甚至内存内部。

最近,Etched撩开了一点面纱。它号称要为Transformer定制一款芯片,以放弃通用性换取极致效率。今年初也在台积电完成4纳米制程的流片,其数学单元在“低于大多数AI芯片一半的电压”下工作,从而提升FLOPs密度,并声称能让“万亿参数级稀疏MoE”在80%以上峰值FLOPs下运行而不热到降频。

它在机架域内设计了一个低延迟共享内存池,主要是在芯片间显著降低了内存互访的延迟。HBM/SRAM混合设计同时解决了内存容量和内存到内存时延的问题,从而能够同时兼顾高吞吐和交互式响应能力。

基于这一所谓集群规模内存(Cluster Scale Memory),Etched要打造AI硬件的“新物种”:前沿推理集群。它们手中有10亿美元订单,将于夏季交付第一台机架部署到数据中心。


对于解决“推理危机”有多大帮助

这些芯片看起来有点五花八门,但共同点非常清楚。

第一,它们都在围绕“内存墙”做文章。

第二,都不再把FLOPS当作唯一指标。推理真正关心的是:

-首token延迟(time to first token);

-单用户token生成速度(tokens per second per user);

-尾延迟(tail latency);

-单位token成本(cost per token);

-单位能耗产出(tokens per watt);

-高并发下是否还能保持延迟(concurrency)。

第三,都在做“数据流化”。GPU更像动态调度的通用并行机器,而这些新架构更像把模型图映射到硬件流水线上,让数据在哪里、什么时候到达、经过哪个单元,都尽量提前安排。

第四,都在成为异构化算力的核心部件。英伟达的Vera Rubin + Groq 3 LPX、Intel + SambaNova、Google TPU 8t / 8i,都说明未来不会是一种芯片做完所有事情,而是训练、预填充、解码、KV缓存、工具执行、网络、存储各自分工。

第五,都服务于“智能体推理”。智能体不是一次问答,而是多轮推理、多次工具调用、多模型切换、长上下文复用。

它们要解决问题的核心,是低延迟解码,这是Groq LPU、Cerebras、TPU 8i、d-Matrix、SambaNova、Fractile共同瞄准的目标。

能耗和成本也是一个重要考虑。如果减少离片内存访问,能耗会显著降低,因为数据搬运往往比计算本身更贵。

智能体的链式调用速度决定了用户体验,如果一个智能体要调用模型几十次、几百次,单次响应从300ms降到30ms,工作流能力会发生质变。费尔德曼说“速度不再是优势,而是全部价值”,主要就是针对这种场景。

但它们不能完全解决超大模型容量问题,SRAM很快,但密度低、成本高。没有人真的只靠SRAM解决所有模型容量问题。

软件迁移问题也很麻烦,CUDA、PyTorch、Triton、vLLM、TensorRT-LLM、XLA、JAX这些软件栈非常重要,AI就“原生”其间。硬件快,但如果编译器、运行时、内核、模型支持不成熟,很难大规模替代GPU。

低延迟和高吞吐有时是矛盾的,极低延迟往往牺牲批处理效率(batch efficiency);高吞吐批处理又可能牺牲交互速度。不同客户会选择不同最优点。

供应链和部署也是必须要跨越的死亡之谷,Cerebras的晶圆级封装、Fractile的新型内存-计算结构、d-Matrix的数字存内计算(DIMC) 和芯粒互连,都会面临量产、良率、可靠性、冷却和数据中心适配问题。

英伟达的护城河还挺深

这些芯片会让推理市场碎片化,也不会立即毁了英伟达的护城河。英伟达的真正护城河早已不只是GPU芯片本身,而是协同设计的软件和硬件,有机的系统和庞大的生态。

黄仁勋最初用CUDA构筑了一个生态,一道深深的护城河。虽然他主张主权AI,但是,他认为所有的主权AI,都应该跑在美国的AI平台上,实际上也就是英伟达的通用GPU平台上。他还抛出了一个五层蛋糕理论,从电力到应用,构成了英伟达以算力为核心经济与产业体系,也从上游的供应链到下游的模型和应用,构筑了它的战略防御纵深。

除了技术和系统,英伟达还在扮演“算力央行”,用其强大的资产负责表,支持整个生态中的重大、前沿项目的融资。它们不仅短期支撑着英伟达业务的增长和高毛利,还长期锁定客户、供应链和前沿技术。

黄仁勋对于整个算力基础设施拥有最深刻的洞察,他总能最先发现下一个瓶颈,并通过研发、并购、供应链锁定、生态合作等方式,把瓶颈的解决内化到他的系统中去。

在推理芯片市场,英伟达近年来市场份额实际上已增长至74%。黄仁勋坚称,英伟达的芯片在推理处理方面比任何其他替代方案都更有效。

参考文献:

https://groq.com/newsroom/groq-and-nvidia-enter-non-exclusive-inference-technology-licensing-agreement-to-accelerate-ai-inference-at-global-scale "Groq and Nvidia Enter Non-Exclusive Inference Technology Licensing Agreement to Accelerate AI Inference at Global Scale| Groq is fast, low cost inference."

https://sambanova.ai/blog/introducing-the-sn50-rdu-purpose-built-for-agentic-inference "Introducing the SN50 RDU: Purpose-Built for Agentic Inference"

https://openai.com/index/cerebras-partnership/ "OpenAI partners with Cerebras | OpenAI"

https://www.cerebras.ai/chip "Product - Chip - Cerebras"

https://www.cerebras.ai/system "Product - System - Cerebras"

https://www.nvidia.com/en-us/data-center/lpx/ "AI Inference Accelerator | NVIDIA Groq 3 LPX "

https://developer.nvidia.com/blog/nvidia-vera-rubin-pod-seven-chips-five-rack-scale-systems-one-ai-supercomputer/ "NVIDIA Vera Rubin POD: Seven Chips, Five Rack-Scale Systems, One AI Supercomputer | NVIDIA Technical Blog"

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive "TPU 8t and TPU 8i technical deep dive | Google Cloud Blog"

https://www.fractile.ai/ "Fractile - Radically Accelerate Frontier Model Inference"

https://www.tomshardware.com/tech-industry/artificial-intelligence/anthropic-in-early-talks-to-buy-inference-chips-from-uk-startup-fractile "Anthropic in early talks to buy DRAM-less AI inference chips from UK startup—Fractile's SRAM architecture reduces need for pricey memory during extreme pricing and shortage crunch | Tom's Hardware"

https://sambanova.ai/products/rdu-ai-chips "RDU | Next-Gen AI Chip for Inference at Scale"

https://newsroom.intel.com/artificial-intelligence/intel-and-sambanova-advance-agentic-ai-with-xeon-6 "Intel and SambaNova Advance Agentic AI with Xeon 6 - Intel Newsroom"

https://www.d-matrix.ai/product/ "d-Matrix Corsair AI Platform | In-Memory Computing for AI"

https://www.d-matrix.ai/announcements/d-matrix-raises-275-million-to-power-the-age-of-ai-inference/ "d-Matrix Raises $275 Million to Power the Age of AI Inference - d-Matrix"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!FBI在加州州长纽森核心圈子安插内奸,大批加州政客人心惶惶

震惊!FBI在加州州长纽森核心圈子安插内奸,大批加州政客人心惶惶

大洛杉矶LA
2026-07-04 03:39:26
都怕美国出尔反尔,美财长承认:全世界只有中国敢买伊朗石油!

都怕美国出尔反尔,美财长承认:全世界只有中国敢买伊朗石油!

阿龙聊军事
2026-07-03 06:30:06
身在狱中的杜特尔特,突然向菲律宾传回一句话,马科斯有大麻烦了

身在狱中的杜特尔特,突然向菲律宾传回一句话,马科斯有大麻烦了

阿郎娱乐
2026-07-04 02:26:59
天都塌了!今天我去车库开车,发现隔壁车位的邻居居然在黄线上焊了栏杆

天都塌了!今天我去车库开车,发现隔壁车位的邻居居然在黄线上焊了栏杆

张晓磊
2026-06-16 12:00:35
新加坡曝3.9亿AI芯片特大走私案:查封$5600万豪宅、一中国人涉案

新加坡曝3.9亿AI芯片特大走私案:查封$5600万豪宅、一中国人涉案

新加坡万事通
2026-07-03 19:37:27
哈佛大学:一个家庭最大的悲哀,就是全家没一个能上得了台面的人

哈佛大学:一个家庭最大的悲哀,就是全家没一个能上得了台面的人

千秋文化
2026-06-26 20:04:42
中间商赚疯了!网传长城汽车代理要求博主返点90%

中间商赚疯了!网传长城汽车代理要求博主返点90%

鞭牛士
2026-07-03 20:14:07
全国的外卖骑手快2000万了,但这个行业真正需要的只有400万人

全国的外卖骑手快2000万了,但这个行业真正需要的只有400万人

流苏晚晴
2026-07-02 19:40:03
0时0分准时生效,中国反制很快,日本财政恐爆雷,高市开始自救

0时0分准时生效,中国反制很快,日本财政恐爆雷,高市开始自救

影孖看世界
2026-07-02 23:59:16
心理学上说:永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦,不炫耀成功,不说三道四,不假装聪明

心理学上说:永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦,不炫耀成功,不说三道四,不假装聪明

心理观察局
2026-07-02 06:26:09
三星新折叠屏一周拒展开实测,外屏体验出人意料

三星新折叠屏一周拒展开实测,外屏体验出人意料

固件更新中
2026-07-03 02:50:47
网约车司机晒6月流水,有人跑了4万多,同行:我跑了个寂寞

网约车司机晒6月流水,有人跑了4万多,同行:我跑了个寂寞

网约车观察室
2026-07-02 09:57:24
美国越疯狂,中国越克制?面对美国的诱战,中国为何不拍案而起?

美国越疯狂,中国越克制?面对美国的诱战,中国为何不拍案而起?

点燃好奇心
2026-07-04 00:45:22
DC掌门人亲自回应:瑞安·雷诺兹回归《绿灯侠》的真相

DC掌门人亲自回应:瑞安·雷诺兹回归《绿灯侠》的真相

生活观察员啊
2026-07-03 01:22:23
HTC手机不死:但公司已转型的你快不认识

HTC手机不死:但公司已转型的你快不认识

快科技
2026-07-03 09:24:05
山西运城小区屋顶水雾降温惊艳海外,外交部发言人毛宁点赞!开发商:投入1000余万元打造,单次运行成本约1万元,不向业主另行收取

山西运城小区屋顶水雾降温惊艳海外,外交部发言人毛宁点赞!开发商:投入1000余万元打造,单次运行成本约1万元,不向业主另行收取

极目新闻
2026-07-03 19:19:42
又是34℃,又是大雨到暴雨!何时消停?

又是34℃,又是大雨到暴雨!何时消停?

上海预警发布
2026-07-03 18:49:33
中国男篮73-92日本,赛后球员表现评分:2满分3优秀 2及格

中国男篮73-92日本,赛后球员表现评分:2满分3优秀 2及格

画夕
2026-07-04 01:07:48
欧洲在热浪中读懂中国制造硬实力

欧洲在热浪中读懂中国制造硬实力

国际在线
2026-07-03 19:04:23
美的创始人何享健:坐拥2250亿财富无人继承,3个孩子均为老总

美的创始人何享健:坐拥2250亿财富无人继承,3个孩子均为老总

蜉蝣说
2026-07-02 09:48:38
2026-07-04 04:55:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
412文章数 65关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

头条要闻

美媒询问中方是否接受霍尔木兹海峡收费 外交部回应

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
艺术
数码
本地
公开课

亲子要闻

《孩要来香港》 EP04 打包孩子最好的暑假礼物,陈牧歌这次要帮姐姐陈子鸢和妈妈完成心愿,这趟有爱之旅,最后会收获什么礼物?

艺术要闻

OPPO研发总部地块易主,山子高科“双O”新方案曝光!

数码要闻

苹果摄像头版AirPods项目据称已被叫停

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版