告别HBM堆料内卷！谷歌TPU8训推硬件分家，开创AI存储精细化范式|gpu|英伟达|hbm|高带宽内存|谷歌tpu8

告别HBM堆料内卷！谷歌TPU8训推硬件分家，开创AI存储精细化范式

2026-06-04 14:56:43　来源: 闪存市场

广东举报

分享至

如果说堆叠“大内存”是解决AI推理瓶颈的真理，为什么手握Gemini、年投入超千亿美元的谷歌，却不这么做？

谷歌此前推出的第八代TPU芯片，打破以往单一芯片更新迭代的惯例，首次实现训练、推理双芯拆分，推出专为大规模训练打造的TPU 8t和专为推理与AI智能体优化的TPU 8i，精准匹配不同AI场景的差异化需求。

谷歌为何选择将训练和推理分家？

随着AI大模型从简单的聊天机器人向更复杂的AI智能体、代理式AI演进，其计算需求正在发生根本性的转变，AI工作负载加速分化。

由于模型规模呈指数级增长，过去用同一款芯片兼顾训练和推理两种不同要求的任务所面临的矛盾日益突出。

训练

需要从存储中持续、海量地读取PB级的原始数据集，追求更高带宽和更大吞吐量。

推理

需要为每个请求极快地随机读取细碎的KV Cache碎片，追求更低延迟和更高并发。

训练和推理所追求的最优设计本质是互斥的：优化吞吐量的设计天然增加延迟，而优化延迟的设计则会降低峰值吞吐量。

为此，谷歌选择将TPU 8系列芯片拆分为训练用的TPU 8t和推理用的TPU 8i，各司其职，显著提高效率和收益。

TPU 8t和TPU 8i双芯同源但术业有专攻

TPU 8t和TPU 8i两款芯片均首次搭载自研Axion Arm CPU，采用台积电2nm制程工艺制造和第四代液冷技术，每瓦性能提升至原来的2倍，预计2027年底量产。

TPU 8t专为训练而生，侧重于让超大规模集群的芯片高效地从存储中获取数据。

更快存储访问

引入TPU Direct RDMA和TPU Direct Storage，使TPU内存与网络接口卡之间可传输直接数据，且TPU与高速管理存储之间也可直接访问，不再需要经过CPU；百PB级数据集可直接传输至芯片，存储访问速度较前代快10倍。

更大规模扩展

单个超级节点可集成9600个芯片；单个训练集群可扩展超过百万个TPU芯片；Virgo Network能够在单个网络架构中连接超过13.4万个TPU 8t芯片，提供高达47 PB/s的无阻塞双向带宽，该架构可提供超过1.7K EFlops的性能，并具有近乎线性的扩展性能。

更优性能表现

与前代产品相比，单pod可提供FP4性能提升为原来的3倍至121 EFlops，TPU 8t的芯片间互连带宽翻倍，数据中心网络带宽提升为原来的4倍。

表1 TPU 8t与前代Ironwood对比

数据来源：Google, CFM整理

TPU 8i专为推理设计，侧重于让数据待在离计算核心最近的地方，减少对后端存储的访问。

更大片上缓存

配备384MB的SRAM和288GB的HBM内存，超过前代产品3倍，能将更大的KV Cache完全保留在芯片上，显著减少长上下文解码期间核心的等待时间。

更低延迟

全新的集合通信加速引擎（CAE），将片上集合通信延迟较前代降低5倍；新的Boardfly架构将网络连接直接塞进计算芯片里，减少节点之间的数据搬运减小了网络直径和数据包在穿越整个系统时所需经过的跳数，通信密集型工作负载的延迟最高降低50%。

更强带宽和计算性能

对于现代混合专家（MoE）模型，互连带宽翻倍至19.2Tb/s；单个Pod可扩展至1152块芯片，提供11.6EFlops FP8计算性能，较前代产品显著提升。

表2 TPU 8i与前代Ironwood对比

数据来源：Google, CFM整理

第八代TPU两款芯片在设计上并非单纯地堆砌参数，而是以硬件规格匹配任务需求，内存容量均较前代产品显著提高。TPU 8t是为训练设计的“超级仓库”，汇聚9600个芯片，总内存高达2PB。而TPU 8i是为推理设计的“高速缓存”，总内存331.8TB虽低于TPU 8t，但单个芯片配备了更大的288GB内存和极高的384MB片上缓存，TPU 8i 8601GB/s HBM带宽较TPU 8t的6528GB/s高出约32%。

做最合适的芯片，而不是最强的芯片

谷歌新的决胜点主要在于其系统架构的创新和系统级成本效率的提高，而非像英伟达一样追求极致的单卡性能。英伟达Rubin GPU较第八代TPU拥有更高的带宽、更多的FP4能力以及每个GPU更多的NVLink功能，单卡性能显著领先。Groq 3 LPU推理芯片以500MB SRAM提供150TB/s SRAM带宽和2.5 TB/s的扩展带宽，虽然其片上缓存和带宽高于TPU 8i，但LPU需要与GPU配合工作，且成本显著高于TPU 8i。

然而，谷歌一方面将训练与推理芯片完全分开设计，各自极致优化，在推理规模持续扩大的背景下，定制ASIC的经济模型优于通用GPU；另一方面，凭借其自研架构，单个训练集群的规模可扩展至9600颗芯片（远高于NVL72机架的72颗），并通过优化系统软件栈，使得集群在庞大的规模下仍能保持极高的有效计算时间占比。官网数据显示，TPU 8t和TPU 8i的性价比分别较Ironwood TPU提高了2.7倍和80%。

表3 TPU 8t、TPU 8i和NVIDIA Rubin GPU的对比

数据来源：Google, NVIDIA, CFM整理

英伟达是“用顶级硬件适配所有场景”，依靠高端存储硬件优势兜底各类AI数据读写需求。

谷歌则是“按场景定制化适配需求”，放弃通用存储适配，针对训练和推理两类核心场景创新系统架构，在适配AI智能体时代海量、高频、差异化的存储需求的同时，平衡成本与功耗。

谷歌本次的训推分家，终结了单一硬件适配全场景存储需求的粗放模式，推动AI存储告别通用适配时代，迈入场景定制细分的精细化新阶段。

AI新时代，芯片的最优解不是最强的那颗，而是最合适的那颗；存储的最优解不是参数极致堆叠，而是场景精准适配。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.