谷歌TPU八代进化史：从搜索加速到AI基建|拓扑|hbm|新模型|知名企业|谷歌tpu

谷歌TPU八代进化史：从搜索加速到AI基建

2026-05-01 10:24:00　来源: 爬虫饲养员

北京举报

分享至

你打开谷歌云控制台，准备租一批算力跑模型训练。下拉菜单里躺着八个版本：v2、v3、v4、v5e、v5p、v6e、Ironwood、8t/8i。价格差三倍，参数表像密码本。选错了，训练周期拖长两周；选对了，同等预算能多跑一轮实验。

这不是简单的"新比旧好"。每一代TPU背后，是谷歌对AI工作负载理解的迭代，也是一场关于"到底什么在拖慢模型"的持续诊断。

一颗芯片里的权力结构

理解选型困境，得先看清TPU内部的权力分配。谷歌官方文档反复出现五个关键词，它们决定了你的模型是跑得顺畅还是卡在奇怪的地方。

矩阵乘法单元（MXU，Matrix Multiply Unit）是绝对的计算核心。从v1到v5p，它一直是128×128的脉动阵列——16,384个乘加器同时开工。这个规格锁了整整四代，直到Trillium（v6e）才扩到256×256，单周期运算量翻四倍。如果你的模型全是矩阵乘法，这是最直接的红利。

但计算只是故事的一半。高带宽内存（HBM，High Bandwidth Memory）才是那个沉默的瓶颈。模型权重和激活值都挤在这里，容量不够就得切分模型，带宽不够则算力空转。每一代TPU的HBM都在扩容提速，但需求涨得更快——GPT-4级别的模型把HBM压力推到了新高度。

芯片间互联（ICI，Inter-Chip Interconnect）解决的是"一群芯片怎么协作"。分布式训练时，梯度同步速度直接决定扩展效率。ICI带宽不够，加芯片反而拖慢整体进度。从v4开始，谷歌把拓扑结构从二维环面（2D torus）升级到三维环面（3D torus），任意两芯片间的最大跳数减少，通信延迟被压缩。

SparseCore是v4引入的特化单元，专门处理嵌入（embedding）操作——推荐系统和大词表模型的命脉。v5p和Ironwood塞了四个，v6e减到两个。这个增减不是随意为之，反映的是谷歌对工作负载优先级的判断迁移。

最后，TensorCore是上述单元的封装容器。一个TensorCore里有一个或多个MXU，搭配向量处理单元（VPU）和标量单元。单芯片配一个还是两个TensorCore，直接决定峰值算力天花板。

v1：秘密武器的诞生（2015）

第一代TPU从未对外销售。它生于一个具体而紧迫的问题：谷歌搜索、地图、街景的推理成本正在失控。

芯片内置256×256的8位脉动阵列，INT8精度下跑出92 TOPS。功耗约40瓦，以当时的标准堪称高效。但它只能做推理，不能训练——架构上就没考虑反向传播。

谷歌保密超过一年。2016年I/O大会上，桑达尔·皮查伊（Sundar Pichai）宣布它已在数据中心运行一年多。整件事的动机被他说得很直白：避免谷歌数据中心的规模翻倍。

这是一个关键信号。TPU从第一天起就不是"炫技芯片"，而是成本工程的工具。这个基因贯穿后续所有版本。

v2与v3：首次对外开放（2018-2019）

v2是谷歌第一次把TPU做成云产品。2018年推出，核心变化是补齐训练能力——增加了对浮点运算的支持，MXU支持bfloat16格式。

单芯片峰值算力提升到180 TFLOPS（bfloat16）。内存用上了HBM，容量16GB，带宽600 GB/s。这些数字今天看很小，但当时足以支撑ResNet级别的模型训练。

v3在2019年跟进，算是v2的制程升级版。MXU阵列保持128×128，但频率提升、HBM扩容到32GB、带宽翻倍到900 GB/s。单芯片算力跳到420 TFLOPS，功耗也涨到200瓦。

两代产品的拓扑都是二维环面，最多256颗芯片组成一个pod。对当时的用户来说，这个规模足够用了——Transformer刚崭露头角，GPT-2参数量的1.5亿在v3 pod面前不算负担。

v4：拓扑革命与SparseCore登场（2021）

v4是架构层面的重新设计，不是简单提频扩核。

最显眼的变化是三维环面拓扑。芯片在三个维度上连接邻居，最大跳数从O(√N)降到O(∛N)。对大规模分布式训练，这意味着梯度同步的延迟地板被撬开一块。

SparseCore首次出现。推荐系统的嵌入表查找是CPU密集型操作，拖慢整体流水线。谷歌选择用专用硬件 offload 这部分，而非让MXU分心。v4每芯片配两个SparseCore。

单芯片HBM提升到32GB，但带宽跳到1.2 TB/s——增幅比容量更激进。MXU保持128×128，但频率和效率优化后，峰值算力达到275 TFLOPS（bfloat16）。pod规模扩展到4096颗芯片，是v3的16倍。

这代产品开始暴露谷歌的权衡逻辑：不盲目追峰值算力，而是针对特定瓶颈做手术。拓扑和SparseCore都是这种思路的产物。

v5e与v5p：同代分叉，场景细分（2023）

v5系列首次在同一世代推出两个分支，标志着谷歌对"一个尺寸 fits all"的放弃。

v5e是"效率版"。单芯片峰值算力197 TFLOPS，低于v4的275 TFLOPS，但每美元性能更优。HBM 16GB，带宽819 GB/s——比v4缩水，但针对推理和中小模型训练刚好够用。没有SparseCore，因为目标场景用不上。

v5p是"性能版"。MXU终于提速，配合其他优化，峰值算力冲到459 TFLOPS。HBM 95GB，带宽2765 GB/s——容量和带宽都是v5e的数倍。SparseCore加到四个，明确瞄准大模型训练和推荐系统。pod规模8960颗芯片，接近v4的两倍。

这个分叉让选型变得复杂，但也更诚实。v5e适合预算敏感、模型规模适中的团队；v5p为追求扩展效率的大模型训练而生。谷歌不再假装一颗芯片能同时服务好两个世界。

v6e（Trillium）：MXU终于扩容（2024）

Trillium是v6e的代号，也是MXU规格停滞四代后的首次突破。

256×256的脉动阵列，单周期运算量四倍于前代。配合频率提升，峰值算力达到918 TFLOPS（bfloat16）——v5p的两倍。稀疏运算峰值1836 TFLOPS，利用结构化稀疏性进一步榨取效率。

但MXU扩容的代价是面积和功耗。Trillium的应对是先进封装和制程，同时把SparseCore减到两个。这个削减引发过讨论：是嵌入操作的重要性下降，还是晶体管预算被迫向MXU倾斜？谷歌没有明确解释。

HBM 32GB，带宽1640 GB/s。容量不算慷慨，但带宽增速追上了算力涨幅，避免内存成为绝对瓶颈。ICI带宽也翻倍，三维环面拓扑延续。

Trillium的定位微妙：算力数字漂亮，但HBM容量限制了单芯片能承载的模型规模。它更适合数据并行度高的场景，或者配合模型并行策略使用。

Ironwood：推理专用，内存怪兽（2025）

Ironwood是谷歌首款专为推理设计的云端TPU，不再兼顾训练。

这个定位解放了设计约束。训练需要高精度和梯度稳定性，推理可以接受更低精度换取吞吐。Ironwood支持INT8和FP8，峰值算力在INT8下达到惊人的数值——但谷歌更强调其"每瓦性能"和"延迟特性"。

真正的杀手级规格是HBM：192GB容量，带宽7.2 TB/s。这是为超大模型推理准备的——GPT-4级别的参数如果全塞进单芯片内存，就能避免跨芯片通信的开销。四个SparseCore保留，推荐系统的在线推理场景被重点照顾。

ICI带宽进一步提升，但拓扑针对推理负载优化。训练需要全对全的梯度聚合，推理更多是请求路由和批处理，通信模式不同。

Ironwood的发布传递了一个信号：推理和训练的硬件分化正在加速。试图用同一套芯片兼顾两者，效率损失越来越大。

v8t与v8i：下一代的预览（2025）

谷歌在2025年I/O大会上披露了下一代TPU的命名：v8t和v8i。t代表训练（training），i代表推理（inference），延续v5e/v5p的分叉策略。

具体规格尚未完全公开，但官方透露了几个方向：v8t的MXU将进一步扩大，v8i的HBM容量继续膨胀。两者都会采用更激进的稀疏计算支持，以及针对多模态模型的特化优化。

拓扑方面，三维环面可能向更高维度或更灵活的动态拓扑演进。谷歌提到"可重构互联"，暗示芯片间的连接关系可能根据工作负载动态调整，而非固定布线。

软件栈的改进被反复强调。TPU的历史痛点之一是编译器和框架支持的滞后，v8系列承诺与JAX、PyTorch的更深集成，以及自动并行策略的优化。

选型的隐藏维度

看完八代进化，回到最初的问题：控制台里八个版本怎么选？

峰值算力是最不重要的指标。v5p的459 TFLOPS和v6e的918 TFLOPS差距巨大，但如果你的模型塞不进HBM，算力只是数字游戏。

先看内存容量。模型参数量×精度字节数，就是单芯片需要的HBM下限。不够就得模型并行，通信开销指数级增长。v5p的95GB和Ironwood的192GB，是两条清晰的分水岭。

再看内存带宽。大batch推理或训练时，权重读取速度决定算力利用率。v5p的2765 GB/s和v6e的1640 GB/s，意味着同样算力下前者更能"喂饱"MXU。

SparseCore的存在与否，决定嵌入-heavy的模型（推荐、广告、大词表NLP）能不能跑顺。v5e没有，v5p和Ironwood有四个，v6e有两个——这个分布不是随机的。

ICI带宽和拓扑影响扩展效率。小于64颗芯片的pod，二维和三维环面差别不大；超过256颗，v4以后的三维拓扑开始显现优势。

最后看精度支持。训练需要bfloat16或更高，推理可以降到INT8/FP8。Ironwood的推理特化包括对这些低精度的硬件优化，同等算力数字下实际吞吐更高。

谷歌的赌注与行业的镜像

TPU的八代进化，是一部AI工作负载的诊断史。v1解决推理成本，v2/v3补上训练能力，v4攻克通信拓扑，v5分叉场景，v6释放MXU算力，Ironwood押注推理分离，v8准备多模态和多租户。

每一步都不是"更快更强"的简单叙事，而是对瓶颈的精准打击。HBM、ICI、SparseCore的轮番登场，说明谷歌认为AI基础设施的约束在持续转移——算力、内存、通信、特化操作，没有一劳永逸的解。

这对行业的启示是：硬件选型正在变成架构设计的一部分。不是先写好模型再找芯片，而是根据芯片特性调整模型结构和并行策略。JAX的pjit、PyTorch的FSDP，这些框架层的抽象，本质上是在弥合硬件能力与模型需求之间的缝隙。

谷歌云TPU的定价页面还会继续膨胀。下一代的命名可能更复杂，分叉可能更细。但核心的判断逻辑不变：找到你的真实瓶颈，然后匹配那个针对性解决了瓶颈的版本。峰值算力只是入场券，能不能跑顺全看细节的对齐。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.