2013年,谷歌工程师算了一笔账:如果每个安卓用户每天用语音搜索3分钟,谷歌得把全球数据中心容量翻一倍。用GPU跑推理?电费账单能吓死CFO。
这笔账催生了TPU。2026年,第八代芯片亮相,推理成本再砍一刀。但GPU也没闲着。两条技术路线缠斗十年,现在到了重新算账的时候。
![]()
从游戏显卡到AI基础设施
GPU的本职工作是渲染游戏画面。2012年前后,研究者发现:神经网络需要的海量并行浮点运算,跟3D图形是一回事。
于是GPU成了AI训练的默认选项。英伟达H100有数千个小核心,同时跑同一条指令、处理不同数据——这叫单指令多数据并行(SIMD)。
它支持FP32、FP16、BF16、INT8、FP8多种精度,PyTorch、TensorFlow、JAX、CUDA全兼容。还能跑模拟仿真、视频渲染。
但"全能"是有代价的。纹理映射、分支预测这些图形硬件,在做矩阵乘法时完全闲置。80GB HBM2e显存带宽很高,数据搬运仍是瓶颈。
TPU的减法哲学
谷歌的解法是做减法:砍掉所有跟神经网络无关的东西,只留矩阵乘法。
核心武器是脉动阵列(systolic array)。传统芯片每算一步都要读写内存,脉动阵列让数据流过计算单元网格,权重加载一次,输入逐层传递,结果在单元间流动——几乎不回主内存。
2015年第一代TPU上线谷歌数据中心,2018年对外开放。这个设计思路延续至今:专用、极简、极致能效。
2026年的选择题
谷歌在Cloud Next 2026发布了第八代TPU。官方没公布具体数字,但明确指向一个趋势:推理成本正在从"能跑就行"变成"精打细算"。
对25-40岁的技术决策者来说,这意味着什么?
第一,工作负载要拆。训练阶段模型迭代快、框架多变,GPU的灵活性是刚需。推理阶段模型固定、调用量大,TPU的能效比开始显现。
第二,云账单要重算。同等工作量下,TPU的每token成本通常更低——但前提是团队愿意拥抱JAX/TensorFlow生态,接受谷歌云锁定。
第三,硬件选型要前置。不是"先写代码再挑机器",而是从架构设计阶段就考虑:这个服务是训练一次推理百万次,还是持续微调?数据管道是谷歌云原生还是多云部署?
一个值得关注的信号
谷歌把TPU更新节奏拉到一年一代,第八代距第七代仅隔12个月。这种迭代速度在芯片行业极罕见,说明专用AI加速器的竞争已进入白热化。
英伟达的应对是Blackwell架构,同样押注推理优化。两条路线的交锋点,正是"通用性vs专用性"这个经典 trade-off 的当代版本。
对从业者而言,最务实的策略是保持双向能力:核心模型用GPU保灵活性,规模化推理服务评估TPU成本。毕竟2013年那笔电费账,今天依然有效——只是数字后面多了几个零。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.