来源:市场资讯
(来源:伏白的交易笔记)
一. 谷歌TPU概览
谷歌TPU(张量处理单元)是专为AI/机器学习设计的ASIC芯片,核心目标是优化矩阵运算,解决传统通用芯片的效率与能耗瓶颈。
目前谷歌TPU已迭代至v7(Ironwood),支撑搜索、Gemini大模型训练与推理等业务,并通过Google Cloud向外部客户提供云服务。
1.1 ASIC芯片解析
ASIC(专用集成电路)是专为特定应用或场景定制的芯片,通过固化硬件逻辑实现性能和能效的极大提升。
在AI领域,ASIC包括TPU(张量处理器)、DPU(数据处理器)、NPU(神经网络处理器)、LPU(语言处理单元)等种类。
1.2 TPU与GPU比较
(1)GPU:通用并行计算架构(SIMT),通过大量CUDA核心实现并行处理,适合图形渲染、通用运算等多种任务。
(2)TPU:完全舍弃通用计算模块,专注AI任务(推理及训练);采用脉动阵列架构优化张量运算,能效比更高。
1.3 谷歌v7与英伟达B200比较
(1)B200:FP8算力4500TFLOPS、192GB HBM3e内存、带宽8.0TB/s、功耗700W。
(2)v7:FP8算力4600TFLOPS、192GB HBM3e内存,带宽7.4TB/s、功耗157W。
1.4 TPU硬件架构
(1)计算单元:脉动阵列(乘法累加单元MAC互连形成物理矩阵),并引入TensorCore(浮点运算)、SparseCore(负责稀疏数据)。
(2)存储单元:采用分层设计,包括HBM(高带宽内存)、片上缓存(缓存高频数据,减少HBM访问次数)。
(3)互联单元:通过ICI技术(TPU芯片间高速互联)实现协同计算。
![]()
二. 谷歌TPU部署场景(除自用)
(1)TPU VM
TPU的核心部署场景为Google Cloud(GCP),其提供云端算力服务;
TPU VM是GCP推出的TPU虚拟机服务,将TPU与CPU、存储等高度整合,用户可按需租用,无需自行搭建服务器。
(2)TPU Pod集群
数千个TPU互联的超大规模集群,通过OCS技术动态调整集群拓扑。
(3)第三方托管
谷歌长期采用自研自托管策略,仅有限开放给第三方,如Fluidstack等云服务商(CSP)。
三. 谷歌TPU供应链
3.1 芯片环节
(1)芯片设计:谷歌自研,合作方联发科、博通。
(2)晶圆制造与封装:台积电,采用CoWoS封装(HBM与TPU集成)。
(3)测试:日月光。
3.2 硬件配套
(1)模组代工:天弘科技、纬创力、工业富联。
(2)HBM:SK海力士、三星。
(3)PCB/CCL:沪电股份、胜宏科技、深南电路、欣兴电子;松下、台光。
(4)光模块:中际旭创、新易盛。
(5)液冷:维谛技术、英维克。
(6)电源模块:台达、光宝、新雷能。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.