网易首页 > 网易号 > 正文 申请入驻

谷歌第八代TPU首推「训推双芯」:8t专攻训练,8i「死磕」推理

0
分享至

机器之心编辑部


谷歌的 AI 芯片战略路线迎来重大转向!

在刚刚过去的 Google Cloud Next 2026 大会上,谷歌正式对外发布第八代张量处理器(TPU)。与以往不同的是,这次亮点之一在于,谷歌首次针对 AI 模型训练与推理任务,分别推出 TPU 8t 与 TPU 8i 两款独立芯片产品。

其中,专注于 AI 模型训练任务的 TPU 8t,在大规模、高计算需求的训练工作负载中表现出色,设计上具备更大的计算吞吐量和更多的扩展带宽。相较于去年 11 月发布的第七代 Ironwood TPU,性能提升 2.7 倍。

聚焦于推理 / 实时执行任务的 TPU 8i,设计时更多考虑了内存带宽,以便处理最为延迟敏感的推理工作负载,因为智能体在大规模交互时即使是微小的效率问题也会被放大。

值得注意的是,与上一代相比,TPU 8i 单芯片集成了 384MB 的静态随机存取存储器(SRAM),容量是其 3 倍,因此可以完全在硅片上容纳更大的 KV 缓存,从而显著减少长上下文解码期间内核的空闲时间。性能提升 80% ,尤其是在大规模 MoE 模型的低延迟目标下。

谷歌高级副总裁兼 AI 基础设施首席技术专家 Amin Vahdat 在官方博客中称,在智能体时代,模型必须解决问题,执行多步工作流,并从自己的行为中不断学习。这意味着对基础设施提出了新的高要求,TPU 8t 和 TPU 8i 两款芯片旨在应对最具挑战性的 AI 工作负载,并适应不断演化的大规模模型架构。

目前,这两款新品还没有正式对外,官方宣称,将在今年晚些时候开始向谷歌云客户提供。

芯片一经发布,谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)也在 X 上发文宣传自家新品:「TPU 8t,优化训练;TPU 8i,优化推理。看起来真不错!」



在帖文下,引来一众网友热议。

有网友认为,此次谷歌将TPU分为专门的训练芯片和推理芯片,似乎是在承认当前AI算力基础设施的瓶颈已经转移,从FLOPs转移到了内存带宽和延迟上。

而考虑到推理任务的预期规模,如果工作负载有所差异,(为了优化性能和成本),针对每个任务定制硬件,从成本上看也是合理的选择。

「这可能类似于电视中的视频解码芯片,与能够进行视频编码的芯片相比,解码芯片通常不会非常便宜或高效。」



大多数网友则认为,谷歌的这款新芯片一出,意味着 AI 芯片市场竞争将愈加激烈,尤其是对英伟达的「冲击」。

一位网友调侃道,「谷歌正在发布新的 TPU。英伟达,你得做更多的工作了。」



诚然,从 2015 年开始,谷歌就在使用自研处理器来运行 AI 模型,并在 2018 年开始向谷歌云客户出租芯片,试图通过构建这种高度集成、针对特定任务优化的自有芯片生态,进一步减少对外部供应商,尤其英伟达的依赖,打造更具自主可控的 AI 基础设施。

但不得不承认,谷歌的芯片并不能对英伟达构成全面威胁,或者说,至少在当前阶段还不是。与微软、亚马逊之类的云服务巨头一样,谷歌使用这些芯片是为了补充其基础设施中基于英伟达的系统,而不是彻底取代英伟达。

据了解,谷歌还承诺,其云服务将在今年晚些时候提供英伟达的最新芯片 ——Vera Rubin。

谷歌在官方博客中详细介绍了两款芯片的设计细节,下面来了解一下。

TPU 8t:训练动力引擎

谷歌称,TPU 8t 是为将前沿模型的开发周期从几个月缩短到几周而设计的。通过平衡最高计算吞吐量、共享内存和芯片间带宽,同时保证最佳的功率效率和计算时间,谷歌打造了一个系统,使得每个超级节点的计算性能比上一代提高近 3 倍,从而加速创新,确保客户继续引领行业步伐。

  • 大规模扩展:单个 TPU 8t 超级节点现在能够扩展到 9600 个芯片和 2 个 PB 的共享高带宽内存,内存带宽是上一代的两倍。这种架构提供 121 ExaFlops 的计算能力,支持最复杂的模型使用单一的大规模内存池;
  • 最大化利用率:通过集成 10 倍更快的存储访问,并结合 TPUDirect 将数据直接加载到 TPU,TPU 8t 有助于确保端到端系统的最大利用;
  • 近线性扩展:新 Virg 网络与 JAX 和 Pathways 软件结合,意味着 TPU 8t 可以提供高达百万芯片的近线性扩展。

此外,除了原始性能,TPU 8t 还针对超过 97% 的「良好利用率」进行优化,这是衡量有效计算时间的指标,涵盖了实时遥测、自动故障检测和重定向等多项可靠性功能。



具体来看,相较于上一代 TPU,TPU 8t 的关键提升主要包括以下几个方面:

  • SparseCore 优势:TPU 8t 的核心是 SparseCore,这是一种专门的加速器,旨在处理嵌入查找的非规律内存访问模式。Matrix Multiply Unit(MXU)处理矩阵运算,而 SparseCore 则卸载了数据依赖的所有聚集操作,以及其他集体操作,防止了通常困扰通用芯片的零操作瓶颈。
  • VPU/MXU 重叠与平衡扩展:TPU 8t 旨在最大化已提供的 FLOP 使用率,通过实现更平衡的向量处理单元(VPU)扩展,架构最小化了暴露的向量操作时间。这使得量化、softmax 和 layernorms 可以更好地与 MXU 中的矩阵乘法重叠,帮助芯片保持忙碌,而不是等待顺序向量任务。
  • 原生 FP4:TPU 8t 引入了原生的 4 位浮点数(FP4)以克服内存带宽瓶颈,在保持大模型准确性的同时,提升了 MXU 的吞吐量,即使在较低精度量化下也能维持准确性。通过减少每个参数的位数,该平台最小化了数据传输的能耗,并允许更大的模型层在本地硬件缓存中适配,从而实现峰值计算利用率。



TPU 8t ASIC 框图

TPU 8i:推理引擎

谷歌认为,在智能体时代,用户希望能够提出问题、委派任务并获得结果,而TPU 8i 正是被设计来处理许多专业智能体的复杂协作和迭代工作,智能体往往在复杂的工作流中「群集」起来,以提供解决方案和洞察力。

谷歌通过四项关键创新,重新设计了堆栈,以消除「等待室」效应:

  • 突破「内存墙」:为了防止处理器闲置,TPU 8i 配备了 288 GB 高带宽内存,并配有 384 MB 的片上 SRAM,比上一代多出 3 倍,确保模型的活跃工作集完全保存在芯片内;
  • Axion 动力高效性:将每个服务器的物理 CPU 主机数量翻倍,采用了基于 Axion Arm 的定制 CPU。通过使用非统一内存体系结构(NUMA)进行隔离,优化了整个系统的性能;
  • 扩展 MoE 模型:对于 MoE 模型,将互联带宽提高至 19.2Tb/s。新的 Boardfly 架构将最大网络直径缩短超过 50%,确保系统作为一个统一的低延迟单元运行;



TPU 8i 层次化的 Boardfly 拓扑结构,从四个完全连接的芯片构建起一个基础单元,逐步发展为一个完全连接的八块板组成的集群,最终将 36 个这样的集群完全连接成一个 TPU 8i 超级节点。

  • 消除延迟:新片上集体加速引擎(CAE)卸载全局操作,将片上延迟减少了最多 5 倍,最大限度地减少了延迟。每个集体操作的低延迟意味着等待时间更少,从而直接提高了吞吐量,满足了同时运行数百万个智能体所需的性能。

这些创新使得,在每美元的价位下,性能提升了 80%,也就是说,企业能够以相同的成本为更多客户提供服务。



TPU 8i ASIC 框图

https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/

https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张敬轩落实出演两场英皇演唱会!感激粉丝包容与忍耐

张敬轩落实出演两场英皇演唱会!感激粉丝包容与忍耐

TVB资讯台
2026-04-23 21:31:49
惊天揭秘!中南医院女医护与权色交易的背后真相!

惊天揭秘!中南医院女医护与权色交易的背后真相!

人生录
2026-04-22 11:49:14
果然不出中国所料,特朗普怂了,伊朗宣布赢家,美要付出更高代价

果然不出中国所料,特朗普怂了,伊朗宣布赢家,美要付出更高代价

阶前霜月
2026-04-23 20:24:11
成立4年,中冠到中超第二!重庆背后那四个字,让所有投资人脸红

成立4年,中冠到中超第二!重庆背后那四个字,让所有投资人脸红

曹老师评球
2026-04-23 20:51:45
明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

青橘罐头
2026-04-22 09:59:06
1991年,郑浩南与大岛由加利的结婚照,两人在1990年相识

1991年,郑浩南与大岛由加利的结婚照,两人在1990年相识

岁月有情1314
2026-04-22 07:52:08
张敬轩落实演出两场英皇群星演唱会,感激粉丝包容与忍耐

张敬轩落实演出两场英皇群星演唱会,感激粉丝包容与忍耐

TVB剧评社
2026-04-23 22:03:07
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

地理三体说
2026-04-21 22:28:02
官方发文,26岁孙颖莎高调官宣喜讯,全网恭喜,终于等到这一天了

官方发文,26岁孙颖莎高调官宣喜讯,全网恭喜,终于等到这一天了

不似少年游
2026-04-23 16:57:17
百亿美元砸出的荒诞死局:一国正规军为何永远打不赢一支民兵

百亿美元砸出的荒诞死局:一国正规军为何永远打不赢一支民兵

寰球经纬所
2026-04-20 22:59:41
霍思燕青岛亮相被嘲“又矮又胖”?“整个人显老气”。

霍思燕青岛亮相被嘲“又矮又胖”?“整个人显老气”。

今古深日报
2026-04-21 09:33:52
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
SGA轰37+5+9+2无缘今日最佳!对不起,你碰到创纪录的康宁汉姆了

SGA轰37+5+9+2无缘今日最佳!对不起,你碰到创纪录的康宁汉姆了

世界体育圈
2026-04-23 12:26:54
美联储连迎噩耗!全球去美元化加速,又一个国家禁用美元现金交易

美联储连迎噩耗!全球去美元化加速,又一个国家禁用美元现金交易

老范谈史
2026-04-22 23:38:55
“美国政府深吸一口气,后退了一步”

“美国政府深吸一口气,后退了一步”

环球时报国际
2026-04-23 09:14:17
西方专家惊呼:中国正在回到明朝,可怕的“朝贡体系”正在归来!

西方专家惊呼:中国正在回到明朝,可怕的“朝贡体系”正在归来!

牛马搞笑
2026-04-23 11:06:00
重仓股大曝光!这些股被狂买(附名单)

重仓股大曝光!这些股被狂买(附名单)

中国基金报
2026-04-22 23:13:58
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
张天爱太大胆了穿这么敢去沙滩玩

张天爱太大胆了穿这么敢去沙滩玩

阿废冷眼观察所
2026-04-14 12:42:56
中年男人最大的悲哀是啥 看网友讲述我哭着泪流满面 这不就是我吗

中年男人最大的悲哀是啥 看网友讲述我哭着泪流满面 这不就是我吗

侃神评故事
2026-04-23 07:20:07
2026-04-23 23:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12839文章数 142634关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

媒体:莫氏鸡煲陷入怪圈 在流量裹挟下真实反馈没人听

头条要闻

媒体:莫氏鸡煲陷入怪圈 在流量裹挟下真实反馈没人听

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

关于AI算力链"瓶颈" 这是高盛的最新看法

汽车要闻

令人惊艳的奇瑞车 风云A9可不只是样子货

态度原创

家居
手机
艺术
旅游
公开课

家居要闻

浪漫协奏 法式风格

手机要闻

一加16再曝,6.78英寸左右大直屏 屏幕继续升级

艺术要闻

快看!世界新第一高楼,已盖到100层!

旅游要闻

穿一袭衣游一座城:感受旅拍热背后的文化消费升级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版