![]()
·聚焦:人工智能、芯片等行业
欢迎各位客官关注、转发
前言:
谷歌与Meta宣布深化合作,让PyTorch更好地原生支持Google TPU。
这是一次绕开英伟达CUDA生态、直击其护城河根基的系统性动作。
这不是一次简单的[反英伟达联盟],而是一次云厂商×超级应用厂商,对算力话语权的再分配尝试。
作者| 方文三
图片来源 |网 络
![]()
英伟达的CUDA护城河与行业集体焦虑
市场普遍认为,英伟达的优势在于GPU性能领先、制程先进、HBM和NVLink技术强,但这些都是表层优势。
英伟达真正不可替代的核心只有一个:CUDA生态锁定。
CUDA做了三件事:绑定开发者心智、绑定软件工具链、绑定模型与代码资产。
结果是:用英伟达=开发成本最低,换平台=重写代码+不确定风险。
这是一种生态税,而不是硬件溢价。
自2016年PyTorch发布以来,这款由Meta主导的开源框架迅速成为AI开发者的通用语言,而英伟达的工程师们始终确保PyTorch开发的模型在其GPU上实现最优性能。
大量的性能优化、算子实现和工程经验沉淀在CUDA+PyTorch组合中,形成了极高的迁移成本。
在硅谷,几乎没有开发者会为特定芯片逐行编写底层代码,PyTorch这样的框架成为连接开发者与硬件的默认抽象层,而CUDA则成为这层抽象背后的技术基石。
这种垄断格局让整个行业陷入集体焦虑,对于Meta这样的巨头而言,2025年GPU采购预算高达720亿美元,却仍面临高价抢货的困境,推理成本居高不下。
行业对替代方案的渴求日益强烈,当AI推理成本持续飙升,OpenAI 2024年推理支出已达23亿美元,是GPT-4训练成本的15倍。
谷歌与Meta的联手,正是在这样的行业痛点下应运而生。
![]()
TorchTPU计划的技术破局与战略深意
Meta并不是英伟达的敌人,事实上,Meta是英伟达最大的客户之一,LLaMA、推荐系统、广告模型都深度依赖GPU。
那为什么Meta要推动PyTorch×TPU?原因只有一个:算力主权。
Meta的AI规模意味着任何10%的成本波动,都是天文数字,任何算力瓶颈都会影响产品节奏。
通过PyTorch,Meta可以降低[非CUDA平台]的使用门槛,为自己保留更多算力选择权,迫使英伟达在谈判中失去绝对优势,这是一种长期议价权布局。
近日,谷歌正式推进代号为[TorchTPU]的战略行动,核心目标直指TPU与PyTorch的原生级兼容,让全球最主流的AI框架能在谷歌自研芯片上高效运行。
与过往对PyTorch的零星支持不同,谷歌此次投入了前所未有的组织关注度和战略资源,甚至考虑将部分软件开源,以加速客户迁移进程。
而作为PyTorch的创建者和守护者,Meta的深度参与让这场技术突围更具颠覆性。
TorchTPU计划的本质,是消除横亘在TPU硬件与PyTorch生态之间的技术壁垒。
谷歌第七代TPU Ironwood在硬件上已具备强大竞争力,FP8精度下峰值算力达4614 TFLOPS,配备192GB高带宽内存,能效比远超英伟达B200。
![]()
但长期以来,软件生态的缺失让这些硬件优势难以发挥。
通过与Meta的合作,谷歌正在重构TPU的软件栈。开发者无需大幅改写代码,即可实现PyTorch模型向TPU的无缝迁移,谷歌推出的TPU指挥中心更进一步降低了部署门槛。
这种高性价比硬件+主流生态的组合,直接冲击了英伟达的核心优势。
据测试,在LLM推理、图像生成等张量密集型任务中,TPU的性价比是英伟达H100的四倍,运行BERT服务等任务的速度比A100 GPU快2.8倍,同时节能60-65%。
这场合作对谷歌与Meta而言,是一场精准的战略互补。
对谷歌来说,TPU早已不是单纯的内部工具,2022年谷歌云部门获得TPU销售主导权后,其销量已成为谷歌云营收增长的重要引擎。
2025年起,谷歌更开始将TPU直接出售给客户的数据中心,组织架构也随之调整,老将Amin Vahdat被任命为AI基础设施负责人,直接向CEO皮查伊汇报。
TorchTPU计划的成功,将彻底打开TPU的商业化空间,据摩根士丹利预测,到2027年TPU产量将达500万块,2028年增至700万块,每卖出50万块即可为谷歌带来130亿美元营收。
对Meta而言,合作的战略价值同样显著。作为英伟达最大的客户之一,Meta长期受困于对GPU的过度依赖。
通过推动PyTorch与TPU的适配,不仅能获得更便宜的推理算力,更能实现硬件基础设施多元化,在与英伟达的采购谈判中掌握更多筹码。
据悉,Meta计划2026年通过谷歌云租赁TPU,2027年斥资数十亿美元采购硬件部署自有数据中心,用于Llama模型微调等算力密集型任务。
TorchTPU计划最具革命性的一点,在于其开源导向。谷歌考虑将部分软件栈开源,这与英伟达CUDA的封闭生态形成鲜明对比。
PyTorch作为全球超半数AI开发者的首选框架,本身就具备强大的开源社区基础,其与TPU的深度融合,将形成首个真正由开源生态驱动、直接冲击英伟达软件护城河的挑战者。
过去,英伟达通过CUDA生态锁定开发者和客户,形成越用越依赖的路径依赖。
而TorchTPU计划则以开源为武器,降低了开发者的迁移成本,让更多企业有机会摆脱[英伟达税]。
TPU+PyTorch的象征意义在于,AI算力正在从[芯片中心主义],走向[生态与系统博弈]。
![]()
巨头加入或将加速市场转移
形象地说,GPU就像一位多才多艺的运动员,精通多项运动;而TPU则像一位奥运短跑冠军,在特定领域做到极致。
随着AI算力需求从训练向推理转移,据预测,到2030年推理将消耗75%的AI计算资源,市场规模达2550亿美元,这种技术路线的对决将直接决定行业的未来走向。
在AI推理成为算力需求主流的未来,这种[专精]往往比[全能]更具竞争力。
这场技术对决已经开始影响市场格局,摩根士丹利预测,2026年ASIC出货量将首次超过GPU,AI数据中心市场将从GPU一家独大转向多极制衡。
目前,已有多家巨头开始向TPU迁移,图像生成器Midjourney 2024年转向TPU后,推理成本骤降65%,从每月200万美元降至70万美元,吞吐量提升3倍。
Claude的开发商Anthropic与谷歌达成数百亿美元交易,承诺采用多达一百万个TPU,到2026年将释放超过1GW的计算容量。
苹果也已开始使用TPU训练AI模型,成为谷歌云TPU的重要客户。
据谷歌云高管预测,仅TPU的采用就可能占到英伟达10%的收入,这意味着每年将有数十亿美元的市场份额转移。
而随着Meta等巨头的加入,这种市场转移可能会加速。
除了谷歌TPU,亚马逊的Trainium、微软的Maia以及Cerebras、Groq等初创公司的专用芯片也在涌入市场,进一步加剧了市场的多元化。
野村证券预测,2030年AI数据中心潜在市场规模将达1.2万亿美元,足够容纳多家参与者共同发展。
谷歌与Meta的这次联手,不会立刻改变市场格局,却已经改变了长期叙事。
英伟达不再是唯一的AI时代基础设施,算力开始像云计算一样,走向多供应、多生态,
超级平台正在收回底层控制权。
![]()
结尾:
这不是一场短期的胜负之争,而是一场未来十年AI基础设施主导权的慢变量战争。
真正值得关注的不是英伟达是否被挑战,而是当算力不再被一家定义,AI的创新速度和成本结构,将被重新改写。
而这,才是TPU+PyTorch背后,最具杀伤力的部分。
部分资料参考:头部科技:《谷歌TPU让黄仁勋[慌了神]》,不慌实验室:《谷歌联手Meta挑战英伟达!打响算力突围战?》,差评X.PIN:《谷歌憋了十年的大招,让英伟达好日子到头了?》,新智元:《英伟达危,谷歌联手Meta要让TPU支持PyTorch,击穿CUDA护城河》,半导体行业观察:《难怪高通急了》
本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。
请务必注明:
「姓名 + 公司 + 合作需求」
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.