英伟达和谷歌，美国AI棋局的楚河汉界|微软|gpu|ai棋局|知名企业|高带宽内存

分享至

最近，OpenAI又传出购买芯片的消息，但采购对象却并非英伟达或谷歌。

据了解，这笔订单落在了晶圆级芯片公司Cerebras身上，协议总金额超过100亿美元、对应最高约750兆瓦算力容量，并将分阶段在2026—2028年落地。

众所周知，长期以来，OpenAI的核心训练体系一直建立在英伟达GPU之上。但最近一段时间里，OpenAI一直在尝试把算力“鸡蛋”放进多个篮子里。

去年6月，有媒体披露称OpenAI计划通过Google Cloud租用芯片，为包括ChatGPT在内的产品提供部分推理算力。

这一算力供应策略上发生变化背后，是美国AI产业的两大阵营相互作用下的结果：一边是以英伟达为核心的GPU生态，另一边是近年来崛起的谷歌阵营TPU（谷歌自研的AI专用加速芯片）生态。

在大模型爆发初期，英伟达几乎是算力的唯一中心：从训练到推理，从芯片到CUDA生态，行业别无其他选择。

但在过去两年，这种“绝对核心”地位开始松动。一方面GPU供给长期紧张、价格高企；另一方面超大模型推理负载激增，催生对专用加速器与替代架构的现实需求，也为其他算力路线留下切口。

在这一背景下，谷歌的TPU路线逐渐成型。通过把TPU与Gemini、VertexAI的节奏深度绑定，谷歌逐步搭建起一套“从芯片到模型、云服务”的一体化供给体系。

Cerebras则是OpenAI在两大阵营之外插入的一枚筹码：它主打晶圆级芯片的技术路线，主打低延迟推理与特定负载的吞吐优势。这家公司也一直被各路机构视为美股潜在IPO标的。

在英伟达和谷歌两大阵营的“楚河汉界”之间，头部AI企业们在“站队”与“合作”间不断交错。

两大基座阵营，既要“合纵”也要“连横”

尽管在AI算力版图出现了“两大阵营”分化的现象，但在过去一年里，英伟达仍是市场的绝对主力：IDC在2025年二季度的统计显示，英伟达在AI算力厂商份额占比约85.2%。

只是在AI产业中，“盟友”与“敌人”的界限往往并不清晰，但仍能在头部企业身上，窥探到一丝生态上的偏好。

英伟达的主力合作伙伴中，微软和AWS（亚马逊云服务）持续把英伟达新品作为云端算力主力；与此同时，谷歌也在加速把TPU打造成更“可迁移”的选项，并通过改进对PyTorch等主流框架的支持、与包括Meta在内的企业/开发者社区协作，降低外部使用门槛。

以微软为例，根据Omdia的估算，2024年微软采购了约48.5万块英伟达Hopper系列GPU，几乎是其竞争对手的两倍之多，显示出它在AI基建领域与英伟达的紧密关系。

2025年11月，微软与数据中心运营商IREN签署了一份约97亿美元的合同，其中包括大约58亿美元的英伟达GB300芯片与相关设备，用于进一步扩展Azure的AI计算能力。

不止云厂商，一众大模型企业也是英伟达的基本盘，马斯克此前曾表示xAI的Colossus超算在2025年已部署约20万块英伟达GPU，用于训练Grok系列模型，并计划进一步扩容。

不过，尽管英伟达的GPU体系虽然市场份额高达八成以上，但其高成本与软件生态锁定，也让一些头部用户开始寻求新的供应链渠道。

另一边，谷歌TPU在某些推理与训练场景上拥有更低成本的优势，并且与云服务深度整合，这使得市场近年来对其兴趣不断增长。

几周前，曾有媒体披露Meta正在评估在2027年后引入谷歌自研芯片的可能性，相关合作规模或达数十亿美元，这使TPU有机会成为英伟达之外的一个重要替代样本。

类似的选择也出现在Anthropic身上。去年10月，Anthropic宣布将大幅扩大与Google Cloud的合作，计划利用多达一百万颗TPU芯片、总价值达到数十亿美元的算力资源，来训练和服务下一代Claude模型，并预计在今年实现超过1吉瓦的计算能力上线。

Google Cloud CEO库里安称，“Anthropic大幅扩大使用TPU，反映了团队多年来在使用TPU时观察到的强劲价格性能比和效率。”

不过，Anthropic和谷歌的合作离不开资本面背景。谷歌既是Anthropic的早期投资者，也是其最重要的云算力提供方之一。公开信息显示，谷歌已累计向Anthropic投资超过30亿美元，持有约14%股权。

Anthropic CFO Krishna Rao此前曾表示：“Anthropic与Google有长期伙伴关系，这次扩展有助于持续增长定义前沿AI所需的算力。”

通过加大对TPU的使用，Anthropic在成本与算力供给上获得更高确定性，同时也加深了与谷歌在云基础设施层面的长期合作关系。

不过，AI产业版图中，即使是资本合作伙伴之间，也可能出现产品和业务上的竞争。字母AI在近期的《争夺AI制高点，谷歌和Anthropic必有一战》一文中曾总结，“如果Anthropic利用谷歌的TPU训练出了远超Gemini的模型，那谷歌在应用层的竞争将变得更加困难。”

正是在这一现实之下，“合纵连横”开始成为AI基建格局中的关键逻辑。算力层面，面对英伟达在GPU与生态上的长期主导，谷歌以TPU、云服务和资本关系拉起稳定合作网络，模型公司也借此获得更可控的算力与成本，此为“合纵”。

但这种结盟并不会延伸到产品前台。进入模型与应用层，竞争重新回到零和博弈：Gemini、Claude、ChatGPT在前端要面临正面厮杀，“连横”随之出现，即在基础设施上交错合作，但在产品上又各自为战。

英伟达与谷歌两大阵营并存，恰恰放大了这种合纵连横的结构。不过，说起这一版图的形成以及两条路径之争的起源，还要追溯到AI爆发前的10年。

GPU与TPU之争，源自“前AI时代”

在生成式AI成为全球焦点之前，英伟达已提前十余年布局算力生态。

2006年CUDA发布，使GPU首次成为可被通用编程调用的并行计算平台，开发者得以绕开硬件细节直接释放算力潜能。随后，PyTorch、TensorFlow等主流框架相继围绕CUDA构建，GPU也从图形加速器演变为AI训练与推理的事实标准底座。

CUDA的价值不止“让GPU可编程”，更在于打造了独家软件生态这一壁垒。

英特尔前CEO帕特·基辛格，在去年接受采访时直言，英伟达真正的护城河在于“CUDA以及NVLink这样的软件和互连体系”，而不仅仅是单一代GPU的性能优势。

这一体系优势在2012年迎来爆发点，多伦多大学的Alex Krizhevsky等人利用两块英伟达GPU在ImageNet挑战赛上训练出AlexNet并一举夺魁，展示了大规模神经网络与GPU并行计算结合的巨大潜力，成为行业关注的里程碑事件。

但在深度学习浪潮爆发的同时，大规模神经网络对算力效率和能耗也提出新要求。此时，谷歌意识到，依赖通用GPU在大规模推理和训练时，存在着成本高且功耗大等问题。

于是，从2015年起，谷歌开始研发TPU——一种面向神经网络推理负载的定制芯片。彼时的目标还不是今天的通用AI计算，而是支撑搜索、翻译和广告等核心业务中的深度学习模型，在数据中心内以更低能耗、更稳定时延完成大规模推理任务。

2018年，谷歌将TPU正式引入Google Cloud，对外开放使用，试图证明TPU在云端的现实价值。ResNet-50等模型的测试数据显示，TPU上训练可显著缩短时间并降低成本，使原本需要数天的任务在更短周期内完成。

不过，在几年后的生成式AI爆发初期，英伟达迅速成为了那个最大赢家。2020—2022年，大模型训练从研究走向工程化，A100等GPU凭借成熟的软件生态和稳定供给，成为各大云厂商和模型公司的默认选择。

TPU的转折点，出现在算力需求持续放大之后。2023年起，随着大模型推理负载激增、电力与成本压力上升，谷歌TPU因在单位能耗和价格性能比上的优势开始受到行业重视，逐步获得更广泛采用。

字母AI在此前的报道《AI在美国“与民争电”》中曾披露，AI数据中心的惊人能耗，已经迫使美国AI企业亲自下场，投身能源基础设施建设。因此，TPU的能耗和成本优势，无疑是吸引诸多AI企业用户的重要因素。

另一方面，为降低开发者迁移门槛，谷歌近年明显加大了TPU的软件生态投入。去年，曾有多家外媒披露，谷歌正推进代号为TorchTPU的内部项目，核心目标是提升TPU对PyTorch的原生支持能力。

据了解，该项目与Meta的需求密切相关，部分软件组件可能开源，以缩小TPU与英伟达GPU在主流开发环境中的使用差距。

事实上，以谷歌为代表的TPU生态的发展，一定程度上也宏观层面，对冲了英伟达一直占据绝对主导地位的担忧。

“让一家企业成为全球AI未来的守门人是危险的，会带来严重的经济风险。”美国参议员伊丽莎白·沃伦，曾这样呼吁美国司法部启动对英伟达反垄断调查。

尤其对于OpenAI这样的头部模型公司而言，“合纵联横”的算力格局，无疑比依赖单一技术路线更具战略弹性。

OpenAI的“摇摆”和“押注”

在大模型爆发期，OpenAI就与对英伟达的算力体系紧紧捆绑在一起。公开信息显示，在GPT-3时代，OpenAI曾动用约3,600台HGXA100服务器、近3万块英伟达GPU进行训练。

这种紧密的关系一直持续到今天，去年年底，OpenAI宣布和英伟达展开新一轮合作，计划部署至少10吉瓦的英伟达算力系统，这些系统将包括数百万块英伟达GPU，用于训练并运行下一代模型。首批算力预计将在今年下半年上线。

不过，这种紧密捆绑背后，OpenAI也在探索“去中心化”的举措。尤其是随着近年来模型规模与推理负载急剧上升，新的算力供给路径迫在眉睫。

去年6月，有媒体披露称OpenAI开始通过Google Cloud租用TPU，为包括ChatGPT在内的产品提供部分推理算力，希望借此降低推理成本。这是OpenAI首次计划批量使用非英伟达芯片。

OpenAI发言人随后称“公司目前仅处于对部分谷歌TPU的早期测试阶段，尚无计划进行大规模部署。”

但这份相对克制的回应，仍难以掩盖OpenAI寻求供应链平衡的意图。Forrester高级分析师Charlie Dai此前指出，OpenAI开始测试TPU，反映出“随着推理成本不断上升，AI提供商正尝试在英伟达GPU之外，寻找更具成本控制能力的专用方案”。

而在几个月后，OpenAI在10月宣布与AMD签署协议，将在未来几年部署最高6吉瓦的AMD GPU资源，计划从今年下半年开始落地，进一步做实了上述观点。

时间来到2026年初，近期，Cerebras也被纳入OpenAI的算力“鸡蛋篮”。外媒报道称，双方签署了一项多年期协议，总额超过100亿美元，对应最高750兆瓦算力，并将分阶段交付至2028年。

OpenAI在公告中由高管Sachin Katti发言，称其算力策略是构建一个“Resilient Portfolio”（有韧性、抗风险的算力组合），按不同负载匹配不同系统；在这一组合中，Cerebras以“低时延推理”能力发挥补位作用。

值得关注的是，在技术路线上，Cerebras走的是另一条路：把整片硅晶圆直接做成一颗“晶圆级芯片”（WSE-3）。

Cerebras一颗芯片面积约4.6万平方毫米，是英伟达主流数据中心GPU（约800平方毫米）的数十倍，集成约4万亿晶体管和90万个核心，并将计算与存储高度集中在同一器件内，从而减少GPU集群中常见的跨卡通信瓶颈。

而在资本层面，这桩合作背后有一个无法忽视的背景：OpenAI首席执行官奥特曼，此前以个人身份投资过Cerebras。

另一边，OpenAI的布局并未止步于引入外部算力替代方案。去年以来，多家外媒披露OpenAI已在内部组建芯片团队，并与博通展开合作，推进自研AI加速器芯片，研发重点是围绕自身模型体系，优化推理负载与系统级效率。

奥特曼曾在和博通的合作公告中表示：“通过开发我们自己的加速器（芯片），可以将我们在最前沿模型和产品设计中学到的经验直接嵌入硬件，从而释放更强大的能力。”

而在谷歌TPU和其他供应商之间的摇摆，一定程度上也映射出OpenAI对于谷歌这位竞争对手态势的警惕。

苹果在近期宣布与谷歌达成多年合作，将用Gemini模型升级Siri与Apple Intelligence。毫无疑问，这一合作将强化谷歌在与OpenAI竞赛中的位置，巩固其在移动端AI入口的生态影响力。

更长远地看，美国AI算力产业格局并非单纯的阵营间的商战，而是一条可跨越的“楚河汉界”。在基础设施层，英伟达与谷歌分别构筑起两套稳定运转的算力基座，成为企业绕不开的长期投入方向。

但这条“界线”并不意味着割裂。对模型公司而言，算力是必须“合纵”的底座，而产品与模型竞争才是真正的战场。越是头部玩家，越需要在底层结盟、在上层博弈。

作为模型侧的头部玩家，OpenAI的多路径布局，正是这一现状的缩影：既要依托英伟达的强大生态，但也不能持续单点依赖。同时开始布局自研算力，为下一轮算力与模型竞赛预留空间。

2026年，美国AI产业的“楚河汉界”之间，“合纵连横”的戏码仍将继续上演。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

英伟达和谷歌，美国AI棋局的楚河汉界

Meta高管狂分百亿期权，700名员工却下岗

美国总统特朗普公开宣布访华行程 外交部回应

美国总统特朗普公开宣布访华行程 外交部回应

申京努力了，然而杜兰特啊

刘晓庆妹妹发声！称姐姐受身边人挑拨

油价"驯服"特朗普？一到100美元就TACO

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

转头就晕的耳石症，能开车上班吗？

上新|| 她们说，找到了自己的人生裙子！

15年经典落幕！MIUI正式停更，澎湃OS全面接棒

别再人挤人，泰州的这条老街，传承1200年！

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

美国总统特朗普公开宣布访华行程外交部回应

美国总统特朗普公开宣布访华行程外交部回应

担心特朗普突然停战以总理下令48小时尽力摧毁伊设施