TPU、Maia、Trainium、MTIA：四大云厂商围堵英伟达，推理算力不再姓“黄”？|gpu|nvidia|amd

分享至

1. 市场分裂：两条增长曲线正式分岔

AI芯片未来是否就是英伟达一家独大？

先给大家看核心数据，来自彭博情报的预测，到2033年，整个AI加速器市场总规模会冲到6040亿美元，其中通用GPU的年复合增长率是16.1%，而云厂商定制的ASIC芯片，年复合增长率达到了44.6%，是通用GPU的将近三倍。

2026年是个明确的转折点，全球AI加速器市场已经走出了完全不一样的两条增长曲线。

市场细分领域

2024 年营收

2033 年预测值

复合年均增长率（CAGR）

主要应用场景

通用型 GPU（NVIDIA）

约 1300 亿美元

约 2900 亿美元

16.1%

模型训练、灵活推理

定制 ASIC（云厂商自研）

约 180 亿美元

约 1650 亿美元

44.6%

优化推理、专用训练

其他加速器（AMD、Intel）

约 120 亿美元

约 550 亿美元

约 18%

成本敏感型训练、云端部署

AI 加速器市场整体

约 1600 亿美元

约 6040 亿美元

约 16%

全场景 AI 计算

2024-2033年AI加速器市场规模预测对比表

简单说一下，为什么会出现这样的分化？

通用GPU（主要就是英伟达）的优势，至今没人能撼动，在大模型训练领域，CUDA生态十几年积累的护城河，加上灵活可编程的特性，训练新模型还是得靠它，未来十年这个位置没人能替代，所以它保持16%的稳定增长没问题。

但现在AI算力的结构已经变了——训练一个大模型只需要做一次，最多微调几次，而把模型给用户用，也就是推理，现在已经占了所有AI算力的三分之二，这个比例还会越来越大。

推理的需求很明确：模型架构固定，对成本极度敏感，不需要那么强的通用性，刚好给定制ASIC留下了空间，拼成本拼效率，定制芯片比通用GPU强太多。

最直观的例子是Midjourney公开的数据，把推理业务从英伟达GPU迁移到谷歌TPU之后，每月算力成本从210万美元降到了70万美元，直接砍了65%。

这个数字放大到云厂商百万级的芯片部署量，一年就是几十亿上百亿美元的节省，傻子才不做。

2026年全球头部云厂商总资本开支达到了6600-6900亿美元，其中75%都砸在了AI基础设施上，每家都有600-800亿美元的AI预算，越来越多的钱，流向了自己设计的定制芯片，而不是英伟达的GPU。

2. 四大云厂商的定制芯片军火库

现在谷歌、微软、亚马逊、Meta四家，每家都拿出了成熟的量产定制芯片，我们一个一个拆解参数和战略意图。

谷歌 TPU v7/V8 "Ironwood"

谷歌做TPU已经做了七代，从2015年到现在，这次Ironwood是谷歌架构升级最大的一代，完全为超大规模推理量身打造。

它用台积电3nm工艺生产，单芯片峰值FP8算力达到4.6 PFLOPS，配192GB HBM3e内存，带宽超过7.2TB/s，整个芯片从架构开始，就是给Gemini用的Transformer架构设计的，专门给注意力计算做了硬件优化。

谷歌把9216颗Ironwood组成一个Pod，用自己的定制光网状互联解决了GPU集群常见的网络瓶颈。现在Anthropic已经部署了超过一百万颗TPU v7跑Claude的推理，这也是定制AI芯片第一次单个客户就突破百万颗的部署量。

对谷歌来说，TPU既是自己用，也开放给谷歌云的客户，直接和英伟达GPU的实例打性价比，走的是垂直整合从芯片到云的路线。

并且，Google的V8也发布了，推理和训练也分开了。

微软 Maia 200

微软的第二代定制AI加速器2026年初刚出来，攒了好几年，和AMD、台积电一起磨出来的。

同样台积电3nm工艺，单芯片封装了超过1400亿晶体管，FP4算力超过10 PFLOPS，微软说这个性能是亚马逊Trainium 3的三倍以上，内存配了216GB HBM3e，是2026年量产定制芯片里容量最大的，峰值功耗750W，刚好卡在标准液冷机架的范围内。

微软的思路很清楚，Maia 200就是给OpenAI的GPT系列模型深度定制的，从固件、编译器到算子全都是量身优化的，不是为了完全替换英伟达GPU，而是互补——训练和通用推理还是用英伟达的实例，GPT专属的推理流量全部走Maia集群，摊下来每token的成本优势会越滚越大。

亚马逊 Trainium 3

亚马逊从2019年的Inferentia开始做定制硅，到2025年re:Invent已经更到第三代Trainium 3了，路线走得很稳。

同样台积电3nm，单芯片FP8算力2.52 PFLOPS，配144GB HBM3e内存，自带专门的NeuronCore，同时支持训练和推理，硬件层面就支持跨芯片的模型并行。

亚马逊能把Trainium 3组成最多一百万颗芯片的UltraCluster，用定制的EFA互联，单节点带宽3.2Tbps，官方说同等算力下，比英伟达的实例便宜一半。这个降价幅度，对英伟达的云GPU业务来说，是目前最凶的价格压力。

而且亚马逊的Neuron SDK已经做得很成熟了，PyTorch和JAX的任务只需要改很少的代码就能跑，门槛比很多人想象的低。

Meta MTIA

Meta是四家里面推进最快的，2026年已经有三代芯片在走，全部自己用不对外卖，所以公开参数不多，目标很明确：就是满足自己30亿用户的Llama推理需求。

现在已经大规模部署的是MTIA v2，主要跑Facebook和Instagram的排序推荐推理；今年中MTIA v3会量产，专门给Llama系列生成式AI推理做的；年底v4 "Santa Barbara"会出样，这也是Meta第一款用HBM4内存的芯片，针对高带宽需求的任务。

有意思的是Meta现在的分工很明确：训练还是找英伟达买H100和B200，推理全部上自己的MTIA，其实这也是现在整个行业的普遍分工模式。

除此之外，OpenAI也和博通合作，投了大概100亿美元设计定制推理芯片，目标到2029年部署10GW的容量，对应几十万颗芯片，现在还在设计阶段，后续动静肯定不小。

3. 2026年主流AI芯片参数横评

我把现在市面上量产和即将出样的主要芯片，包括各家定制ASIC和英伟达的新卡，整理了一个对比表，大家可以直接看参数差异：

规格参数

谷歌 TPU v7 Ironwood

微软 Maia 200

亚马逊 Trainium 3

NVIDIA Vera Rubin

NVIDIA B200 (Blackwell)

制程工艺

台积电 3nm

台积电 3nm（预计）

台积电 4nm

晶体管数量

未披露

1400 亿 +

未披露

3360 亿

2080 亿

峰值算力（FP8）

4.6 PFLOPS

约 5 PFLOPS（估算）

2.52 PFLOPS

约 25 PFLOPS（估算）

4.5 PFLOPS

峰值算力（FP4）

未披露

10+ PFLOPS

未披露

50 PFLOPS

9 PFLOPS

显存

192GB HBM3e

216GB HBM3e

144GB HBM3e

288GB HBM4

192GB HBM3e

显存带宽

7.2+ TB/s

约 8 TB/s（估算）

约 5 TB/s（估算）

12+ TB/s（估算）

8 TB/s

热设计功耗（TDP）

约 500W（估算）

750W

约 600W（估算）

约 1000W（估算）

1000W

最大集群 / 机柜规模

9216 颗芯片

Azure 机架级集群

100 万颗芯片（超集群）

Vera Rubin NVL144

GB200 NVL72

互联技术

自研光互联网格

Azure 定制互联

EFA 3.2 Tbps

NVLink 6（3.6 TB/s）

NVLink 5（1.8 TB/s）

主要负载

推理

推理（GPT 专项优化）

训练 + 推理

上市 / 可用时间

量产（2025 年起）

2026 年初

2026 年中

2026 年末 / 2027 年初

量产（2025 年）

2026年主流AI加速器参数对比表

这个表里最受关注的，就是英伟达用来反击的Vera Rubin，我们单独拿出来说。

4. 英伟达的反击：Vera Rubin架构

英伟达肯定不会坐以待毙，黄仁勋在2026年GTC直接放出了Vera Rubin，规格直接拉满，就是要抢回推理的性价比优势。

Vera Rubin用台积电3nm工艺，集成了3360亿晶体管，FP4算力达到50 PFLOPS，是全球第一款量产用288GB HBM4内存的AI加速器，英伟达官方说，推理性能比上一代Blackwell B200高5倍，每生成token的成本直接降十分之九。

新的NVLink 6互联带宽翻了一倍，达到3.6TB/s，可以把144颗Vera Rubin组成一个NVL144集群，专门给超过10万亿参数的超大模型训练用。

但英伟达最大的优势，至今还是CUDA生态——现在有超过500万活跃开发者，二十年的库优化，所有主流机器学习框架原生支持，这是所有定制ASIC都比不了的。定制芯片都要做自己的编译器和SDK，不管是谷歌的XLA还是亚马逊的Neuron，只要任务偏离芯片预设的架构，用起来就会有摩擦，这是英伟达的基本盘。

5. 推理经济学，为什么定制芯片必然崛起

我们把训练和推理的核心差异拉出来，你就能明白为什么市场必然走向分裂：

指标

训练（TRAINING）

推理（INFERENCE）

占 AI 总算力比例（2026 年）

约 33%

约 67%

成本敏感度

中等（一次性投入）

极高（持续边际成本）

负载可预测性

多变

高度可预测

所需架构灵活性

低（模型结构已知）

定制 ASIC 优势

中等

显著

英伟达优势

强劲（CUDA、灵活性）

逐渐减弱（成本压力）

训练vs推理核心指标对比表

数据来源是New Street Research和摩根士丹利。

现在分析师一致预测：到2028年，英伟达在推理专用算力的市场份额，会从现在的90%以上掉到20%-30%，训练市场英伟达还是稳稳的老大，但推理这块，已经挡不住定制芯片的进攻了。

为什么定制芯片能把成本压这么低？核心三个原因：

第一是架构专业化，针对Transformer里的注意力、前馈网络、采样这些常用操作做固定功能单元，去掉了通用GPU核心不必要的开销，效率自然高。

第二是垂直整合，云厂商从芯片设计、编译器到模型部署全链条自己控制，省掉了中间环节的利润加成，成本自然降下来。

第三是规模摊薄成本，一次投几百万颗芯片给台积电，设计一次性的NRE（非重复性工程）成本，摊到每颗芯片上就没多少了。

6. 所有人都躲不开的台积电瓶颈

一个很有意思的点：2026年所有这些主流AI芯片，不管是定制ASIC还是英伟达GPU，全都是台积电3nm工艺做的，等于谷歌、微软、亚马逊、Meta、英伟达全都在抢同一个产能。

台积电2026年上半年3nm产能利用率已经是100%了，需求大概是现有供应的三倍，新厂哪怕已经破土动工，从建好到量产也要18-24个月，缺口短期填不上。

台积电 3nm 客户

芯片型号

年度预估出货量

状态

谷歌

TPU v7 Ironwood

200 万颗以上

量产中

微软

Maia 200

50 万～100 万颗

产能爬坡

亚马逊

Trainium 3

100 万颗以上

产能爬坡

苹果

M4/M5 系列

3 亿颗以上

量产中

英伟达

Vera Rubin

100 万颗以上

样品送测

博通（为 OpenAI 定制）

定制推理芯片

待定

设计阶段

AMD

MI400 系列

50 万颗以上

样品送测

台积电3nm主要客户年产能预估表

现在产能分配就是看谁下单早、下单多，谷歌和苹果作为台积电最大的3nm客户，天然就有产能优先权，英伟达虽然晶圆量很大，但现在自己的客户也要和这些直接做芯片的云厂商抢产能，情况就很微妙。

产能这块已经变成了战略资源，拿到分配比做好设计还重要，这是很多人没注意到的点。

7. 基础设施跟着变：电力、散热、组网全要改

定制芯片起来之后，数据中心的基础设施要求也跟着变了，我们一个个说。

功率密度和散热

2026年云厂商几千亿的AI capex，直接转换成了前所未有的电力需求。定制ASIC的功耗普遍比英伟达旗舰GPU低，TPU v7大概500W，Trainium 3大概600W，Maia 200是750W，而Vera Rubin和B200都是1000W。但哪怕单芯片功耗低，部署量上去之后，总功耗还是会疯涨。

现在行业已经形成了明确的散热分级：

散热方案

风冷

直液冷

浸没式液冷

热设计功耗范围

最高 500W

500W–1000W

700W 以上

机柜功率密度

15–25 kW / 机柜

40–80 kW / 机柜

80–150+ kW / 机柜

2026 年采用率

持续下降

新建机房的 22%

新建机房的 <5%

基础设施成本

基准水平

基准的 1.3–1.8 倍

基准的 2.0–3.0 倍

不同TDP芯片对应散热方案对比表

500W以下可以用风冷，现在占比越来越低

500W到1000W用直接液冷就够，2025年新建数据中心已经有22%用了液冷

700W以上才需要浸没式液冷，成本是风冷的2-3倍

所以定制芯片其实在散热上有优势，大部分不需要上最贵的浸没式，基础设施成本本身就更低。

互联和组网

定制ASIC和英伟达GPU的互联策略完全不一样，英伟达用标准化的NVLink，现在NVLink 6已经到3.6TB/s，多GPU扩展有成熟的参考架构，直接照着做就行。

而云厂商的定制芯片，全都用自己的私有互联：谷歌是光网状，亚马逊是EFA，微软是Azure定制网络，对基础设施团队来说，这就意味着不同芯片的机架布局、布线、故障域设计全都不一样，要同时支持两种路线，复杂度比以前高很多。

现在数据中心都变成了异构部署：英伟达GPU做训练和灵活负载，定制ASIC做优化推理，一个数据中心里要同时跑不同架构、不同散热、不同互联的芯片，对部署和运维的专业要求比以前高太多了。

目前做这个全球部署的，Introl算是做得比较大的，在257个地点有550个专门做高性能计算的现场工程师，三年营收涨了9594%，上过Inc 5000，最多部署过十万颗GPU，铺了四万多英里光纤，这种物理部署的经验，不是软件自动化能替代的。

8. 不同角色的行动建议

最后给不同位置的朋友整理几个关键点，照着做就不会踩大坑。

对基础设施规划师

第一，一定要按异构来设计，电力、散热、组网都要预留同时容纳英伟达GPU和定制ASIC的空间，2026年之后的数据中心本来就是多架构并存。

第二，提前预算液冷，任何超过700W的新芯片都要液冷，旧改造价比新建贵1.5到2.5倍，早上比晚上好。

第三，提前锁产能，3nm缺口三倍，不管GPU还是ASIC交货周期都已经到12-18个月，2027年要部署的话，现在就得 commitments。

对运维团队

第一，要准备新的管理工具，定制芯片有自己的监控、诊断、编排栈，和英伟达原来的DCGM/NVSMI完全不一样，提前培训。

第二，私有互联和标准以太网、InfiniBand的维护流程不一样，提前做好对应准备。

第三，接受混合散热环境，同一个数据中心里可能同时有空冷旧服务器、直冷定制ASIC、浸没冷英伟达集群，每个的维护流程都不一样，提前梳理清楚。

对战略决策者

第一，英伟达的护城河在训练收窄，在推理还很稳，预算分配就是：训练给英伟达，发挥CUDA的灵活性价值；高容量推理优先看定制ASIC，拼每token成本。

第二，盯着20-30%这个份额阈值，如果到2028年英伟达推理份额真掉到这个区间，整个定价逻辑都会变，不要做全英伟达的绑定，提前布局多供应商。

第三， capex越早规划越好，2026年几千亿的总投入已经把芯片、网络、电力、散热整个供应链都挤紧张了，晚决策就可能拖18个月的交付。

9. 接下来会怎么走？

2026年只是拐点，不是终点，接下来两三年还有几个变量会加速变化：

第一，英伟达Vera Rubin的实际表现，如果真能兑现5倍性能10倍降本，那确实能抢回一部分推理市场，减慢定制芯片的渗透，关键要看实际产能够不够，不是看纸面参数。

第二，HBM4换代，Meta的MTIA v4和英伟达Vera Rubin都用了HBM4，带宽是HBM3e的两倍，提前适配新内存的芯片会拿到下一代优势，还卡在HBM3e的会被动。

第三，OpenAI的定制芯片什么时候上量，OpenAI现在全靠英伟达和微软，要是真几十万颗做出来，那整个行业都会跟着跟进做定制。

第四，台积电新产能2027年底会逐步释放，缺口会缓解一点，英特尔18A代工也会给大家多一个选择，只是目前AI芯片设计厂商用得还不多。

说白了，AI加速器市场在2026年已经出现了任何厂商都控制不了的结构性分裂。

英伟达确实铺好了整个大规模AI的底子，CUDA至今还是计算领域最重要的软件生态，但大规模推理的经济账，加上云厂商想要自己掌握芯片成本的野心，已经把市场推向了多供应商的未来，未来十年的数据中心架构，就是由这个变化定义的。

不管是什么规模的组织，只要你部署AI基础设施，现在都要回答一个问题：怎么在一个没有单芯片赢家的世界里做规划？

参考：https://introl.com/blog/custom-silicon-inflection-2026-hyperscaler-asics-nvidia-gpu

文章来源于歪睿老哥，作者歪睿老哥

创芯大讲堂芯片课程汇总

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.