网易首页 > 网易号 > 正文 申请入驻

TPU、Maia、Trainium、MTIA:四大云厂商围堵英伟达,推理算力不再姓“黄”?

0
分享至

1. 市场分裂:两条增长曲线正式分岔

AI芯片未来是否就是英伟达一家独大?

先给大家看核心数据,来自彭博情报的预测,到2033年,整个AI加速器市场总规模会冲到6040亿美元,其中通用GPU的年复合增长率是16.1%,而云厂商定制的ASIC芯片,年复合增长率达到了44.6%,是通用GPU的将近三倍。

2026年是个明确的转折点,全球AI加速器市场已经走出了完全不一样的两条增长曲线。

市场细分领域

2024 年营收

2033 年预测值

复合年均增长率(CAGR)

主要应用场景

通用型 GPU(NVIDIA)

约 1300 亿美元

约 2900 亿美元

16.1%

模型训练、灵活推理

定制 ASIC(云厂商自研)

约 180 亿美元

约 1650 亿美元

44.6%

优化推理、专用训练

其他加速器(AMD、Intel)

约 120 亿美元

约 550 亿美元

约 18%

成本敏感型训练、云端部署

AI 加速器市场整体

约 1600 亿美元

约 6040 亿美元

约 16%

全场景 AI 计算

2024-2033年AI加速器市场规模预测对比表

简单说一下,为什么会出现这样的分化?

通用GPU(主要就是英伟达)的优势,至今没人能撼动,在大模型训练领域,CUDA生态十几年积累的护城河,加上灵活可编程的特性,训练新模型还是得靠它,未来十年这个位置没人能替代,所以它保持16%的稳定增长没问题。

但现在AI算力的结构已经变了——训练一个大模型只需要做一次,最多微调几次,而把模型给用户用,也就是推理,现在已经占了所有AI算力的三分之二,这个比例还会越来越大。

推理的需求很明确:模型架构固定,对成本极度敏感,不需要那么强的通用性,刚好给定制ASIC留下了空间,拼成本拼效率,定制芯片比通用GPU强太多。

最直观的例子是Midjourney公开的数据,把推理业务从英伟达GPU迁移到谷歌TPU之后,每月算力成本从210万美元降到了70万美元,直接砍了65%。

这个数字放大到云厂商百万级的芯片部署量,一年就是几十亿上百亿美元的节省,傻子才不做。

2026年全球头部云厂商总资本开支达到了6600-6900亿美元,其中75%都砸在了AI基础设施上,每家都有600-800亿美元的AI预算,越来越多的钱,流向了自己设计的定制芯片,而不是英伟达的GPU。

2. 四大云厂商的定制芯片军火库

现在谷歌、微软、亚马逊、Meta四家,每家都拿出了成熟的量产定制芯片,我们一个一个拆解参数和战略意图。

谷歌 TPU v7/V8 "Ironwood"

谷歌做TPU已经做了七代,从2015年到现在,这次Ironwood是谷歌架构升级最大的一代,完全为超大规模推理量身打造。

它用台积电3nm工艺生产,单芯片峰值FP8算力达到4.6 PFLOPS,配192GB HBM3e内存,带宽超过7.2TB/s,整个芯片从架构开始,就是给Gemini用的Transformer架构设计的,专门给注意力计算做了硬件优化。

谷歌把9216颗Ironwood组成一个Pod,用自己的定制光网状互联解决了GPU集群常见的网络瓶颈。现在Anthropic已经部署了超过一百万颗TPU v7跑Claude的推理,这也是定制AI芯片第一次单个客户就突破百万颗的部署量。

对谷歌来说,TPU既是自己用,也开放给谷歌云的客户,直接和英伟达GPU的实例打性价比,走的是垂直整合从芯片到云的路线。

并且,Google的V8也发布了,推理和训练也分开了。


微软 Maia 200

微软的第二代定制AI加速器2026年初刚出来,攒了好几年,和AMD、台积电一起磨出来的。

同样台积电3nm工艺,单芯片封装了超过1400亿晶体管,FP4算力超过10 PFLOPS,微软说这个性能是亚马逊Trainium 3的三倍以上,内存配了216GB HBM3e,是2026年量产定制芯片里容量最大的,峰值功耗750W,刚好卡在标准液冷机架的范围内。

微软的思路很清楚,Maia 200就是给OpenAI的GPT系列模型深度定制的,从固件、编译器到算子全都是量身优化的,不是为了完全替换英伟达GPU,而是互补——训练和通用推理还是用英伟达的实例,GPT专属的推理流量全部走Maia集群,摊下来每token的成本优势会越滚越大。

亚马逊 Trainium 3

亚马逊从2019年的Inferentia开始做定制硅,到2025年re:Invent已经更到第三代Trainium 3了,路线走得很稳。

同样台积电3nm,单芯片FP8算力2.52 PFLOPS,配144GB HBM3e内存,自带专门的NeuronCore,同时支持训练和推理,硬件层面就支持跨芯片的模型并行。

亚马逊能把Trainium 3组成最多一百万颗芯片的UltraCluster,用定制的EFA互联,单节点带宽3.2Tbps,官方说同等算力下,比英伟达的实例便宜一半。这个降价幅度,对英伟达的云GPU业务来说,是目前最凶的价格压力。

而且亚马逊的Neuron SDK已经做得很成熟了,PyTorch和JAX的任务只需要改很少的代码就能跑,门槛比很多人想象的低。

Meta MTIA

Meta是四家里面推进最快的,2026年已经有三代芯片在走,全部自己用不对外卖,所以公开参数不多,目标很明确:就是满足自己30亿用户的Llama推理需求。

现在已经大规模部署的是MTIA v2,主要跑Facebook和Instagram的排序推荐推理;今年中MTIA v3会量产,专门给Llama系列生成式AI推理做的;年底v4 "Santa Barbara"会出样,这也是Meta第一款用HBM4内存的芯片,针对高带宽需求的任务。

有意思的是Meta现在的分工很明确:训练还是找英伟达买H100和B200,推理全部上自己的MTIA,其实这也是现在整个行业的普遍分工模式。

除此之外,OpenAI也和博通合作,投了大概100亿美元设计定制推理芯片,目标到2029年部署10GW的容量,对应几十万颗芯片,现在还在设计阶段,后续动静肯定不小。

3. 2026年主流AI芯片参数横评

我把现在市面上量产和即将出样的主要芯片,包括各家定制ASIC和英伟达的新卡,整理了一个对比表,大家可以直接看参数差异:

规格参数

谷歌 TPU v7 Ironwood

微软 Maia 200

亚马逊 Trainium 3

NVIDIA Vera Rubin

NVIDIA B200 (Blackwell)

制程工艺

台积电 3nm

台积电 3nm

台积电 3nm

台积电 3nm(预计)

台积电 4nm

晶体管数量

未披露

1400 亿 +

未披露

3360 亿

2080 亿

峰值算力(FP8)

4.6 PFLOPS

约 5 PFLOPS(估算)

2.52 PFLOPS

约 25 PFLOPS(估算)

4.5 PFLOPS

峰值算力(FP4)

未披露

10+ PFLOPS

未披露

50 PFLOPS

9 PFLOPS

显存

192GB HBM3e

216GB HBM3e

144GB HBM3e

288GB HBM4

192GB HBM3e

显存带宽

7.2+ TB/s

约 8 TB/s(估算)

约 5 TB/s(估算)

12+ TB/s(估算)

8 TB/s

热设计功耗(TDP)

约 500W(估算)

750W

约 600W(估算)

约 1000W(估算)

1000W

最大集群 / 机柜规模

9216 颗芯片

Azure 机架级集群

100 万颗芯片(超集群)

Vera Rubin NVL144

GB200 NVL72

互联技术

自研光互联网格

Azure 定制互联

EFA 3.2 Tbps

NVLink 6(3.6 TB/s)

NVLink 5(1.8 TB/s)

主要负载

推理

推理(GPT 专项优化)

训练 + 推理

训练 + 推理

训练 + 推理

上市 / 可用时间

量产(2025 年起)

2026 年初

2026 年中

2026 年末 / 2027 年初

量产(2025 年)

2026年主流AI加速器参数对比表

这个表里最受关注的,就是英伟达用来反击的Vera Rubin,我们单独拿出来说。

4. 英伟达的反击:Vera Rubin架构

英伟达肯定不会坐以待毙,黄仁勋在2026年GTC直接放出了Vera Rubin,规格直接拉满,就是要抢回推理的性价比优势。

Vera Rubin用台积电3nm工艺,集成了3360亿晶体管,FP4算力达到50 PFLOPS,是全球第一款量产用288GB HBM4内存的AI加速器,英伟达官方说,推理性能比上一代Blackwell B200高5倍,每生成token的成本直接降十分之九。

新的NVLink 6互联带宽翻了一倍,达到3.6TB/s,可以把144颗Vera Rubin组成一个NVL144集群,专门给超过10万亿参数的超大模型训练用。

但英伟达最大的优势,至今还是CUDA生态——现在有超过500万活跃开发者,二十年的库优化,所有主流机器学习框架原生支持,这是所有定制ASIC都比不了的。定制芯片都要做自己的编译器和SDK,不管是谷歌的XLA还是亚马逊的Neuron,只要任务偏离芯片预设的架构,用起来就会有摩擦,这是英伟达的基本盘。

5. 推理经济学,为什么定制芯片必然崛起

我们把训练和推理的核心差异拉出来,你就能明白为什么市场必然走向分裂:

指标

训练(TRAINING)

推理(INFERENCE)

占 AI 总算力比例(2026 年)

约 33%

约 67%

成本敏感度

中等(一次性投入)

极高(持续边际成本)

负载可预测性

多变

高度可预测

所需架构灵活性

低(模型结构已知)

定制 ASIC 优势

中等

显著

英伟达优势

强劲(CUDA、灵活性)

逐渐减弱(成本压力)

训练vs推理核心指标对比表

数据来源是New Street Research和摩根士丹利。

现在分析师一致预测:到2028年,英伟达在推理专用算力的市场份额,会从现在的90%以上掉到20%-30%,训练市场英伟达还是稳稳的老大,但推理这块,已经挡不住定制芯片的进攻了。

为什么定制芯片能把成本压这么低?核心三个原因:

第一是架构专业化,针对Transformer里的注意力、前馈网络、采样这些常用操作做固定功能单元,去掉了通用GPU核心不必要的开销,效率自然高。

第二是垂直整合,云厂商从芯片设计、编译器到模型部署全链条自己控制,省掉了中间环节的利润加成,成本自然降下来。

第三是规模摊薄成本,一次投几百万颗芯片给台积电,设计一次性的NRE(非重复性工程)成本,摊到每颗芯片上就没多少了。

6. 所有人都躲不开的台积电瓶颈

一个很有意思的点:2026年所有这些主流AI芯片,不管是定制ASIC还是英伟达GPU,全都是台积电3nm工艺做的,等于谷歌、微软、亚马逊、Meta、英伟达全都在抢同一个产能。

台积电2026年上半年3nm产能利用率已经是100%了,需求大概是现有供应的三倍,新厂哪怕已经破土动工,从建好到量产也要18-24个月,缺口短期填不上。

台积电 3nm 客户

芯片型号

年度预估出货量

状态

谷歌

TPU v7 Ironwood

200 万颗以上

量产中

微软

Maia 200

50 万~100 万颗

产能爬坡

亚马逊

Trainium 3

100 万颗以上

产能爬坡

苹果

M4/M5 系列

3 亿颗以上

量产中

英伟达

Vera Rubin

100 万颗以上

样品送测

博通(为 OpenAI 定制)

定制推理芯片

待定

设计阶段

AMD

MI400 系列

50 万颗以上

样品送测

台积电3nm主要客户年产能预估表

现在产能分配就是看谁下单早、下单多,谷歌和苹果作为台积电最大的3nm客户,天然就有产能优先权,英伟达虽然晶圆量很大,但现在自己的客户也要和这些直接做芯片的云厂商抢产能,情况就很微妙。

产能这块已经变成了战略资源,拿到分配比做好设计还重要,这是很多人没注意到的点。

7. 基础设施跟着变:电力、散热、组网全要改

定制芯片起来之后,数据中心的基础设施要求也跟着变了,我们一个个说。

功率密度和散热

2026年云厂商几千亿的AI capex,直接转换成了前所未有的电力需求。定制ASIC的功耗普遍比英伟达旗舰GPU低,TPU v7大概500W,Trainium 3大概600W,Maia 200是750W,而Vera Rubin和B200都是1000W。但哪怕单芯片功耗低,部署量上去之后,总功耗还是会疯涨。

现在行业已经形成了明确的散热分级:

散热方案

风冷

直液冷

浸没式液冷

热设计功耗范围

最高 500W

500W–1000W

700W 以上

机柜功率密度

15–25 kW / 机柜

40–80 kW / 机柜

80–150+ kW / 机柜

2026 年采用率

持续下降

新建机房的 22%

新建机房的 <5%

基础设施成本

基准水平

基准的 1.3–1.8 倍

基准的 2.0–3.0 倍

不同TDP芯片对应散热方案对比表

500W以下可以用风冷,现在占比越来越低

500W到1000W用直接液冷就够,2025年新建数据中心已经有22%用了液冷

700W以上才需要浸没式液冷,成本是风冷的2-3倍

所以定制芯片其实在散热上有优势,大部分不需要上最贵的浸没式,基础设施成本本身就更低。

互联和组网

定制ASIC和英伟达GPU的互联策略完全不一样,英伟达用标准化的NVLink,现在NVLink 6已经到3.6TB/s,多GPU扩展有成熟的参考架构,直接照着做就行。

而云厂商的定制芯片,全都用自己的私有互联:谷歌是光网状,亚马逊是EFA,微软是Azure定制网络,对基础设施团队来说,这就意味着不同芯片的机架布局、布线、故障域设计全都不一样,要同时支持两种路线,复杂度比以前高很多。

现在数据中心都变成了异构部署:英伟达GPU做训练和灵活负载,定制ASIC做优化推理,一个数据中心里要同时跑不同架构、不同散热、不同互联的芯片,对部署和运维的专业要求比以前高太多了。

目前做这个全球部署的,Introl算是做得比较大的,在257个地点有550个专门做高性能计算的现场工程师,三年营收涨了9594%,上过Inc 5000,最多部署过十万颗GPU,铺了四万多英里光纤,这种物理部署的经验,不是软件自动化能替代的。

8. 不同角色的行动建议

最后给不同位置的朋友整理几个关键点,照着做就不会踩大坑。

对基础设施规划师

第一,一定要按异构来设计,电力、散热、组网都要预留同时容纳英伟达GPU和定制ASIC的空间,2026年之后的数据中心本来就是多架构并存。

第二,提前预算液冷,任何超过700W的新芯片都要液冷,旧改造价比新建贵1.5到2.5倍,早上比晚上好。

第三,提前锁产能,3nm缺口三倍,不管GPU还是ASIC交货周期都已经到12-18个月,2027年要部署的话,现在就得 commitments。

对运维团队

第一,要准备新的管理工具,定制芯片有自己的监控、诊断、编排栈,和英伟达原来的DCGM/NVSMI完全不一样,提前培训。

第二,私有互联和标准以太网、InfiniBand的维护流程不一样,提前做好对应准备。

第三,接受混合散热环境,同一个数据中心里可能同时有空冷旧服务器、直冷定制ASIC、浸没冷英伟达集群,每个的维护流程都不一样,提前梳理清楚。

对战略决策者

第一,英伟达的护城河在训练收窄,在推理还很稳,预算分配就是:训练给英伟达,发挥CUDA的灵活性价值;高容量推理优先看定制ASIC,拼每token成本。

第二,盯着20-30%这个份额阈值,如果到2028年英伟达推理份额真掉到这个区间,整个定价逻辑都会变,不要做全英伟达的绑定,提前布局多供应商。

第三, capex越早规划越好,2026年几千亿的总投入已经把芯片、网络、电力、散热整个供应链都挤紧张了,晚决策就可能拖18个月的交付。

9. 接下来会怎么走?

2026年只是拐点,不是终点,接下来两三年还有几个变量会加速变化:

第一,英伟达Vera Rubin的实际表现,如果真能兑现5倍性能10倍降本,那确实能抢回一部分推理市场,减慢定制芯片的渗透,关键要看实际产能够不够,不是看纸面参数。

第二,HBM4换代,Meta的MTIA v4和英伟达Vera Rubin都用了HBM4,带宽是HBM3e的两倍,提前适配新内存的芯片会拿到下一代优势,还卡在HBM3e的会被动。

第三,OpenAI的定制芯片什么时候上量,OpenAI现在全靠英伟达和微软,要是真几十万颗做出来,那整个行业都会跟着跟进做定制。

第四,台积电新产能2027年底会逐步释放,缺口会缓解一点,英特尔18A代工也会给大家多一个选择,只是目前AI芯片设计厂商用得还不多。

说白了,AI加速器市场在2026年已经出现了任何厂商都控制不了的结构性分裂。

英伟达确实铺好了整个大规模AI的底子,CUDA至今还是计算领域最重要的软件生态,但大规模推理的经济账,加上云厂商想要自己掌握芯片成本的野心,已经把市场推向了多供应商的未来,未来十年的数据中心架构,就是由这个变化定义的。

不管是什么规模的组织,只要你部署AI基础设施,现在都要回答一个问题:怎么在一个没有单芯片赢家的世界里做规划?

参考:https://introl.com/blog/custom-silicon-inflection-2026-hyperscaler-asics-nvidia-gpu

文章来源于歪睿老哥,作者歪睿老哥

创芯大讲堂芯片课程汇总

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
竟是同一当事人?上月称吐槽海底捞遭跨省约谈,本月在深圳阻止吸烟再上热搜

竟是同一当事人?上月称吐槽海底捞遭跨省约谈,本月在深圳阻止吸烟再上热搜

可达鸭面面观
2026-04-26 19:43:35
为什么你一定会老死?因为你的DNA在故意杀掉你

为什么你一定会老死?因为你的DNA在故意杀掉你

半解智士
2026-04-12 13:31:31
回顾:“种树市长”一人搞了3代的钱,给小孙子小孙女都买了别墅

回顾:“种树市长”一人搞了3代的钱,给小孙子小孙女都买了别墅

爱史纪
2026-04-27 11:44:24
别再恶意抹黑!余承东晒问界车有多结实:5辆车才算把M6撞翻

别再恶意抹黑!余承东晒问界车有多结实:5辆车才算把M6撞翻

快科技
2026-04-27 12:47:35
终于等到这一天!中国国防部发出最强音!

终于等到这一天!中国国防部发出最强音!

做个平凡的轩友
2026-04-27 06:55:08
全员大乱斗!德比大战爆发群殴,门将染红后当众重拳打脸对手

全员大乱斗!德比大战爆发群殴,门将染红后当众重拳打脸对手

夜白侃球
2026-04-27 09:03:26
大清算开始!央视曝光:78亿实际只有1亿,7亿农业基地变豪华会所

大清算开始!央视曝光:78亿实际只有1亿,7亿农业基地变豪华会所

蜉蝣说
2026-04-26 23:34:37
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
身价断崖腰斩!萨维尼奥风光不再,7000万报价已成过往!

身价断崖腰斩!萨维尼奥风光不再,7000万报价已成过往!

田先生篮球
2026-04-26 14:51:35
子女有3个习惯,大多不会孝顺,父母要给自己留后路

子女有3个习惯,大多不会孝顺,父母要给自己留后路

闻心品阁
2026-04-24 14:29:16
2859.2克黄金制品被警方扣押三十年:公安已约当事人面谈

2859.2克黄金制品被警方扣押三十年:公安已约当事人面谈

新京报
2026-04-26 21:05:03
难怪民进党气得跳脚也不敢抓郑丽文,她背后的保护伞,让绿营绝望

难怪民进党气得跳脚也不敢抓郑丽文,她背后的保护伞,让绿营绝望

阿器谈史
2026-04-27 09:01:44
利润559万到市值一万亿:谁在把中际旭创的“命大”包装成神话?

利润559万到市值一万亿:谁在把中际旭创的“命大”包装成神话?

新浪财经
2026-04-26 22:41:16
华为又一款新品上市,4月25日,正式开售!

华为又一款新品上市,4月25日,正式开售!

科技堡垒
2026-04-25 00:21:56
火星地球化改造迎来新突破!科学家找到目前可行、且最简单方案

火星地球化改造迎来新突破!科学家找到目前可行、且最简单方案

窥探宇宙1
2026-04-26 14:00:03
枪击案发生时,坐在特朗普旁边的华裔女记者是谁?

枪击案发生时,坐在特朗普旁边的华裔女记者是谁?

红星新闻
2026-04-26 20:19:27
无缘季后赛?孙铭徽发声,官宣决定,广厦官宣,胡金秋期待

无缘季后赛?孙铭徽发声,官宣决定,广厦官宣,胡金秋期待

东球猫猫
2026-04-27 11:14:41
华为余承东:尊界新车价格在200万左右

华为余承东:尊界新车价格在200万左右

界面新闻
2026-04-26 13:08:56
袁咏仪宣布不再买包,搬家发现爱马仕奢侈品令儿子换卫衣逛宜家,张智霖意外慌张

袁咏仪宣布不再买包,搬家发现爱马仕奢侈品令儿子换卫衣逛宜家,张智霖意外慌张

科学发掘
2026-04-26 19:59:24
47岁周杰伦2.5亿买百年庄园!登记在岳父名下,推倒重建轰动当地

47岁周杰伦2.5亿买百年庄园!登记在岳父名下,推倒重建轰动当地

嫹笔牂牂
2026-04-27 07:48:31
2026-04-27 15:16:49
EETOP半导体社区 incentive-icons
EETOP半导体社区
国内著名的电子工程师社区
7518文章数 15653关注度
往期回顾 全部

科技要闻

打1折!DeepSeek输入缓存降价

头条要闻

美海军考虑从外国购买军舰和零部件:日韩成潜在选择

头条要闻

美海军考虑从外国购买军舰和零部件:日韩成潜在选择

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

《奔跑吧14》刚播就把一手好牌打稀烂

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

房产
时尚
亲子
本地
游戏

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

比起买大件,这些“小装备”更派得上用场!

亲子要闻

韩国女星40岁官宣怀孕,12次试管失败终靠中医圆梦

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

近期Steam热门网游一览!网易、完美榜上有名

无障碍浏览 进入关怀版