网易首页 > 网易号 > 正文 申请入驻

微软Maia 200掰TPUv7手腕,AI推理加速进入定制时代

0
分享至

微软终于发布了第二代定制AI芯片Maia 200。这距离它上一代AI芯片已经过去了两年多,迭代节奏既慢于英伟达不断加速的产品周期,也落后于谷歌TPU的代际推进。但它已经能够让微软站稳,参与这场大规模云厂商之间的“军备竞赛”。作为后来者,它更直接地围绕当前推理负载的真实约束展开。

AI已经进入推理时代,不同应用场景需要针对不同约束条件优化。这正是过去一年英伟达 GPU 叙事出现松动的底层原因。但到了2026年,竞争的重心进一步下沉至超大规模云厂商定制 AI 芯片之间的正面较量。谁能在给定成本、延迟和能耗水平下,提供更高的实际性能,谁才有望赢得这场竞争。

去年,TPU最先改变了AI竞争。谷歌Gemini 3与第七代TPU Ironwood的组合,开始对主要基于英伟达GPU的OpenAI,形成了总拥有成本上的长期竞争优势。到年底,亚马逊第三代Trainium发布,让Anthropic有底气不断推出更强大的智能体应用。在这场竞赛中,无论是微软还是OpenAI,尽管关系日益微妙,但仍然谁都离不开谁。

2025/12/1 完整阅读 >

在官方博客中,微软将Maia 200描述为“目前所有超大规模数据中心中性能最高的自研芯片”。按照微软给出的测算,如果以Maia 200替换其现有AI推理基础设施,那么在相同投入下,每1美元可获得约30%的额外性能,相当于将OpenAI最新GPT-5.2模型的单位推理成本降低近25%。

具体而言,Maia 200采用台积电3nm工艺制造,拥有超过1400亿颗晶体管。每块芯片在FP4精度下,可实现超过10 PFLOPS的算力,是亚马逊Trainium 3的近4倍,FP8性能超越了谷歌第七代TPU。它搭载了216GB的HBM3e,内存带宽7 TB/s,纵向扩展带宽高达2.8 TB/s。

事实上,如果仅从纸面指标来看,Maia 200的多项性能参数,已经不在英伟达的B200之下,甚至在部分精度推理场景下,可以与最新的B300相提并论。当然,下半年英伟达Vera Rubin架构的GPU,将再次抬高这场竞赛的准入门槛。

不过,在超大规模系统扩展能力上,微软仍然有所取舍。Maia 200支持最多6,144颗AI芯片纵向互联,规模略低于谷歌Ironwood所能支持的9,216颗芯片,超节点层面的峰值算力也因此稍逊一筹。


在大规模推理时代,能效正在上升为另一个决定性竞争要素。如果说,每一美元可获得的算力决定了“token工厂”的资本开支,那么,每一瓦所能输出的性能则直接影响其长期运营成本。在微软披露的典型推理工况下,Maia 200在750W的TDP(热设计功耗)约束内,仍能释放出极高的有效算力,其单位功耗性能明显优于谷歌、亚马逊与英伟达当前一代的AI芯片。

为了以更低的成本持续生成token,微软在Maia 200上做出了一系列高度指向性的架构取舍。它或部分代表了未来定制AI芯片的趋势。

其中最核心的一点,是它从底层开始就为低精度执行而原生设计。通过降低数值精度,不仅可以显著提升推理吞吐、压缩内存占用,还能同步改善每瓦性能。相比之下,谷歌第七代 TPU 并未公开其在FP4精度下的算力表现,而亚马逊第三代Trainium在FP4下的算力,也并未相较FP8出现提升。

尽管市场普遍认为,谷歌第七代TPU在单位成本算力上已对英伟达Blackwell架构形成压力,但这种优势并非在所有推理阶段都同样成立。有分析显示,在Prefill阶段,英伟达凭借对FP4精度的支持,使GB200/GB300相较TPU v7 External仍保有约35%–50%的成本优势;而在Decode阶段,双方的实际性价比差距也没有那样悬殊。

这也从侧面解释了英伟达近几代架构的演进逻辑。Blackwell为超低精度推理系统性地铺平了道路,原生支持FP4、MXFP4与NVFP4等多种4位浮点格式,为模型在更低精度下运行预留了充分空间。在此基础上,相较GB200,GB300的主要性能增量几乎全部集中在FP4吞吐率与低精度执行效率上;而随后的Vera Rubin架构,则继续放大FP4在整体算力结构中的权重。

但在推理场景中,决定系统上限的,往往并不只是算力本身,而是数据如何被存储、如何被访问,以及能够被多近地反复使用。正如“HBM 之父”金正浩(Jung Ho Kim)所形容的那样,AI系统更像是一块奶油蛋糕,真正决定品质与价值的,是内存这层“奶油”。

正是在这样的背景下,Maia 200的设计开始围绕大体量片上SRAM做文章。微软并没有继续单纯押注更高带宽的HBM,而是重新设计了内存层次结构,将大量存储能力前移到计算单元附近。Maia 200搭载了272 MB的片上SRAM,不仅高于亚马逊Trainium 3的256 MB,也超过了以速度著称的Groq LPU的230 MB。

这种思路并不陌生。如果HBM代表着“更大的带宽”,那么通过SRAM层面的创新,实现“更近的距离”。某种意义上,这也是英伟达近年来重新审视推理架构的重要线索。去年底,黄仁勋砸了200亿美元,把Groq的核心团队收编回家。

2025/12/25 完整阅读 >

片上SRAM之于Maia 200的意义,并不只在于容量本身,更在于它重新定义了数据在推理芯片中的流动方式。与依赖硬件缓存自动调度不同,Maia 200将片上SRAM划分为Tile级与Cluster级两个层次,并交由软件进行显式管理。这意味着,哪些数据该被固定在计算单元附近、哪些数据需要在不同计算阶段之间流转,成为可被精确规划的数据路径选择。大量原本必须往返HBM的数据,驻留在片上,降低了对更高延迟内存层级的依赖。这使得即便在模型结构愈发复杂、序列长度不断拉长的情况下,计算单元仍能维持较高的利用率和稳定的吞吐表现,也降低了能耗。

围绕这一重新设计的内存层次结构,Maia 200构建了一套高度面向推理的数据流架构。与之配合的,是分层设计的专用DMA(Direct Memory Access)引擎。其中,Tile级DMA负责计算单元与本地SRAM之间的细粒度搬运,Cluster级DMA调度片上不同计算单元与HBM之间的数据流动。更关键的是,这套DMA体系并非被动响应计算请求,而是通过提前调度与传输重叠,将数据在计算单元真正需要之前送达,从而最大限度地减少空转。

对于微软而言,Maia 200并非单纯的硬件升级路径。去年底,微软CEO萨蒂亚·纳德拉(Satya Nadella)在一次访谈中,提及微软的计划是在自己的MAI模型和芯片之间建立协同设计的闭环。

目前,Maia 200已率先部署在微软位于爱荷华州的数据中心,并开始进入实际生产环境。MicrosoftAI的CEO穆斯塔法·苏莱曼(Mustafa Suleyman)透露,微软已经在使用Maia 200研发自己的前沿大模型。同时,下一代Maia 300的设计工作也已启动。


在这个意义上,Maia系列并不是为了“对标英伟达”而存在,而是被定位为“一家拥有统一平台逻辑的公司”中的关键拼图。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

花寒弦絮
2026-04-04 00:48:59
著名女星送医期间遭性侵,救护员趁其无力反抗,用手机拍照威胁

著名女星送医期间遭性侵,救护员趁其无力反抗,用手机拍照威胁

素素娱乐
2026-04-03 08:57:48
他把冠军车定价4万,进口品牌集体失眠了

他把冠军车定价4万,进口品牌集体失眠了

固件更新中
2026-04-02 14:48:45
美国慌了,日本完了,印度着急了,菲律宾腿抖了

美国慌了,日本完了,印度着急了,菲律宾腿抖了

南权先生
2026-04-03 05:00:03
绿豆立大功!中农大证实:绿豆降胆固醇、减肝脂肪,改善脂肪肝

绿豆立大功!中农大证实:绿豆降胆固醇、减肝脂肪,改善脂肪肝

思思夜话
2026-04-01 11:52:19
以色列一重要研究所被炸!已拦不住伊朗导弹!美防长承认重大失误

以色列一重要研究所被炸!已拦不住伊朗导弹!美防长承认重大失误

春序娱乐
2026-04-04 03:17:03
吉林大雪致珲乌高速发生事故,目击者称多车追尾 全省已有124个高速入口关闭

吉林大雪致珲乌高速发生事故,目击者称多车追尾 全省已有124个高速入口关闭

红星新闻
2026-04-03 19:13:22
35岁知名星二代,被曝生活拮据落魄,和父亲断来往,和母亲也决裂

35岁知名星二代,被曝生活拮据落魄,和父亲断来往,和母亲也决裂

西楼知趣杂谈
2026-04-02 07:52:04
长春一学生掉入学校外围下水井,12345工作人员:事发地之前有板子盖着,当晚已修好

长春一学生掉入学校外围下水井,12345工作人员:事发地之前有板子盖着,当晚已修好

极目新闻
2026-04-03 18:14:25
郑丽文率团乘高铁谒陵,392 级台阶见证两岸情

郑丽文率团乘高铁谒陵,392 级台阶见证两岸情

一只会笑的云
2026-04-02 22:36:53
烟火伴锋芒,深情渡余生!张雪峰的爱情故事很浪漫

烟火伴锋芒,深情渡余生!张雪峰的爱情故事很浪漫

史海流年号
2026-04-03 08:25:33
哈尔滨医科大学原党委书记张斌被查

哈尔滨医科大学原党委书记张斌被查

新京报
2026-04-03 16:06:52
张本美和赛前爱鞠躬,为何却被王艺迪淘汰?王励勤马琳秦志戬鼓掌

张本美和赛前爱鞠躬,为何却被王艺迪淘汰?王励勤马琳秦志戬鼓掌

体育大学僧
2026-04-03 10:28:31
阴阳先生看房子风水:卧室里若有这2个东西,无论多贵也要丢掉

阴阳先生看房子风水:卧室里若有这2个东西,无论多贵也要丢掉

磊子讲史
2026-03-28 18:32:26
4月,一个新的A股时代来了!

4月,一个新的A股时代来了!

郭小凡财经
2026-04-01 09:58:29
A股,尾盘传来一个“重磅信号”,下周,或将迎来大变盘!

A股,尾盘传来一个“重磅信号”,下周,或将迎来大变盘!

另子维爱读史
2026-04-03 18:52:23
亏损5286万!一线城市门店清零,收割中产老钱的餐饮巨头扛不住了

亏损5286万!一线城市门店清零,收割中产老钱的餐饮巨头扛不住了

品牌观察官
2026-04-03 20:48:54
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今怎样了

逼走陈忠和,打压刘国梁,排挤郎平,90岁“体坛恶人”如今怎样了

拳击时空
2026-04-03 05:53:14
2026-04-04 04:16:49
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
345文章数 62关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

游戏
家居
房产
本地
公开课

三十年铁律崩塌!主机涨价疯魔 IGN警告行业"将死"

家居要闻

温馨多元 爱的具象化

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版