![]()
微软不仅是全球最大的OpenAI模型使用者,同时仍是为OpenAI构建最新GPT模型提供计算、网络和存储支持的最大合作伙伴。这为微软提供了构建更优秀Maia AI加速器的双重理由,而微软刚刚宣布已经实现了这一目标。
所有大型云服务商和超大规模数据中心运营商,以及四大生成式AI模型制造商中的三家——OpenAI、Anthropic和Meta Platforms——都在努力创造自己的定制AI XPU,以降低运行推理的生成式AI工作负载的每token成本。第四家独立模型构建商xAI似乎准备使用特斯拉可能通过Dojo开发的任何产品,前提是它具有足够的可扩展性并能适应生成式AI训练和推理任务,但目前似乎满足于使用英伟达GPU。
训练仍是少数玩家感兴趣的领域,但实际上,英伟达几乎主导了这个市场。随着AI推理在全球企业和政府中投入生产,无论是直接还是通过云服务间接使用,预计需要的计算量可能比AI训练多一个数量级,这为超过一百家AI计算引擎初创公司提供了开拓细分市场并获利的机会。
微软和所有超大规模运营商一样,希望在部署AI驱动的协作助手时控制自己的硬件命运。但作为云服务商,它也必须保留通用X86 CPU和英伟达GPU(以及越来越多的AMD GPU),以便客户在这是他们架构偏好时可以租用。像其他云服务商一样,微软乐于对那些想要使用AMD或英伟达GPU或英特尔、AMD甚至英伟达CPU的用户收取高额费用。但它也希望制造自己的计算引擎,相比这些第三方替代方案实现价格优势。这样,当您租用Cobalt CPU或Maia XPU时,实际上是在支持微软摆脱对这些芯片供应商的依赖。
同样的逻辑适用于亚马逊网络服务、谷歌、百度、阿里巴巴、腾讯以及其他一些设计自己CPU和XPU的公司。Meta Platforms并不完全是基础设施云,但由于它正在出租其硬件容量来运行Llama模型API,就像OpenAI和Anthropic分别用其GPT和Claude生成式AI模型所做的那样,它正在成为各种主权实体的生成式AI平台云——并寻求资金来构建必须支撑其"超级智能"愿景的基础设施。
谷歌十多年前开始其Tensor处理单元项目,因为它知道如果没有将数据中心容量翻倍,就无法在Android设备上每天仅三分钟地推出AI辅助语音搜索。微软在几年前与OpenAI的合作真正起飞时遇到了"糟糕"的时刻,其GPT使用量看起来将呈指数级增长。因此,它在2023年11月披露了"Athena" Maia 100 XPU,但细节很少,只有一些机架照片。
Maia 100芯片设计用于支持AI训练和推理,专门设计用于运行OpenAI的GPT,作为微软OpenAI API服务和协作助手的后端。有传言说这没有实现,Athena芯片实际上并不擅长这项工作,但我们对此并不太相信。然而,可疑的是从未出现过配备Maia 100加速器的Azure虚拟机实例供租用。也许OpenAI不想在Athena芯片上部署其训练或推理工作,因此微软没有扩大产量。
这种情况似乎不会在"Braga" Maia 200上重现,Maia 200是Athena的继任者,专门针对AI推理,这使设计有所简化。
为了了解Maia 200是什么,我们需要回头挖掘关于Maia 100的信息,这些信息在发布时并不可用,而是随着时间的推移零零散散地透露出来的。
Athena Maia 100芯片在封装中可以看到四组HBM堆叠内存的轮廓。每个Athena核心都有一个张量单元和一个向量单元,分别标记为Tile Tensor Unit(TTU)和Tile Vector Processor(TVP)。有一个控制处理器管理工作在Athena核心中的流动,还有一个Tile Data Movement Engine协调数据在每个tile的L1缓存集合中的移动。这些tile被聚合成微软称为集群的单位。
一个集群中有四个tile,每个集群都有自己的集群控制处理器(CCP)和集群数据移动引擎(CDMA),管理对L2缓存SRAM的访问。
微软从未透露每个tile上的具体L1 SRAM容量以及四个tile在一个集群中共享多少L2 SRAM,但它暗示当你将整个Athena计算引擎上的所有L1和L2缓存加起来时,大约有500 MB。该计算引擎总共有十六个集群,使用2D网格互连,总共64个我们称之为核心的单元。
我们认为Athena芯片有64个核心,但不知道这些核心的良品率如何,因此不知道真实Maia 100的有效性能。我们很难相信它的良品率接近100%。52到56个核心之间似乎是可能的,我们假设微软给出的性能数字是针对完美良品率部件的。
Athena芯片面积为820平方毫米,非常接近台积电5纳米工艺的掩模版极限。微软最终表示Athena芯片复合体有1050亿个晶体管,看起来像单片芯片但这尚未得到确认。我们认为Maia 100的时钟频率约为2.86 GHz,估计芯片上约500 MB的聚合SRAM带宽为132 TB/秒。Athena计算引擎上的四个HBM2E内存堆栈有64 GB容量和1.8 TB/秒带宽——即使在两年前也不算很好。
每个Athena核心上的张量单元支持微软自己独特的MX6 6位和MX9 9位格式,这些格式使用微指数,比FP4和FP8格式具有稍高的精度,而由于Maia核心中的硬件辅助功能,对吞吐量的影响不大。MX9格式应该用于训练(它以较少的硬件开销替换BF16和FP32格式),MX6格式针对推理,这就是我们知道微软用Athena芯片瞄准两种AI工作负载的原因。
尽管微软和Meta Platforms创建的这些MX9和MX6格式很酷,但唯一实现它们的芯片是Maia 100。也不清楚OpenAI是否对这些格式很满意。也许不是,因为Braga Maia 200芯片在张量单元上只做FP4和FP8,在向量单元上做BF16和FP32。
Maia 100不仅有大量SRAM带宽和相当高的SRAM容量,它还有大量用于互连的I/O带宽——至少对于使用以太网作为其底层互连传输的芯片来说是这样。Maia 100有十二个端口,以400 Gb/秒运行,为每个Athena计算引擎提供4,800 Gb/秒(600 GB/秒)的聚合带宽,这是进入"Hopper" H100或H200 GPU或Blackwell插槽中一对"Blackwell" B200或B300芯片的NVLink端口的三分之二。
然而,这并不是作为单个聚合端口实现的。十二个通道中的九个分配给一个Athena芯片与四路四元组中其他三个芯片之间的芯片到芯片链接,这是Athena系统的基板。其余三个端口分布在三个不同的互连轨道上,向系统中其他Athena四元组提供150 GB/秒的带宽。数据包分布在这三个轨道上以减少拥塞。根据我们的计算,看起来Maia 100的连贯集群域是576个节点,总共2,304个计算引擎——对于一个美化的以太网网络来说还不错。
通过Maia 200,正如您在下面的显著特征表中看到的,这个美化的RoCE以太网经过了更多调整,现在称为AI传输层,并在集成网络接口上实现,就像Maia 100计算引擎中的NIC一样。区别在于ATL网络有八个轨道,用于更多的数据包分散和更大的集群域,包含1,536个节点和6,144个计算引擎。
我们认为这个集成NIC有56个SerDes通道,以400 Gb/秒运行,为Maia 200芯片提供2.8 TB/秒的聚合双向带宽。和以前一样,我们认为这56个通道中的九个用于全对全链接以制作Braga四元组系统板。剩余的47个通道用于实现ATL互连的八个轨道。这些如何安排数据包分散并连接到扩展内存域的两层以太网网络尚不清楚,但当我们有机会时会尝试解决。
对于Maia 200,微软升级到台积电N3P性能变体的3纳米工艺来蚀刻芯片。由于这种缩小,我们认为微软可以将时钟速度提高8%至3.1 GHz,并可以将芯片面积增加2%达到836平方毫米,这更接近当前光刻方法的858平方毫米掩模版极限。然而,大部分缩小用于在芯片上获得1440亿个晶体管,这对Athena和Braga芯片之间的相对性能产生了最直接的影响。
虽然Athena和Braga之间的I/O带宽增加了2.33倍,但每个计算引擎的SRAM容量减少了一半以上,我们估计聚合SRAM带宽下降了61%,即使核心数量增加了50%,根据我们的估计达到96个核心。我们认为Braga核心的良品率约为92%,这将在主流部件中产生88个可用核心。
虽然晶体管增加了1.5倍,HBM内存容量增加了3.4倍至216 GB(六个堆叠的十二层3 GB芯片,每个堆叠36 GB),由于有两个更多的堆叠并移至HBM 3E内存,内存带宽增加了3.9倍至7 TB/秒。(事实证明来自SK海力士。)
微软尚未发布Braga芯片的技术规格或框图,但我们知道它在FP4精度下额定为10.15 petaflops,在FP8精度下为5.07 petaflops(张量单元),在BF16精度下为1.27 petaflops(向量单元)。所有这些都在750瓦的热包络内。
这是一个Maia 200刀片服务器,右侧有四个AI XPU,看起来左侧有一个CPU——很可能是单个Cobalt 200,它于去年11月发布,性能比之前微软制造的Cobalt 100芯片提高约50%。
最后是一些机架。这里是一对空的Maia 200机架,左侧有一个冷却剂分配机架。这里是微软Azure数据中心中一些半填充的Maia 200机架。
Azure云的美国中部地区位于爱荷华州得梅因附近,现在有Maia 200机架,美国西部3区位于亚利桑那州凤凰城附近将是下一个获得它们的地区。微软表示将使用Maia 200计算引擎为OpenAI GPT-5.2大语言模型提供推理token,驱动微软Foundry AI平台以及Office 365协作助手。微软的AI研究人员还将使用Maia 200为训练内部模型生成合成数据。
目前还没有关于Azure何时将租用基于Maia 200的虚拟机实例的消息,这将让技术人员在各种AI模型上对其进行测试。
Q&A
Q1:微软Maia 200芯片与前一代Maia 100相比有哪些主要改进?
A:Maia 200采用台积电3纳米工艺制造,拥有1440亿个晶体管,时钟频率提升至3.1 GHz。内存容量从64 GB增加到216 GB,带宽从1.8 TB/秒提升到7 TB/秒。处理格式也从自定义的MX6/MX9改为标准的FP4/FP8格式,专门针对AI推理优化。
Q2:Maia 200芯片的性能表现如何?
A:Maia 200在750瓦功耗下可实现FP4精度10.15 petaflops、FP8精度5.07 petaflops的张量计算性能,以及BF16精度1.27 petaflops的向量计算性能。相比前代产品在推理任务上有显著提升。
Q3:微软为什么要自研AI芯片而不直接使用英伟达产品?
A:微软希望控制自己的硬件命运,降低对第三方芯片供应商的依赖。通过自研芯片可以为客户提供更具价格优势的选择,同时专门针对OpenAI GPT模型和微软自身AI服务进行优化,实现更好的成本效益。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.