![]()
微软宣布,其美国中部数据中心区域率先部署了全新人工智能推理加速器MAIa 200。
微软将Maia 200描述为推理处理的强力引擎,采用台积电3纳米工艺制造,配备原生FP8/FP4(浮点)张量核心,以及重新设计的内存系统,使用216GB最新高速内存架构(HBM3e)。该系统每秒可传输7TB数据。Maia 200还提供272MB片上内存以及数据传输引擎,微软表示这些配置能够让大规模模型保持高效运行状态。
性能表现方面的突破
根据微软介绍,这些硬件特性使Maia 200的FP4性能是第三代Amazon Trainium的三倍,FP8性能超越谷歌第七代张量处理单元。微软称Maia 200是其迄今为止最高效的推理系统,相比现有系统提供30%的成本性能优势。不过,微软目前尚未公布该产品在美国以外地区的上市时间。
除了美国中部数据中心区域,微软还宣布位于亚利桑那州凤凰城附近的美国西部3区数据中心将成为下一个部署Maia 200的区域。
创新的架构设计
微软云计算和人工智能执行副总裁Scott Guthrie在博客中详细介绍了Maia 200的部署方式。该系统由机架托盘构成,每个托盘配置四个Maia加速器。每个托盘通过直接、非交换连接实现完全互联,确保高带宽通信的本地化,以获得最佳推理效率。
Guthrie表示,系统采用相同的通信协议进行机架内和机架间网络连接,使用Maia AI传输协议来扩展Maia 200加速器集群,同时将网络跳数降至最低。
"这种统一架构简化了编程复杂性,提升了工作负载灵活性,减少了资源浪费,同时在云规模下保持了一致的性能和成本效率。"Guthrie补充道。
Guthrie介绍,Maia 200采用了基于标准以太网的全新两层扩展设计。"定制传输层和紧密集成的网络接口卡释放了性能潜力,提供了强大的可靠性和显著的成本优势,而无需依赖专有架构。"
在实际应用中,每个加速器提供高达1.4TB每秒的专用扩展带宽。据Guthrie介绍,这使微软能够为多达6144个加速器的集群提供可预测的高性能集体操作。
软件开发的协同优化
从Guthrie的角度来看,Maia 200架构能够为密集推理集群提供可扩展的性能,同时降低Azure全球数据中心的功耗和总拥有成本。
在软件层面,Guthrie表示公司使用了复杂的仿真流水线来指导Maia 200从早期阶段的架构设计。该流水线涉及对大语言模型的计算和通信模式进行高保真建模。
"这种早期协同开发环境使我们能够将硅芯片、网络和系统软件作为统一整体进行优化,这一切都在首个硅芯片完成之前实现。"Guthrie说道。他还补充说,微软开发了重要的仿真环境,用于从底层内核验证到完整模型执行和性能调优的全过程。
作为产品推广的一部分,微软正为AI开发者提供Maia 200软件开发工具包的预览版本。
Q&A
Q1:Maia 200相比其他AI加速器有什么优势?
A:Maia 200采用台积电3纳米工艺,FP4性能是第三代Amazon Trainium的三倍,FP8性能超越谷歌第七代张量处理单元,相比现有系统提供30%的成本性能优势。每秒可传输7TB数据,每个加速器提供高达1.4TB每秒的专用扩展带宽。
Q2:Maia 200目前在哪些地区可以使用?
A:目前Maia 200首先部署在微软美国中部数据中心区域,位于亚利桑那州凤凰城附近的美国西部3区数据中心将是下一个部署区域。微软尚未公布该产品在美国以外地区的上市时间。
Q3:Maia 200的架构设计有什么特点?
A:Maia 200采用机架托盘构成,每个托盘配置四个加速器,通过直接非交换连接实现完全互联。使用基于标准以太网的两层扩展设计,支持多达6144个加速器的集群,并配备272MB片上内存和数据传输引擎。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.