AWS发布3nm芯片： 144 GB HBM3e，4.9 TB/s带宽|内存|gpu|英伟达|hbm|nvidia

AWS发布3nm芯片： 144 GB HBM3e，4.9 TB/s带宽

分享至

公众号记得加星标⭐️，第一时间看推送不会错过。

亚马逊网络服务 (AWS) 预览其下一代 Trainium AI 加速器 Trainium3 至今已近一年。今天，这款芯片正式面世。在 AWS re:Invent 大会上，该公司宣布 Amazon EC2 Trn3 UltraServer 正式上线，这是首批基于这款新芯片构建的系统，并作为其弹性计算云 (EC2) 服务的一部分提供。

Trainium3 由台积电采用 3 纳米工艺制造，单芯片可提供 2.52 PFLOPs 的 FP8 计算能力。该器件集成了 144 GB 的 HBM3e 显存，提供 4.9 TB/s 的内存带宽。AWS 向HPCwire表示，这些性能提升源于架构的改进，旨在平衡现代 AI 工作负载的计算、内存和数据传输。该公司表示，Trainium3 新增了对 FP32、BF16、MXFP8 和 MXFP4 的支持，并增强了对结构化稀疏性、微扩展、随机舍入和集体通信引擎的硬件支持。该公司称，这些新增功能旨在使芯片更好地适应 LLM、混合专家架构和多模态系统的训练模式。

这些改进概述了芯片层面的新特性，但AWS表示，真正的规模优势在于Trainium3的部署方式。该公司指出，许多最大的性能和效率提升都体现在UltraServer层面，因为新的架构、内存拓扑和集成引擎在数百个芯片上运行。在系统层面，一个完全配置的Trainium3 UltraServer连接144个芯片，聚合了362 FP8 PFLOPs的计算能力、20.7 TB的封装内HBM3e内存以及706 TB/s的内存带宽。据AWS称，与上一代基于Trainium2的架构相比，该系统可提供高达4.4倍的计算性能提升、4倍的能效提升以及近4倍的内存带宽提升。这些数据基于AWS在其发布博文中分享的内部测量结果。

AWS 向HPCwire透露，Trainium3 引入了 NeuronSwitch-v1，这是一种全新的全连接架构，可在单个 UltraServer 中连接多达 144 个芯片，并将芯片间带宽提升至 Trn2 UltraServer 的两倍。该公司还重点介绍了其网络堆栈的改进：升级后的 Neuron Fabric 将芯片间通信延迟降低至“略低于 10 微秒”，而 EC2 UltraClusters 3.0 则提供多拍比特网络，以支持跨越“数十万个 Trainium 芯片”的大型分布式训练作业。

AWS 表示，UltraServer 层面更高的内存容量、更快的架构以及改进的协同引擎相结合，旨在减少大型 Transformer 和 MoE 模型（尤其是具有更长上下文窗口或多模态组件的模型）中的数据传输瓶颈。在对 OpenAI 的开源权重模型 GPT-OSS 进行的内部测试中，AWS 报告称，与上一代 UltraServer 相比，每个芯片的吞吐量提高了 3 倍，推理响应时间提高了 4 倍，这表明该公司正在利用系统级的性能提升，使 Trainium3 能够胜任数万亿参数的训练和大规模推理任务。

AWS 表示，客户已经开始使用 Trainium3 来降低训练成本，Anthropic、Metagenomi和 Neto.ai等公司报告称，与替代方案相比，成本最多可降低 50%。AWS 还指出，Amazon Bedrock 已经在 Trainium3 上运行生产工作负载，这表明该芯片已准备好进行企业级部署。早期采用者也在积极探索新的应用领域：据 AWS 称，人工智能视频初创公司 Decart 正在使用 Trainium3 进行实时生成视频，并以 GPU 一半的成本实现了 4 倍的帧生成速度。

AWS 已着手研发下一代定制芯片。该公司表示，Trainium4 旨在显著提升计算、内存和互连性能，包括至少 6 倍的 FP4 吞吐量、3 倍的 FP8 性能以及 4 倍的内存带宽。AWS 将 FP8 性能的提升描述为“基础性飞跃”，这将使企业能够以至少三倍的速度训练模型或处理三倍数量的推理请求，并且预计通过持续的软件和工作负载优化，性能还将进一步提升。

为了支持更大规模的模型和更高的节点级扩展性，AWS 表示 Trainium4 还将集成英伟达的 NVLink Fusion 互连技术。其目标是使 Trainium4、Graviton 和 Elastic Fabric Adapter 能够在通用的基于 MGX 的机架中互操作，从而创建一个灵活的机架级设计，既可以托管 GPU 服务器，也可以托管 Trainium 系统。

随着 Trainium3 投入生产，Trainium4 也即将面世，AWS 似乎正在为未来做好准备。未来，人工智能训练的真正瓶颈将不再在于加速器本身，而在于连接它们的网络和系统设计。AWS 能否有效执行这一路线图，将决定其在构建前沿规模人工智能基础设施的持续竞争中的地位。

NVIDIA NVLink Fusion 被选中用于未来的 AWS Trainium4 部署

今天，NVIDIA 和 AWS 宣布建立多代合作伙伴关系，将 NVLink Fusion 芯片集成到未来的 AWS AI 机架和芯片设计中。AWS 在 2015 年收购 Annapurna Labs 后，开始自主设计 Graviton CPU、Nitro 网卡和 AI 加速器。因此，AWS 的技术栈并非 NVIDIA 的技术栈，尽管它也采购了大量 NVIDIA GPU。未来，AWS 计划将 NVIDIA 的技术集成到其定制的芯片栈中，这意义重大。

NVLink Fusion 背后的理念是，NVIDIA 可以销售一个 IP 模块，使其他芯片能够使用 NVIDIA NVLink 进行通信。

NVIDIA宣布了一系列合作伙伴，而Arm等其他公司最近也加入了进来。

从新闻稿中我们可以看出，“AWS 正在设计 Trainium4，使其能够与 NVLink 6 和 NVIDIA MGX 机架架构集成，这是 NVIDIA 和 AWS 在 NVLink Fusion 领域开展的多代合作的首个成果。”

这对两家公司来说都是一笔划算的交易。AWS 可以将与 NVIDIA NVL72 机架类似的机架架构用于其定制芯片项目。

对英伟达而言，这项技术正被融入到一项超大规模的定制芯片项目中。它有机会将NVLink Fusion Chiplet和NVLink交换机销售到那些非英伟达的CPU/GPU/NIC芯片机架中。

或许最有趣的是，AWS在推进Trainium未来版本开发的同时，决定采用NVIDIA NVLink技术，而不是自行构建通信协议、交换机以及机架基础设施。此外，值得注意的是，AWS采用NVLink意味着它不会在其机架内扩展计算链路中使用Broadcom Tomahawk Ultra或其他基于以太网的交换机芯片，因为将两种技术用于同一用途显得不合常理。

https://www.hpcwire.com/2025/12/02/aws-brings-the-trainium3-chip-to-market-with-new-ec2-ultraservers/

（来源：编译自 hpcwire ）

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4247期内容，欢迎关注。

加星标⭐️第一时间看推送，小号防走丢

求推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.