![]()
AWS 的 AI 芯片业务正在出现一个关键转向。
![]()
过去,客户只能通过 AWS 云服务使用 Trainium 算力;现在,Amazon 已经公开松口,未来可能把搭载 Trainium 芯片的整柜系统直接卖给客户。
Amazon CEO Andy Jassy 在最新财报电话会上谈到 Trainium 机柜销售时表示,未来“很有可能”出售整柜系统,但眼下需要先平衡现有云客户需求和未来整柜销售之间的产能分配。
![]()
The Next Platform 也据此判断,AWS 正在被推向类似 OEM 的角色:不只是运营云数据中心,还可能成为 AI 基础设施系统供应商。
真正推动这件事的,不是 AWS 主动想变成 Dell 或 Supermicro,而是头部 AI 公司对算力的需求已经大到“租云”不一定划算。
![]()
以 Anthropic 为例。
Amazon 和 Anthropic 今年 4 月扩大合作,Anthropic 承诺未来 10 年向 AWS 技术投入超过 1000 亿美元,并获得最高 5 GW 的 Trainium 算力,用于训练和运行 Claude。
Amazon 官方称,这项合作覆盖 Trainium2、Trainium3、Trainium4,以及未来几代 Amazon 自研芯片。
![]()
Anthropic 不再只是一个普通云客户,而是在锁定未来 10 年的底层算力供应。到了 5 GW 这个级别,算力已经不是简单的云资源采购,而是涉及芯片、机柜、网络、电力、散热、数据中心和长期成本控制的基础设施工程。
Google 已经先走一步。
Anthropic 今年 4 月还扩大了与谷歌云和 Broadcom 的合作,将获得多吉瓦级 TPU 容量,并从 2027 年开始上线。
Google 官方称,这些 TPU 容量将通过谷歌云服务以及 Broadcom 供应的 Google-built TPU 提供。
Data Center Dynamics 报道称,这笔 TPU 规模达到 3.5 GW。
头部 AI 公司不想只绑定一家云厂商,也不想永远用最高成本租算力。它们一边使用 AWS Trainium,一边使用 Google TPU,本质上是在为自己的模型训练和推理建立多供应商基础设施。
AWS 面临的压力也在这里。
如果 AWS 只是将 Trainium 放在自家云上出租,Anthropic、OpenAI 这类客户可能会把更多长期算力转向 Google TPU、Nvidia GPU 集群,甚至自建数据中心。
如果 AWS 愿意出售 Trainium 整柜系统,虽然可能少赚一部分云服务溢价,但至少可以把客户留在 Amazon 自研芯片生态里。
这也是为什么“卖整柜”比“卖云服务”更值得关注。它改变的不只是销售形式,而是云计算的权力关系。
过去,AWS 的模式是自己买设备、建数据中心、运营基础设施,再将算力租给客户。客户省去了买服务器和运维的麻烦,AWS 则赚取云服务利润。
但 AI 时代的大客户不一样,它们的算力需求太大,成本敏感度也太高。对它们来说,长期租云可能不如直接买下系统、自己运营来得划算。
从财报看,AWS 仍然是 Amazon 最重要的利润机器。2026 年一季度,AWS 收入达到 376 亿美元,同比增长 28%;AWS 营业利润达到 142 亿美元,高于去年同期的 115 亿美元。Amazon 当季整体净销售额为 1815 亿美元,净利润为 303 亿美元,其中包括 Anthropic 投资带来的 168 亿美元税前收益。
![]()
但正因为 AWS 利润率高,大客户才会有动力绕开云服务溢价。
The Next Platform 计算称,AWS 一季度营业利润率达到 37.7%,这正是 Anthropic 和 OpenAI 这类公司不愿长期承担的成本。
Amazon 自研芯片业务也已经不再是一个内部配角。
Amazon 披露,包括 Graviton、Trainium 和 Nitro 在内的芯片业务,一季度环比增长接近 40%,当前年化收入运行率超过 200 亿美元。
Jassy 还称,Amazon 目前拥有超过 2250 亿美元的 Trainium 收入承诺,Trainium2 相比同类 GPU 有约 30% 的价格性能优势,Trainium3 相比 Trainium2 又提升 30% 到 40%。
![]()
更大的看点是,OpenAI 也已经进入 AWS 的 Trainium 叙事。
Amazon 今年 2 月宣布,OpenAI 和 AWS 将原有 380 亿美元多年协议扩大 1000 亿美元,OpenAI 将通过 AWS 基础设施使用约 2 GW Trainium 容量,用于支撑相关高级工作负载。
AWS 的自研芯片不只是 Anthropic 的选择,也正在成为 Amazon 争夺头部 AI 客户的重要武器。
过去,云厂商靠 Nvidia GPU 集群吸引 AI 公司;现在,它们希望用自研芯片将客户锁得更深。
对 Nvidia 来说,这不是立刻被替代的问题。
Nvidia 仍然拥有最完整的 GPU 生态和软件栈,短期内很难被云厂商自研芯片全面取代。
但 AWS Trainium 和 Google TPU 正在给大客户提供第二套选择,不是所有训练和推理都必须跑在 Nvidia GPU 上,尤其是当模型公司开始以 10 年、数 GW 规模规划算力时,成本和供应链控制权会变得越来越重要。
![]()
云计算正在被 AI 拉回硬件时代。
AWS 当年定义了云计算的核心逻辑,企业不用买服务器,直接租云。但到了 AI 大模型时代,最大的客户可能又开始买服务器了。
只是这一次,它们买的不是传统服务器,而是装满自研 AI 芯片的整柜系统;卖方也不再只是传统 OEM,而是 AWS、Google 这样的云巨头。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.