![]()
AWS 并非靠保守策略成为全球领先的云服务提供商。
该公司正在加倍投入人工智能基础设施,制定了 2026 年 2000 亿美元的资本支出计划。其中大部分投资将投入到网络服务组合中。
但 AWS 投入 2000 亿美元并非无的放矢——它正在重新定义网络物理特性,以控制延迟并避免潜在瓶颈。通过空心光纤等新兴技术、持续重视内部硬件开发以及重新设计的控制平面,该公司旨在为未来多云服务树立标准。
AWS 已构建了分层网络生态系统,并正在提升数据中心电力容量。在 2025 年第三季度财报电话会议上,亚马逊首席执行官 Andy Jassy 表示,AWS 在 2025 年单年就增加了 3.8 GW 的数据中心容量。
该公司有充分理由将所有精力集中在人工智能基础设施上。
该公司的网络服务组合见证了企业需求的大幅增长,同比增长强劲。根据 Polaris Market Research 的数据,全球多云网络市场预计到 2034 年将增长到 365 亿美元,反映了企业 IT 架构为满足人工智能军备竞赛需求而发生的转变。
AWS 核心网络副总裁 Matt Rehder 接受了 Data Center Knowledge 的广泛采访。他指出,公司正在采取大胆举措,包括启用空心光纤——传统光纤的新兴挑战者——来扩展其在都市区域的网络武器库。
以下是与 Rehder 关于 AWS 未来采访的部分转录,为简洁明了已进行编辑:
DCK:AWS 已概述了 2026 年的重大资本支出计划,网络将大受其益。像空心光纤这样的新兴技术如何适应这种规模的支出,最终目标是什么?
Rehder:我们看到的是——由生成式人工智能和传统云工作负载驱动——各方面客户增长加速,这直接转化为对更多带宽的需求。
这种需求表现在两个方面。首先,我们部署的每台服务器都需要连接到网络,每台服务器的带宽持续随时间增加。其次,我们所有的数据中心必须互连——在可用区内、跨区域、区域之间以及对外连接。这种持续的带宽增长是我们多年来一直看到的,但人工智能显然加速了这一趋势。
我们的优先级是可用性、可靠性和弹性。如果网络不工作,其他一切都不重要。核心目标是无约束扩展。我们绝不希望网络成为业务的阻碍。这意味着要有足够的端口、足够的带宽和足够的弹性,让客户完全不必考虑网络问题。
DCK:空心光纤长期以来因成本和供应担忧被认为不实用。什么发生了变化,AWS 今天实际在哪里部署它?
Rehder:在我 25 年的职业生涯中,空心光纤大部分时间都被讨论为理论概念。我们一直知道它在物理上是可能的,但无法大规模制造。
四五年前,随着学术研究改进了生产技术,情况开始改变。即使现在,它仍然是新兴技术。两个难题是可制造性——能否生产长距离、可靠的光纤段?——以及成本。
对我们来说,主要用例是长距离互连。AWS 可用区由多个数据中心组成,客户将其视为一个逻辑设施。要实现这一点,我们需要大约半毫秒以下的延迟。这个约束限制了设施之间的距离。
空心光纤让我们能够扩大这个半径。当土地或电力无法在足够近的距离获得时,它给了我们更多灵活性。今天,它比传统光纤贵得多,但如果它能在我们原本无法建设的地方实现扩展,它仍然是正确的权衡。
我们在非常少的地点使用它——大约五到十个——特别是存在地理约束的地方。长期来看,如果成本下降,我预计空心光纤将变得更加普遍。除了延迟之外,它的信号损耗更低,可以支持更高带宽或减少放大需求。
DCK:在数据中心内,人工智能工作负载改变了游戏规则。你在大规模情况下看到哪些新的网络瓶颈?
Rehder:有两个突出问题。
首先是控制平面可扩展性。机器学习服务器比传统基于 CPU 的系统需要两到三倍的每服务器带宽。当我们扩展网络以满足这种需求时,设备和光链路的数量急剧增长。
在那时,传统的控制平面方法不再有效。恢复时间增加,收敛变慢,你会遇到算法限制。2020 年左右,我们专门为机器学习网络构建了新的控制平面。它实现了故障的亚秒级恢复,跨数千设备的一致编程,以及扩展到数十万链路而不遇到瓶颈。
该系统现在正成为我们所有网络的基础,不仅仅是机器学习,因为它根本上更好。
第二个挑战是布线。在超大规模情况下,单个数据中心可能有数十万条物理链路。这在重量、路由、部署速度和长期维护方面产生问题。
我们投资了更好的跟踪系统、改进的电缆设计和新的连接器技术,将许多光纤聚合到单个连接中。这减少了部署时间并提高了大规模可靠性。
DCK:AWS 设计了大部分自己的网络硬件。这种垂直整合提供了什么优势?
Rehder:我们大约 15 年前开始开发自己的网络硬件,最初只是为了服务器连接。今天,我们几乎整个网络——从机架顶部交换机到骨干网和互联网边缘——都运行在我们自己的设备上。
最大的优势是一致性。我们在任何地方都使用相同的基本构建块:相同的 ASIC、外形因子和操作系统。这简化了供应链,让我们能够一次性在整个网络中应用软件改进。
它还实现了我们无法以其他方式构建的能力。例如,我们的控制平面部分运行在设备本身上。这在现成设备上是不可能的。
在操作上,它改进了配置、监控和维修。我们可以自动化测试,精确提取我们想要的遥测数据,并自动触发修复。每个增量改进都会在整个网络中扩展。
DCK:AWS 还构建了高精度时间服务。为什么这是必要的,它解锁了什么?
Rehder:2019 年左右,我们开始关注时间精度。像 NTP 这样的标准方法可能有几秒钟的偏差,这在大型分布式系统中产生真正的问题,特别是在一致性和排序方面。
仅软件解决方案无法克服网络变化,所以我们构建了一个基于硬件的时间网络,与我们的数据网络并行运行。每个数据中心都有通过 GPS 同步的原子钟。专用设备分发定时脉冲,每台服务器上的硬件——使用我们的 Nitro 平台——以纳秒级精度接收该脉冲。
这在软件中实现了微秒级精度。它解锁了高度一致的分布式数据库等新功能,并使金融交易所等工作负载在云中变得可行。纳斯达克已经演示了交易所如何在这种架构上运行。这在十年前根本不可能。
DCK:随着电力和冷却约束加剧,能源限制在多大程度上影响你们的网络路线图?
Rehder:能源不会限制我们的路线图,但效率是主要关注点。我们密切关注每比特瓦数——传输数据需要多少功率。
因为我们控制硬件,我们可以在非常精细的层面进行优化:风扇算法、组件选择以及基于负载的动态功率扩展。每个设备的收益可能很小,但在数千个交换机和许多数据中心中,它们累积成总功耗的显著减少。
这有利于环境、客户和我们的成本结构。
DCK:展望三到五年,今天常见的哪些网络假设在十年末将过时?
Rehder:两个主要转变突出。
首先,液体冷却将成为网络设备的标准,不仅仅是服务器。混合液冷服务器和风冷网络增加了复杂性,液体提供效率优势。
其次,光学集成将发生变化。今天的可插拔光学器件提供灵活性和可维护性,这在大规模情况下很有价值。完全共封装光学器件长期以来一直被讨论,但在可靠性和操作权衡方面遇到困难。
我认为行业将转向共封装连接器——将连接器更紧密地集成到 ASIC 附近,同时保持光学引擎模块化。这提供了效率收益,同时不牺牲供应商多样性,这对 AWS 规模至关重要。
DCK:最后,AWS 客户在 2026 年网络方面应该期待什么?
Rehder:理想情况下,更多的透明性。更多容量、更多带宽、更低延迟、更少数据包丢失和更少抖动。
客户应该看到容量的持续扩展、更好的性能以及与计算、存储和加速实例的更紧密集成。我们的目标很简单:确保网络永远不会阻碍客户想要构建的东西。
Q&A
Q1:空心光纤技术相比传统光纤有什么优势?
A:空心光纤的主要优势是更低的延迟和信号损耗。它让AWS能够扩大数据中心之间的连接半径,在土地或电力资源无法在足够近距离获得时提供更多灵活性。虽然目前成本比传统光纤高得多,但它能支持更高带宽或减少信号放大需求,长期来看有望成为主流技术。
Q2:AWS为什么要开发自己的网络硬件而不使用现成产品?
A:AWS自研硬件的最大优势是一致性和可控性。使用相同的ASIC、外形因子和操作系统简化了供应链,能够一次性在整个网络中应用软件改进。这还实现了现成设备无法提供的能力,比如控制平面可以部分运行在设备本身上,并且能够自动化测试、精确提取遥测数据和自动触发修复。
Q3:AWS的高精度时间服务解决了什么问题?
A:传统的时间同步方法如NTP可能有几秒钟的偏差,在大型分布式系统中会导致一致性和排序问题。AWS构建了基于硬件的时间网络,每个数据中心都有GPS同步的原子钟,通过Nitro平台实现纳秒级精度接收,在软件中达到微秒级精度。这使得高度一致的分布式数据库和金融交易所等应用在云中变得可行。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.