你每天都在用云服务,但有没有注意过那个从未被感谢过的角色?网络。它像电一样,坏了才有人想起。AWS的工程师们正在加州库比蒂诺的一栋三层小楼里,试图把网络变成真正的"基础设施"——看不见,但永远可靠。
这不是技术浪漫,是商业刚需。2010年,AWS高管James Hamilton在一份题为《数据中心网络挡了我的路》的演示文稿里,把当时的网络架构骂了个遍。垂直整合、创新缓慢、利润虚高——这些词听着像在说IBM大型机时代。Hamilton说,他更喜欢服务器市场的玩法:开放竞争、开源软件、谁行谁上。
![]()
15年后,AWS的网络已经变成一台精密机器。但机器背后有个更本质的问题:当云计算变成水电煤,网络这门生意本身,还值得用户操心吗?
网络的三块骨头:芯片、光模块、线缆
AWS把网络硬件拆成三类。第一类是网络设备——交换机和路由器,核心是专用集成电路(ASIC,一种为特定任务定制的芯片),负责把数据从一个端口甩到另一个端口。第二类是光模块,用激光收发光信号。第三类是线缆,光纤或铜线。
这三样东西听起来像标准工业品,但AWS全球网络工程副总裁Matt Rehder说,别的网络服务商通常在汇聚层、核心层、边界层用三种不同的交换芯片——因为每层需求不同,带宽、延迟、成本的天平倾斜方向不一样。
AWS的选择是:全自己做。
从15年前开始,AWS先找第三方合作开发网络设备,迭代到自研技术覆盖数据中心、核心网、边界网。Rehder的原话是:"这对我们构建的东西太基础了,所以我们决定必须自己开发硬件和软件。"
这个决策的代价和收益都很现实。代价是重资产投入、人才密度、技术风险。收益是控制每一层栈的演进节奏,不被供应商绑架,以及——最关键的——把网络成本压到足够低,让"网络即水电"成为可能。
"没人关心网络":一个VP的坦白
Rehder在4月底带媒体参观库比蒂诺实验室时,打了个比方:网络应该像电灯开关,按下去就有反应,平时根本想不起来。
「没人真正关心网络,」他说,「它是个功能。坏了你才在乎。其他时候你只想它别挡路。这就是我们过去15年的思维模式——怎么把网络弄走?」
这话听着像技术人员的自我矮化,其实是产品哲学的极端化。AWS的逻辑是:云服务的终极形态是"无服务器"(Serverless),网络的终极形态是"无网络"(Networkless)——不是真的消失,而是用户感知不到它的存在。
这种哲学有商业支撑。2010年Hamilton那份演示文稿的潜台词是:当时的网络设备商(思科、Juniper们)吃定了云计算的增长红利,却用封闭架构锁死创新。AWS要打破这个循环,必须自建供应链。
结果是一整套垂直整合:自研芯片、自研光模块、自研软件栈。Rehder没透露具体数字,但提到AWS的网络设备"足迹"(footprint)已经覆盖全部三层架构——数据中心内部、核心骨干网、对外边界。
清单:AWS网络自研的五个关键决策
1. 2010年:问题定义
Hamilton的演示文稿不是技术抱怨,是战略宣战。他把网络架构比作大型机商业模式——垂直整合、高毛利、客户锁定。AWS要的是服务器市场的打法:模块化、开源、竞争驱动。
这个类比精准。大型机时代,IBM控制从芯片到应用的全部环节;服务器时代,x86架构+Linux打破了垄断。Hamilton要网络走同样的路。
2. 硬件切入:从合作到自研
AWS没一上来就造芯片。早期与第三方合作开发网络设备,逐步替换。Rehder说这个过程"从小开始",直到自研技术覆盖全部三层网络。
路径选择很务实:先验证可行性,再扩大投入。这比同时押注多条战线风险更低,但也意味着更长的转型周期——15年。
3. 三层统一:一个芯片架构走天下
行业惯例是汇聚层、核心层、边界层用不同芯片。AWS反着来,用统一架构覆盖三层。Rehder说这是AWS的独特之处,但没解释技术细节。
推测动机:统一架构降低软件复杂度,减少供应链SKU,规模化摊薄研发成本。代价是单一层面的性能可能不是最优——但AWS显然认为"足够好"比"最好"更重要。
4. 光模块和线缆:物理层也不放过
网络不只是芯片和软件。光模块和线缆占数据中心网络成本的相当比例,且技术迭代快(从100G到400G再到800G)。AWS把这部分也纳入自研范围,意味着对物理层有完全控制权。
这步棋的深层逻辑:当网络带宽成为云计算的核心资源,任何外部依赖都是战略脆弱点。
5. 产品哲学:隐形即成功
Rehder的"电灯开关"理论不是修辞,是KPI。网络团队的终极目标是让用户无感知——没有延迟抖动,没有带宽瓶颈,没有配置复杂度。
这种目标设定改变了技术团队的激励结构。传统网络工程师以"零故障"为荣,AWS网络工程师以"零关注"为荣。故障是底线,隐形才是天花板。
为什么是现在?
AWS选择在这个时间点开放实验室参观,背景值得玩味。生成式AI的爆发正在重塑云计算需求:大模型训练需要超大规模集群,节点间通信带宽成为瓶颈,网络延迟直接转化为算力浪费。
Rehder没提AI,但"让网络消失"的紧迫性从未如此之高。当单个训练任务动用数千张GPU,任何网络抖动都是数百万美元的代价。AWS的自研网络架构,本质上是在为AI工作负载预铺基础设施。
另一个背景是供应链安全。地缘政治紧张下,依赖单一供应商(尤其是光模块领域的中国厂商)风险上升。AWS的垂直整合有避险意图,虽然官方不会承认。
数据收束
15年前,AWS因为网络"挡路"开始自研。今天,其网络硬件覆盖芯片、光模块、线缆三层,用统一架构替代行业惯常的多芯片策略。全球网络工程VP的评判标准很明确:用户是否还能感知到网络的存在。
这个案例的启示在于:当基础设施成为核心竞争力,"自制"不是情怀,是算术。AWS算的是——网络设备商的利润率,加上创新延迟的隐性成本,是否高于自研的投入。15年的答案,是库比蒂诺那栋三层小楼里,数百名工程师的持续迭代。
网络不会真的消失。但谁能让用户忘记它,谁就能在云计算的下一回合占据定义权。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.