AWS宕机，四年来最严重的服务中断|微软|aws|新系统|知名企业

AWS宕机，四年来最严重的服务中断

2025-10-23 07:13:37　来源: 亿欧

北京举报

分享至

美东时间10月20日凌晨0时左右，AWS美国东部1区（弗吉尼亚州）首先出现服务异常，核心云数据库DynamoDB的DNS解析系统突发故障。这一负责将域名转换为IP地址的“互联网电话簿”失灵后，全球成百上千平台瞬间陷入“失联”状态。

尽管AWS在2时24分修复了DNS问题，但连锁反应已然触发——依赖DynamoDB的虚拟机服务EC2因内部子系统故障无法启动，迫使工程师对服务进行限流管控。

直至当天下午3时01分，所有服务才完全恢复，故障持续时长达15小时，创下AWS四年来最严重宕机纪录。

此次故障的影响呈现“全场景渗透”特征：社交平台Snapchat、Facebook无法加载内容，游戏《堡垒之夜》服务器全线崩溃，金融平台Venmo、Coinbase交易中断，教育工具Canvas导致网课停摆，甚至美国联合航空的机场调度系统与英国税务海关总署网站也陷入瘫痪。

更具戏剧性的是，亚马逊自家Alexa语音助手、Ring智能门铃失灵，有用户反映“自动喂食机停摆，猫饿了一天”“特斯拉车库门开一半卡住”。

据DownDetector统计，全球超2500家企业受影响，用户投诉量突破1100万条，Catchpoint估算潜在经济损失或超百亿美元。反常的是，亚马逊股价当日逆势上涨1.61%，市场解读为“事件印证了AWS对全球数字基建的不可替代性”。

尽管面临微软Azure、谷歌云的追击，AWS仍以绝对优势领跑全球。

2025年Q2数据显示，其占据30%的云基础设施市场份额，季度收入达309亿美元，年化收入超1240亿美元。这一规模相当于第二名微软Azure（20%份额）与第三名谷歌云（13%份额）的总和，且在全球38个地理区域运营120个可用区，数据中心数量是第二大云厂商的3倍以上。

值得注意的是，行业竞争已从“份额保卫战”转向“增量争夺战”。AWS份额虽较去年同期微降两个百分点，但在季度增长200亿美元的市场中，仍保持17%的收入增速，凸显其稳固基本盘。

与此同时，AI浪潮下，AWS近两年加速战略倾斜，构建“模型-工具-硬件”三位一体体系。

首先，亚马逊开放生态对抗封闭巨头。2024年升级的AmazonBedrock平台已接入Qwen3、Llama3等主流大模型，支持企业自定义训练与推理，Canva等客户借此快速部署AI设计功能。相较于微软绑定OpenAI的模式，AWS以“多模型选择+低代码部署”吸引中立派企业，目前Bedrock服务客户数同比增长280%。

其次，亚马逊推动开发者工具革新。AWS推出AmazonQ开发者版AI助手，集成代码生成、调试、文档解析功能，与SageMaker机器学习平台形成协同——开发者可在同一环境完成模型训练与应用开发，效率提升40%。2025年新增的AI迁移工具AWSTransform，能自动将传统系统转化为AI原生架构，降低企业转型门槛。

最后，AWS实现硬件自主可控。其量产第二代Trainium训练芯片与Inferentia推理芯片，相较英伟达A100成本降低50%，在飞利浦医疗影像分析、EpicGames实时渲染等场景实现规模化应用。此举打破芯片依赖，为AI服务提供性价比优势。

但是，此次故障也暴露了两大核心问题。一是US-EAST-1作为“默认部署区域”负载过重，超60%的全球客户未启用多区域备份；二是云服务“集中化魔咒”——三巨头掌控63%的市场份额，单个节点故障即引发“数字多米诺骨牌效应”。正如美国圣母大学教授MikeChapple所言：“当云巨头打喷嚏，整个互联网都会感冒”。

对于AWS而言，如何在保持规模优势的同时提升系统韧性，将是其捍卫领导地位的关键。而这场15小时的宕机，或许正是全球数字社会重新审视“云依赖”风险的契机。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.