




![]()
![]()
![]()
10月30日,AWS官方发文,完整复盘了上周的大规模宕机事件。
首先点个赞,这从报告从工程细节、故障链条到后续改进措施,内容非常完整、详实、透明,技术披露深度罕见,可以看出公有云老大哥的诚意。
简要总结下↓
一、宕机时间线
10月19日23点38分发生故障
10月20日14点20分全面恢复
总时长约14个小时。
二、宕机原因分析
DynamoDB DNS管理系统触发竞态条件。
简单讲就是负责更新DNS的两个执行器掐起来了,最终导致DNS记录被清空,DynamoDB主终端节点无法解析,所有依赖DNS的服务都被影响。
(关于“DNS竞态”可以看上面的图片解读)
接下来带来连锁反应↓
DynamoDB挂了,EC2依赖DynamoDB存储droplet状态租约,EC2也挂了。
Lambda、ECS/EKS等上层服务依赖EC2,也跟着挂…
最终导致AWS内部141个服务收到影响。
谁能想到,两个底层牛马(DNS执行器)互掐,最终搞瘫了全球半个互联网。
三、改进措施
对于此次故障的“罪魁祸首”DynamoDB DNS系统,AWS出重拳整治。暂停全球自动化更新功能,修复竞态条件,增加保护机制防止旧规划覆盖新规划。
同时,改进NLB健康检查机制,优化EC2控制平面组件(DWFM)并增加压测手段。
当然还包括建立对这种「故障连锁反应」的预演机制,缩短恢复时间,防患于未然,毕竟这种级联故障,爆炸面太大了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.