![]()
工程师正在给老板演示新监控大屏。99.97% uptime,满屏绿色对勾,专业得像份财报。手机突然炸了——不是PagerDuty,不是Datadog,不是那个月烧4000刀的观测平台,是Twitter。
@angry_user_47的推文躺在最上面:「yo @OurStartup your login has been broken for 2 hours wtf」。过去两小时,2000人卡在登录页,而他们的仪表盘安静得像在休假。
事后复盘发现,监控探针只检查"服务是否响应",不检查"用户能否真的进去"。登录接口返回200 OK,但数据库连接池早满了,新请求全在排队饿死。换句话说,系统在说"我很好"的同时,正在把用户拒之门外。
团队现在给探针加了" synthetic user "——模拟真实登录流程的假账号。每月多花几百刀,换来一条规则:如果假用户进不去,PagerDuty必须在Twitter之前响。
那条推文至今没删。截图贴在工位墙上,绿色对勾旁边。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.