![]()
那天,我正在给老板演示新监控面板。满屏绿色对勾,99.97% uptime,漂亮得像样板间。手机突然炸了——不是PagerDuty,不是Datadog,不是每月4000刀的观测套件,是Twitter。
@angry_user_47 的留言很直接:「yo @OurStartup your login has been broken for 2 hours wtf」。紧接着第二条、第三条涌进来,全是"登不上""开玩笑吗"的质问。我盯着大屏,所有指标依然翠绿。
真相很尴尬:登录服务确实挂了,但健康检查绕过了认证流程。系统自检时只问"服务器活着吗",没问"用户能进去吗"。2000人被困在登录页,我们的仪表盘却在开庆功会。
团队花了47分钟定位问题,修复只用了3分钟。事后复盘,有人提议给Twitter用户发感谢信——被否决了。现在他们的告警规则里多了一条:如果@提到数5分钟内超10条,自动升级P0。
老板再也没让我演示那个面板。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.