![]()
工程师正给老板演示新监控面板。99.97% uptime,满屏绿色对勾,专业得不像话。手机突然炸了——不是PagerDuty,不是Datadog,不是那个月烧4000刀的观测平台。是推特。
@angry_user_47 的留言很直接:「yo @OurStartup your login has been broken for 2 hours wtf」。此时2000人已经被锁在门外两小时,而仪表盘一切正常。
事后复盘发现,监控探针只测了登录页能不能打开,没测账号系统能不能用。用户输完密码转圈圈, technically 页面活着, technically 服务"可用"。
这家公司不是个案。Datadog 2023年调研显示,67%的故障由用户先发现而非监控告警。花钱买的是心理安慰,真正的问题藏在"绿色"的缝隙里。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.