生产环境崩溃时,5个后端工程师挤在桥接电话里,盯着同一块仪表盘。错误率从23%爬到41%再到68%,p95延迟从450ms飙到8400ms,API网关疯狂吐504,数据库连接池卡在97/100。
所有人同时敲键盘。有人查网关日志,有人看数据库慢查询,有人怀疑是上游服务雪崩。28分钟过去,指标还在恶化,没人敢下结论。
直到有人突然问了一句:「我们确定这是数据库问题吗?」
回头一看,连接池97/100是因为健康检查本身挂了——服务根本没坏,是监控系统在误报。5个聪明人花了32分钟, debug了一个不存在的问题。
区别就在这里:聪明工程师 debug 更快,结构化工程师 debug 更对。桥接电话挂断时,真正的故障还没开始查。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.