![]()
凌晨3:17,PagerDuty炸了。某SaaS公司的值班工程师从床上弹起来,屏幕血红一片——支付网关挂了,订单流水正在归零。按常理,这时候该有人冲进Slack频道喊"全体起床",然后一群人边骂边修,四小时后天亮才能收工。
但这家公司不太一样。他们没有"救火队长",只有一张写着SEV0到SEV4的表格。支付网关宕机自动触发SEV0,两分钟内值班工程师必须完成三件事:开桥接电话、拉指定专家进群、宣布"我现在只收集信息,不做判断"。
这套系统叫"结构化应急响应",抄的是航空业的事故处理手册。核心就一句话:「思考是奢侈品,执行是必需品」。工程师被禁止在故障前30分钟做任何根因分析,只能按清单打勾——谁看日志、谁联系云厂商、谁准备回滚。脑子越动,手越慢。
效果很粗暴。他们之前的平均修复时间是4小时,现在压到40分钟。不是人变强了,是把" panic time"从流程里抠掉了。创始人算过账:一次SEV0如果拖到早高峰,客户流失率会跳涨17%,这还没算工程师 burnout 的隐性成本。
有个细节很有意思。他们的值班手机不是发给最资深的工程师,而是轮流抽签—— senior 反而容易凭经验瞎猜, junior 更听话,清单执行得更干净。上个月一次数据库主从切换失败,抽签抽中的实习生按步骤走完,26分钟解决。隔壁组的老兵同期遇到类似问题,边查边骂,修了两个小时。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.