![]()
凌晨3点,PagerDuty第17次弹窗。运维工程师盯着满屏红色,已经分不清哪条该看、哪条该忽略——这是告警风暴的经典症状,像消防队同时接到100个火警电话,其中90个是烟雾报警器坏了。
![]()
这位AI工程师接手时,团队已经试过阈值调优、相关性降噪、甚至AI聚类,都没根治。问题出在两个环节各干各的:门控(Gating)负责"要不要告警",奖励打分(Reward Scoring)负责"有多紧急",但两边标准不统一,导致该拦的没拦住、该升高的没升高。
![]()
他的解法是把两个阶段拧成一股绳校准。具体做法是:用同一组历史事件同时训练门控和打分模型,让"是否告警"和"紧急程度"共享一套损失函数。换句话说,系统学会了一件事——如果最终证明某条告警被忽略了也没事,门控下次就直接拒掉,而不是先放行再打个低分。
部署后告警量从日均400+压到30条以内,误报率下降91%。团队在复盘文档里写了句大实话:「之前我们像在修两条永远对不齐的铁轨,现在终于让火车能顺畅到站了。」
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.