现在每个厂商都在包装上印"AIOps"。但多数只是加了个写着"检测到异常"的仪表盘,就敢拿出来卖。
我想说说AIOps真正改变了什么,以及它没改变什么。
![]()
真正改变的三件事
![]()
第一,关联分析。传统监控针对症状报警——CPU飙升、500错误、队列积压。AIOps跨信号做关联,给你讲一个完整故事:"payments-api的14a23部署搞崩了结账流程,这是它触发的7条报警。"
第二,降噪。我以前所在的团队每天收300条报警,真正重要的也就40条。剩下的是重复报警、已知不稳定服务、或者瞬时波动。一套好的AIOps层能在人看到之前压掉80%。
第三,根因建议。注意是建议,不是答案。"基于历史事故,前3大可能根因是……"仍需人工确认,但能省你20分钟切来切去看仪表盘的时间。
没改变的三件事
![]()
你仍然需要好的埋点。仍然需要运维手册。仍然需要能拍板的人值班。
AIOps不是SRE的替代品。它是给已经懂行的SRE用的放大器。
如果你被报警淹没,答案不是加更多仪表盘。是让AI做分拣,让人类做思考。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.