![]()
监控行业每年烧掉几十亿美元,但工程师凌晨三点被报警吵醒时,还是得手动翻日志找bug。Sazabi创始人Sherwood Callaway觉得这事荒唐——既然最后都要看日志,为什么不能一开始就让AI只读日志?
「日志就是事件的裸奔,指标和追踪只是穿了衣服的版本」
Callaway的履历有点意思:Brex的财务软件、Opkit的电话自动化,全是让机器替人干脏活的生意。这次他把同一套逻辑搬进了可观测性(observability,即系统监控与故障排查)领域。Sazabi只收日志,后台用AI实时生成指标和追踪链路,省掉传统方案里三套数据并行采集的麻烦。
传统监控栈的痛点很实在。Datadog、New Relic这类平台要同时处理日志、指标、追踪三种数据格式,每新增一个服务就得改一遍埋点代码。数据管道越搭越复杂,存储成本指数级上涨,最后工程师还是在日志里找根因。
「日志是最直观的遥测数据,也是可观测性的奥卡姆剃刀。」Callaway这话带着产品经理的刻薄——既然能用一把刀解决,为什么要背三把?
Sazabi的赌注在于:大模型已经聪明到能从原始日志里还原出系统状态,不需要人类提前定义什么是「指标」。平台内置的AI agent持续扫描日志流,自动标记异常、判断优先级、生成报警。
agent自己决定「这事值不值得叫醒你」
这个设计直接瞄准了监控行业的经典顽疾——报警疲劳。传统规则引擎要么漏掉关键故障,要么在流量波动时狂发几百条通知。Sazabi的agent会学习历史模式,自己决定报警内容和接收人。
「结果是报警数量大幅减少,信噪比显著提高,可操作性更强。」Callaway说。翻译成人话:凌晨三点的电话少了,但真出事时你会接到。
交互层也做了减法。工程师用自然语言提问——「生产环境为什么挂了?」「哪个提交导致的?」——系统直接返回答案,而不是甩一堆仪表盘让人自己点。
「以前需要几分钟甚至几小时在不同屏幕间翻找的问题,现在几秒就能定位根因。」Callaway的对比很具体:不是「大幅提升效率」,而是把小时级压缩到秒级。
年底上线,但架构已经摊牌
技术层面,Sazabi把日志摄取和存储查询层做了AI原生优化。这意味着查询不是先存后算,而是让模型直接在流数据上推理。Callaway没透露具体技术细节,但「存储-and-查询层为AI工作负载优化」这个表述,暗示了向量索引或实时嵌入(embedding,即文本向量化)的可能性。
这个路线风险很明显。只依赖日志,意味着丢失了指标的时间序列精度和追踪的调用链完整性。如果AI生成的替代数据有偏差,排查方向可能直接跑偏。
但Callaway的反驳也很实在:「指标是聚合后的事件,追踪是关联后的事件。」既然AI能从原始事件重建这两层抽象,为什么要维护三套独立管道?
行业视角下,Sazabi的入场时机微妙。可观测性市场被Datadog、Splunk、Elastic三家把持多年,但AI agent的成熟正在松动格局。Grafana最近也在推AI辅助的日志分析,但仍是附加功能,而非架构层面的重构。
Sazabi的激进在于把AI从「辅助工具」升格为「核心引擎」。这不是在现有栈上加个Copilot,而是假设大模型已经好到可以重新定义数据范式。
Callaway的自信来自实战。他在Brex和Opkit期间处理过大量生产故障,「日志永远是第一反应」——这个观察足够朴素,以至于被复杂工具链遮蔽了多年。
产品年底正式交付,目前处于早期客户测试阶段。定价策略未公布,但「减少存储成本」的叙事暗示了比传统方案更低的价格锚点。
一个值得玩味的细节:Sazabi这个名字来自《机动战士高达》中的红色彗星座机,以高机动性和火力著称。Callaway没解释命名由来,但「单兵突入、用极简配置打出高输出」的意象,倒是和产品路线吻合。
监控行业会接受这个赌注吗?或者说,工程师更愿意相信精心设计的指标仪表盘,还是一个只读日志的AI agent?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.