SRE真正会看的成本曲线：我用Altair做了三层图|路由|仪表盘|altair

SRE真正会看的成本曲线：我用Altair做了三层图

2026-05-20 01:56:08　来源: Ping值焦虑

北京举报

分享至

运维团队最熟悉的仪表盘长什么样？四十个小方块，每个带个迷你折线。信息密度拉满，能用的信号几乎为零。我在给告警分流助手做监控时，发现自己也在往这个坑里滑：内存命中次数、指纹匹配分数、强弱模型路由分布、升级原因、实时/确定性开关——八个指标，调试够用，解释系统完全不行。

真正想问的问题其实简单得多：这批告警走OpenRecall缓存，而不是全走强模型，到底花了多少钱？随着记忆积累，这个数怎么变？

两个数字，一个趋势。这就是一张图能回答的事。

我用Altair做了三层叠加：蓝色是实际单条告警成本，按提交顺序排列；红色是全走强模型的基准线；中间绿色阴影是节省区间。带宽越宽，说明记忆带来的收益越大。Streamlit默认的st.line_chart试过，阴影层渲染不干净，颜色不可控，图例说不清绿色区域什么意思。Altair多写十五行代码，第一次有人指着仪表盘说"哦绿色是省的钱"就回本了。

图表撒谎比没有更糟。这条成本曲线绑定了两个不变量：实际成本永远不超过基准线（路由策略不会比全强模型更贵），节省区间非负（绿色永远在红蓝之间）。Haskell写的验证层保证渲染数据满足这两个约束，出图前校验失败直接报错，不会画出骗人的漂亮曲线。

选Altair还有个务实原因。Streamlit图表是黑箱，想调交互行为得等官方排期。Altair生成Vega-Lite spec，需要时我可以往下钻到JSON层改细节。这次用不上，但知道能钻到底，心里踏实。

最后这张图长什么样？横轴是告警序号，纵轴是美元。蓝线贴着底部走，红线在上方波动，绿带在中间撑开。运营同事扫一眼就知道：记忆命中率在涨，成本在跌，系统按设计运行。不需要解释八个指标，只需要指一下阴影宽度。

做监控仪表盘有个陷阱：指标越多越像在做实事。实际上信息密度和可理解性是两件事。四十个迷你图是给自己看的，三层带阴影的曲线才是给团队看的。SRE的时间贵，让他们一眼抓到信号，比证明自己工作饱和重要得多。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.