网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

四年K8s踩坑：上千指标里我只看这些

2026-04-16 08:50:35　来源: 灰度测试中

北京举报

0

分享至

凌晨三点被告警吵醒，发现是某个节点的CPU飙到87%——但你的服务其实跑得挺好。这种故事，在Kubernetes运维圈每天都在上演。

一个运行了四年K8s生产环境的团队，把经验浓缩成一句话：平台给你上千个指标，但真正管用的不到20个。他们按三层拆解了监控策略，每一层的思路都值得细品。

第一层：集群健康——别盯着单台机器

基础设施层的核心问题是"平台还能不能撑住"。这里最容易犯的错，是对单个节点过度敏感。

原文作者的建议很直接：CPU告警不要设在节点级别，要设在集群级别。当整体利用率超过80%再触发，避免半夜被单节点波动吵醒。具体指标包括：

• 节点就绪状态（node_ready_status）——基础中的基础
• 节点CPU/内存利用率——告警线分别设在85%和90%
• 磁盘压力、PID压力——布尔型告警，触发即高危

控制平面更需要盯紧。API Server的P99延迟超过1秒、etcd的磁盘同步延迟超过100毫秒、调度器出现待调度Pod积压——这些才是会拖垮整个平台的信号。

一个细节：scheduler_pending_pods的告警要设5分钟持续期。短暂积压是正常现象，持续挂起才说明资源调度出了问题。

第二层：工作负载健康——监控部署，而非Pod

这是大多数团队踩坑最深的地方。他们监控Pod状态，却忽略了Pod只是部署的"实例"。

关键指标转向Deployment层面：

• 可用副本数低于期望副本数——持续5分钟以上触发
• Deployment版本号与观察版本号不一致——说明滚动更新卡住了

Pod层面只保留三类信号：

• 重启次数持续增长——CrashLoopBackOff的经典前兆
• 容器被OOM杀死——内存限制设得太低
• Pod处于Pending状态超过2分钟——调度或资源配额问题

作者特别分享了他写过最有价值的告警规则：15分钟内重启速率大于0，持续15分钟触发。这个规则帮他们提前发现了无数即将进入死循环的服务。

弹性伸缩（HPA）也要纳入监控视野。当当前副本数等于最大副本数，或者CPU利用率持续高于目标值，说明自动扩容已经触顶，需要人工介入评估容量规划。

第三层：应用性能——用户真正感知的东西

前两层都是"平台视角"，这一层才是"用户视角"。无论集群多健康、Pod运行多平稳，请求报错或响应慢，用户就会流失。

这里采用RED方法：速率（Rate）、错误（Errors）、延迟（Duration）。

• 每秒请求速率——流量突增的预警
• 错误率百分比——超过1%即告警
• P99请求延迟——超过500毫秒触发

USE方法（利用率、饱和度、错误）作为补充，关注CPU请求与限制的比例，判断资源分配是否合理。

三层监控的边界很清晰：集群层回答"平台有没有病"，工作负载层回答"部署有没有病"，应用层回答"用户体验有没有病"。混在一起监控，必然导致告警风暴和麻木。

这套方法论背后是一个更深层的选择：在数据过载的时代，做减法比做加法更难，也更有价值。当你下次面对Grafana里密密麻麻的仪表盘时，不妨先问自己——如果只能留三个指标，我会选哪三个？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

揭秘年销10亿的爆款宋柚汁：“宋柚”是商标，柚含量不到3%，主配料为糖水，品牌号称全国销量第一

蓝鲸新闻 2026-04-15 09:44:24
3894 跟贴 3894
快检查自家阳台！有人家里已大量出现，官方提醒：千万别摸

环球网资讯 2026-04-18 16:23:18
609 跟贴 609

飞行员披露：最棘手时一天22小时坐在机舱准备起飞

环球网资讯 2026-04-19 09:53:02
344 跟贴 344

“真铜实料”互呛升级，海信高管称格力部分机型用铝线电机

红星资本局 2026-04-17 18:26:04
1784 跟贴 1784
山东乳山银滩“195平米复式房”1万元起拍，已有多人竞价，拍卖公司：产证面积97.94平米，另有赠送面积，非法拍可随时过户

极目新闻 2026-04-19 14:06:31
2 跟贴 2

男子爬上泰山“五岳独尊”石刻拍照，景区：将核查其身份进行处理

扬子晚报 2026-04-17 12:09:40
1288 跟贴 1288

何润东空降苏超复刻霸王巡场

上游新闻 2026-04-18 19:42:01
1468 跟贴 1468
吉林省迎来大范围降雨，气温大反转

鲁中晨报 2026-04-19 07:08:17
7 跟贴 7

南兄南弟，泰难了！

江苏新闻 2026-04-19 10:48:00
18 跟贴 18
追到第8名了！申花这个赛季还能争冠？

新民晚报 2026-04-19 09:21:21
59 跟贴 59
哥伦比亚总统：美国若一意孤行将激起拉美国家“反抗”

财联社 2026-04-19 09:28:11
30 跟贴 30
罕见！北约30国驻布鲁塞尔大使集体访日

参考消息 2026-04-18 17:59:50
1 跟贴 1
人形机器人半马前三均打破人类世界纪录，工程师：不意外，很激动

新京报 2026-04-19 12:25:11
0 跟贴 0
俄罗斯海军舰艇编队结束访问离开湛江

环球网资讯 2026-04-19 10:17:26
163 跟贴 163
“不差钱”的DeepSeek要融资了？投资人：或为期权定价留人才

第一财经资讯 2026-04-19 13:10:09
257 跟贴 257
中俄关系比传统“联盟”更深厚、更可靠

看看新闻Knews 2026-04-19 08:36:10
51 跟贴 51
会思考、能导盲、取快递……高德首款导盲机器人亮相

南方都市报 2026-04-19 16:14:57
1 跟贴 1
大华股份：公司二季度毛利率预计将保持相对稳定

证券时报 2026-04-19 15:32:06
1 跟贴 1
全网心疼段睿！一边守渐冻症丈夫，一边痛失亲人，她真的太难了

行者聊官 2026-04-19 16:51:34
0 跟贴 0
事发浦东机场！女子称两次拒绝帮陌生人带行李，多名网友：我也遇到过！

上观新闻 2026-04-18 20:28:04
0 跟贴 0
男子在云南大黑山攀岩受伤倒挂悬崖血流不止，路过的一群徒步大学生和消防接力施救

红星新闻 2026-04-19 16:52:20
0 跟贴 0
五一假期火车票开售以来，铁路12306拒绝出票105.6万张

环球网资讯 2026-04-19 15:23:04
0 跟贴 0
新华社消息｜铁路12306持续识别遏制恶意抢票行为

新华社 2026-04-19 16:57:08
0 跟贴 0
消费156.9元，实收157元，一餐厅被立案

蓬勃新闻 2026-04-19 16:41:53
0 跟贴 0
昨晚“苏超”惊呆网友：我纵横足球界30年，从未见过！

江苏新闻 2026-04-19 12:49:00
0 跟贴 0

五一假期火车票开售以来，铁路12306拒绝出票105.6万张

五一假期火车票开售以来，铁路12306拒绝出票105.6万张

环球网资讯

2026-04-19 15:23:04

哈工大毕业失业四五年被吐槽！网友：农村大学生大多数过得比较差

哈工大毕业失业四五年被吐槽！网友：农村大学生大多数过得比较差

火山詩话

2026-04-19 10:40:38

珠海家长：自家孩子趴桌睡，凭啥先给别人捐躺椅？官方回应

珠海家长：自家孩子趴桌睡，凭啥先给别人捐躺椅？官方回应

南方都市报

2026-04-17 15:48:13

以色列已失控？以军炮打联合国维和部队，法军牺牲，马克龙表态

以色列已失控？以军炮打联合国维和部队，法军牺牲，马克龙表态

来科点谱

2026-04-19 07:15:46

张天爱评论区沦陷！被曝卷入小三风波，华宵一晒出跟丈夫合照反击

张天爱评论区沦陷！被曝卷入小三风波，华宵一晒出跟丈夫合照反击

萌神木木

2026-04-18 23:16:40

破防！雷军15小时京沪续航自证清白，恳求全网帮帮小米

破防！雷军15小时京沪续航自证清白，恳求全网帮帮小米

雷科技

2026-04-18 12:38:28

刚刚，跳水！霍尔木兹，再生变数！

刚刚，跳水！霍尔木兹，再生变数！

中国基金报

2026-04-18 18:19:35

一次电梯偶遇让广东千万身家老板一夜之间倾家荡产，每月靠借钱维生，不敢把真相告诉女儿

一次电梯偶遇让广东千万身家老板一夜之间倾家荡产，每月靠借钱维生，不敢把真相告诉女儿

环球网资讯

2026-04-19 07:47:19

超710亿！广东这条“堵王”高速，即将全面改扩建，最宽12车道！

超710亿！广东这条“堵王”高速，即将全面改扩建，最宽12车道！

娱乐圈见解说

2026-04-18 14:54:03

恒大暴雷之前，许家印为什么没有跑？

恒大暴雷之前，许家印为什么没有跑？

担扑

2026-04-19 13:40:25

以牙还牙！日本战舰闯入台海第2天，东部战区出兵战巡东海！

以牙还牙！日本战舰闯入台海第2天，东部战区出兵战巡东海！

阿龙聊军事

2026-04-19 08:46:34

巴基斯坦伊斯兰堡两大酒店通知住客离店

巴基斯坦伊斯兰堡两大酒店通知住客离店

界面新闻

2026-04-19 16:22:34

网友称湖北宜昌一车辆爆燃，现场多次爆炸，明火浓烟不断，当地消防：已处理，无人员伤亡

网友称湖北宜昌一车辆爆燃，现场多次爆炸，明火浓烟不断，当地消防：已处理，无人员伤亡

潇湘晨报

2026-04-19 14:59:09

有一种痛苦叫买了“连廊中间户”的房子，住了三年，天天想换房

有一种痛苦叫买了“连廊中间户”的房子，住了三年，天天想换房

装修秀

2026-04-19 10:30:09

18岁姐妹花接受“潜规则”后，先陪导演睡，2013年再陪投资人缠绵

18岁姐妹花接受“潜规则”后，先陪导演睡，2013年再陪投资人缠绵

汉史趣闻

2026-04-19 15:08:31

重现死亡之瞳！詹姆斯19+8+13单核制胜创8项纪录+4项历史第一

重现死亡之瞳！詹姆斯19+8+13单核制胜创8项纪录+4项历史第一

醉卧浮生

2026-04-19 11:20:27

收拾完伊朗，下一个轮到中国？以色列发战争威胁，中方送出5个字

收拾完伊朗，下一个轮到中国？以色列发战争威胁，中方送出5个字

千羽解读

2026-04-18 10:12:15

大数据分析，在中国，找个身高1米7年入20万的老公，到底有多难？

大数据分析，在中国，找个身高1米7年入20万的老公，到底有多难？

深度报

2026-04-18 23:37:27

中国永远的校长，死于1962年

中国永远的校长，死于1962年

最爱历史

2024-05-20 13:30:17

博主给凉山孤儿盖房，用村里水得交200，还遭工人背刺，网友炸锅

博主给凉山孤儿盖房，用村里水得交200，还遭工人背刺，网友炸锅

奇思妙想草叶君

2026-04-18 13:14:56

灰度测试中

生活正在重构，目前还在灰度测试阶段，暂不全量发布。

1506文章数 17关注度

往期回顾全部

科技要闻

50分26秒破人类纪录！300台机器人狂飙半马

头条要闻

广州暹岗大山遭多人私挖水晶破坏林业部门：涉嫌违法

头条要闻

广州暹岗大山遭多人私挖水晶破坏林业部门：涉嫌违法

体育要闻

湖人1比0火箭：老詹比乌度卡像教练

娱乐要闻

张天爱评论区沦陷！被曝卷入小三风波

财经要闻

华谊兄弟，8年亏光85亿

汽车要闻

29分钟大定破万极氪8X为什么这么多人买？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

健康

亲子

本地

公开课

数码要闻

明天上线！当贝鱼缸2S Ultra硬规格全面升级

干细胞抗衰4大误区,90%的人都中招

亲子要闻

女儿上初一就学着化妆，妈妈既担心又迷茫，拍视频求教育方法

本地新闻

12吨巧克力有难，全网化身超级侦探添乱

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版