网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Bluesky 8小时宕机复盘：1个漏写的函数参数

2026-04-11 08:04:13　来源: 码上闲叙

北京举报

0

分享至

4月6日周一，Bluesky约50%用户经历了断断续续8小时的服务中断。这是该平台史上最严重的一次事故。

系统工程师Jim在事后报告中写道：「这是我入职以来见过最糟糕的宕机，完全不可接受。」但真正的麻烦，其实从前一个周末就开始了。

周六的警报：被误判的"网络问题"

4月4日周六，监控系统触发告警。Jim第一反应是"传输层问题"——毕竟他们有完善的网络监控，看起来一切正常。

但日志里藏着线索。数据平面（AppView的后端服务）频繁报错：

「failed to set post cache item」——绑定地址已被占用

错误指向TCP端口耗尽。Bluesky的数据平面重度依赖Memcached（一种高性能缓存系统）来分担主数据库Scylla的压力。如果端口耗尽，缓存失效，请求直接砸向数据库，雪崩开始。

问题在于，当时的监控体系有个盲区。Jim后来承认：「我们假设每个请求都很轻量、很快完成。」但这个假设，在上周部署的一项新服务面前彻底失效。

新服务的"温柔一刀"：每秒3次请求，每次2万个URI

上周上线的内部服务，看起来人畜无害。调用频率极低——每秒不到3次。但某些请求会一次性批量查询15,000到20,000条帖子URI（统一资源标识符）。

正常业务场景？1到50条URI per请求。

数据平面的代码用Go语言编写，每个RPC处理器都有并发限制（errgroup.SetLimit），防止资源被单个请求吃光。这是基础设施的标准防护。

唯独GetPostRecords这个端点没有。

代码里本该有一行：group.SetLimit(50)。它不存在。于是15,000个URI进来，系统瞬间启动15,000个goroutine（Go语言的轻量级线程），向Memcached狂建连接。

连接池上限是1,000。超额连接用完即抛，堆积在TCP的TIME_WAIT状态。65535个可用端口，耗尽只是时间问题。

周一的全面崩溃：端口枯竭的连锁反应

周六的"小波动"只是预演。周一流量高峰到来，问题被放大到平台级。

图表显示，用户请求量在8小时内出现多次断崖式下跌——绿色和黄色曲线不重要，那些深坑才是真实的用户掉线。约半数用户无法正常加载时间线、发帖或互动。

事后复盘的关键发现：一个漏写的参数，藏在整个系统最繁忙的端点之一。GetPostRecords负责批量获取帖子记录，是 feed 渲染的核心路径。它每天处理数十亿次查询，却唯独缺少并发保护。

Jim的描述很直白：「我们 slammed the daylights out of memcached」——把Memcached揍得够呛。

修复很简单：加上那行SetLimit。但定位问题花了整整两天，因为监控没准备好应对"单个请求内部爆炸"的场景。

一个参数背后的工程债务

Bluesky的技术栈选型相当激进：自研AT Protocol（认证传输协议）、联邦架构、Go语言全链路。这种架构下，单个服务的边界模糊，调用链复杂。

GetPostRecords的设计初衷是高效——批量查询减少往返。但"高效"和"安全"的边界，被一个新服务的异常用法击穿。

更值得玩味的是时间线。新服务上周部署，周六首次触发告警，周一全面爆发。中间有48小时窗口，但监控的假设让团队走了弯路。

Jim在报告末尾放出了招聘链接。这场事故成了技术品牌的另类广告：来帮我们修这种级别的坑。

分布式系统的恐怖故事往往如此——不是某个组件彻底坏掉，而是两个"正常工作"的东西以意想不到的方式共振。一个每秒3次的低频服务，和一个缺失的并发限制，联手制造了平台史上最长的中断。

如果Bluesky当时给这个端点设置了默认的并发上限，或者新服务的开发者注意到批量请求的潜在风险，这8小时本可以避免。但工程世界里没有如果，只有事后才能看清的依赖关系图。

Jim的报告没有给出具体的改进时间表，只提到"observability improvements are underway"。读者不妨想想：你负责的系统里，有没有哪个端点也缺了一行SetLimit？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

“DeepSeek版Claude Code”，Github 2.3k星

量子位 2026-05-04 14:03:17
15 跟贴 15
ClaudeCode之父：“全员编程”时代，企业真正领先在于“组织流程的代差”

华尔街见闻官方 2026-05-05 14:09:40
20 跟贴 20

Doc-V*：读100页文档不如只翻对5页，80页场景「暴打」RAG 10个点

机器之心Pro 2026-04-29 18:16:19
0 跟贴 0

RouteMoA：无需预推理的动态路由，实现高效多智能体混合

机器之心Pro 2026-05-05 15:04:19
0 跟贴 0
世界模型让智能体预知未来？这篇新范式研究给了一个反直觉的答案

机器之心Pro 2026-05-05 15:17:00
0 跟贴 0

金融打工人终于不用熬夜做PPT了

薛定谔的BUG 2026-05-05 23:16:09
0 跟贴 0

东詹碰西詹能否实现？哈登已开启流量狂欢

篮视角 2026-05-04 21:12:12
1 跟贴 1
怀集县实验小学推行周一无书面作业

怀集领域网 2026-05-05 12:03:43
0 跟贴 0

写给女儿的话：能被用上的才是好建议

时光慢邮啊 2026-05-04 12:24:47
0 跟贴 0
莫氏鸡煲上线汤料包5分钟售罄4000多份，累计卖出4万多份，总销售额破160万元，记者实测：1分钟抢到两包

极目新闻 2026-05-04 09:46:46
8620 跟贴 8620
顶级神箭手仅凭祖传绝技曲线射箭，竟一人干掉整支弓猎手大队

不哈电影 2026-05-04 15:43:09
7 跟贴 7
央视官宣！歼35AE出口版首次亮相，该国将成首个海外用户！

芮予猪猪 2026-05-05 03:53:31
1 跟贴 1
媒体：霍尔木兹海峡彻底变天中东局势被推至悬崖边缘

大风新闻 2026-05-05 10:37:15
3323 跟贴 3323
医疗索赔10%拒付源于一个数字错误：NPI验证实战指南

硅屿手记 2026-05-04 11:46:18
0 跟贴 0
中山大学通报“附属医院康某某相关学术论文图片及数据存疑”：已正式启动调查程序

环球网资讯 2026-05-05 14:54:11
731 跟贴 731
景区装电梯无痛爬山被质疑过度开发

极目新闻 2026-05-02 17:18:12
4157 跟贴 4157
全国人民感谢上海，楼市数据真相

王波说房 2026-05-01 16:33:41
13 跟贴 13
俄罗斯宣布与乌克兰实施胜利日停火

财联社 2026-05-05 09:57:03
5716 跟贴 5716
顶级神箭手仅凭绝技曲线射箭，竟以一人之力团灭整个弓箭大队

影中见影 2026-05-04 00:50:33
29 跟贴 29
女主播为了流量偷拍别人洗澡，不料却因此闯下大祸

影中见影 2026-05-04 00:00:00
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
南通崇川发放首笔“算力券”补贴

中国日报网 2026-05-05 20:56:03
1 跟贴 1
从代码中寻找破案密码全力守护首都网络安全

北青网-北京青年报 2026-05-06 00:56:26
0 跟贴 0
三角洲部队内部组织架构！

浩然简史 2026-05-04 19:53:21
0 跟贴 0
32℃！雷雨、7级大风！江苏最新天气预测

江南晚报 2026-05-06 02:58:45
20 跟贴 20
华为ADS 5首份实测：102公里全程零接管？

赛博兰博 2026-05-06 07:21:49
0 跟贴 0
周星驰发文祝贺吴宜泽夺冠

南方都市报 2026-05-06 07:27:10
157 跟贴 157
蔡卓妍惊艳曲线，跳水休息瞬间惊艳网友

情如伊人b 2026-05-02 06:00:46
1 跟贴 1
大众砸58亿美元买Rivian：不是为车，是为软件

Ping值焦虑 2026-05-06 05:04:49
0 跟贴 0
萨顶顶全开麦封神之作：高难度唱腔碾压流量歌手

超喜欢我的狗子 2026-05-05 02:34:44
1 跟贴 1
实探郑州中牟蒜地：免费抽蒜薹持续近一个月，有人从海南专程来，农户提供午餐

环球网资讯 2026-05-05 09:36:24
652 跟贴 652
我军测试某新型反导武器指挥屏全是马赛克

看看新闻Knews 2026-05-05 21:28:08
11 跟贴 11
文班：我消耗了太多体力做了一些对球队并没有太大帮助的事情

北青网-北京青年报 2026-05-05 19:44:31
74 跟贴 74
接好运！上海女子200元买刮刮乐，30元面值的喜相逢刮中100万元！

观威海 2026-05-05 10:42:12
180 跟贴 180
特谢拉伤退，客场不敌山东，斯卢茨基的申花队首次遭遇中超连败

文汇报 2026-05-06 06:33:58
2 跟贴 2
5月5日新闻

新浪财经 2026-05-06 07:10:42
0 跟贴 0
睡眠不足的四个反常信号

晚风也遗憾 2026-05-04 11:46:01
5 跟贴 5
坚持正确要付什么代价？

晚风也遗憾 2026-05-06 00:26:44
0 跟贴 0
企业数据架构的领导力陷阱

摸鱼算法 2026-05-06 06:21:58
0 跟贴 0
婚姻难题的"产品化"拆解

晚风也遗憾 2026-05-04 11:48:18
0 跟贴 0

西蒙尼：格列兹曼那次明明该判点，裁判却没给我们公正的判罚

西蒙尼：格列兹曼那次明明该判点，裁判却没给我们公正的判罚

懂球帝

2026-05-06 06:47:05

许家印认罪！2.4万亿窟窿，家族只拿走500亿，其余真金白银去哪了

许家印认罪！2.4万亿窟窿，家族只拿走500亿，其余真金白银去哪了

蜉蝣说

2026-04-23 09:41:11

铜梁龙1-1河南 3轮不胜落后蓉城9分 20岁吴永强中超首秀+替补救主

铜梁龙1-1河南 3轮不胜落后蓉城9分 20岁吴永强中超首秀+替补救主

我爱英超

2026-05-05 22:07:39

抢在中美谈妥前，空客拿下千亿大单，波音已掉队，就等特朗普出手

抢在中美谈妥前，空客拿下千亿大单，波音已掉队，就等特朗普出手

动漫里的童话

2026-05-02 09:19:37

天津一山姆餐吧内多名顾客手持透明塑料袋接取免费酱料，目击者称有人接了3大袋，客服回应

天津一山姆餐吧内多名顾客手持透明塑料袋接取免费酱料，目击者称有人接了3大袋，客服回应

极目新闻

2026-05-05 17:34:18

FIFA彻底急了！原来除了央视，还有这么多国家不给世界杯买单了！

FIFA彻底急了！原来除了央视，还有这么多国家不给世界杯买单了！

小娱乐悠悠

2026-05-05 10:36:39

女游客坠亡的华蓥秋千项目：位于川东第一高瀑，当地曾发提醒

女游客坠亡的华蓥秋千项目：位于川东第一高瀑，当地曾发提醒

南方都市报

2026-05-06 00:07:48

国乒3-0打嗨！日本女队敢这么玩？16强名单已出10席，这事闹大了

国乒3-0打嗨！日本女队敢这么玩？16强名单已出10席，这事闹大了

林子说事

2026-05-06 01:54:11

谢娜演唱会群星璀璨，李小冉与她合唱便利贴，张杰全程护航宠妻

谢娜演唱会群星璀璨，李小冉与她合唱便利贴，张杰全程护航宠妻

露珠聊影视

2026-05-05 22:59:46

时尚评论人把"露点"封为最佳配饰

时尚评论人把"露点"封为最佳配饰

娱圈观察员

2026-05-05 19:47:26

女子抢方向盘致车祸后续：监控曝光，自私又蛮横，闺蜜反应惹众怒

女子抢方向盘致车祸后续：监控曝光，自私又蛮横，闺蜜反应惹众怒

谭谈社会

2026-05-05 16:23:39

今年五一，楼市扯下了最后遮羞布

今年五一，楼市扯下了最后遮羞布

房产老司机

2026-05-05 11:35:27

周受资携太太闪耀纽约晚宴，小扎也到场，科技大佬为何向往时尚圈

周受资携太太闪耀纽约晚宴，小扎也到场，科技大佬为何向往时尚圈

译言

2026-05-06 05:43:22

开拓者新帅海选名单近20人！最新赔率出炉：卡塞尔居首罗伊第二

开拓者新帅海选名单近20人！最新赔率出炉：卡塞尔居首罗伊第二

罗说NBA

2026-05-06 05:50:06

亚行撒马尔罕700亿电网项目：日美主导，中国缺席

亚行撒马尔罕700亿电网项目：日美主导，中国缺席

星星会坠落

2026-05-05 14:58:14

闹大了！湖南浏阳爆炸事件震动了高层

闹大了！湖南浏阳爆炸事件震动了高层

李昕言温度空间

2026-05-05 19:59:02

5月5日俄乌：“火烈鸟”导弹又发威了

5月5日俄乌：“火烈鸟”导弹又发威了

山河路口

2026-05-05 19:14:35

尴尬极了！母亲天天穿紧身裤，女儿吐槽：都快50岁了，穿给谁看呢

尴尬极了！母亲天天穿紧身裤，女儿吐槽：都快50岁了，穿给谁看呢

川渝视觉

2026-05-05 20:33:39

神隐一年近况曝光！金秀贤骨瘦如柴现身，光呼吸都要花费十几万

神隐一年近况曝光！金秀贤骨瘦如柴现身，光呼吸都要花费十几万

观察鉴娱

2026-05-05 09:52:41

巴基斯坦战略专家：这三场战争已表明，中国才是世界最强超级大国

巴基斯坦战略专家：这三场战争已表明，中国才是世界最强超级大国

农夫史记

2026-05-05 20:42:36

有态度网友ytd

3333文章数 40关注度

往期回顾全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

小伙去理发被店家弄到VIP房间后脸白了联系父母要钱

头条要闻

小伙去理发被店家弄到VIP房间后脸白了联系父母要钱

体育要闻

全世界都等着看他笑话，他带国米拿下冠军

娱乐要闻

内娱真情谊！杨紫为谢娜演唱会送花篮

财经要闻

套现约455亿，李嘉诚又卖了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

数码

手机

时尚

本地新闻

用青花瓷的方式，打开西溪湿地

教育要闻

家长自我感动式签名走红，老师满是反感：全班都这样搞，还了得

数码要闻

曝三星、SK海力士、美光DDR6内存研发启动，速度有望达DDR5两倍

手机要闻

苹果、三星垄断全球畅销手机榜仅一款机型来自第三厂商

衣服不用准备太多，找到一些实用的单品才最重要，百搭又有性价比

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版