云厂商需要有人管起来，CloudFlare又宕机了|云计算|cloudflare

云厂商需要有人管起来，CloudFlare又宕机了

2025-11-18 23:11:23　来源: 老冯云数

北京举报

分享至

最近这些天，云厂家一家接一家的宕机。今天轮到CloudFlare挂掉，导致全球10%以上的网站不可访问。

这个故障，不用等到厂家发布事后分析报告，无非就是又一个工程师在设计或者操作的时候考虑不周全，导致系统有个漏洞，突然爆发了。

脱离我们的行业惯例，用外部视角看，这是一种不可思议的现象: 一两个普通的工程师的某一两个决策，导致全球上百万的工程师要应对，上亿的用户日常生活被影响到。

如果一个医生手抖一下，全国一半的病人要集体痛五个小时，或者一个控制塔管制员溜了一下神，半个亚洲的航班都要延误，那整个社会都会疯掉。同样的事情发生在云计算行业，大家却都不以为奇。这是不正常的。

今年10月28号aws us-east-1的大故障，导致美国一半的线上服务不可用，波及到全球用户。2023年11月12号，阿里云故障导致中国无数服务不可用。2023年11月27号滴滴基础设施团队的故障，导致全国几百万司机一夜收不到单。案例数不胜数，随着云计算的进一步普及，这种集中化只会越来越加剧，故障的影响会越来越大。

尽管这些故障有明显的溢出效应，但厂家只是当做内部的商业损失处理，从来没有评估过其更广泛的社会损失。他们也从来不公布调查报告，更没有整改承诺，甚至都不提供规避方案。用户只能被动的承受损失，然后坐等下一次故障发生。

这种大规模的故障中，云厂商的直接损失，和客户的间接损失可能是1:100甚至1:1000的关系。

我们以浙江政务云为例，其一年云服务开销是5.5亿，假设云服务宕机一天，厂商不过损失150万人民币。（请注意这是一个思想实验，作者并非在评价浙江政务云的可用性）

而这一天，浙江政务云各项服务不可用，需要动员几万人手工处理各种公文，这个成本就已经几千万了，比云厂商的损失高出一个数量级。

再考虑第三层损失，网上办事大厅停滞造成民众无法登记婚姻，延迟办理房屋过户，这个损失会上亿。

由于监管缺失，云厂商不会在意第二层和第三层的损失，他们的风险计算模型只会考虑区区150万的损失。如果防护措施超过了50万，对他们来说，就是一个负回报的投资，毕竟那几千万和几个亿的间接损失都是客户自行承担的。

我的朋友冯若航一直抱怨云厂家的故障赔偿是个笑话。由于云故障，你的网站不可用，你的客户打爆你的客服电话，你的老板从南极打电话痛骂你，你的工程师取消休假加班加点应对，你一夜不睡盯着云厂状态页跟进事态。最后云厂家给了两百三十七块八毛五的赔偿金，都不够一个工程师从回龙观打车到中关村。这种影响和责任的不对称，营造出一种滑稽的效果。

上面列举的事故，还只是工程师们的无心之过导致简单的财产损失。如果有人蓄意搞破坏呢？假设有特殊机构得知某个云厂商托管了国计民生服务，派人打入内部窃取数据，根本不做背景调查的云厂商有任何防范能力吗？云厂商有数据库服务，密钥管理服务，证书管理服务，但归根结底，这些服务都是人在维护，云厂商有足够的管理能力防止内部人攻击吗？有足够的审计能力探测和追踪内部破坏吗？根据我的经验，这些问题的答案都是No。

现在是2025年，这种市场原教旨的制度安排，已经过时了。云计算，应该和银行，电信运营商和发电厂一样，作为一种社会核心基础设施受到更严格的监管。欧洲的Cyber Resilience Act开了一个先例。中国监管者也应该跟进。

下面是我的一些粗浅建议

1.云厂商服务应该根据区域拆分。中国移动湖南公司的故障不会影响到江西移动的服务，云计算行业也应如此。

2.云厂商应该为其故障付出更高的财务代价，不应该是简单的客户服务费用返还。

3.云厂商应该有更多的举证责任。客户数据泄露的时候，云厂商应该通过审计手段证明自己的清白，否则就要承担责任。

4.云厂商应该赞助行业标准的提升。云厂商集中程度非常高，三个大厂占据了70%的市场份额，几个厂商的水准就是行业的水准。厂商有义务在财务利益之外，积极的促进行业标准提升，就像中国移动当年积极的促进5G落地一样。

以上是一家之言，希望得到从业者的批评和指教。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.