最近这些天,云厂家一家接一家的宕机。今天轮到CloudFlare挂掉,导致全球10%以上的网站不可访问。
这个故障,不用等到厂家发布事后分析报告,无非就是又一个工程师在设计或者操作的时候考虑不周全,导致系统有个漏洞,突然爆发了。
脱离我们的行业惯例,用外部视角看,这是一种不可思议的现象: 一两个普通的工程师的某一两个决策,导致全球上百万的工程师要应对,上亿的用户日常生活被影响到。
如果一个医生手抖一下,全国一半的病人要集体痛五个小时,或者一个控制塔管制员溜了一下神,半个亚洲的航班都要延误,那整个社会都会疯掉。同样的事情发生在云计算行业,大家却都不以为奇。这是不正常的。
今年10月28号aws us-east-1的大故障,导致美国一半的线上服务不可用,波及到全球用户。2023年11月12号,阿里云故障导致中国无数服务不可用。2023年11月27号滴滴基础设施团队的故障,导致全国几百万司机一夜收不到单。案例数不胜数,随着云计算的进一步普及,这种集中化只会越来越加剧,故障的影响会越来越大。
尽管这些故障有明显的溢出效应,但厂家只是当做内部的商业损失处理,从来没有评估过其更广泛的社会损失。他们也从来不公布调查报告,更没有整改承诺,甚至都不提供规避方案。用户只能被动的承受损失,然后坐等下一次故障发生。
这种大规模的故障中,云厂商的直接损失,和客户的间接损失可能是1:100甚至1:1000的关系。
我们以浙江政务云为例,其一年云服务开销是5.5亿,假设云服务宕机一天,厂商不过损失150万人民币。(请注意这是一个思想实验,作者并非在评价浙江政务云的可用性)
而这一天,浙江政务云各项服务不可用,需要动员几万人手工处理各种公文,这个成本就已经几千万了,比云厂商的损失高出一个数量级。
再考虑第三层损失,网上办事大厅停滞造成民众无法登记婚姻,延迟办理房屋过户,这个损失会上亿。
由于监管缺失,云厂商不会在意第二层和第三层的损失,他们的风险计算模型只会考虑区区150万的损失。如果防护措施超过了50万,对他们来说,就是一个负回报的投资,毕竟那几千万和几个亿的间接损失都是客户自行承担的。
我的朋友冯若航一直抱怨云厂家的故障赔偿是个笑话。由于云故障,你的网站不可用,你的客户打爆你的客服电话,你的老板从南极打电话痛骂你,你的工程师取消休假加班加点应对,你一夜不睡盯着云厂状态页跟进事态。最后云厂家给了两百三十七块八毛五的赔偿金,都不够一个工程师从回龙观打车到中关村。这种影响和责任的不对称,营造出一种滑稽的效果。
上面列举的事故,还只是工程师们的无心之过导致简单的财产损失。如果有人蓄意搞破坏呢?假设有特殊机构得知某个云厂商托管了国计民生服务,派人打入内部窃取数据,根本不做背景调查的云厂商有任何防范能力吗?云厂商有数据库服务,密钥管理服务,证书管理服务,但归根结底,这些服务都是人在维护,云厂商有足够的管理能力防止内部人攻击吗?有足够的审计能力探测和追踪内部破坏吗?根据我的经验,这些问题的答案都是No。
现在是2025年,这种市场原教旨的制度安排,已经过时了。云计算,应该和银行,电信运营商和发电厂一样,作为一种社会核心基础设施受到更严格的监管。欧洲的Cyber Resilience Act开了一个先例。中国监管者也应该跟进。
下面是我的一些粗浅建议
1.云厂商服务应该根据区域拆分。中国移动湖南公司的故障不会影响到江西移动的服务,云计算行业也应如此。
2.云厂商应该为其故障付出更高的财务代价,不应该是简单的客户服务费用返还。
3.云厂商应该有更多的举证责任。客户数据泄露的时候,云厂商应该通过审计手段证明自己的清白,否则就要承担责任。
4.云厂商应该赞助行业标准的提升。云厂商集中程度非常高,三个大厂占据了70%的市场份额,几个厂商的水准就是行业的水准。厂商有义务在财务利益之外,积极的促进行业标准提升,就像中国移动当年积极的促进5G落地一样。
以上是一家之言,希望得到从业者的批评和指教。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.