周二,一次 Cloudflare 故障 导致互联网大范围瘫痪,用户无法访问许多网站和服务,比如 X、ChatGPT、Spotify、YouTube 和 Uber。这家网络安全公司现在发布了一篇博客,详细说明了事情的经过。
Cloudflare 的联合创始人兼首席执行官马修·普林斯对这次故障表示歉意,并称这是自2019年以来公司经历的最严重的故障。
普林斯说:“在过去的六年多里,我们没有经历过其他导致大部分核心流量停止在我们网络上流动的故障。我代表 Cloudflare 的整个团队,想为今天给互联网带来的麻烦表示歉意。”
普林斯解释道,Cloudflare 的故障是由于其用于保护网站免受 DDoS 攻击的系统出现了问题。
Cloudflare 故障的原因
Cloudflare 的机器人管理系统 是一种保护网站免受恶意机器人攻击的服务,包括 DDoS 攻击,通过大量流量淹没网站,内容抓取 攻击,未经授权地从网站收集数据,以及自主凭证填充攻击,试图利用其他网站泄露的登录信息以获取网站访问权限。
该机器人管理系统包括一个对流量请求进行评分的人工智能模型。每当有请求尝试访问受Cloudflare的机器人管理保护的网站时,人工智能会生成一个分数,以判断该请求是否可能来自机器人。为此,人工智能会考虑请求的各种特征,这些特征保存在一个“特征文件”中。
特征文件是问题发生的根源。该文件每五分钟刷新一次,以跟上不断演变的机器人行为,并在Cloudflare的整个网络安全体系中使用。然而,该公司对生成该文件的基础查询实施了更改,导致信息重复了多次。这使得特征文件的大小超过了正常情况,从而在机器人管理系统中引发了错误。
因此,尝试访问使用 Cloudflare 的机器人管理系统的网站时出现了错误码。Cloudflare 表示,在功能文件生成更新实施后大约 15 分钟,网络开始出现重大故障。
Cloudflare 最初怀疑此次故障是恶意攻击,尤其是因为其状态页面在与公司基础设施独立的情况下也出现了问题。然而,Prince 说这其实只是个巧合。
“这个问题并不是直接或间接由网络攻击或任何恶意活动引起的,”普林斯强调。“我们最初错误地认为看到的症状是由超大规模的DDoS攻击引起的,我们正确地识别了核心问题,并成功停止了比预期更大特征文件的传播,随后用早期版本的文件进行了替换。”
在博客发布之前,Mashable曾经联系过Cloudflare的一位发言人,他也强调说“没有证据显示这次停机是由于攻击或恶意活动造成的。”
Cloudflare 的服务在大约三小时内基本恢复,约五小时后完全恢复。Prince 表示,公司已经在制定措施,以防止未来出现类似的故障,包括防止错误报告淹没其系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.