
作者 | Craig Risi
译者 | 张卫滨
Cloudflare 最近发布了一项名为“Code Orange: Fail Small”的详细韧性计划,以防止过去六周内连续发生的两次重大网络中断导致的大规模服务中断再次发生。该计划优先考虑受控发布、改进故障模式处理以及简化应急流程,以使其全球网络更加稳健,并减少因配置错误而造成的脆弱性。
Cloudflare 的网络在 2025 年 11 月 18 日 和 12 月 5 日 遭受了两次严重的中断。第一次事件导致流量交付中断了约 2 小时 10 分钟,而第二次事件则影响了其网络背后约 28% 的应用程序,持续了约 25 分钟。这些事件发生在即时的全球配置更改之后,尽管这些更改旨在提高安全性或机器人检测能力,但它们在数百个数据中心迅速传播了错误的设置,从而引发了广泛的服务故障。
“Code Orange: Fail Small”计划规定,配置更改必须以受控的、分阶段的方式进行,类似于 Cloudflare 现有的软件发布流程 Health Mediated Deployment(HMD),其中包括分阶段验证和自动回滚机制。历史上,配置更新(如 DNS 记录或安全规则)会通过内部的 Quicksilver 系统 在几秒钟内向全球范围传播,当错误的更改传播过快时,这就成为了一个隐患。在新策略下,配置更新需要通过监控门禁并采用渐进式部署,以便在问题影响到大范围基础设施之前尽早发现它们并降低影响。
Cloudflare 还计划审查和改进网络流量处理系统中的所有故障模式,旨在确保每个组件在错误条件下都能做出可预测的响应,并且不会将故障级联到不相关的服务。这包括验证关键产品之间的接口契约,并建立合理的默认值,以便即使依赖的子系统发生故障,流量也能继续流动。
除此之外,该公司正在彻底改革紧急访问程序和内部工具的访问权限,以减少在过去的中断事件中拖慢事件响应速度的循环依赖。增强的培训和简化的应急访问协议旨在帮助工程师更快地应对关键故障,同时不损害安全防护措施。
Cloudflare 的计划正在逐步推进,通过单独的更新以改善整体的性韧性,而不是一次性地进行大规模更新。该公司预计到 2026 年第一季度末,所有生产系统都将使用增强后的 HMD 配置流程,故障模式将得到更好的定义和测试,应急响应访问也将得到改进。
这些努力是在日益严格的审查背景下进行的。Cloudflare 的中断事件引起了广泛的关注,事件影响了 LinkedIn、Zoom 和 Shopify 等主要网站,并引发了关于集中式互联网基础设施风险的讨论。尽管社区的一些 反应 表达了不满,但许多讨论平台上的用户也对 Cloudflare 坦诚承认问题及其结构性改进的承诺表示了欢迎。
Cloudflare 正在努力重建信心,“Code Orange: Fail Small”计划凸显了该公司向更谨慎的部署实践的转变,并对故障的出现做出更强的预期,以便在问题升级为扰乱互联网生态系统大范围的全球中断之前将其控制住。
Cloudflare Launches ‘Code Orange: Fail Small’ Resilience Plan After Multiple Global Outages(https://www.infoq.com/news/2026/01/cloudflare-resilience-plan/)
声明:本文为 InfoQ 翻译,未经许可禁止转载。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.