![]()
根据思科ThousandEyes最新发布的互联网故障报告,2025年各种规模的组织都遭受了系统中断的困扰,重大事件暴露了网络基础设施和定义当今分布式环境的IT依赖关系中的漏洞。
网络智能供应商ThousandEyes对最具影响力的故障进行了回顾,突出了关键趋势,包括后端配置更改频繁导致重大中断,以及依赖链复杂性不断增长。2025年的重大故障包括Asana的连续配置错误、Zoom的DNS消失事件,以及AWS DynamoDB的区域性故障影响全球服务。
以下是ThousandEyes按时间顺序列出的2025年11大故障详情。
Asana连续配置故障(2月5-6日)
持续时间:连续两次中断,第二次约持续20分钟
症状:服务不可用和性能下降
原因:2月5日的配置更改使服务器日志过载,导致服务器重启。次日又发生了具有类似特征的第二次中断。
总结:ThousandEyes报告称:"这对中断突显了现代系统的复杂性,以及测试每种可能的交互场景的困难性。"事件发生后,Asana转向了阶段性配置发布。
Slack数据库维护故障(2月中旬)
持续时间:九小时
症状:用户可以登录和浏览频道,但在发送和接收消息时遇到问题
原因:数据库系统维护操作出现问题,导致大量流量过载,直接冲击数据库
总结:ThousandEyes指出:"乍一看,Slack的一切似乎都正常——网络连接良好,没有延迟问题,也没有数据包丢失。"只有通过结合多个诊断观察,调查人员才能确定真正的源头是数据库系统,后来得到Slack的确认。
Discord网络层故障(3月中旬)
持续时间:数小时,各种服务出现不同程度的停机
症状:平台显示"宕机",用户遇到连接失败,类似于分布式拒绝服务(DDoS)攻击
原因:在TCP信令阶段发生了显著数据包丢失和连接错误的网络故障。ThousandEyes表示:"连接错误通常表示网络层存在更深层次的问题。"
总结:ThousandEyes检测到流量在会话建立之前就被丢弃。但没有可见的BGP路由变化,这通常在DDoS缓解期间会发生。ThousandEyes指出:"这是网络层面的故障,但不是第一眼看起来的那样。"
Zoom DNS记录消失事件(4月底)
持续时间:约两小时
症状:全球所有Zoom服务不可用
原因:Zoom的域名服务器(NS)记录从顶级域(TLD)域名服务器中消失,尽管基础设施健康,但服务无法访问
总结:ThousandEyes报告称:"尽管服务器本身在整个过程中保持健康,并且在直接查询时能够正确响应,但由于缺少记录,DNS解析器无法找到它们。"这一事件突显了组织域名系统(DNS)层之上的故障如何完全击垮服务。
Spotify后端服务故障(5月中旬)
持续时间:超过两小时
症状:应用程序前端正常加载,但音乐和视频无法正常播放
原因:后端服务问题,而网络连接、DNS和CDN"看起来都很健康"
总结:ThousandEyes表示:"所有生命体征都良好:连接、DNS和CDN看起来都很健康。"该事件说明了"服务器端故障如何在给人一切正常工作的假象的同时,悄无声息地削弱核心功能"。
Google IAM系统故障(6月底)
持续时间:超过两个半小时
症状:用户无法使用Google在Spotify和Fitbit等第三方应用上进行身份验证;连锁后果影响了Cloudflare服务和下游应用程序
原因:无效的自动更新中断了公司的身份和访问管理(IAM)系统
总结:ThousandEyes解释说:"你看到的是三层级联:Google的故障导致Cloudflare问题,从而影响依赖Cloudflare的下游应用程序。"该事件提醒我们"要将故障一直追溯到源头"。
Cloudflare路由表故障(7月中旬)
持续时间:超过一小时
症状:流量无法到达众多依赖Cloudflare的1.1.1.1 DNS解析器的网站和应用程序
原因:几周前引入的配置错误被不相关的更改触发,导致Cloudflare的BGP路由通告从全球互联网路由表中消失
总结:ThousandEyes报告称:"没有有效路由,流量无法到达Cloudflare的1.1.1.1 DNS解析器。"该事件突显了"配置更新中的缺陷并不总是立即引发危机,而是为以后储存问题"。
美国银行多渠道故障(8月初)
持续时间:超过两小时
症状:公司的移动应用程序、网站和ATM机全部同时宕机和失效
原因:ThousandEyes估计,共享后端依赖项失败,影响了所有客户接触点
总结:ThousandEyes指出:"三个不同的渠道使用三种不同的前端技术同时失败,这排除了应用程序或UI问题。"这一事件表明"单一故障如何立即禁用每个客户接触点——以及为什么在寻求补救措施之前检查所有信号至关重要"。
Adobe连续故障事件(10月9日和29日)
持续时间:两次事件都持续了数小时
症状:第一次中断影响EMEA地区用户,出现减速和故障;第二次影响全球用户,出现HTTP 503错误和连接超时
原因:10月9日的事件是由软件缺陷引起的,导致EMEA地区的边缘站点崩溃;10月29日的中断是由配置更改触发的
总结:ThousandEyes表示:"这两次中断共同说明了一个重要区别:基础设施故障往往是区域性的,只有某些客户受到影响,而配置错误通常会同时影响所有地区。"
AWS DynamoDB大规模故障(11月中旬)
持续时间:部分客户超过15小时
症状:长时间的全球服务中断影响了包括Slack、Atlassian和Snapchat在内的主要客户
原因:US-EAST-1地区出现故障,但IAM和DynamoDB全球表等全球服务依赖于该区域端点,意味着中断传播到全球
总结:ThousandEyes指出:"该事件突显了单一集中化服务的故障如何通过依赖链向外波及,这些依赖链从架构图中并不总是显而易见。"
Cloudflare机器人管理系统故障(12月底)
持续时间:数小时的间歇性全球不稳定
症状:间歇性服务中断而非完全中断
原因:Cloudflare机器人管理系统中的错误配置文件超过了硬编码限制,导致代理在以交错的五分钟周期加载超大文件时失败
总结:ThousandEyes报告称:"由于代理以交错的五分钟周期刷新配置,我们看到的不是开关式中断,而是间歇性的全球不稳定。"该事件揭示了分布式边缘与交错更新相结合如何创造间歇性问题。
网络运营团队的经验教训
ThousandEyes为希望在2026年提高韧性的网络运营团队总结了几个要点:
调查单一症状可能具有误导性。真正的中断原因可能来自信号的组合。ThousandEyes表示:"如果网络看起来健康但用户遇到问题,问题可能出在后端。跨渠道的同时故障指向共享依赖项,而间歇性故障可能表明发布或边缘问题。"
专注于快速检测和响应。现代系统的复杂性意味着仅通过测试来防止每个可能的问题是不现实的。ThousandEyes表示:"相反,专注于构建快速检测和响应能力,使用阶段性发布和与利益相关者的清晰沟通等技术。"
理解架构。ThousandEyes解释说:"集中式系统往往以可预测的级联方式失败,而分布式系统可能将故障局部化,但仍面临配置更改的全球影响。"在事件发生前理解系统的特定故障模式有助于在中断期间更快地解释症状。
ThousandEyes首席解决方案分析师Mike Hicks在故障报告中写道:"目标是最小化问题检测和恢复之间的时间,保持信任并确保即使在不可避免的复杂性中也能实现更顺畅的运营。"
Q&A
Q1:什么是网络故障依赖链?为什么它会导致全球性影响?
A:依赖链是指系统中不同服务相互依赖的关系。当核心服务出现故障时,会通过依赖链向外波及。例如AWS DynamoDB在US-EAST-1地区的故障影响了全球的IAM和DynamoDB全球表服务,进而影响了Slack、Atlassian和Snapchat等依赖这些服务的应用程序。
Q2:为什么配置更改会比基础设施故障造成更大的影响?
A:配置错误通常会同时影响所有地区,而基础设施故障往往是区域性的。比如Adobe的两次故障显示,软件缺陷只影响EMEA地区,而配置更改则导致全球用户都出现问题。配置错误还可能在几周后被其他不相关的更改触发,储存潜在问题。
Q3:如何快速识别网络故障的真正原因?
A:不要仅依赖单一症状进行判断,需要结合多个信号。如果网络连接正常但用户遇到问题,可能是后端问题;多个渠道同时故障通常指向共享依赖项;间歇性故障可能表明发布或边缘问题。建立快速检测和响应能力比预防所有可能问题更现实。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.