![]()
微软的Azure云平台在周一晚间遭遇了一次持续多小时的大范围中断,影响了企业云运营的两个关键层面。此次中断持续超过10小时,从周一19:46 UTC开始,直到周二06:05 UTC才得到解决。
故障最初导致客户无法在多个区域部署或扩展虚拟机。随后,在周二00:10 UTC至06:05 UTC期间,美国东部和西部区域的Azure资源托管身份服务出现相关平台问题。此次中断还短暂影响了GitHub Actions。
根据微软状态历史记录,一项策略更改意外应用到了一部分微软管理的存储账户,包括用于托管虚拟机扩展包的存储账户,这导致了此次中断。该更改阻止了公共读取访问,中断了虚拟机扩展包下载等场景。
在追踪ID FNJ8-VQZ下记录的问题中,一些客户在部署或扩展虚拟机时遇到失败,包括配置和生命周期操作期间的错误。其他服务也受到影响。
Azure Kubernetes Service用户在节点配置和扩展安装方面遇到失败,而Azure DevOps和GitHub Actions用户在任务需要虚拟机扩展或相关包时面临管道失败。需要从微软管理的存储账户下载扩展包的操作也出现性能下降。
虽然初步缓解措施在大约两小时内部署,但它引发了第二个涉及Azure资源托管身份的平台问题。试图创建、更新或删除Azure资源,或获取托管身份令牌的客户开始遇到认证失败。
微软状态历史页面在追踪ID M5B-9RZ下确认,在早期缓解措施之后,大量流量激增使美国东部和西部区域的托管身份平台服务不堪重负。
这影响了具有分配托管身份的Azure资源的创建和使用,包括Azure Synapse Analytics、Azure Databricks、Azure Stream Analytics、Azure Kubernetes Service、Microsoft Copilot Studio、Azure Chaos Studio、Azure Database for PostgreSQL灵活服务器、Azure容器应用、Azure防火墙和Azure AI视频索引器。
在多次基础设施扩容尝试无法处理积压和重试量后,微软最终将流量从受影响的服务中移除,以在无负载情况下修复底层基础设施。
EIIRTrend和Pareekh Consulting首席执行官Pareekh Jain表示:"此次中断不仅使网站下线,还中止了开发工作流程并干扰了实际运营。"
近年来云服务中断变得更加频繁,AWS、Google Cloud和IBM等主要供应商都经历了备受瞩目的中断。当DNS问题导致DynamoDB API不可靠时,AWS服务受到了超过15小时的严重影响。
11月,Cloudflare机器人管理系统中的错误配置文件导致多个在线平台出现间歇性服务中断。6月,无效的自动更新中断了该公司的身份和访问管理系统,导致用户无法使用Google在第三方应用上进行身份验证。
Counterpoint Research联合创始人兼副总裁Neil Shah表示:"不断发展的数据中心架构受到AI新速度和可变性驱动的更具挑战性复杂工作负载转变的影响。这种快速扩张不仅带来了复杂性,还挑战了现有的依赖关系。因此,控制层的任何错误配置或管理不当都可能中断环境。"
这不是一个孤立事件。对于CIO来说,这一事件只是加强了重新思考弹性策略的必要性。
Jain指出,在超大规模依赖失败的直接后果中,等待对CIO来说不是推荐策略,他们应该专注于稳定、优先级和沟通策略。"首先,通过宣布正式的云事件并指定单一事件指挥官来稳定局面,快速确定问题是否影响控制平面操作或运行工作负载,并冻结所有非必要更改,如部署和基础设施更新。"
Jain补充说,下一步是通过保护面向客户的运行路径来优先恢复,包括流量服务、支付、身份验证和支持,如果CI/CD受到影响,将关键管道转移到自托管或替代运行器,同时将发布排队在业务批准的门控后面。最后,通过发布明确说明受影响服务、可用解决方案和下次更新时间的定期内部更新来沟通和控制,如果可能产生外部影响,则启动预先批准的客户沟通模板。
Shah指出,这些中断对企业和CIO来说是一个明确的警告,要在云服务提供商之间多元化工作负载或采用混合模式并添加必要的冗余。为防止未来中断影响运营,他们还应该管理CI/CD管道的规模,保持其精简和模块化。
甚至实时与非实时扩展策略,特别是对关键代码或服务,都应该深思熟虑。CIO还应该清楚了解和操作可见性隐藏的依赖关系,知道在这种情况下什么可能受到影响,并制定强有力的缓解计划。
Q&A
Q1:Azure此次中断的主要原因是什么?
A:Azure中断的主要原因是一项策略更改意外应用到了微软管理的存储账户,包括用于托管虚拟机扩展包的存储账户。该更改阻止了公共读取访问,中断了虚拟机扩展包下载等场景,随后的缓解措施又引发了托管身份服务的问题。
Q2:哪些Azure服务受到了影响?
A:受影响的服务包括虚拟机部署和扩展、Azure Kubernetes Service、Azure DevOps、GitHub Actions、Azure Synapse Analytics、Azure Databricks、Azure Stream Analytics、Microsoft Copilot Studio、Azure Chaos Studio、Azure容器应用、Azure防火墙和Azure AI视频索引器等多项服务。
Q3:CIO应该如何应对云服务中断?
A:CIO应该采用稳定、优先级和沟通的策略。首先通过指定事件指挥官稳定局面,快速确定问题范围并冻结非必要更改;然后优先保护面向客户的关键服务;最后进行定期沟通更新。同时还应该在多个云服务提供商间分散工作负载,保持CI/CD管道精简模块化。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.