网易首页 > 网易号 > 正文 申请入驻

未雨绸缪:打造坚不可摧的云服务安全与韧性体系

0
分享至

2024年,系统稳定性问题成为全球关注的焦点。在这一年里,多起系统崩溃和服务中断事件频发,不仅给企业带来了巨大的经济损失,也严重影响了人们的日常生活。面对这些挑战,如何确保系统的稳定运行,提升服务的高可用性,成为了各行各业亟待解决的问题。在这个充满不确定性的时代,探讨系统稳定性的重要性及其应对策略,显得尤为迫切和必要。

那么,面对这些挑战,云计算巨头们是如何做的呢?

在Gartner的魔力象限图中,亚马逊云科技凭借其出色的技术视野和强大的落地能力,一直位于右上角的领导者位置。在详细的评估报告中,亚马逊云科技在韧性方面的得分为4.0,远远领先于其他云服务提供商。

亚马逊云科技大中华区解决方案架构总经理代闻表示,亚马逊云科技的成功来自多方面。基础设施方面,确保了数据中心的物理安全和稳定性;系统架构方面,亚马逊云科技的分布式软件设计能够充分利用底层基础设施,提高系统的可靠性;运营机制方面,通过持续的运营实践和流程改进,确保了服务的稳定性和可靠性。这些实践和经验积累,使得亚马逊云科技能够构建出可靠的云服务,满足客户的需求,并在行业中保持领先地位。

基于此,亚马逊云科技在2023年达到了一个新的里程碑,每天稳定启动的Amazon EC2虚拟机实例超过一亿个,每秒API请求数达到100万亿次。这一庞大的规模展示了其在提供云服务方面的专业性和一致性。

亚马逊云科技之所以能够赢得全球数百万客户的信任和选择,是因为它们在服务的可靠性、安全性和创新性方面做了很多努力。如今,亚马逊云科技平台已经拥有超过240种服务,其中韧性服务占据了重要位置,并且韧性已成为许多服务设计的核心部分。这些因素共同促成了它连续13年在Gartner云基础设施和平台服务魔力象限中被评为领导者。

保障基础设施安全

亚马逊云科技在基础设施方面的投入和设计是其服务稳定性和可靠性的关键。代闻表示,如同选址对于建筑的重要性,亚马逊云科技在建立数据中心时会考虑多种因素,包括地震风险、电力供应稳定性等,以确保数据中心的物理安全和持续运行。亚马逊云科技的数据中心设计遵循严格的标准,在全球范围内以城市为单元构建,称为“区域”(Region),每个区域内设有多个“可用区”(Availability Zone, AZ),以实现数据中心之间的适当隔离和低延迟连接。

亚马逊云科技每个可用区内包含多个机房,这些机房不仅电力供应充足、设计冗余,还具备高容错性和扩展性。机房之间的互联非常充分,确保了区域内的高内聚性和低延迟通信。其网络架构还包括多个网络中心,这些中心将不同的可用区连接起来,并与全球互联网和其他区域进行高速、冗余的连接。这种三层网络设计——机房内部互联、AZ到网络中心的互联、网络中心到外部网络的互联——确保了云服务的高可用性和稳定性。

基础设施的设计和实施,是亚马逊云科技保持领先的关键之一。

控制面与数据面的分离策略

亚马逊云科技在设计服务时,采用了控制面与数据面分离的策略,这一策略在提高服务韧性方面发挥了关键作用。控制面负责处理服务的管理和配置,而数据面则负责处理实际的数据传输和处理。这种分离确保了即使控制面发生故障,数据面仍然可以独立运行,从而最小化了故障对用户服务的影响。

亚马逊云科技的这种设计在Amazon EC2和Amazon S3等服务中得到了体现。例如,Amazon EC2在一个可用区内提供服务,即使该区域内发生故障,也不会影响其他可用区的服务。而Amazon S3则在区域级别提供服务,确保了即使某个可用区出现问题,也不会影响整个区域的服务。这种设计不仅提高了服务的韧性,也为用户提供了不同级别的服务选项,以满足他们的特定需求。

通过这些设计和实践,亚马逊云科技成功地构建了一个既强大又灵活的云服务平台,为用户提供了可靠、安全且具有高度韧性的服务。

韧性的运营机制

在云服务的运营方面,亚马逊云科技通过卓越的运营机制确保了服务的韧性,这是其领先行业的关键因素之一。据代闻介绍,亚马逊云科技的运营机制围绕四个核心要点展开:服务责任模型、运营就绪审查机制、安全的持续部署和纠错流程。服务责任模型打破了开发与运维的界限,通过Devops文化实现研发和运维的紧密合作,每个服务团队都对其服务的稳定运行负责。我们的24小时on call机制确保了快速响应服务故障,避免了责任归属的混淆。

运营就绪审查机制则是在服务生命周期的各个阶段进行风险评估,通过标准化的运营手册和定期的审查,确保新服务的上线和更新符合运营标准。安全的持续部署流程通过分阶段、逐步扩大的方式,从one box环境到多个region的部署,确保了服务的平滑升级和故障的最小化。纠错流程则是对故障进行深入分析,通过编写纠错报告、审查和自动化改进,将经验教训融入未来的服务迭代中,提高了整体的运营质量和系统的韧性。

这些运营机制的建立和执行,不仅体现了亚马逊云科技对服务质量的严格要求,也是其在云计算领域持续领先的重要保障。通过不断的经验积累和流程优化,才能够更好地应对各种挑战,确保为客户提供稳定、可靠的云服务。

通过五个阶段保持系统拥有足够韧性

亚马逊云科技基于丰富的实践经验,开发了一个韧性系统建设生命周期框架,旨在帮助组织构建和维护高韧性的系统。该框架包含五个关键阶段,强调韧性是一个持续的生命周期过程,需要不断地循环执行这些阶段,以适应不断变化的环境和需求。

  1. 设定目标: 在初始阶段,组织必须明确其韧性目标和要求,评估现有系统的韧性水平,并制定相应的改进计划。这一阶段的重点是系统风险识别和业务指标的确定,为后续的设计和实施奠定基础。
  2. 设计及实施: 基于韧性最佳实践,组织应构建具有适当韧性控制措施的工作负载和系统。亚马逊云科技提供了一系列增强韧性的服务和功能,如自动扩展、负载均衡和备份等,以支持这一阶段的工作。重点环节包括备用方案、高可用性和容灾方案的设计和实施。
  3. 验证和测试: 提高系统的测试标准,采用混沌工程等方法验证已知风险,并探索未知风险。这一阶段的重点是可观测性的建设和混沌工程的实施,确保系统能够在各种压力下保持稳定。
  4. 持续运营: 实施运营最佳实践,如自动化、监控和变更管理等,以持续提高系统的可观测性和自动化性。这一阶段的目标是通过持续的运营活动,确保系统的韧性得到维护和优化。
  5. 响应和改进: 定期回顾韧性策略和措施的有效性,总结事故的根因,避免问题的再次发生,并根据经验教训不断进行调整和改进。这一阶段的目的是确保组织能够从实践中学习,不断优化其韧性策略。

通过这五个阶段的循环执行,组织能够建立一个持续改进的韧性管理系统,有效应对各种挑战和变化。亚马逊云科技的韧性系统建设生命周期框架为组织提供了一个清晰的指导,帮助它们构建更加强大和可靠的系统。

2022年,奇瑞捷豹路虎迈出了数字化转型的关键一步,选择将关键的SAP系统迁移至亚马逊云科技云上。通过亚马逊云科技的区域和可用区特性,奇瑞捷豹路虎实现了业务敏捷性和人员工作效率的显著提升。利用亚马逊云科技的自适应跨可用区高可用集群,奇瑞捷豹路虎创新性地提出了高可用和同城灾备融合方案。这一方案不仅增强了集群的可靠性和稳定性,还最大限度地减少了停机时间,并确保了零数据丢失,将故障切换时间从半小时缩短至3分钟。

紫讯科技与亚马逊云科技合作,通过优化使核心产品SLA提升至99.995%,RTO在10分钟内,RPO小于1分钟,显著提升了业务的安全性和运营效率。

可以看到,通过一系列工具和服务,亚马逊云科技帮助用户够构建一个强大的韧性策略,快速响应潜在的中断,并从中断中迅速恢复,确保了业务的连续性和数据的完整性。

在云服务领域,可靠性、安全性、业务连续性以及系统韧性是贯穿始终的核心原则。伴随着人工智能推动的应用迅猛发展,则更应增强忧患意识,正视层出不穷的新挑战。为此,我们必须构建起坚不可摧的韧性体系,未雨绸缪,确保在任何情况下都能保持服务的稳定与安全。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美联储,重磅来袭!高盛突然宣布:下调!

美联储,重磅来袭!高盛突然宣布:下调!

证券时报
2026-06-21 16:22:31
545分入警率90%!广东警官学院王牌专业解析,理科男生的隐藏铁饭碗

545分入警率90%!广东警官学院王牌专业解析,理科男生的隐藏铁饭碗

华庭讲美食
2026-06-22 01:16:07
湖北一富豪当街殴打迈巴赫车主,知情人称:那是他女儿,打死活该

湖北一富豪当街殴打迈巴赫车主,知情人称:那是他女儿,打死活该

黑猫故事所
2025-04-14 18:45:09
马宁执法世界杯:广告接到手软,收入千万

马宁执法世界杯:广告接到手软,收入千万

鞭牛士
2026-06-21 12:51:06
颠覆全网认知!一生好胜的 C 罗,对梅西的评价彻底封神

颠覆全网认知!一生好胜的 C 罗,对梅西的评价彻底封神

夕落秋山
2026-06-22 01:17:18
廉颇老矣!冯小刚《抓特务》票房萎靡,曾经的商业片之王已成过去

廉颇老矣!冯小刚《抓特务》票房萎靡,曾经的商业片之王已成过去

得得电影
2026-06-21 13:33:59
AI冲击下横店群演现状:美女泛滥成灾,懒汉光棍遍地,该何去何从

AI冲击下横店群演现状:美女泛滥成灾,懒汉光棍遍地,该何去何从

墨兰史书
2026-06-22 07:55:12
主帅赛前故意示弱骗所有人,女排输球真相太让人无奈

主帅赛前故意示弱骗所有人,女排输球真相太让人无奈

田心生活
2026-06-22 08:44:46
日本球迷表态,希望马宁不要执法日本队,不然我们要给他上一课

日本球迷表态,希望马宁不要执法日本队,不然我们要给他上一课

酷侃体坛
2026-06-21 18:34:10
陌生号码一律不接!中国社会正在支付一笔隐形信任税

陌生号码一律不接!中国社会正在支付一笔隐形信任税

时光在作祟
2026-06-22 00:32:39
国泰海通证券:不确定性在端午节前落地 中国股市新一轮上升窗口期打开

国泰海通证券:不确定性在端午节前落地 中国股市新一轮上升窗口期打开

财联社
2026-06-21 22:33:43
沈阳“咆哮妻”30秒视频火遍全网,我才明白为什么妻子是丈夫的命

沈阳“咆哮妻”30秒视频火遍全网,我才明白为什么妻子是丈夫的命

洞见
2026-06-19 21:00:57
震惊!曹德旺要福耀大学自负盈亏,网友:这是真正意义上的好大学

震惊!曹德旺要福耀大学自负盈亏,网友:这是真正意义上的好大学

火山詩话
2026-06-19 07:57:26
范志毅没说谎!足球小将父亲发声揭露董路真实一面

范志毅没说谎!足球小将父亲发声揭露董路真实一面

80后房车生活
2026-06-19 03:35:55
男篮头号功臣!王俊杰23+6+4末节13分统治比赛 连献关键球

男篮头号功臣!王俊杰23+6+4末节13分统治比赛 连献关键球

醉卧浮生
2026-06-21 21:26:23
《活着》:人最顶级的本事,是让自己长时间处在一种极度糟糕、极度混乱、极度没有结果的状态里,却依旧好好吃饭好好生活,不崩盘的能力

《活着》:人最顶级的本事,是让自己长时间处在一种极度糟糕、极度混乱、极度没有结果的状态里,却依旧好好吃饭好好生活,不崩盘的能力

心理观察局
2026-06-21 06:30:03
出了考场谈女权,这多少有些让人意外,很难不引起人警觉

出了考场谈女权,这多少有些让人意外,很难不引起人警觉

读鬼笔记
2026-06-19 16:51:56
一架专机直飞北京,开启5天行程 菲律宾这下是不明白也得明白了

一架专机直飞北京,开启5天行程 菲律宾这下是不明白也得明白了

绝对军评
2026-06-22 08:12:25
洪秀柱当众痛批郑丽文上任半年路线跑偏,国民党彻底陷入两难困局

洪秀柱当众痛批郑丽文上任半年路线跑偏,国民党彻底陷入两难困局

完善法
2026-06-21 11:18:46
高速限速80还配叫高速?四川车主集体吐槽,交通厅最新回应来了

高速限速80还配叫高速?四川车主集体吐槽,交通厅最新回应来了

生活魔术专家
2026-06-22 01:15:27
2026-06-22 09:24:49
计算杂谈
计算杂谈
聊聊一切与计算相关的话题
415文章数 74关注度
往期回顾 全部

科技要闻

SpaceX 74天闪电IPO,OpenAI能照搬吗?

头条要闻

涨粉1400多万接"失业通知书" 佛得角门将收不续约通知

头条要闻

涨粉1400多万接"失业通知书" 佛得角门将收不续约通知

体育要闻

18岁斩世界杯首球!亚马尔连创5大纪录

娱乐要闻

原来她就是张颂文老婆

财经要闻

这门“躺赚”的生意,要凉了?

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

家居
本地
健康
手机
亲子

家居要闻

绿意盎然 自然之境

本地新闻

龙腾资江 韵动邵阳

吃粽子的3条保胃法则,消化科医生推荐

手机要闻

三星S26实测:发热降频仍比骁龙严重,难道2nm工艺还是不太行?

亲子要闻

纸尿裤“罗生门”:消费信任透支,真相越辩越远?

无障碍浏览 进入关怀版