来源:2024年度全国农村金融机构科技创新优秀案例评选
获奖单位:江苏农信
荣获奖项:十大网络影响力优秀案例
一、项目背景、目标及相关规划
1.项目背景
近年来,业务连续性管理一直是金融机构尤其是银行机构的一项重点工作。为保障业务系统稳定运行,我联社一直持续增加业务连续性资源投入,提升基础设施高可用性水平,已建成同城双活中心、核心系统异地灾备中心的两地三中心架构。为保障关键核心业务系统持续稳定运行和提升江苏省联社业务连续性水平,计划在原有的两地三中心架构基础上,补充建设一套容灾系统,实现核心系统之外的重要系统的异地数据级灾备管理。
2.项目目标
在为保障关键核心业务系统持续稳定运行和提升江苏省联社业务连续性水平,2023年3月我联社启动了生产环境重要系统异地数据备份建设项目,计划建设连接生产、同城和异地灾备三个数据中心的数据容灾系统,实现在发生重大自然灾害造成生产中心和同城灾备中心都瘫痪的情况下,保证重要业务系统的数据不丢失,极大提升我联社业务连续性水平。
3.建设规划
2023年,我联社经过技术可行性研究,制定了通过存储复制技术实现本地双活+同城复制+异地复制的技术方案,计划在生产机房、同城灾备机房、异地机房之间建成了数据4副本(4DC)的高可用架构,实现重要业务系统数据在本地、同城灾备和异地灾备中心共计四副本保存。
4.业务功能
相比于仅建立同城灾备中心或异地灾备中心,4DC的方式结合两者的优点,能容忍双城三个数据副本失效的故障场景下存储系统继续对外提供业务,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,都能够通过灾难备份系统较快地响应,尽可能保全业务数据不丢失,实现更优的RPO和RTO。
整体架构和功能如下:
基于以上存储架构,生产重要系统数据实现了以下高可用功能:
(1)河西数据中心2台存储(A、B)为双交换双活组网,生产中心应用系统的数据同时往这两台存储双写,任意1台存储故障不影响现网业务正常运行,业务层面无感知。
(2)生产中心业务数据成功写入两台存储后,自动从存储B异步复制至同城灾备中心的存储C上,实现同城第3分数据部分保存。同城灾备中心存储C出现故障不影响河西主站点业务正常运行。
(3)当河西数据中心整体设备出现故障,通过启动灾备切换恢复灾备中心的灾备存储和灾备主机,可以迅速接管现网业务,数据差异量基本为0。
(4)同城灾备中心存储C上的数据使用异步复制自动传输至无锡异地灾备中心存储D作为第4份数据副本保存,用于极端灾难情况下南京2个数据中心均发生灾难后,生产系统重要数据不丢失,为后期恢复业务提供保障。
二、创新点
本次建设采用了两地三中心数据4副本的高可用架构,大大提高了银行重要系统数据和业务的可靠性和连续性,在国内外属于领先的技术实现。
1、4DC高可靠容灾架构
两地三中心数据4副本高可用架构中生产中心两套双活存储同时对外提供SAN双活功能,生产中心数据周期性异步复制到同城灾备中心,同城灾备中心数据周期性异步复制到异地灾备中心。通过实施经过日常灾难演练的步骤,应用可在业务容许的时间内,在同城灾备中心和异地灾备中心恢复,保障数据和业务的可靠性和连续性。
相比仅建立同城灾备中心或异地灾备中心,4DC的方式结合两者的优点,能容忍双城三个数据副本中心失效数据不丢失,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,都能够通过灾难备份系统较快 地响应,尽可能保全业务数据不丢失,实现更优的RPO和RTO。
2、多时间点技术—秒级RPO
HyperReplication基于多时间点缓存技术,可以使LUN异步远程复制的RPO指标达到秒级(同步周期可配置范围:3秒~24小时)。
基于多时间点缓存技术,Cache中的数据和与Cache交互的I/O请求都携带时间点信息,在进行复制时,可以直接从主LUN Cache中读取相应时间片的数据复制到从LUN,写从LUN时写入其Cache即可返回。而传统异步远程复制,每个周期需要创建、删除快照,复制时读数据需要从快照读取,写数据需要做快照处理。相对于传统技术,HyperReplication极大的缩短了复制周期,可以达到秒级RPO。
3、跨站点坏块修复技术
当存储阵列的硬盘出现坏道,且无法利用RAID重构技术进行修复时,或在主机向存储读写过程中发生DIF校验失败时,都可能导致主机业务中断。华为存储4DC高可靠容灾解决方案提供了一种增强的坏块修复技术,当生产LUN出现不可修复的坏块或者DIF错误时,只要相关的数据已经复制到同城数据中心双活LUN上,系统可自动将主机读请求重定向到同城数据中心双活LUN,读到正确的数据并返回主机和修复生产LUN,大大提高整体解决方案的可靠性。
4、Active-Active免网关双活
基于两套华为高端存储系统实现了Active-Active双活,两套存储系统的双活业务对象数据实时同步,且两套存储系统能够同时处理应用服务器的I/O读写请求,面向应用服务器提供无差异的Active-Active并行访问能力。当任何一台存储阵列故障时,业务自动无缝切换到对端存储访问,业务访问不中断。相较于Active-Passive方案,Active-Active双活方案可充分利用计算资源,有效减少阵列间通信,缩短I/O路径,从而获得更高的访问性能和更快的故障切换速度。
免网关双活方案相比于业界传统双活方案减少了网关故障点,I/O响应速度更快,无需经过存储网关转发,减少网关转发I/O时延,提高了方案可靠性。
三、项目过程管理
我联社于2023年2月启动生产环境重要系统异地数据备份建设项目,9月完成异地数据中心网络建设和存储数据复制技术投产,2023年9月至2024年5月逐步分批投产了综合业务系统、手机银行等重要系统的数据级异地灾备。
四、运营情况
2023年四季度项目建成投产后,两地三中心数据4副本高可用容灾系统运行稳定。截止目前,已经成功完成了综合业务系统、手机银行、网上银行、人行支付系统、短信平台、综合收单、ATM系统、STM系统、柜面无纸化、POS收单等重要系统的数据级异地灾备投产,实现在发生重大自然灾害造成生产中心和同城灾备中心两个数据中心均瘫痪的情况下全省农商行重要业务系统数据的安全保障,提升了省联社重要业务系统的业务连续性水平。
五、项目成效
1.建成“两地三中心”的存储架构
2023年前三个季度,经过建设方案制定、商务采购、网络和存储建设实施等阶段,成功在生产机房、同城灾备机房、异地机房之间建成了两地三中心的存储架构,实现了存储数据自动复制功能,具备了重要系统在生产机房产生的数据自动同步至同城灾备机房和异地机房的技术能力。
2.实现重要系统数据级异地灾备投产
2023年四季度至2024年上半年,在前期完成技术底座建设的基础上,通过分批实施分批投产,成功完成了综合业务系统、手机银行、网上银行、人行支付系统、短信平台、综合收单、ATM系统、STM系统、柜面无纸化、POS收单共等重要系统的数据级异地灾备投产,极大提升了我联社重要业务系统的业务连续性水平。
六、经验总结
我联社通过生产环境重要系统异地数据备份建设项目,建成连接生产、同城和异地灾备三个数据中心的容灾体系,实现在发生重大自然灾害造成生产中心和同城灾备中心都瘫痪的情况下,保证重要业务系统的数据不丢失,极大提升我联社业务连续性水平。今后我们会继续加大业务连续性管理方面的资源投入,在不久的将来择机将异地数据级灾备提升为重要系统应用级灾备,继续提升我联社业务连续性水平。
更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.