文/富滇银行信息技术部总经理 马璟
富滇银行科技中心 范小刚 张攀 郝仕东 陈浩
随着金融数字化转型向数智化转型迈进,信息系统信创改造已进入关键阶段。在保持银行现有核心系统功能稳定的前提下,以经济高效、风险可控的方式实现上云,是中小银行的最佳选择,也是普遍面临的重大挑战。富滇银行通过运用服务网格技术及交易自动回放验证系统、分布式数据库、智能发布流水线和稳定性保障设计等工程架构革新方案,成功探索出一条适合中小银行的核心系统上云实施路径,为行业提供可借鉴的实践案例。
核心系统上云面对的挑战
1. 建设投入高
金融业数字化转型和信息系统信创改造已经持续较长时间,多数机构的信息系统已经实现微服务和分布式架构建设。针对存量系统的信创改造,业界普遍采用统一技术标准、优化研发流程、适配信创基础设施等技术路线。然而,银行的核心系统因其业务功能繁多、结构复杂等特点,实施大幅度改造往往面临研发和测试资源投入大、建设周期长等现实挑战。
2. 稳定性风险大
银行核心系统作为业务运转的中枢,其稳定性直接关系到金融服务的连续性和安全性,任何变动都可能引发连锁反应,导致系统故障甚至瘫痪。在实施核心系统信创改造过程中,涉及软硬件适配迁移、部署环境重构、关联上下游系统协同对接等诸多环节,如何在推进核心系统上云的同时,确保系统保持高稳定性,是中小银行在信创战略实施过程中面临的重要风险和挑战。
富滇银行核心系统上云实践
富滇银行当前核心系统于2019年投入运行,经过全面评估,认为其功能完备性仍能有效支撑未来一段时间的业务发展需求。期望以较少投入实现核心系统的稳妥上云,并在以下方面进行提升:实现统一的服务治理和调用、分布式开发技术栈收敛、提高核心系统的研发部署效率、缩短核心系统批量执行时间。
1. 服务网格技术
富滇银行核心系统上云工程中,服务网格(ServiceMesh)技术的引入成为破解异构系统集成难题的关键技术路径,该体系包括元数据平台集成与MOSN多协议支撑两大核心能力(见图1所示)。
图1 服务网格架构
元数据平台作为服务治理的统一入口,从ESB和DAP自动同步服务目录、报文结构和订阅关系,实现云下服务接口自动全量同步至云上,避免大量配置工作,通过将这些数据下发给MOSN,使Service Mesh能够真正被大批量用于存量应用的上云迁移适配。
Service Mesh支持多种协议及转换,提供自定义插件接入更多协议和规则的能力。富滇银行通过开发协议转换插件,在容器或虚拟机中注入Sidecar,实现私有协议与RPC协议转换,并通过Sidecar代理传统应用完成服务在注册中心的发布订阅。
服务网格技术的成功实践为金融行业老旧系统上云提供了可参考的技术范式,其创新性体现在非侵入式改造、异构协议融合、统一服务治理三大核心领域,形成具有行业普适性的“云原生适配器”解决方案。其核心价值在于通过Sidecar代理实现协议转换与流量治理,避免对存量系统核心代码的侵入式改造,极大降低了改造风险。同时提高了改造效率,单个系统适配成本预计从传统模式的数月缩短至数周,改造成本下降约70%。
2. 交易自动回放验证系统
富滇银行的核心系统对外提供近千个交易服务,各交易的业务分支更是种类繁多。若仍以传统人工测试为主,需要巨大的人力资源投入。在本次工程中,引入了核心系统交易自动回放验证系统(见图2所示),通过使用现有生产报文对新核心进行验证,在保证测试质量的前提下极大降低了人工测试工作量。
图2 交易自动回放验证系统架构
交易自动回放验证系统的总体流程,是将生产环境的核心数据库动态回放起点的数据迁移到跟账环境,形成基线数据;在生产核心系统中增加交易录制模块,将生产环境动态回放起点后的所有交易报文准实时转录到动态回放案例库,由交易调度模块进行调度,并将交易结果与生产核心的处理结果进行对比。
并行跟账持续进行依赖于交易调度发送过程中的时序控制算法。交易回放系统从时间片、交易分组、特殊场景处理三个维度,进行交易间时序的控制,保证了相互依赖的多支交易能够按正确的时序进行回放,避免时序错乱导致的交易回放失败。
交易自动回放可以反映受测应用在生产流量下的真实表现,是最贴近生产场景的测试手段。高度自动化且贴近生产实况,极大提升了测试效率,为核心系统上云提供了高效的质量保障。
3. 分布式数据库
富滇银行信创核心系统的数据库采用OceanBase产品,构建了“主集群+同城+异地”的部署架构,实现多级容灾能力。主集群采用“三中心五副本”的架构,部署于同城三个机房,包含五个数据副本。单机房故障时自动切换存活节点,保障业务连续性。同城备集群从主集群秒级同步数据,当主集群出现整体故障时可以接替主集群提供服务。异地备集群部署于重庆异地机房,当主集群和同城备集群同时发生灾难时,支撑核心业务快速恢复。
通过制定SQL审核优化方案,将表的物理组织结构、索引、表组和统计信息进行重新设计和性能固化,消除PC服务器单机性能不及小型机的影响,发挥分布式多节点高并发协同处理能力,总体将联机业务吞吐量提升20%,批量效率提升45%。分布式数据库的引入在性能诊断、故障预测修复、安全防控和资源响应方面带来新挑战。此外,通过引入OceanBase Obdiag工具,有效应对分布式数据库复杂性高带来的运维挑战,并积极向工具社区进行反馈共建。
核心系统迁移以“零数据丢失”为目标,通过全量+增量、压缩技术,迁移对停业的影响从过去数天缩短至4小时。主要迁移做法有,将现有数据库中所有数据,按拟定规格分散成多条迁移链路,每条链路承担部分表对象的迁移任务,提高数据并行同步效率;启用数据同步压缩技术,大幅缩短数据传输时长;自研数据自动比对工具,实现两个数据库内表数据和对象完整性的自动比对,有效缩短数据校验时间。
4. 应用发布流水线
自研建设一站式研发管理平台(FlowForge),解决多环境、多实例和复杂发布场景下多项痛点问题,实现核心系统的流水线发布,有效提升核心系统的研发部署效率。
研发管理平台可定制化流程编排,结合需要满足核心系统分批启停、停机确认等定制化部署需求;支持多服务器实例并行发布,以及高并发场景下流水线的稳定高效运行,缩短核心系统整体部署时间;同一应用流水线支持多环境重载,整体编排结构下可对多模块、多环境进行针对性调整,结合场景定义灵活切分流水线执行步骤,以满足多样化流水线执行需求;超级流水线功能支持按顺序编排、整合多应用模块下多环境、多场景流水线,能够满足多应用模块、多环境、多场景一键发布,同时兼具高效集成、多环境持续部署等优势。
5. 稳定性保障设计
针对核心系统上云后,面临全新操作系统、数据库、通信协议和应用版本等方面的运行风险,富滇银行主要从以下6个方面设计了稳定性保障方案。
一是设计“同城双活”的高可用架构,以及“逃生”回退环境,实现对单个数据中心故障、云平台整体故障和分布式数据库集群整体故障等极端情况的架构基础保障。二是充分开展应急演练,分别针对产品组件、应用、数据库、网络和机房等层级的应急预案进行演练,不断优化应急预案和应急流程。三是执行完善的性能测试,覆盖操作系统、数据库和网络等基础环境,以及实时交易和批量交易,按计划进行多轮压测和调优,实现系统的稳定运行与交易性能提升。四是严格规范应用日志格式,满足运维监控需要,覆盖交易量、耗时、成功率和错误码等内容,做到分钟级监控通知,同时接入统一全链路追踪智能根因定位体系。五是规范变更管控流程,通过发版流水线和变更审批强控制措施,确保每一次核心系统的生产发版必须经过自动化回归测试、准生产环境验证、生产环境灰度发版、异地和逃生环境同步版本等固化流程。六是在新旧核心切换投产期,实行半日报、日报和周报机制,通报和分析核心系统的运行情况,对出现的问题和隐患及时处理。
富滇银行科技部门就核心上云项目进行研讨
坚定信心谋创新,携手同业共攀高
富滇银行坚定遵循国家战略导向,持续加大数字化、智能化建设投入,在国内城商行中较早运用“一云多芯”、分布式数据库和服务网格等技术,成功实现了信息系统的全栈信创改造。本次核心系统上云过程中,通过服务网格和交易自动回放降低了实施成本与风险,基于云底座和OceanBase构建多级容灾体系,形成“快速上云+金融级容灾”的创新模式,为中小金融机构提供了可借鉴的技术路径。
未来,富滇银行将继续秉承“技术驱动业务、架构赋能创新”发展理念,深化云原生、AI和大数据等技术运用,加快数字化、智能化建设进程,在确保技术自主可控的同时,不断提升系统的性能、效率和稳定性。我们期待与金融同业开展深度交流合作,共同推动金融科技的高质量创新发展,为“金融强国”建设贡献力量。
(此文刊发于《金融电子化》2025年6月上半月刊)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.