来源:2025年度农村金融机构科技创新优秀案例评选
获奖单位:安徽省农信社
荣获奖项:运维管理创新优秀案例
一、项目背景及目标
在业务数字化转型加速、技术持续创新的背景下,业界对运维管理的诉求与价值期望不断提升,方法论体系也随之迭代更新,从技术导向转向业务价值导向。由此,运维模式需从传统的稳态被动支撑,转向敏捷迭代、主动运维和数据运营转变。为响应中国人民银行《金融科技发展规划(2022-2025年)》及国家金融监督管理总局《关于促进银行业保险业数字化转型的指导意见》等政策要求,加速金融科技创新与IT运维数字化转型,安徽省农信社启动基于软件工程的全栈综合运维平台建设。
综合运维平台将资源覆盖、应用立体监控、多源告警对接、应用自动发布、自动化作业编排等工作能力应用到日常运维工作中,以实现运维集中管控、工具治理、数据治理以及运维开发拓展,并集成现有运维工具,构建“IaaS管控层-原子平台层-PaaS应用层-运维场景层”四层架构,打造基础平台、配置管理平台、作业平台等核心模块,形成“五大运维基础能力”支撑“六大运维场景中心”的技术体系。
二、项目方案
![]()
本项目以“构建一体化、数智化运维体系,提升自主可控能力,护航金融科技业务安全稳定”核心目标,结合行业运维向“一体化、平台化、数智化”演进趋势与内部运维痛点,制定“统筹规划、急用先行、一体化配套”实施策略,分阶段推进项目落地。项目以“五大运维基础能力”为支撑,构建“六大运维场景中心”,打造自主可控的技术运营中台;通过“Server-Proxy-Agent”分布式架构部署基础平台,适配复杂网络与信创环境,集成运维工具实现资源覆盖、监控告警、自动发布等功能,同时引入低代码开发平台提高运维开发能力。
(一)基础平台
基础平台是底层管控系统,是上层运维服务体系与底层IaaS的连接器,为上层提供指令、文件、数据的通道,支持直连模式、代理模式以及最优连接指定级联路由的模式。其以“稳定、安全、海量、可扩展”为核心特性,通过灵活的部署架构、全场景的功能覆盖及强大的适配能力,为上层“六大运维场景核心”和“五大运维基础能力”提供底层技术支撑,是实现运维一体化、平台化、数智化的关键基石。
(二)配置管理平台
配置管理平台以“全资源纳管、数据质量保障、支撑多场景消费”为核心目标,构建覆盖硬件设备、服务器、数据库、中间件、云资源、信创组件等全类型运维对象的配置管理体系。平台通过自动发现、Excel导入、手动录入等多种方式实现配置数据采集,主机纳管率超95%,并覆盖多种主流数据库及Nginx、Tomcat、TongWeb等中间件模型。同时,建立数据质量治理机制,通过属性完整性、关联完整性、属性规范性校验保障数据准确性,输出CMDB资源大屏实时展示业务数量、主机分配、操作系统占比等核心指标。此外,平台还实现配置数据多场景消费,可关联告警事件形成全链路闭环、支撑拓扑管理与容量分析,为监控中心、告警中心、自动化运维中心等上层模块提供精准配置数据支撑,是实现运维一体化、数智化的关键数据底座。
(三)作业平台
作业平台是项目自动化运维能力落地的核心载体,作为“五大运维基础能力”中自动化能力的核心支撑模块,聚焦“标准化、自动化、可编排”目标,为全类型运维对象提供集中化作业管理服务。平台支持网络设备、服务器、数据库、容器平台、应用等多场景运维对象接入,具备脚本管理、作业编排、任务管理等核心功能,可落地自动化巡检、灾备演练、应急处置、基础软件部署等典型场景。同时,与CMDB、监控中心、应用发布中心深度协同,有效提升运维操作的安全可靠性与效率,减少人工操作负载与风险,是实现运维自动化转型的关键工具平台。
(四)公共组件
作为保障平台安全访问与有序协作的核心支撑,公共组件提供了统一用户门户、全场景用户管理及精细化权限管控能力。一方面,搭建平台统一用户门户,作为用户访问中台各类功能的入口,实现操作入口的集中化。另一方面,支持两种用户管理模式,即可在平台内直接创建和管理用户,也能集成外部用户管理系统,避免用户信息重复维护。同时,基于业务需求与组织架构,对用户进行详细权限划分,并支持分级委派管理,最终实现平台内所有用户的统一身份认证、统一权限分配与统一生命周期管理,保障运维操作的安全性与权限管控的灵活性。
(五)容器管理平台
容器管理平台是一个用于支撑业务容器化及微服务化的核心工具,也是一种DevOps的实践落地的关键载体。围绕“持续交付+全生命周期管理”构建核心能力,提供持续集成、持续构建、持续部署的端到端支持,实现代码提交到业务部署的自动化流转。在此基础上,构建分布式配置管理、服务发现、兼容JFrog与DockerHub的仓库管理、安全健康检查、网络配置服务等主要功能,覆盖容器化业务从部署到运行的全场景需求。同时,以SaaS服务形式提供交互,用户无需重复操作,仅通过页面点击即可完成业务镜像构建、发布等关键流程,降低容器化运维门槛,为业务敏捷迭代与微服务架构落地提供高效支撑。
(六)集成平台
集成平台是实现“工具快速构建、能力开放集成”的核心支撑平台,以“开放、高效、低成本”为核心特性,为运维工具与运营系统的全生命周期管理提供一站式解决方案。平台搭载完善的技术支撑模块,包括多语言开发框架/样例、前后端开发框架、企业服务总线(APIGateway)、调度引擎及公共组件,同时提供可拖拽的前端服务(MagicBox),支持用户简单、快速地创建、部署和管理运维工具。通过免运维托管服务,结合日志查询、监控告警等自动化运维能力,覆盖应用从创建、部署到后续维护的全流程,实现支撑工具与运营系统的低成本、免运维构建,并具备SaaS运营数据可视化功能,助力运维团队实时掌握工具运营状态与使用情况,为中台工具生态的快速扩展与能力复用提供关键保障。
三、创新点
(一)开放式架构实现运维工具“场景化集成+敏捷迭代”创新
突破传统运维工具“孤立部署、重复建设”的痛点,构建开放式一体化平台。将运维核心功能按业务场景拆解为独立工具模块,所有工具统一运行在基础平台之上,通过调动底层标准化能力服务实现功能落地,避免工具间能力重复开发;工具模块间通过APIGateway、服务总线(ESB)实现数据互通与能力复用,功能迭代无需重构整体架构,仅需更新单个工具模块,实现敏捷迭代;平台提供工具“创建-部署-运维-下线”全流程支持,通过低代码开发平台快速搭建新工具,结合免运维托管服务降低工具维护成本,同时支持第三方工具接入,形成“自研+集成”的工具生态。
(二)微服务架构支撑的“开放可扩展+自主开发”运维中台创新
以微服务架构为核心,构建开放、灵活、可扩展的运维中台,满足个性化开发与业务增长需求。融合SOA分层设计、分布式架构、微服务架构,每个微服务可独立部署、扩容、迭代;针对不同微服务特点选择最优开发语言与框架,如数据密集型微服务采用Java+Spark框架保障处理性能,前端交互型微服务采用Vue+ElementUI提升用户体验,轻量级接口服务采用Go语言保障高并发响应;中台底层采用PaaS机构设计,支持私有化部署,提供标准化接口与插件扩展机制,同时支持运维团队中台提供的开发框架自主开发个性化应用场景;通过“创建-部署-托管-开发”的全流程支持,运维人员无需关注底层基础设施,可快速完成应用场景开发与上线。
(三)一体化IT运维流程“可视化编排+灵活控制”创新
突破传统运维流程“固化、难调整”的局限,实现流程全生命周期可视化与灵活管控。通过拖拽式流程设计器,将运维流程以图形化方式展示,流程节点、节点依赖关系、执行方式清晰可见,支持流程模板保存与复用;支持自定义控制、人工控制、自动与人工结合,适配不同复杂度运维场景;流程及清单的原子任务支持多类型介入,即可是Shell/Python脚本,也可是应用接口,任务执行过程中支持暂停、跳过失败院子、失败重试,精准定位异常节点,减少流程中断概率;记录流程执行日志,支持流程执行状态实时查看与历史回溯,为流程优化提供数据支撑。
四、项目技术方案
(一)架构设计
此次项目架构参照中国通信标准化协会制定的《云计算运维平台参考框架及技术要求》,整体设计架构如下:
![]()
以“集中化、可视化、自动化”为核心目标,融合SOA设计理念与金融运维场景需求,构建“IaaS管控层-原子平台层-PaaS应用层-运维场景层”四层架构体系。各层级自上而下实现“能力封装-服务集成-场景落地”的递进支撑,同时配套全链路数据流转与开放集成机制,覆盖IT资源全生命周期运维管理,为安徽省农信IT体系提供稳定、灵活、智能的运维技术底座。
架构遵循“高内聚、低耦合”原则,每层聚焦核心职责,通过标准化接口实现跨层协同,既保障基础能力的复用性,又支持上层场景的敏捷扩展,适配金融行业复杂IT环境与运维需求。
1.IaaS管控层:聚焦“基础资源统一接入与管控”,为上层提供稳定的资源调度与数据传输通道。支持Linux、Windows、小型机等操作系统,兼容虚拟机、容器、物理机等计算资源,同时适配私有云、公有云以及混合云架构,实现“一朵云”式统一管控。
2.原子平台层:基于IaaS层资源管控能力,封装通用运维基础能力,形成独立可复用的功能模块,包括作业功能模块、CMDB模块、运维数据平台模块、容器管理模块、智能运维模块等功能模块,为上层提供标准化、原子化的运维服务。
(1)作业功能模块:运维执行能力核心,支持脚本管理、文件传输、任务编排,可落地自动化巡检、批量部署、灾备切换等场景;
(2)CMDB模块:运维操作对象管理核心,支持硬件设备、服务器、数据库、中间件全类型对象纳管,通过自动发现、Excel导入实现配置采集;同时提供数据质量治理与拓扑可视化,为所有模块提供精准配置数据支撑;
(3)运维数据平台模块:通过Agent采集基础设施、应用程序、中间件的运行状态数据,并提供数据清洗、建模、查询服务,支撑监控告警与智能分析;
(4)容器管理模块:支持容器镜像生产、管理、资源调度,提供持续集成、持续构建、持续部署能力,以SaaS服务形式支持页面点击完成镜像构建与发布,适配业务容器化与微服务化转型需求;
(5)智能运维模块:基于运维数据平台模块的数据支撑,提供异常检测、关联分析、预测模型,已实现“业务健康画像”“智能告警助手”等场景落地,推动运维从“被动响应”转向“主动预测”。
3.PaaS应用层:基于原子平台层的基础能力,构建“应用开发+服务集成”双核心平台,通过标准化接口与集成机制,实现原子能力的协同调用,是链接“基础能力”与“场景应用”的桥梁。包含支持应用部署和运行的APaaS(
ApplicationPlatformasaService)以及企业内部SOA集成的IPaaS(IntegrationPlatformasaService),通过企业服务总线和APIGateWay对接原子层各平台的能力。
4.运维场景层:基于PaaS层集成能力,构建面向具体运维场景的SaaS应用,涵盖基础运维、监控告警、ITIL流程、DevOps、任务编排、弹性伸缩、安全审计等各领域,通过“原子能力拼装”,实现各类运维场景的自动化与智能化,包含基础运维、CI/CD、监控告警、任务编排、弹性伸缩、安全审计以及移动运维等
(二)应用架构
一套基于SOA微服务架构的,企业级异构化IT资源运维的PaaS平台型技术解决方案。本期项目实施整体应用架构如下图所示。
![]()
(三)前端架构
![]()
前端使用内置开发者中心MagicBox提供前端开发框架,框架主要基于Vue、jQuery,通过内置Vue和MagicBox研发的一键构建体系前端工程的脚手架,可以基于前后端分离协作研发模式下,更加方便、快捷的构架SaaS,并且基于SaaS前端开发沉淀出的一套研发规范,包含JS、HTML、CSS等,为应用开发的代码,交互设计体验,安全和性能等提供规范和建议。开发完成的SAAS系统兼容多种终端显示设备包含Edge、Chrome、Firefox等。
(四)后端架构
![]()
在开发者中心上开发 SaaS 的后端框架 。该开发框架于 Django 框架,并在此基础上进行扩展,增加系统的特有功能,例如:身份验证、ESB 调用及模板渲染等功能,以便开发者可以更专注于运维场景的开发。
(五)数据库架构
此次系统部署采用达梦数据库,配置高可用性(HA)架构,通过冗余设计、故障自动检测和快速切换机制,确保数据库服务在硬件故障或维护期间持续可用。数据库内存在运维相关的配置数据、监控数据、告警数据、流程数据。可满足对外消费以及内部数据持续采集的高并发,高可用场景。
(六)部署架构
![]()
各功能模块以组件分布式部署为高可用方案,整体资源配置信息如下:
![]()
五、项目过程管理
需求分析阶段:2024.04-2024.06
设计阶段:2024.06-2024.09
开发阶段:2024.09-2024.12
测试阶段:2024.12-2025.02
系统上线:2025.02
六、运营情况
本项目上线后,已纳管主机95%,覆盖Linux、Windows、AIX等主流操作系统,同时兼容国产操作系统与小型机,满足信创改造与传统刚早于传统IT环境双重需求。同时,已成功对接VMware虚拟化平台、云宏虚拟化平台等混合云资源管理平台,通过API接口实现云主机配置数据自动采集。
已纳管主机监控覆盖率达到93%,通过Agent采集主机CPU、内从、磁盘I/O、网络流量等核心指标,结合自定义监控策略实现异常实时感知,并完成Nginx、Tomcat、TomWeb、达梦数据库、Redis等组件的监控适配。
应用发布工具已替代传统人工发布方式,实现全行全应用的发版均在自动化发布工具上实现线上自动发布。自动化发布缩短发版周期,且发布过程无需运维人员全程值守,仅需在关键节点介入,单批次发布人力成本降低。
七、项目成效
(一)经济效益
1.人力成本缩减,运维模式迭代升级:通过自动化运维能力,如自动化巡检、智能告警、故障自愈等,减少人工干预,传统需24小时值守的岗位可转为少人/无人值守模式,且自动化业务部署与批量巡检能够替代人工低效劳动,节省大量人力成本。
2.人为误操作率降低,业务连续性强化:自动化运维减少手工操作导致的人为错误,提高业务连续性。故障响应加速:实时监测与预警功能可提前发现潜在故障,减少停机损失。提升系统稳定性。
(二)社会效益
1.故障响应时效质变,安全保障能力提升:通过立体化监控覆盖与告警治理,应用系统故障感知能力与告警有效性提升近50%,从原先“小时级乃至天级”的故障发现与定位,升级为“分钟级”。
2.赋能农商银行,促进数字化转型:项目能力下沉至安徽省农信社82家辖属农商行,覆盖核心应用系统,通过统一运维平台为基层机构提供标准化运维服务。切实保障农村地区金融服务连续性,助力乡村振兴战略落地。
八、经验总结
综合运维平台的成功实践为金融机构数字化、智能化转型树立了标杆,系统设计全面贯彻政策导向,融合科技创新,摒弃“烟囱式”工具堆砌,采用PaaS底座实现能力沉淀,如作业引擎、工单流程,形成“管控一体、平台一体、联动一体”的工具体系,可通过自主可控的方式持续丰富行业运维场景,为金融机构数字化、智能化转型提供可复制的实践标杆。
更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.