来源:2025年度农村金融机构科技创新优秀案例评选
获奖单位:北京农商银行
荣获奖项:数智应用创新优秀案例
一、项目背景及目标
随着监管部门对银行业务连续性监管的关注度持续提升与监管力度的不断加强,在业务发生故障时,对于快速处置、快速排查以及快速恢复提出了更为严苛的要求。在《“十四五”数字经济发展规划》和《银行业保险业数字化转型指导意见》中,明确指出要有序推进基础设施的智能升级,建立企业级风险管理平台,充分利用先进技术对风险管理系统进行优化,进而提升风险监测预警的智能化水平,并提供了具体的指导意见。
当前,北京农商银行正处于新兴技术广泛应用的关键时期,云计算、云原生、大数据等前沿技术被大量运用,同时,信创服务器、操作系统、数据库、中间件等国产化进程快速推进,在业务变化和客户服务响应方面实现了高速发展。然而,多种体系、业务和技术的快速变化,使得行内的应用系统在数量和类型上均发生了巨大改变。这些应用之间不仅存在共用资源的可能性,如数据库、物理计算节点、存储、SLB(Server Load Balancer,服务器负载均衡器)等,还存在上下游依赖关系。
自2020年起,北京农商银行部署了运维大数据平台,先后应用了动态基线异常检测、智能告警、日志分析、应用交易根因定位等多个智能化能力。但在实际运行过程中发现,这些功能仍无法有效对共用资源或存在上下游依赖关系的系统故障进行精准诊断与排查。尤其是面对多关联、跨领域、跨应用的范围性故障时,故障影响范围难以准确评估,这无疑在业务发生故障时,极大地延误了业务恢复时间,对银行的正常运营造成了潜在威胁。
为有效解决上述问题,北京农商银行在运维大数据平台的基础上搭建数智分析平台——智能矩阵式根因分析辅助系统。该系统旨在打造数据的统一精细管理,通过对各类数据的整合与深度挖掘,为根因分析提供坚实的数据基础;实现复杂故障的关联分析,精准定位故障根源,打破故障诊断的局限性;提供跨组织团队的协作辅助,促进不同部门之间的信息共享与协同工作,提高故障处理效率。通过建设这一系统,将助力北京农商银行智能运维建设,有效保障北京农商银行业务的平稳高效运行,提升银行在复杂多变的行业环境中的竞争力和抗风险能力。
二、创新点
北京农商银行在智能矩阵根因分析辅助系统建设中,依托于全面的数据体系管理,实现了全面标准的数据建模,保障数据的完整性、规范性、可用性。通过配置数据、性能数据、告警数据、日志数据等多种数据的深度结合,采用根因链路分析、根因推荐等深度算法推理等智能化手段,为运维人员提供复杂告警的处理工具。有效的运用了数据以及智能化的手段帮助团队成员提升故障处置的效率、保障业务稳定。
(一)标准化数据建模处理体系,实现数据的规范化处理
建设hadoop技术的大数据底座为支撑,为运维大数据平台提供统一的存、管、析、用能力基础,实现数据分级存储能力及自管理能力。支持当前主流的计算引擎,如Spark、Flink;支持兼容主流存储引擎,如ES、MongoDB、MySql等。具备专门的引擎管理,可以按数据类型特征选择相的计算或存储引擎,并对引擎工作状态、任务执行进行自管理。
建立数据标准体系:根据数据主题域对数据资产进行划分,可分为资源、性能、告警、日志、交易、作业等类别。在数据接入环节,既能够直接运用接入能力层采控服务,实现资源、性能、日志、告警、交易、作业等标准化数据的采集与整合;也可以通过 API 接口、Kafka 消息队列、数据库以及文件等方式获取其他数据。在数据治理方面,能够制定数据目录,构建运维数据标准模型,管理数据字典,同时具备数据质量检查和数据生命周期管理能力,保障数据全流程的质量。
数据加工环节提供场景化数据计算分析能力,涵盖数据清洗、格式转换等标准化处理流程,支持流计算和批计算分析,具备算法与 AI 模型训练等计算学习能力。同时,提供可视化拖拽设计工具,方便用户通过简单操作搭建数据分析流程;支持白盒化算法在线调整,用户可根据实际需求灵活优化算法参数;还提供自定义算法功能,满足上层业务场景按需定义、扩展数据分析场景的需求。数据存储模块针对不同类型的运维数据,提供分级分类存储能力,确保数据存储合理有序。
建立数据服务体系:提供数据计算分析的敏捷化、服务化、低代码化服务能力,构建数据服务目录。面向标准数据应用场景,提供统一的数据查询服务,且具备多中心查询能力;面向个性化数据应用场景,提供数据订阅和分发服务,满足各类用户对数据的多样化需求。
![]()
图 1 运维数据管理流程
(二)通过CI关系,智能推荐跨领域根因点
告警拓扑根因定位:一个故障如果引起多个领域发生告警时,告警之间会存在依赖和因果关系形成一个故障传播链。告警传播链可以理解为是一个有向的影响关系结构(可以包含配置关系和链路关系),其中节点包含告警对象及告警信息,边表示告警之间的依赖和因果关系。不同类型故障可以有不同的遍历和分析关系的方式,从而推荐出最有可能导致整个事件的节点。
![]()
图2 告警拓扑根因定位逻辑图
(三)交易链路根因追溯,直击业务故障点
业务交易的故障产生往往会影响其相关的各个业务系统,而银行业的系统交易又是十分复杂多样,当某一系统产生故障时告警时伴随其他交易也有异常出现。本项目通过智能挖掘算法,当多交易系统出现故障时能通过交易传播路径推荐告警的根因系统。
(四)全面数据监测,无缝探查告警源
本次接入配置数据五万余条、指标数据类型超过一千种、日志数据种类超过二十种、运行数据10类、告警种类三十余种、trace数据若干,本次对各类数据进行标准化统一建模,并将各类数据有效的关联展示,辅助管理员在日常运维和故障处理的工作。
![]()
图 3智能矩阵根因分析辅助系统故障分析界面
三、项目技术方案
北京农商银行智能矩阵根因分析辅助系统的建设致力于实现数据的统一精细化管理、复杂故障的关联分析以及跨组织团队的高效协作。当面临告警风暴时,该系统依托运维大数据平台的处理能力、先进的算法模型以及全面的CI(配置项)关系管理体系,能够为运维人员提供精准的告警推荐,深入剖析相关告警之间的关联关系,清晰呈现相关组件的相互影响机制。在故障发生的过程中,系统还能实时提供全面且专业的信息支撑,给予运维人员切实可行的分析指导,并智能推荐导致告警的CI,助力运维人员快速定位故障根因。
北京农商银行在智能矩阵根因分析辅助系统目标包括四个方面:
(一)构建标准化数据体系,打好智能运维发展基础
为推动智能运维的高效发展,需要全方位构建运维数据管理体系,其中涵盖科学的组织架构、严格的数据标准化规范以及完善的数据管理流程。全面整合CMDB、ITSM数据、基础监控数据、日志数据等多类型异构数据,对元数据标准、存储单元标准建模以及数据关系进行统一管理,打造坚实的数据基础,确保智能运维应用稳定、可靠运行,为后续的智能化分析与决策提供有力支撑。
(二)构建大数据算力、服务能力,提升智能化处理效率
全面升级信创服务器以满足智能运维对数据处理的大数据处理能力要求并实现自主可控。构建具备算法服务管理功能的大数据管理体系,增强算子开发能力,支持自定义数据处理算子。同时,打造多语言环境下的长效服务能力,使系统能够更灵活、高效地处理各类数据,从根本上提升智能运维的处理效率,保障运维工作的及时性与准确性。
(三)深化智能算法、数据挖掘技术,拓展智能化应用范围
持续钻研智能算法和数据挖掘技术,积极探索智能运维在更多业务场景中的应用,将异常检测、聚类、压缩降噪等多种算法融合,并深化扩展根因推荐算法拓展智能运维的边界,为业务发展提供更全面、深入的智能化支持,提升整体运营水平。
(四)多团队协助,提升故障处理效率
在智能运维过程中,不同团队的协同合作至关重要。打破团队之间的壁垒,促进运维团队、开发团队、业务团队等多团队紧密配合,实现信息的快速流通与共享。通过明确各团队职责、优化协作流程,形成高效的故障处理机制,确保在面对各类故障时能够迅速响应、精准定位、高效解决,保障业务系统的稳定运行。
四、项目过程管理
需求分析阶段:此阶段时间段为2024年4月至2024年5月,其间主要完成了业务需求分析、业务功能和技术构架的高层设计。提交了现状需求分析报告、各功能模块的高层设计、物理构架、功能逻辑构和接口的高层设计等文档。
设计阶段:此阶段起始时间为2024年5月至2024年6月,其间主要完成了系统详细设计、数据流处理设计工作,提交了详细功能设计、数据结构设计等文档。
开发、测试阶段:此阶段起始时间为2024年6月至2024年10月,其间完成了大数据平台数据流功能开发、运维场景化客户化开发的编码、测试以及试点系统的上线准备工作,提交了运维大数据平台测试报告、上线方案、系统设置等文档。
系统上线:此阶段起始时间为2024年10月至2025年4月,其间完成了十个系统试点系统上线包括新核心、网关、网联、手机银行等重要业务系统,并根据试点行上线运行的情况,为推广实施提出了优化需求。
五、运营情况
通过智能矩阵根因分析辅助系统的建设,实现了在发生复杂故障发生时能够快速排障目标,从原来需要单个团队每个系统去查看故障原因,到通过横向和纵向的跨专业团队的综合排障联合处置,整个处理流程,时间缩短了50%,极大提升了告警的处置效率。
六、项目成效
(一)数据体系规范化
建设日志治理平台和大数据平台合二为一数据管理平台,实现异构数据的统一标准化建模,包括统一数据资产ID规范、统一元数据名称、统一单位等多种标准化处理,目前已经达标准化模型三十余种,日增10T。
![]()
图 4运维数据管理导图
(二)矩阵式智能排障推荐
智能矩阵根因分析辅助系统,通过横向交易关系链路关系推荐根因系统,通过纵向的CI物理关系推理根因节点,同时实现矩阵式根因推荐辅助系统。根据调用链中包含的交易信息,自动绘制出交易调用路径,以交易码等维度来展现应用的健康状况,当某交易出现异常时,可以下钻至对应的应用服务节点进一步分析,可以通过业务指标、关联原始日志和关联告警进行分析。
告警分析的结果会将近期的告警数量以时序图进行展示并可进行回溯,对可能的告警对象会按推荐推荐分值进行排序,分值越高,根因节点的可能性越大,即使根因CI没有告警,算法也可根据相关路径关系进行推荐。目前在告警根因推荐排在前三的故障准率已超80%。
![]()
图 5智能矩阵根因故障回溯
(三)故障影响分析
基于业务架构的多种依赖关系,快速显示与事件相关的业务系统架构图,实时展示影响架构的告警的数量以及级别,并对业务的基于应用场景及建设分析视图,实时展示和监控业务视图中所有服务的整体健康状态,快速定位问题异常及寻找问题根因。同时提供告警关联变更信息,以提供近期是否有过相关CI的变更信息以识别故障的发生原因。
![]()
图6 故障影响分析界面
七、经验总结
故障根因的判断是一个复杂的、多维度的综合性处理过程。在这个过程中,使用智能算法只是其中一个关键环节,而其所依赖的对象关系、对象属性以及数据同样至关重要。只有积累完备的数据集,同时进行标准化的数据建设,才能充分发挥算法的最大优势。本次智能矩阵根因分析辅助系统基本实现了对各类常见数据及告警的常规分析。该系统为故障事中处理提供了更强大的分析工具,帮助运维人员在排查故障时能够快速进行推演与判断。通过运用这个系统,运维人员可以更高效地定位问题,进一步缩短故障处置的时间,从而有效提升MTTR(平均故障修复时间)这一重要的管理指标,保障业务系统的稳定运行,减少因故障导致的业务中断和损失。
更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.