网易首页 > 网易号 > 正文 申请入驻

实战 | 中小银行运维数智化和可观测体系建设——昆山农商银行智能运维中台建设实践

0
分享至



近几年来,随着大数据、人工智能等IT技术的高速发展,DevOps、AIOps等新文化、新理念的冲击,几乎所有企业的技术部门都在谋求变革,不仅仅是为了跟上技术潮流,更是为了能适应随着业务而一起发展的IT系统的运维复杂度和体量,部分比较靠前的同业甚至完成了从支撑业务到引领业务、技术输出的转型。在这场IT运维的变革中,运维中台的建设将是IT运维实现数智化转型的关键一步。

为满足外部监管对业务连续性保障和信息安全管理的基本要求,按照我行信息科技2020—2025年五年战略规划落地路径,结合全行数字化转型的内在需求,信息技术部提出了运维中台建设的总体目标,拟在2至3年内,依据中台建设思路,通过查漏补缺、统一规范、整合优化三大步骤对运维监控、管理、分析完成IT运维体系数字化、智能化、轻型化的转型目标。


昆山农商银行信息技术部 总经理助理兼运维中心主管 陶旻翔

项目建设过程

我行在运维中台前通过同业考察、需求调研、技术探讨充分论证了项目的可行性和必要性,同时利用和发挥存量监控工具的效能,统筹设计了运维中台的项目建设目标和范围,结合DevOps建设、云平台建设形成了信息技术部数字化转型规划实施路径,主要项目实施过程如下:首先,在运维中台立项前进行充分的需求调研和架构设计。我行对该项目进行了长达一年以上的考察和调研,充分了解了周边行的建设情况,掌握了市场上监控平台和工具的特性和优势,并结合我行实际需求进行了统筹规划,设计运维中台整体架构,分别制定了一二期项目建设目标。其次,在运维中台项目启动前完成对存量监控工具的优化。我行从2022年初开始逐步对运维监控工具进行针对性的优化,运维中台建设前,以应用监控、硬件监控、流量监控优化作为切入点,逐步对重要业务系统进行覆盖和渗透,充分发挥了存量监控工具的能力。最后,快速推进项目各阶段性目标按计划落地。2022年6月日志分析平台完成立项采购,通过前期长期的技术铺垫及技术调研,日志分析平台项目迅速完成落地并发挥效能,至10月底已完成所有重要信息系统的接入并完成告警优化;2022年9月运维中台框架初步建立,核心应用监控、数据库监控陆续上线;11月CMDB、统一运维监控完成投产并对存量监控工具进行纳管;12月自动化巡检、告警去重压缩上线试运行;至2023年1月ECC大屏完成投产上线,至2023年11月,运维中台各场景监控策略达到900余条,对生产事件监控覆盖率达到98%。


图 智能运维中台总体架构

项目主要范围

1.应用监控。应用监控通过镜像流量对相关应用系统交易指标进行无侵入式监控,目前覆盖了新核心、农信银、二代支付、电子银行、信贷、中间业务等重要信息系统的交易,通过对交易报文的深度解析,对监控阈值及策略的调优,应用监控告警准确性大幅提升,多次及时预警了农信银、中间业务的交易超时风险。

2.硬件监控。通过带外管理方式实现跨厂商、跨硬件平台的硬件设备管理,实现实时监控硬件设备的工作状态,当出现故障时及时告警并及时处理;对硬件资源进行统一管理,联动CMDB建立消费渠道,实时更新硬件资源清单;解决了硬件设备的监控盲区,自完成实施多次及时告警了硬件设备的CPU、内存、风扇等故障;通过硬件监控实现串联资产入库、上架、监控、下架、出库的闭环管理。

3.网络流量监控。在NPM网络流量监控对外联区、生产区、互联网区全覆盖监控的基础上,丰富了链路告警、流量告警,对人行、省联社、支行网点线路进行了重点监控,及时调优了我行流量控制策略,解决了省联社、人行大文件传输对业务的影响,解决了支行影像资料下载造成的网络拥堵问题。

4.日志监控。对应用日志进行集中收集,形成日志数据湖,实现交易数据分析、实时告警、日志管理审计等,满足了日常日志数据查询、问题排错、关联分析的需求,对电子银行、统一支付、新一代核心系统交易日志等实现了有效预警,有效节约了应用运维人员对交易日志的查询和定位时间,多次及时排除了生产隐患。

5.数据库监控。对全行TDSQL、Oracle、DB2、MySql、Redis等数据库资源进行纳管,实现了数据库资源集中管控、监控告警、SQL审计等功能,目前完成了生产环境300余套数据库资源纳管,数据库活动日志使用率、第二日志使用率、灾备数据库运行状态监控已完成部署,多次预警了数据库日志使用率过高、灾备数据库的数据同步中断风险。

6.CMDB。CMDB对全行IT资源进行统一管理,包括机房、服务器、集群、操作系统、应用、数据库、组件等,形成从硬件资源到软件资源的关系拓扑,丰富告警维度,并建立数据消费渠道,形成流程闭环,提升内部管理,目前正在梳理各存量资源台账,进行数据治理,结合DevOps建设串联科技管理、项目管理流程,形成信息科技资产、工单、事件、问题、风险、应急的全流程管控,有效建立ITSM流程管理。

7.统一监控平台。统一监控平台针对运维数据碎片化、资产数据维护困难、传统运维效率低下等问题,通过构建运维数据指标库,形成运维数据规范标准,实现各类运维工具统一告警;实现自动化巡检、指标异常检测、容量预警等功能。实现各类工具统一集中告警、自动化巡检以及事件跟踪分析,有效提高了运维管理效率。

运维体系建设成效

运维中台的建设对我行生产稳定运行及业务连续性的保障起到了显著效果,2022—2023年期间我行生产系统全年保持运行稳定,未发生重大生产事件或安全事件。运维中台持续发挥效能,取得了如下成效。

一是解决“漏报、滥报、误报”问题,显著提升告警覆盖度和精准度。首先,“点面结合”交叉检核,实现重要信息系统多维度监控100%覆盖。通过统一运维监控、日志分析平台、应用监控、数据库监控、ESB监控等工具建设,目前行内重要信息系统实现100%覆盖,实现了多维度7×24小时实时监控,全力保障生产稳定运行。其次,运维中台告警对生产事件的覆盖率显著提升。2023年全年发生的生产事件中,通过应用、日志、硬件、网络等监控工具发出告警,覆盖率达到98%。再次,实现告警去重压缩,避免“滥报”问题。F5告警纳入统一监控后,通过去重压缩短信发送量降低90%以上。其他工具陆续接入后,经数据清洗、告警压缩后全部通过企业微信、邮件发送,彻底解决短信泛滥问题。最后,告警精准度提高,问题定位时间明显缩短。运维中台针对告警策略持续优化,对发现问题故障做到了精准告警,缩短了问题排查时间。以往出现问题至业务部门反馈通知再到排查恢复,前后耗时至少1小时。运维中台上线后,运维人员根据告警内容提示迅速定位问题并快速处理,问题解决总时长控制在15分钟以内,时间缩短75%以上,有效提升了故障响应效率。

二是防患于未然,通过事前预警有效增强主动运维能力。运维中台针对告警数据、日志、文件等实现事前、事中的预警、告警,运维团队对于生产问题处置效率不断提升,避免了轻微生产事件影响的扩大化,将生产问题由客户或业务部门通知科技部门解决的情况逐步转变为科技部门通过告警发现问题及时处理,部分场景业务部门电话通知时相关问题已经得到解决,显著提升了科技部门对于生产事件的主动运维能力和事前解决能力。

三是警示存量系统风险,举一反三推动技术架构与业务需求优化。2022—2023年,我行对运维中台暴露的生产问题进行复盘,举一反三分析、跟踪解决进度对相关系统100余个风险点进行排查整改,如高并发导致系统故障、业务需求考虑不全、代码逻辑有误、页面字段长度控制有误等问题,有效解决了存量系统风险隐患,充分保障了业务稳定性。

四是运维监控管理体系建立,各团队有效配合并形成约束。至运维中台上线完成,科技部门初步实现了“值班团队告警-运维团队处理-监控团队优化跟进”的运维监控管理体系建立,值班团队7×24小时值守ECC,根据告警信息及时联系各系统负责人员进行处理;运维团队在接到值班团队或运维中台告警信息后对生产事件进行处理,关闭风险事件;监控团队事后根据事件分布情况、发生频率、运维团队处置效率等信息,及时复盘归纳总结问题,进一步提出建议,优化告警策略,举一反三解决其他问题,并对值班团队、运维团队处置过程进行记录提供考核依据。

五是CMDB配置管理数据库初步成型,信息资产实现统一数据治理。CMDB配置管理数据库替代了IT资源手工台账登记模式,目前已完成网络设备、线路费用登记、系统备份策略、虚拟机资产等软硬件资源整理;向堡垒机、DevOps、统一运维监控平台、日志分析平台等提供数据消费接口,并通过DevOps流程驱动数据录入和更新,保障信息科技资产数据的准确性和完整性。

六是降本增效,结合自动化、线上化手段节约人员和信息交互成本。首先,实现自动化巡检,降低人工巡检成本。运维中台利用CMDB与统一监控平台数据采集与比对功能替代人工巡检并进行告警,目前已实现对重要系统CPU内存、数据库状态、网络线路状态的自动化巡检,通过企业微信将巡检报表和结果定时推送。其次,企业微信统一告警代替短信,有效节约短信费用。运维中台已实现告警压缩去重,并通过企业微信机器人在各监控群进行推送,目前已下架所有短信类告警通知,每年节省短信费用数十万。

七是重塑ECC大屏,展现新数据中心风采。运维中台共设计十几种大屏界面,包含综合大屏、应用大屏、监控告警大屏、基础资源屏、安全大屏等。外观上,运维中台ECC大屏展现将成为展现我行新数据中心风采的门户;内容上,ECC大屏准确的告警信息将有助于值班监控团队及时发现并上报问题,对事件进行全生命周期跟踪。


运维中台ECC大屏展示

可观测典型实例

1.基础设施类问题。2023年10月某日,运维中台提示A系统业务部分超时,随后恢复正常;同时硬件监控告警波分线路中断。经运维人员排查,该问题时点一条波分线路中断并发生切换,导致部分灾备节点业务发生延迟。我行立即联系运营商对波分线路进行了抢修和保障,于数小时后恢复正常。运维中台从应用、基础设施多个角度提供准确的告警信息,帮助运维人员及时准确地定位问题,及时排除基础设施故障。

2.某第三方系统连续报错问题。2023年3月某日,运维中台提示C系统近10分钟内业务报错笔数超过10笔。排查发现第三方更新字段后未通知我行进行配合变更,影响第三方签约和查询交易。运维人员确定问题后立即联系业务和研发部门,经与第三方沟通后进行紧急抢修解决了该问题。后续对该第三方进行了约谈,明确了第三方变更通知流程。通过此次告警我行及时恢复了第三方业务,保障了民生类业务的稳定性。

3.某服务器容量增长预警。2023年6月某日中午,运维中台提示D系统[/data]的空间使用率以每天5%的速度增长,将在1天内达到告警值80%,若不及时进行扩容,将影响业务的正常开展。运维人员接到告警后,立即对服务器[/data]目录进行扩容并增加清理策略,避免了容量写满问题。依靠运维中台的智能预警功能,运维人员及时发现和解决风险隐患,规避生产问题的发生。

由于运维团队的出色工作以及运维中台的优异表现,信息技术部获得GOPS全球运维大会——2023银行业IT运维领域年度明星团队;智能运维中台获2023第七届农村中小金融机构科技创新十大网络影响力优秀案例、运维管理创新优秀案例奖。



后续优化思路

按照IT战略规划要求,结合我行运维体系数字化建设路径,后续科技部门优化思路及主要计划如下。

一是继续夯实基础监控工具,不断丰富运维指标库建设,形成监控工具接入标准,提高运维中台的覆盖度和准确性。2024年计划进一步优化各类基础环境监控工具,并按照运维中台数据标准完成治理,完成对信创软硬件的监控覆盖,结合数据处理能力加强关联性分析,以交叉核验方式发现监控盲点,从数据视角解决遗留的运维资产缺失问题,有助于运维中台更准确地定位问题。

二是完成运维中台与DevOps平台的对接,不断增加CMDB消费场景,验证CMDB数据的完整性和有效性;分析系统间关联关系,完成信息科技全流程线上化管理,实现信息科技数字化转型。2024年将结合DevOps平台优化,形成流程驱动运维中台数据更新、运维中台接口提供流程数据消费、监控团队优化数据和流程的完整闭环,确保信息科技资产数据在CMDB的不断丰富和完善,驱动信息科技数智化转型。

三是推进自动化运维场景落地,不断提高事件解决效率,解放信息科技人员生产力,全力支撑业务发展。2023年已实现自动化灾备切换平台建设、防火墙策略自动下发、负载均衡自动发布下线资源等自动化场景落地。2024年将继续在故障自愈、重大变更前后技术验证、操作安全审计等智能化场景方面开展探索,运维中台将持续减少信息科技人员重复工作,从而解放生产力,将人员投入到系统架构设计、业务场景开发、复杂问题处理、授课培训、技术创新等更有价值的工作中去。

(此文刊发于《金融电子化》2024年2月下半月刊)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国核聚变又大突破了?低成本像玩具装置意外杀出,直径仅3米!

美国核聚变又大突破了?低成本像玩具装置意外杀出,直径仅3米!

徐德文科学频道
2024-04-26 22:14:47
深圳市“巨贪”市长拘留期“插喉”自杀,贪污20亿,被捕时卡里只有3585元

深圳市“巨贪”市长拘留期“插喉”自杀,贪污20亿,被捕时卡里只有3585元

天闻地知
2024-04-22 18:01:04
华为问界M9登顶!打败BBA,成50万以上豪车榜第1名

华为问界M9登顶!打败BBA,成50万以上豪车榜第1名

互联网.乱侃秀
2024-04-26 20:27:27
环球小姐大赛今年“无年龄限制”,阿根廷60岁“不老女神”脱颖而出

环球小姐大赛今年“无年龄限制”,阿根廷60岁“不老女神”脱颖而出

红星新闻
2024-04-27 19:22:19
44岁张静初分享美国生活日常:吃素不够还断食!孙俪养生都没她狠

44岁张静初分享美国生活日常:吃素不够还断食!孙俪养生都没她狠

Haha闲聊
2024-04-26 19:10:10
“一键脱衣”的华为P70,内娱第一女菩萨看到都慌了!

“一键脱衣”的华为P70,内娱第一女菩萨看到都慌了!

品牌营销官
2024-04-25 20:35:21
局部降温10℃!山东迎新一波冷空气!这些地区有雨,阵风7级

局部降温10℃!山东迎新一波冷空气!这些地区有雨,阵风7级

鲁中晨报
2024-04-27 18:37:05
故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

故事:我在阿富汗外派,掀开了一位穆斯林少女的面纱,她非我不嫁

潮河讲堂
2024-04-24 17:09:26
安全底线上升到了创可贴,小卖部以后无证将无法进行售卖

安全底线上升到了创可贴,小卖部以后无证将无法进行售卖

映射生活的身影
2024-04-27 16:47:52
CBA重要决定,广东队可能损失严重,中国篮球天亮,沃特斯被警告

CBA重要决定,广东队可能损失严重,中国篮球天亮,沃特斯被警告

宗介说体育
2024-04-27 15:01:04
被新疆淘汰,郭士强摊牌发声,官宣决定,去向曝光,辽宁期待

被新疆淘汰,郭士强摊牌发声,官宣决定,去向曝光,辽宁期待

东球弟
2024-04-27 07:43:57
具俊晔反击汪小菲晒豪车,结果被扒是汪小菲买的,大S脸都绿了

具俊晔反击汪小菲晒豪车,结果被扒是汪小菲买的,大S脸都绿了

娱记掌柜
2024-04-27 09:31:19
笑麻了!南昌连续三次向游客喊话来旅游,网友:不会日语怎么办?

笑麻了!南昌连续三次向游客喊话来旅游,网友:不会日语怎么办?

小白探影8
2024-04-27 15:32:03
55岁邓文迪最新出席晚宴把人美到!花朵裙配波浪卷发,又嫩又霸气

55岁邓文迪最新出席晚宴把人美到!花朵裙配波浪卷发,又嫩又霸气

时尚丽人风行
2024-04-27 14:50:20
金龟子王宁住北京8000万3层别墅,亲家公出镜,二人的称呼显陌生

金龟子王宁住北京8000万3层别墅,亲家公出镜,二人的称呼显陌生

阿芒娱乐说
2024-04-27 16:09:19
穆迪再次下调评级,万科回应:坚决反对,希望准确评估和反映公司情况

穆迪再次下调评级,万科回应:坚决反对,希望准确评估和反映公司情况

澎湃新闻
2024-04-27 15:58:40
重庆好色院长包养20名情妇,案发后,竟因一本日记被判十二年

重庆好色院长包养20名情妇,案发后,竟因一本日记被判十二年

朝暮书屋
2024-04-24 16:57:00
65个国家都收到了“邀请函”,却唯独没有中国,中方正式表态

65个国家都收到了“邀请函”,却唯独没有中国,中方正式表态

慢聊的历史
2024-04-26 14:21:34
新华社消息|中方呼吁尽早对“北溪”管道爆炸事件启动国际调查

新华社消息|中方呼吁尽早对“北溪”管道爆炸事件启动国际调查

新华社
2024-04-27 10:28:54
五大联赛首支降级球队!阵中拥有多位名将,2024年至今一胜难求

五大联赛首支降级球队!阵中拥有多位名将,2024年至今一胜难求

体坛老球迷
2024-04-27 11:31:24
2024-04-27 22:44:49
金融电子化
金融电子化
中国金融信息科技类主导期刊。
1544文章数 455关注度
往期回顾 全部

财经要闻

北京房价回到2016年

头条要闻

布林肯:推迟制裁以军 给以色列时间"纠正错误"

头条要闻

布林肯:推迟制裁以军 给以色列时间"纠正错误"

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

科技要闻

特斯拉这款车型刚上市几天,就上调价格

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

亲子
家居
本地
游戏
公开课

亲子要闻

健康夜话 | 医生讲述“试管妈妈”的故事:治疗的过程也是“治愈”彼此

家居要闻

光影之间 空间暖意打造生活律动

本地新闻

蛋友碰碰会空降西安!5.1山海境等你!

玩家确认《剑星》实体版可玩未审核版本:需断网安装

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版