网易首页 > 网易号 > 正文 申请入驻

黑龙江农信:兼容国产资源的监控平台建设项目

0
分享至

来源:第五届农村中小金融机构科技创新优秀案例评选

一、项目方案

1.项目背景

随着黑龙江省农村信用社联合社(以下简称省联社)近年需求的快速迭代,互联网金融等业务的快速发展,业务对信息科技的依赖逐年加深,信息科技发展对业务模式影响日益明显。于此同时对信息科技风险的有效控制成为工作重点,监管部门始终对信息科技风险管理十分重视,已发布的多个指引文件都多有提及,对信息科技风险管理工作提出了更高要求。

当前省联社数据中心有几十个业务系统正在运行,这些业务系统由于建设的年代不同、采用软硬件技术、平台、架构等也不相同,同时随着业务发展和国产化的推进,后续大量的国产技术融入到业务系统。为加强数据中心科技风险防范能力、新技术的应用、运维管理能力,需要面向新趋势建设新一代基础监控平台,将各类原有IT资源及国产资源进行统一监控纳管,降低运维管理风险、提升运维管理效率。

2.项目范围

建立覆盖网络、服务器、操作系统、数据库、中间件、存储等各种系统的基础资源监控平台,通过SSH、SNMP、Trap、Syslog、IPMI、Ping等多种方式进行基础资源的监控,监控平台范围覆盖以下资源:

(1)业务系统

(2)本地服务器

(3)网络设备

(4)本地存储设备

(5)异地服务器

(6)异地存储设备

(7)数据库

(8)中间件

(9)县市级网络设备实现设备在线监控,主备线路状态监控;

(10)加密、密押、数字签名等安全设备;

(11)关键应用系统模拟交易监控;

3.项目目标

根据项目计划,今年需实施基础监控系统建设项目,通过该项目对应用系统、服务器、数据库、中间件、存储等IT资源进行统一纳管、统一采集、集中监控。建设易管理、易拓展、适配国产新技术、灵活告警、多样展示的基础监控平台。开发实现模拟仿真手段的应用可用性监控工具,通过基础监控系统建设能够更好的支撑IT运维和建设工作。并通过本项目建设降低工程师运维压力和运维管理风险,提高运维监控工作效率,提升科技运维管理风险的防范能力。

二、创新点

1.高可用架构

基础监控平台采用分布式集群架构,采用分布式数据库支持副本机制不存在单点问题,根据集群负载情况可以动态在线添加节点到集群实现横向扩展,同时为了满足数据分析和监管要求可以对数据进行全量或增量备份,备份数据可以跨集群进行恢复,甚至在集群名称、节点数均不同的情况下仍然可以进行数据恢复。采用动态DNS实现数据库服务不可用时自动切换到其他可用节点且业务无感知。

2.自动化运维闭环

基础监控平台通过采集基础设施可用性、容量、性能等监控数据,根据设定的阈值信息进行阈值判断,当阈值不匹配时产生告警信息,告警信息可以通过声光、短信、邮件、微信、钉钉等方式进行通知,同时可以根据匹配到的自动化动作规则执行远程命令进行自动化恢复操作,例如启动应用程序、自动扩容等实现故障自愈。实现了特定场景的从监控到告警再到自愈的能力,形成故障分析、反馈机制,构建运维管理闭环体系。

3.批量部署和升级

基础监控平台支持服务端所有设备、所有集群、所有组件的一键部署。统一代理程序支持自动化批量部署及升级,代理程序启动后可以自动注册及纳管,无需人工干预。

4.统一代理

监控平台通过统一代理程序实现对各类基础设施(服务器、数据库、中间件、网络设备、安全设备、存储设备等)的监控采集、日志采集、自动化调度。

5.多采集方式支持

基础监控平台采集技术涵盖代理和无代理方式。平台采用多种采集方式达到对主机、应用和数据库的监控,这些技术包括:

(1)基于代理的采集

(2)基于标准协议的采集:WMI 、HTTP/HTTPS、Ping、SNMP、SSH、TELNET、JDBC、ODBC、IPMI、JMX、SNMPTrap、Syslog等

(3)基于文件的采集:日志文件、JSON文件、CSV文件等

(4)基于脚本或可执行程序的采集:python、shell、perl、java、c、go等

6.国产资源监控

随着新信息技术应用产业的逐步推进,给传统基础监控平台带来了各种新的运维挑战,例如监控对象类型、品牌、型号、协议、数量众多,平台为了兼容国产软硬件带来的运维挑战实现全面覆盖各种国产资源监控的目标,从产品底层进行了深度适配,支持通过代理程序和无代理等多种方式进行监控,代理程序可以在任意国产操作系统上进行编译和安装,支持的标准采集协议包括WMI、HTTP/HTTPS、Ping、SNMP、SSH、TELNET、JDBC、ODBC、IPMI、JMX、SNMPTrap、Syslog等,支持的文件采集包括日志文件、JSON文件、CSV文件等,支持的脚本或可执行程序的采集包括python、shell、perl、java、c、go等。多种采集方式和采集协议的支持保证了平台对国产资源的可用性、性能、容量、日志等维度的全方位无死角监控,平台丰富且完善的外部接口保证了平台良好的扩展性,能够快速适配各种新型的国产资源,实现现有资源全覆盖,新资源快速适配,持续提升平台能力和价值。

支持中标麒麟操作系统、东方通中间件、达梦数据库、华为和宏杉存储设备、启明星辰、天融信和深信服安全设备等资源,其他国产软硬件资源会跟随系统在行里的推广持续性进行适配和监控。

7.事件动态丰富

由于从监控产生的告警事件内容往往不够丰富比如缺少业务系统、联系人、联系方式等信息可读性较差,基础监控平台结合配置管理组件实现了告警信息动态丰富,基础监控平台只在事件控制台展示告警数据时进行API级告警数据及配置数据关联,配置数据来自于配置管理组件数据并不落地到基础监控平台,同时也不需要配置事件丰富规则,既满足了事件丰富的需求又不需要维护丰富规则减轻了运维人员工作负担。

8.实现模拟仿真拨测监控

业务模拟拨测原理,通过模拟仿真的原理来监控业务的可用性,是目前运维监控体系中最主动、接近用户体验的业务监控手段(比如:模拟卡系统通过模拟用户在ATM终端插卡,查询信息来验证业务是否可用)。

模拟拨测监控开发后监控作用明显,业务不可用能触发告警,短信通知到对应应用负责人,有效避免故障扩大化。纳入可用性监控的应用系统,可通过系统获得如下帮助:

(1)繁杂的告警情形下,可以通过是否收到应用系统业务可用性拨测监控提示,来判断事态的严重性,判断业务是否受到影响,从而提高响应速度,避免事态扩大;

(2)合理计算系统可用率,便于各应用负责人统计真实的应用可用率信息;

(3)弥补网络流量镜像交易监控在非交易时间段的失管漏洞,提前在非交易时间段发现业务可用性问题。

三、技术实现特点

1.功能架构

2.技术架构

3.特点

(1)统一管理

统一监控管理、统一告警管理、统一通知管理、统一视图管理、统一报表管理、统一大屏管理、统一配置管理、统一存储管理。

(2)监控对象全覆盖

实现对操作系统、数据库、中间件、虚拟化、网络设备、安全设备、负载均衡设备、存储设备、业务系统等对象的全覆盖。

(3)丰富的接口

所有操作接口化,允许你以编程方式检索和修改系统的配置,并提供对历史数据的访问。接口广泛用于创建新的个性化应用程序、将系统与第三方软件集成、自动批量执行常规任务等。

(4)多种采集方式支持

代理方式、基于标准协议的无代理方式(例如WMI 、HTTP/HTTPS、Ping、SNMP、SSH、TELNET、JDBC、ODBC、IPMI、JMX、SNMPTrap、Syslog等协议)、文件方式(日志文件、JSON文件、CSV文件等),同时支持使用插件和脚本方式对采集方式和监控指标进行扩展。

(5)自动化批量部署

支持平台一键部署、网络自动发现、代理批量部署和升级、代理自动注册、设备自动纳管。

(6)分布式架构

系统采用分布式架构便于横向扩展,不存在性能瓶颈问题。

(7)高可用架构

平台通过集群技术实现服务器端的高可用。不存在单点故障,保证系统7×24小时稳定、高效运行。

(8)实现了行里现有国产资源的全覆盖

目前已适配的国产软硬件资源包括:中标麒麟操作系统,华为和宏杉存储设备,东方通中间件,启明星辰、天融信和深信服安全设备。

四、项目过程管理

1.需求分析和概要设计阶段

此阶段时间段为2021年1月至2021年3月,期间主要完成了业务需求分析、业务功能和技术架构的高层设计。

2.系统详细设计阶段

此阶段时间段为2021年3月至2021年4月,期间主要完成了系统详细设计工作,具体分析平台实现的管理流程和功能。

3.系统编码、测试和上线准备阶段

此阶段时间段为2021年5月至2021年8月,期间完成了监控平台客户化详细设计和编码开发、测试以及试点上线准备工作。

4.试运行阶段

此阶段时间段为2021年6月至2021年9月,期间完成了监控平台分批部署上线,并根据试运行的情况,提出了优化需求。

五、运营情况

1.基础监控平台自2021年6月试运行以来运行稳定,全行软硬件系统监控覆盖率90%以上,截止到目前平均每秒处理500个新值。

2.基础监控平台事件通知规则8类,事件通知方式3种,当前1天内产生的告警数量12个,监控模板26类,监控模板总量213个,监控项68225个,事件触发器13356个,每月活跃登录数98次。

3.基础监控视图系统提供5类操作系统性能视图,5类数据库视图,6类中间件性能视图,6类网络设备性能视图。

4.基础监控平台提供自定义网络性能报表2个,核心系统性能报表1个,全行网络设备(CPU、内存、流量)性能报表1个,每天进行1次基础监控平台自身巡检。

5.通过模拟仿真方式监控纳管5套应用,实时可计算应用的可用率,当业务不用时可以及时触发告警,避免当系统不可用时不能及时获取用户感知造成客户流失。同时还能将可用率指标进行有效、科学量化,便于各个应用的服务质量评比,促进运维体系形成积极的良性优化闭环。

六、项目成效

1.实现基础设施全覆盖

实现了对服务器、数据库、中间件、网络设备、安全设备、存储设备等基础设施的全覆盖。

2.实现了现有国产资源的全覆盖

目前已适配的国产资源包括:中标麒麟操作系统,华为和宏杉存储设备,东方通中间件,启明星辰、天融信和深信服安全设备。

3.实现基础监控数据多维度监控和可视化

支持各类基础设施性能数据(可用性、容量、性能)、日志文件、SNMPTrap、Syslog数据的监控。对监控数据以报表和视图的方式通过表格、曲线图、折线图、饼图、热力图等形式进行数据展示。

4.实现多种手段的实时通知

监控告警信息通过声光、短信等方式进行实时通知。

5.全面提升运维管理水平

通过基础监控平台的建设解决目前运维管理中面临的一系列实际问题,变被动运维为主动运维,实现面向基础设施的统一监控管理、统一告警管理、统一通知管理、统一视图管理、统一报表管理、统一大屏管理、统一配置管理、统一存储管理,为基础运维降本增效全面提高我行的运维管理水平,为科技安全运维提供强有力的技术保障。

6.实现了模拟仿真监控手段

通过模拟用户行为的方式,实现了基于用户感知的业务拨测系统,形成运维监控体系最后一道防线,避免业务故障发现不及时,影响客户满意度进而造成客户流失。实现了实时计算、获取系统可用率。通过模拟仿真告警与否来判断故障的影响面,便于及时评估故障的严重性。与监控手段形成完整的监控网络。从用户感知角度反向推动其它监控手段的完善建设,倒逼优化基础监控体系的促进作用。

七、经验总结

通过基础监控平台的建设,实现对服务器、数据库、中间件、网络设备、安全设备、存储设备等基础设施的全覆盖,同时实现了现有国产资源的全覆盖,后续还会跟随国产资源在行里的推广持续性进行适配和监控,并对监控数据以报表和视图的方式通过表格、曲线图、折线图、饼图、热力图等形式进行数据展示。通过模拟仿真方式实现以用户体验为中心的业务可用性检测。针对特定场景可以实现从监控到告警再到故障自愈的运维闭环。有效加强科技风险防范能力、新技术的应用、运维管理能力。

省联社通过本项目的建设,搭建高效、稳定、可扩展的监控平台,满足新时代的业务发展要求。依靠科技力量支持三农、扶助小微,助力农村金融真正走上差别化、特色化的发展道路,建设全方位、可持续的普惠金融服务体系。

更多金融科技案例,请登录数字金融创新知识服务平台- 金科创新社(FintechinChina.com)官网案例库查看。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奚梦瑶陪四太梁安琪看排球,婆媳互动频繁,四太超级开心

奚梦瑶陪四太梁安琪看排球,婆媳互动频繁,四太超级开心

素素娱乐
2024-06-18 08:58:05
男生比较大,怎样获得和谐的性生活?

男生比较大,怎样获得和谐的性生活?

许超医生
2024-05-23 10:02:12
沈从文笔下的湘西船妓:刚结婚没多久的小媳妇,一次两三块大洋

沈从文笔下的湘西船妓:刚结婚没多久的小媳妇,一次两三块大洋

吴学华看天下
2024-06-06 08:27:43
浙江:因妈妈长得太好看,女孩怀疑自己不是亲生的,妈妈:你随你

浙江:因妈妈长得太好看,女孩怀疑自己不是亲生的,妈妈:你随你

百晓史
2024-06-18 08:29:48
名利双收,杰伦布朗2024年净资产8000万美金,拿到FMVP,大赚特赚

名利双收,杰伦布朗2024年净资产8000万美金,拿到FMVP,大赚特赚

好火子
2024-06-19 03:13:26
解梦:微光闪耀下,黑暗不再恐怖

解梦:微光闪耀下,黑暗不再恐怖

曾奇峰心理工作室
2024-06-17 12:01:19
克罗地亚vs阿尔巴尼亚比分预测:爆冷风险非常大 克罗地亚订票回家

克罗地亚vs阿尔巴尼亚比分预测:爆冷风险非常大 克罗地亚订票回家

邮轮摄影师阿嗵
2024-06-19 03:35:54
18-18,总冠军白拿!詹皇御用媒体嘲讽绿军夺冠,新的赛道又来了

18-18,总冠军白拿!詹皇御用媒体嘲讽绿军夺冠,新的赛道又来了

时刻体育正版
2024-06-18 20:46:43
蒋介石母亲的墓被挖开,棺材悬空未落地,究竟有什么玄机?

蒋介石母亲的墓被挖开,棺材悬空未落地,究竟有什么玄机?

心灵短笛
2024-04-08 20:03:24
中方宣布对欧洲猪肉反倾销调查,话音刚落,欧两大国高层宣布访华

中方宣布对欧洲猪肉反倾销调查,话音刚落,欧两大国高层宣布访华

别人都叫我阿腈
2024-06-18 09:04:11
反转,易车实测秦L高速馈电油耗5.93L/100km,排名倒数第二

反转,易车实测秦L高速馈电油耗5.93L/100km,排名倒数第二

娱乐圈的笔娱君
2024-06-17 23:27:26
莫文蔚属于“诈骗”级别了吧

莫文蔚属于“诈骗”级别了吧

悠闲葡萄
2024-06-16 09:25:18
“反华妖女”污蔑祖国,杜撰新疆棉报告,如今面临失业父母拒相认

“反华妖女”污蔑祖国,杜撰新疆棉报告,如今面临失业父母拒相认

赢梯
2024-06-18 09:05:45
为何川藏线上的司机,总要点烟扔出窗外?藏民:扔烟的都是聪明人

为何川藏线上的司机,总要点烟扔出窗外?藏民:扔烟的都是聪明人

通文知史
2024-06-18 18:00:02
国家发改委:5月份全社会用电量同比增长7.2% 1—5月份全国全社会用电量同比增长8.6%

国家发改委:5月份全社会用电量同比增长7.2% 1—5月份全国全社会用电量同比增长8.6%

每日经济新闻
2024-06-18 11:01:39
TP-Link或遭美禁售

TP-Link或遭美禁售

南方都市报
2024-06-18 07:00:45
原来姜萍早就被调查过!她用一黑板的公式,震惊了达摩院专家

原来姜萍早就被调查过!她用一黑板的公式,震惊了达摩院专家

辉哥说动漫
2024-06-19 04:38:11
2-3!亚洲劲旅遭爆冷,世界排名暴跌,首支8胜球队诞生,榜首易主

2-3!亚洲劲旅遭爆冷,世界排名暴跌,首支8胜球队诞生,榜首易主

宝哥精彩赛事
2024-06-19 07:36:42
抖音正式下架,苹果用户怒了!

抖音正式下架,苹果用户怒了!

果粉俱乐部
2024-06-17 11:44:53
2024年养老金调整比例3%,退休人员每月3000元,还能涨100元吗?

2024年养老金调整比例3%,退休人员每月3000元,还能涨100元吗?

碎月导师
2024-06-17 18:01:24
2024-06-19 08:52:49
金科创新社
金科创新社
金科创新社
1027文章数 127关注度
往期回顾 全部

财经要闻

国家税务总局回应“倒查30年”

头条要闻

媒体:要卸任的北约秘书长还在埋雷 令世界深感忧虑

头条要闻

媒体:要卸任的北约秘书长还在埋雷 令世界深感忧虑

体育要闻

对于凯尔特人来说 谁是MVP根本不重要

娱乐要闻

被曝新恋情,张碧晨王琳凯发声辟谣

科技要闻

英伟达市值超微软 成全球市值最高上市公司

汽车要闻

全球最低价 现代IONIQ 5N预售价39.88万

态度原创

艺术
本地
教育
公开课
军事航空

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

本地新闻

我和我的家乡|在鞍山的每一步都有新发现

教育要闻

高考志愿要花钱找老师吗?

公开课

近视只是视力差?小心并发症

军事要闻

"局部战术暂停"后 以军袭击加沙地带多地

无障碍浏览 进入关怀版