网易首页 > 网易号 > 正文 申请入驻

案例 | “云+AI”智能融合,助力运维转型“加速度”

0
分享至

文 / 江西省农村信用社联合社邓毓 邓建星

随着业务规模不断增大,业务系统架构快速更新迭代,业务上云步伐持续推进,云上环境和云下传统环境运维监控面临新的挑战。一方面,云上业务无法实现精准有效的业务级监控,云上云下业务监控数据也难以在统一视角下,实现全链路业务关联监控分析。同时,各监控节点的业务、应用与网络指标也无法实现深度融合和统一展现,实现全链路指标关联监控分析;另一方面,采用传统的阈值监测方式,在当前海量、多维度的监控指标数据情况下,难以充分挖掘数据价值,从而提升异常检测和快速定位的能力。

江西农信迫切需要有效手段,能够对关键业务系统性能进行深度管理和监控,覆盖云上专有云和云下传统环境,敏捷应对业务变化,真正做到端到端的业务交易性能监控与分析。

实现目标

通过智能化“云+AI”运维建设,实现以下目标。

1.全链路业务可观测性。通过端到端、全链路监控,实现物理服务器、重要防火墙、负载均衡、云下虚拟机实例、云上ECS实例等不同环境下的全链路业务监控保障,实时感知业务变化,统一业务性能观测视角,提高问题发现和定位的效率;通过微探针引流的方式,将云环境中的网络数据进行全量采集、解码分析与处理,通过分析网络指标和业务指标,构建对云网环境的全景、立体式监测,保障云上业务连续性、保障新业务上云。

2.智能化AI诊断分析。通过AI算法学习,实现自动化学习阈值、自动调参,自动、实时、提前、准确地从海量数据中发现异常隐患,提高告警的精度,大幅降低人工配置成本。通过配置关系、专家经验、历史规律、指标数据确定故障的范围,识别表现异常的系统、交易等,基于配置关系、历史规律,实现AI智能关联分析,锁定故障根源。

方案及技术

根据我行现有的实际情况,一方面首先需要实现云上云下流量的采集和管理,实现应用层和网络层指标立体化监控;另一方面将部分重要业务系统进行多维度精细化分析,针对交易类型、交易渠道、机构、返回码等多个维度进行指标分析,让指标数据更具价值。

1.全链路流量采集。如图1所示,全链路业务性能监控平台通过对网络流量的采集和解码,提供业务层的监控分析功能,对于业务运维必不可少。通过建立云上云下业务全链路的可观测性,基于服务水平、可用性、异常事件、紧急事件、TCP连接等类型的告警,做到智能故障定位。实现监控零侵入、零风险、高精度、高实时。

一是传统环境流量采集。传统环境网络流量的采集,采用交换机镜像的方式,做到零风险、高实时、可信等特点。传统环境的网络流量,均会通过物理交换机,所以在物理交换机上,可以捕获到完整的东西向、南北向网络流量,且物理交换机的镜像功能是一个存在数十年的成熟技术,硬件级处理,零风险。

二是云上流量采集。对云上的重要业务系统,通过在ECS中部署微探针,进行业务流量采集,如图2所示,由CPM对所有微探针进行集中控制,微探针采集的流量采用Vxlan/GRE隧道的方式,发送给监控服务平台和vTAP平台,vTAP平台作为云内流量池,可将云内流量一对多地复制给其他消费方。

2.智能化数据分析。本次项目中,分批获取了服务器接入层交换机、大二层交换机、外联、互联网、DMZ等各个区域交换机的流量。根据项目需求,将分两种方式进行独立的数据解析。

一是在对云环境和传统环境的网络流量进行捕获之后,在原有的采集设备上,对流量进行全量解码。原始流量是以01的二进制方式存在,如需要对流量数据进行使用,数据包解码是最为关键的一步。在本项目中,数据包的解码不仅仅停留在TCP/IP通用包头的解析上,还对报文的全量业务字段进行了深度解析,例如金额、流水号、账号、交易类型等等关键字段。

二是搭建大数据处理平台,对解码后的报文,以流量输出的方式,进行二次分析。对业务性能重要数据指标数据,如交易量、响应率、响应时间、成功率等数据,进行算法指标异常检测,建设业务指标异常检测和根因定位算法引擎,实现的算法包括变分自编码器、渐进梯度回归树、差分指数滑动平均、极值理论、周期性中值检测、 LightGBM、蒙特卡洛搜索树等。当业务指标出现异常波动,或者出现劣化迹象时,自动触发故障根因定位功能,从故障业务系统异常时间段的大量交易明细中,分多种属性维度统计后进行异常检测,并且根据候选根因集的指标变换率和包含关系等进行排序,最终确定异常根因。

数据融合处理

智能化运维监控项目的建设将云上与云下流量、网络与应用、应用与业务等数据进行融合,通过智能化深度分析,实现统一视角,全链路监控分析。

1.云上云下流量融合。从传统环境到云环境,数据采集的难度大幅上升。一笔交易的流转,会经过云上云下各个环节,在进行故障分析时,采集数据和手段的不一致、指标口径不一致、数据时间戳不一致等问题,都会对故障发现和定位带来影响。

一是云上云下网络流量数据的汇聚。首先我们通过微探针来采集每个ECS的流量,并将流量统一汇聚至vTAP,由vTAP来完成云网流量的汇聚;传统环境的流量采集,通过网络交换机镜像功能,将镜像流量汇聚至物理TAP设备,物理TAP设备完成传统环境流量的汇聚;然后vTAP的流量,全量转发至物理TAP,由物理TAP设备完成云上云下流量的汇聚,由vTAP和物理TAP共同组建了流量池。

二是云下数据包统一时间戳。本项目由业务性能监控集群统一对数据包打上纳秒级时间戳,确保交易响应时间、网络延迟等关键指标的精度和准确性。

2.网络与应用、业务性能指标融合。本次项目汇聚多节点网络数据源进行网络指标计算和业务应用性能指标计算。当某个渠道的交易发生问题时,业务性能指标能快速定位到交易响应慢的节点,系统能根据组件级别的网络性能指标,快速、自动判断网络通信是否有问题。例如是否由于流量大导致拥塞、网络链路质量差导致丢包、网络延迟高、TCP连接问题等,这一切网络指标,都会自动关联到业务链路中的具体IP节点,从而实现从业务的视角观测网络,解决了以往运维中网络性能分析和业务应用性能分析视角不一致的问题。

3.应用与业务指标深度解析。基于智能运维算法,提供时序数据管道和持久化,通过对业务性能黄金指标数据,如成功率、交易量、响应率、响应时间等具备时间间隔固定,有时序规律或周期性特点,并且可以反映业务系统健康度的指标数据,自动提取多种曲线特征,自动选择最优算法,利用聚类算法缩减训练开销,进行实时异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现和恢复时间。

建设成效

智能化“云+AI”监控运维平台自上线以来,在提升系统可用性方面成效显著,发现诸多潜在异常和风险点,切实提升系统连续运行能力,有效降低运维成本。

1.全行端到端业务监控覆盖。通过项目的建设,覆盖传统环境和云环境重要应用节点,建立云上云下业务全路径流量数据的全面采集、集中处理、统一观测,保障业务连续性、保障业务上云。

2.网络与业务指标融合。将故障分析定位范围扩大到了网络层,统一了业务应用和网络运维的监控视角。自动关联业务层和网络层指标进行告警成因分析,判断问题出在应用层还是网络层,并存储和举证原始故障数据的交互过程。

3.基于AI智能化告警。为在大量数据中及时准确发现存在问题,传统业务指标和机器指标监控需要人工设定固定阈值,等指标值达到设定的阈值才会报警。自研指标异常检测算法既能省去固定、海量阈值的设定工作,又能适应现实数据的复杂状况,给出精准的报警效果,减少漏报误报。

4.业务指标多维根因定位。在复杂业务及海量数据中精准定位问题根因,为问题排障争取时间,为服务连续性提供保障,提升运维效率和节约运维成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
许昕一句话,把樊振东彻底推上风口浪尖!王皓早有预判

许昕一句话,把樊振东彻底推上风口浪尖!王皓早有预判

十点街球体育
2026-04-10 13:51:25
你有没有发现:一种“新型出轨”,越来越流行了

你有没有发现:一种“新型出轨”,越来越流行了

周哥一影视
2026-04-11 04:09:09
郑丽文在中山陵的演讲里,11次点名日本

郑丽文在中山陵的演讲里,11次点名日本

人生录
2026-04-10 21:19:55
郑丽文答凤凰记者:必须在台湾赢得选举,才能落实我们的政治主张

郑丽文答凤凰记者:必须在台湾赢得选举,才能落实我们的政治主张

凤凰卫视
2026-04-10 21:28:08
最高法:药企回扣入刑标准明确了!5月1日起执行

最高法:药企回扣入刑标准明确了!5月1日起执行

健识局
2026-04-10 23:33:52
410次开房记录曝光!从临时工“睡”到副处长,她只用了不到3年

410次开房记录曝光!从临时工“睡”到副处长,她只用了不到3年

爱写的樱桃
2026-04-06 08:05:03
西汉姆先赛赢球,热刺跌至第18进入英超降级区!

西汉姆先赛赢球,热刺跌至第18进入英超降级区!

懂球帝
2026-04-11 05:05:19
走进人民大会堂前,郑丽文团中现“特殊人物”,台当局撒弥天大谎

走进人民大会堂前,郑丽文团中现“特殊人物”,台当局撒弥天大谎

影孖看世界
2026-04-10 15:38:51
世锦赛战报:再爆大冷8-10,第6位冠军选手一轮游了

世锦赛战报:再爆大冷8-10,第6位冠军选手一轮游了

安海客
2026-04-10 05:18:47
军事专家戴旭:目前世界没有一个国家敢,在军事方面和我们较量

军事专家戴旭:目前世界没有一个国家敢,在军事方面和我们较量

健身狂人
2026-04-10 18:06:15
美谈判团队携数十辆装甲车抵达后,巴基斯坦:伊朗团队我负责护航

美谈判团队携数十辆装甲车抵达后,巴基斯坦:伊朗团队我负责护航

共工之锚
2026-04-11 01:03:28
王毅突访朝鲜,不是礼节访问,是关键时刻的一次战略落子

王毅突访朝鲜,不是礼节访问,是关键时刻的一次战略落子

开着车去流浪
2026-04-09 22:09:38
传奇归来!40岁日本国脚本田圭佑加盟裕廊FC,挑战顶级联赛进球纪录

传奇归来!40岁日本国脚本田圭佑加盟裕廊FC,挑战顶级联赛进球纪录

林子说事
2026-04-10 17:31:37
看一个人厉不厉害,就看他这4个细节

看一个人厉不厉害,就看他这4个细节

新浪财经
2026-04-07 05:47:18
赵四小姐罕见照片,不如于凤至漂亮

赵四小姐罕见照片,不如于凤至漂亮

黎庶文史
2026-04-10 00:00:28
凌晨开始排队、等餐超1小时 炸鸡品牌Popeyes北京直营首店落地东方新天地

凌晨开始排队、等餐超1小时 炸鸡品牌Popeyes北京直营首店落地东方新天地

北京商报
2026-04-10 17:04:09
陈光标最新透露:李亚鹏已选定嫣然医院新地址!

陈光标最新透露:李亚鹏已选定嫣然医院新地址!

看看新闻Knews
2026-04-10 23:52:06
三国巨轮可以畅行霍尔木兹海峡,特朗普恼羞成怒:美国吃大亏了

三国巨轮可以畅行霍尔木兹海峡,特朗普恼羞成怒:美国吃大亏了

兰妮搞笑分享
2026-04-11 01:06:52
张兰不再忍了!生日自曝曾昏迷三天三夜,68岁身边一个亲人都没有

张兰不再忍了!生日自曝曾昏迷三天三夜,68岁身边一个亲人都没有

潮鹿逐梦
2026-04-08 12:02:41
一天的吸烟量,尽量别超过这数,既不用戒烟,肺也能舒服些!

一天的吸烟量,尽量别超过这数,既不用戒烟,肺也能舒服些!

健康之光
2026-04-10 19:15:07
2026-04-11 05:27:00
金融电子化 incentive-icons
金融电子化
中国金融信息科技类主导期刊。
2475文章数 523关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

家居
时尚
旅游
房产
本地

家居要闻

复古风格 自然简约

今日热点:陈添祥长文道歉;夏克立曾给前经纪人传上厕所照片……

旅游要闻

周末来这里!足不出沪体验首尔韩屋风情

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版