基于数据挖掘技术和随机森林算法对变压器的故障诊断|空值|svm

基于数据挖掘技术和随机森林算法对变压器的故障诊断

分享至

　　引言

　　随着制造过程中数据的积累,物联网、云计算和智能算法等技术的发展与普及,数据采集技术已经足够的成熟,在此基础上实现基于人工智能技术和大数据分析的设备健康管理与故障诊断预测,进而成为具备自学习和自成长能力的智慧系统。电力变压器作为电力系统重要设备之一,其运行的可靠性、安全性直接影响整个电力系统的安全、以及系统的经济效益。油中溶解气体分析法是变压器故障早期诊断的主要方法。其中,三比值法和大卫三角形法就是利用油色谱分析变压器故障很常用的传统方法,但只有当油中气体各组含量达到一定的数量或者其含量能够超过注意值的时候,需确定存在故障后才能用这两种方法[1]。另外,经常会在三比值编码的边界模糊的比值区间内将容易造成误判故障。

　　针对传统方法中对利用油中气体进行变压器故障预测方面具有很大的局限性,本文提出一种基于对数据进行挖掘处理的技术,结合随机森林算法(文中将数据挖掘和随机森林算法结合简称DMRF),实现对电力变压器故障预测的功能[2]。随机森林(简称RF)是以决策树为基学习器的集成学习算法,在分类和回归上有着惊人的性能,因此本文选取随机森林算法进行分类预测,经过对实验结果构建评估模型,观察评估结果精确度更高。

　　1 对数据的处理

　　在对数据进行挖掘分析时,往往需要先对数据进行预处理。本文针对电力变压器油色谱原始数据进行缺失值弥补等数据处理,并结合数据挖掘中的异常值检测技术与集成学习中的随机森林算法对电力变压器故障进行预测。

　　1.1 缺失值处理

　　本文主要针对变压器油色谱气体浓度(H2、CH4、C2H6、C2H4、C2H2)数据来判断变压器内部故障,在数据集中可能存在着数据收集或保存方面不完善,或者因为人为主观上的一些错误利用和提取产生一些数据缺失。针对数据的不完善导致对数据不能很好的进行挖掘处理问题,本文首先使用缺失值处理模型对数据进行填充。针对数值型提供最小值、最大值、平均值、中位数和等方式的缺失值处理。本文属性为数值型属性的数据利用的方法为平均值法,字符型利用最多次项方法填充。即文中将有数值型空值的部分使用该空值属性的其他所有该属性值平均值来进行补充到空值部分。在处理非数值型空值时,利用属性列出现频次最高的值赋给缺失部分的所在值。

　　1.2 数据挖掘异常值检测算法

　　本文利用异常值检测模型分析原始数据分布的特征情况,对存在异常和噪声的数据进行检测和识别。实验仿真中在处理异常值时采用基于四分位距的方法实现对异常值检测识别和剔除,基于四分位距法对数据进行异常值检测剔除过程中,对原始数据的影响很小,几乎不会受到异常值的影响[3]。同时,该种方法可以避免极值对数据分析的干扰。检测结果能够通过箱形图中五个参数指标直观的显示异常值描述的范围。通过实验仿真结果显示,该种异常值处理算法对检测识别异常值具有很好的实用性,为后续利用随机森林算法对变压器故障预测做出了很好的保障性。图1为异常值检测处理算法对甲烷(CH4)气体浓度数据的箱形图,其他几种气体浓度对应的箱形图在这里不再赘述。

　　2 变压器故障诊断

　　2.1 随机森林算法

　　随机森林通过自助法(bootstrap)重采样技术,假设原始训练样本中有N组样本,经过有放回的重复随机抽取k个样本作为新的样本集合,再根据自助样本集生成分类树,分类树的组合即是随机森林的产生。这些新数据的分类结果将由分类树的投票来给定。随机森林算法实质上是决策树效果的叠加[4]。图2为随机森林算法流程图,在RF算法中,往往单棵树起到的分类效果不大,但是通过多个决策树组合将会使分类能力有着很大的改善。

　　具体实现过程如下:用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集;用抽样得到的样本集生成一棵决策树,在生成的每一个结点随机不重复地选择d个特征,利用这d个特征分别对样本集进行划分,找到最佳的划分特征(本文选取基尼系数判别);重复以上2个步骤共k次,k即为随机森林中决策树的个数;每棵树都进行分裂,直到该节点的所有训练样例都属于同一类[5]。

　　在决策树的分裂过程中不需要剪枝;将训练生成的多棵分类树组成随机森林,再用训练得到的随机森林对测试样本进行预测,并用票选法决定预测的结果。

　　2.2 变压器故障预测结构原理

　　本文所述的变压器故障预测模型结构如图3所示,该智能预测诊断模型利用变压器油色谱故障数据库经数据挖掘算法得到变压器故障专家库,数据专家库结合随机森林算法构建出变压器故障分类器,分类器的产生即得到变压器故障诊断树,利用其变压器故障诊断树进而预测得到变压器故障类型。利用大数据建立出变压器故障分类器,建立成功后,通过气体浓度预测数据(在实际上可直接通过变压器监测数据经过简单的数据处理送到变压器故障诊断树中研判)在变压器故障诊断树中找到相似浓度范围值进行故障研判,得到其对应的故障类型,最终实现变压器的故障智能诊断系统。

　　3 变压器故障预测结果分析

　　本文在对变压器故障预测结果分析中将对具有DMRF算法的实验结果和GBDT分类算法实验结果进行对比,进而证明本文中所使用的方法优越性。同时也将在学习阶段使用SVM分类算法进行变压器故障预测时所得的结果加以对比,证明随机森林算法在处理变压器故障数据中具有很好的分类效果。另外,本文在实验过程中构建了分类评估模型,实验结果将从评估模型产生的分类f1值、分类准确率、分类召回率指标证明实验的效果,同时也绘制了相应的ROC、PR图来进一步说明本文使用DMRF分类方法的优越性。

　　本文从最初对变压器油色谱气体浓度数据的预处理到基于四分位距法对异常值的检测,再利用随机森林算法对故障的分类,所针对的变压器故障类型主要是高温过热、正常、高能放电、中温过热、低能放电、低温过热六个故障类型进行判别。在使用随机森林分类算法时,自变量是气体浓度数据,因变量为故障类型,分类效果是由7种决策树叠加而成的,7种决策树中最大深度树层数12层,最小深度树层数为10层。最终的实验结果由所有决策树联合得到,其决策树组合产生的优良分类效果,很好的提高了变压器故障预测的准确率。同时降低了过拟合的风险。

　　本文针对油中溶解气体主要从SVM分类算法、GBDT分类算法与DMRF分类算法分析比较,其中SVM算法针对气体样本数据故障分类效果比较差,所以重点比较了GBDT和DMRF这两种集成算法。在实验中利用SVM分类算法时分类平均准确率为81.25%(分类效果相对最差),GBDT分类算法分类平均准确率为83.75%,DMRF分类算法分类平均准确率为88.75%。其中DMRF分类算法在训练集评估平均准确率为98.70%,其训练集和测试集分类效果均高于前两者。

　　由分类评估指标中的分类f1值、分类准确率、分类召回率表中数据可以看出,DMRF算法进行对变压器故障预测与GBDT算法对比,在各项指标中平均分类指标均优于GBDT算法的平均分类指标。另外,本文将以高温过热故障类为例给出对高温过热类分类评估模型绘制的ROC图和PR图,从图中也能看出本文所采用的DMRF分类算法模型相比较GBDT分类具有很好的分类效果。

　　由图4和图5可看出本文在根据变压器油色谱气体浓度对变压器故障进行分类预测时所建立的DMRF算法分类器模型具有很好分类效果,图中给出了对高温过热分类的ROC曲线和PR曲线,DMRF算法对应曲线下的面积AUC值为0.8709,GBDT算法对应曲线下的面积AUC值为0.8623。所以综上可分析出本文所利用的算法模型在对变压器故障诊断上有着较好的应用。同时,提出了集成算法和大数据的相关技术结合有着更好的效益。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.