一种异常数据处理方法、系统及装置制造方法及图纸

技术编号:34124694 阅读:8 留言:0更新日期:2022-07-14 13:54
本发明专利技术提出的一种异常数据处理方法、系统及装置,所述方法包括:读取电力设备监测数据,作为原始数据;通过时序图和箱线图描述原始数据的分布特征;根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值;填充原始数据中的数据缺失值;采用DFA进行原始数据的去趋势处理,以消除数据趋势项;采用K

【技术实现步骤摘要】
一种异常数据处理方法、系统及装置


[0001]本专利技术涉及数据分析处理
,更具体的说是涉及一种异常数据处理方法、系统及装置。

技术介绍

[0002]在电力行业中,电力设备的在线监测及生产管理等数据已经非常完善,为大数据融合设备状态分析创造了条件。为了深化大数据的应用,电力设备的各项监测数据逐渐汇集到统一的监控平台,实现了监管、调度、挖掘分析等一体化流程,但与此同时数据信息庞大、信息异构、数据质量较差等问题逐渐凸显。
[0003]原始的数据质量往往不能满足后续状态评价模型的要求,因此,在状态评估或诊断分析之前进行数据清洗是必不可少的。数据清洗通过填充缺失值、平滑噪声数据和识别离群点来提高数据质量,有助于提高数据挖掘过程的准确率和效率。
[0004]但是,异常数据处理根据其应用场景不同,多数处理方法具有一定的过于简单粗暴,例如业务人员设定数据上下限剔除超限值;用序列中的前值填充缺失值;诸如此类方法,在平稳数据中尚可应用,但是如果数据是非平稳或非线性形态,则上述方法不适用。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术的目的在于提供一种异常数据处理方法、系统及装置,基于去趋势分析和K

means聚类,通过数据的非平稳到平稳的转换,以及数据间的相关关系进行数据的异常处理,极大还原数据本真形态,提高数据的真实性。
[0006]本专利技术为实现上述目的,通过以下技术方案实现:
[0007]一种异常数据处理方法,包括如下步骤:
[0008]S1:读取电力设备监测数据,作为原始数据;
[0009]S2:通过时序图和箱线图描述原始数据的分布特征;
[0010]S3:根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值;
[0011]S4:填充原始数据中的数据缺失值;
[0012]S5:采用DFA进行原始数据的去趋势处理,以消除数据趋势项;
[0013]S6:采用K

means聚类算法对原始数据进行聚类分析,并确定异常判断阈值;S7:通过异常判断阈值与数据集密度的比较,判断出原始数据中的异常数据,并剔除。
[0014]进一步,所述步骤S2包括:
[0015]通过时序图表征原始数据的趋势特征、波动幅度和离散情况。
[0016]进一步,所述步骤S3包括:根据箱线图确定原始数据中的最大值、最小值、中位数和两个四分位数据,以确定原始数据的整体形态,并采用阈值法去掉错误数据。
[0017]进一步,所述步骤S4包括:
[0018]通过对比样本集中相似的对象,并用相似对象中对应的值来填充原始数据中的数据缺失值。
[0019]进一步,所述步骤S6包括:
[0020]采用K

means聚类算法对原始数据进行聚类分析,将原始数据的数据集划分为M类数据集,通过滑动平均的方法依次捕捉M类数据集的密度范围,以确定异常判断阈值。
[0021]进一步,所述步骤S6还包括:根据数据标签的连续性,对聚类分析后的原始数据进行划分,以将其中的正常数据和异常数据分离,并记录正常数据和异常数据在原始数据中的位置。
[0022]进一步,所述步骤S7包括:
[0023]判断数据集密度是否小于异常判断阈值;
[0024]若是,则相应的原始数据为异常数据;否则为正常数据;
[0025]根据正常数据和异常数据的位置标签,在原始数据中用红色标识异常数据;删除具有红色标识的原始数据。
[0026]相应的,本专利技术还公开了一种异常数据处理系统,包括:
[0027]数据读取单元,用于读取电力设备监测数据,作为原始数据;
[0028]数据分布分析单元,用于通过时序图和箱线图描述原始数据的分布特征;
[0029]超限值剔除单元,用于根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值;
[0030]缺失数据处理单元,用于填充原始数据中的数据缺失值;
[0031]去趋势处理单元,用于采用DFA进行原始数据的去趋势处理,以消除数据趋势项;聚类分析单元,用于采用K

means聚类算法对原始数据进行聚类分析,并确定异常判断阈值;
[0032]异常数据剔除单元,用于通过异常判断阈值与数据集密度的比较,判断出原始数据中的异常数据,并剔除。
[0033]相应的,本专利技术还公开了一种异常数据处理装置,包括:
[0034]存储器,用于存储计算机程序;
[0035]处理器,用于执行所述计算机程序时实现如上文任一项所述的异常数据处理方法步骤。
[0036]对比现有技术,本专利技术有益效果在于:本专利技术提供了一种异常数据处理方法、系统及装置,通过将K

means聚类算法应用到数据清洗中,即针对数据中存在的异常数据,通过去趋势分析(FDA)将原始数据转变平稳序列,然后利用K

means聚类对离散点进行识别并剔除,本专利技术不受数据形态限制,可以极大地还原真实的数据形态,具有很好的广谱性,能够有效提高电力监测数据的完整性和真实性。
[0037]由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0039]附图1是本专利技术具体实施方式的方法流程图。
[0040]附图2是本专利技术具体实施方式的原始数据分布示意图。
[0041]附图3是本专利技术具体实施方式的箱线图示意图。
[0042]附图4是本专利技术具体实施方式的数据去趋势处理示意图。
[0043]附图5是本专利技术具体实施方式的数据聚类结果示意图。
[0044]附图6是本专利技术具体实施方式的数据异常值处理结果示意图。
[0045]附图7是本专利技术具体实施方式的系统结构图。
[0046]图中,1为数据读取单元;2为数据分布分析单元;3为超限值剔除单元;4为缺失数据处理单元;5为去趋势处理单元;6为聚类分析单元;7为异常数据剔除单元。
具体实施方式
[0047]下面结合附图对本专利技术的具体实施方式做出说明。
[0048]如图1所示的一种异常数据处理方法,包括如下步骤:
[0049]S1:读取电力设备监测数据,作为原始数据。
[0050]S2:通过时序图和箱线图描述原始数据的分布特征。
[0051]通过时序图和箱线图描述数据分布特征。其中,时序图主要反映数据按照时间的变化规律,直观表征数据的趋势特征、波动幅度及离散情况,主要形态如图2所示。
[0052]S3:根据测点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据处理方法,其特征在于,包括如下步骤:S1:读取电力设备监测数据,作为原始数据;S2:通过时序图和箱线图描述原始数据的分布特征;S3:根据测点数据正常波动范围,在原始数据的分布特征中剔除超限值;S4:填充原始数据中的数据缺失值;S5:采用DFA进行原始数据的去趋势处理,以消除数据趋势项;S6:采用K

means聚类算法对原始数据进行聚类分析,并确定异常判断阈值;S7:通过异常判断阈值与数据集密度的比较,判断出原始数据中的异常数据,并剔除。2.根据权利要求1所述的异常数据处理方法,其特征在于,所述步骤S2包括:通过时序图表征原始数据的趋势特征、波动幅度和离散情况。3.根据权利要求1所述的异常数据处理方法,其特征在于,所述步骤S3包括:根据箱线图确定原始数据中的最大值、最小值、中位数和两个四分位数据,以确定原始数据的整体形态,并采用阈值法去掉错误数据。4.根据权利要求1所述的异常数据处理方法,其特征在于,所述步骤S4包括:通过对比样本集中相似的对象,并用相似对象中对应的值来填充原始数据中的数据缺失值。5.根据权利要求1所述的异常数据处理方法,其特征在于,所述步骤S6包括:采用K

means聚类算法对原始数据进行聚类分析,将原始数据的数据集划分为M类数据集,通过滑动平均的方法依次捕捉M类数据集的密度范围,以确定异常判断阈值。6.根...

【专利技术属性】
技术研发人员:李洪海潘爱兵陈勇任兴辉王尚斌刘涛
申请(专利权)人:山东鲁软数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1