一种基于发电机组时空序列数据的清洗方法技术

技术编号:35270541 阅读:39 留言:0更新日期:2022-10-19 10:41
本发明专利技术涉及数据清洗技术,特别涉及一种基于发电机组时空序列数据的清洗方法,包括获取原始数据,对原始数据进行清洗的过程中,删除原始数据中冗余数据、冲突数据以及异常数据,构建时空序列模型对原始数据中删除的数据进行填补,完成数据清洗;其中,构建时空序列模型包括以下步骤:通过分析单个站点的原始数据,构建时间序列预测模型;通过分析多个站点的原始数据,构建空间序列预测模型;通过将时间序列预测模型和空间序列预测模型得到预测值通过加权平均的方法构建缺失数据的预测值,完成对缺失数据的清洗;本发明专利技术提高了冗余数据、冲突数据、异常数据以及缺失数据这四类脏数据查询和清理的准确度、灵敏度和精密度。灵敏度和精密度。灵敏度和精密度。

【技术实现步骤摘要】
一种基于发电机组时空序列数据的清洗方法


[0001]本专利技术涉及数据清洗技术,特别涉及一种基于发电机组时空序列数据的清洗方法。

技术介绍

[0002]能源问题如今已成为现代社会发展的三大基本问题之一,工业的发展与设备的检修均离不开发电机设备。发电机故障预测系统,是保证碳中和、减少运维成本的最有效方法,建立发电机故障预测系统最大的难题仍是发电机数据的处理,发电机的时空序列数据维度高、采集间隔短、持续时间长,极大影响了序列间关系的挖掘与利用。随着时空序列数据规模的扩大及数据冗余、冲突、异常和缺失等劣质问题的凸显,如何对这些数据进行高效准确的处理成为了发电机故障预测系统的关键。

技术实现思路

[0003]针对上述问题,本专利技术提出一种基于发电机组时空序列数据的清洗方法,包括获取原始数据,对原始数据进行清洗的过程中,删除原始数据中冗余数据、冲突数据以及异常数据,构建时空序列模型对原始数据中删除的数据进行填补,完成数据清洗;其中,构建时空序列模型包括以下步骤:
[0004]通过分析单个站点的原始数据,构建时间序列预测模型;
[0005]通过分析多个站点的原始数据,构建空间序列预测模型;
[0006]通过将时间序列预测模型和空间序列预测模型得到预测值通过加权平均的方法构建缺失数据的预测值,完成对缺失数据的清洗。
[0007]进一步的,缺失数据的预测值包括:
[0008][0009]其中,ST(S
t
)为时刻t的缺失数据S
t
的预测值;S
p
为所有时刻空间相关性模型预测的值,为t时刻空间相关性模型预测的值;T
i
为所有时刻时间相关性模型预测的值,为t时刻时间相关性模型预测的值;S表示需要进行清洗的原始数据集;RMSE(,)表示求两个参数之间的均方误差。
[0010]进一步的,时间序列预测模型获取预测值的过程包括以下步骤:
[0011]当仅有一个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:
[0012][0013][0014][0015]当有多个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:
[0016][0017]其中,ST(S
t
)为时刻t的缺失数据S
t
的预测值;为当前维度数据的平均值,即缺失数据S
t
的平均值;y
i
为当前维度数据的第i个值,即缺失数据S
t
的第i个值;x0为当仅有一个维度与缺失数据的维度呈强可靠时,该维度数据的向量表示;为与缺失数据呈强可靠的一组数据的平均值;x
i
为与确实数据呈强可靠的一组数据中的第i个值;r
i
为一组数据与当前缺失数据之间的可靠性值,l为与当前维度呈强可靠的数据个数。
[0018]进一步的,删除原始数据中的异常数据的过程包括:
[0019]计算原始数据在当前时刻下动态滑动窗口数据集,设置一个区间偏差,将该数据集以及在该数据集的区间偏差范围内的区间作为置信区间;
[0020]若具有强相关性维度d
i
与d
j
的两个时效相同的数据值x0与y0,若y0落在置信度为80%的置信区间内,则y0对于x0强可靠;若y0落在置信度为90%的置信区间内,则y0对于x0弱可靠;否则y0违反了d
i
与d
j
的维度关系;
[0021]将网络中修改代价最小的节点的集合作为异常数据。
[0022]进一步的,当前时刻t下的动态滑动窗口数据集W(t)为:
[0023][0024]其中,w为以V
(t)
为中心的数据个数,V
(t)
为动态滑动窗口的中心。
[0025]进一步的,置信区间的最大值和最小值为:
[0026]Max(t)=W(t)+DEV
[0027]Min(t)=W(t)

DEV
[0028]其中,Max(t)为置信区间的最大值;Min(t)为置信区间的最小值;DEV为区间偏差值,表示为DEV=MAE(V,W)+C
×
SD(V,W),MAE(V,W)原始数据序列V与滑动窗口数据集W的偏差的绝对值的平均;C为常数,且置信区间为90%时其值等于1.64、80%时其值等于0.999;SD(V,W)为原始数据序列V与滑动窗口数据集W的离均差平方的算术平均数的平方根。
[0029]进一步的,先对两个维度的时间戳进行对齐,当两个维度之间的相关性的绝对值大于等于0.8时,两个维度的数据为一对可靠数据,两个维度之间的可靠性表示为:
[0030][0031]其中,r
i
表示两个维度之间的可靠性;为一个维度数据的平均值,x
i
为一个维度的第i个值;为另一个维度的平均值,y
i
为另一个维度的第i个值;n为进行时间戳对齐后每个维度数据的个数。
[0032]进一步的,空间序列预测模型获取预测值的过程包括以下步骤:
[0033]对原始数据进行归一化,使其值域映射到(0,1)范围内;
[0034]通过两个站点之间数据的距离计算两个站点之间的相关性,并将该相关性的倒数作为权重对归一化后的原始数据进行加权处理;
[0035]对加权处理后的数据进行还原,得到空间序列预测模型的预测值。
[0036]进一步的,对归一化后的原始数据进行加权处理包括:
[0037][0038]其中,Sp(S
i
)

为加权处理得到的归一化后的原始数据;D(S
i
,S
j
)为当前站点数据集与其他站点数据集S
j
的相关距离,S
j

为其他站点的数据集S
j
数据归一化处理后的值;m为其他站点的数量。
[0039]进一步的,对加权处理得到的归一化后的原始数据Sp(S
i
)

进行还原的过程包括:
[0040]Sp(S
i
)=Sp(S
i
)
′×
(max{S
i
}

min{S
i
})+min{S
i
};
[0041]其中,Sp(S
i
)为Sp(S
i
)

还原后得到的数据。
[0042]本专利技术清洗框架的核心为四类脏数据的清洗方法,通过分析发电机数据特征,准确识别并清洗脏数据;在缺失数据的填补中,利用时间序列和空间属性,提出了一种基于时空序列数据的填补清洗算法,通过分析原始数据属性,找到并定位出原始数据中四类脏数据,使用对应的数据清洗方法对四类数据清洗,获得清洗后的干净数据;本专利技术所提出的方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于发电机组时空序列数据的清洗方法,获取原始数据,对原始数据进行清洗的过程中,删除原始数据中冗余数据、冲突数据以及异常数据,其特征在于,构建时空序列模型对原始数据中删除的数据进行填补,完成数据清洗;其中,构建时空序列模型包括以下步骤:通过分析单个站点的原始数据,构建时间序列预测模型;通过分析多个站点的原始数据,构建空间序列预测模型;通过将时间序列预测模型和空间序列预测模型得到预测值通过加权平均的方法构建缺失数据的预测值,完成对缺失数据的清洗。2.根据权利要求1所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,缺失数据的预测值包括:其中,ST(S
t
)为时刻t的缺失数据S
t
的预测值;S
p
为所有时刻空间相关性模型预测的值,S
pt
为t时刻空间相关性模型预测的值;T
i
为所有时刻时间相关性模型预测的值,T
it
为t时刻时间相关性模型预测的值;S表示需要进行清洗的原始数据集;RMSE(,)表示求两个参数之间的均方误差。3.根据权利要求2所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,时间序列预测模型获取预测值的过程包括以下步骤:当仅有一个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:当仅有一个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:当仅有一个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:当有多个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:其中,ST(S
t
)为时刻t的缺失数据S
t
的预测值;为当前维度数据的平均值,即缺失数据S
t
的平均值;y
i
为当前维度数据的第i个值,即缺失数据S
t
的第i个值;x0为当仅有一个维度与缺失数据的维度呈强可靠时,该维度数据的向量表示;为与缺失数据呈强可靠的一组数据的平均值;x
i
为与确实数据呈强可靠的一组数据中的第i个值;r
i
为一组数据与当前缺失数据之间的可靠性值,l为与当前维度呈强可靠的数据个数。4.根据权利要求1所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,删除原始数据中的异常数据的过程包括:计算原始数据在当前时刻下动态滑动窗口数据集,设置一个区间偏差,将该数据集以及在该数据集的区间偏差范围内的区间作为置信区间;若具有强相关性维度d
i
与d
j
的两个时效相同的数据值x0与y0,若y0落在置信度为80%的置信区间内,则y0对于x0强可靠;若y0落在置信度为90%的置信区间内,则y0对于x0弱可靠;
否则y0违反了d
i
与d
j
的维度关系;将网络中修改代价最小的节点的集合作为异常数据。5.根据权利要求4所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,当前时刻t下的动态滑动窗口数据...

【专利技术属性】
技术研发人员:付蔚李正童世华冯建强刘庆吴志强张棚胡灿炜吕贝哲
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1