【技术实现步骤摘要】
一种基于发电机组时空序列数据的清洗方法
[0001]本专利技术涉及数据清洗技术,特别涉及一种基于发电机组时空序列数据的清洗方法。
技术介绍
[0002]能源问题如今已成为现代社会发展的三大基本问题之一,工业的发展与设备的检修均离不开发电机设备。发电机故障预测系统,是保证碳中和、减少运维成本的最有效方法,建立发电机故障预测系统最大的难题仍是发电机数据的处理,发电机的时空序列数据维度高、采集间隔短、持续时间长,极大影响了序列间关系的挖掘与利用。随着时空序列数据规模的扩大及数据冗余、冲突、异常和缺失等劣质问题的凸显,如何对这些数据进行高效准确的处理成为了发电机故障预测系统的关键。
技术实现思路
[0003]针对上述问题,本专利技术提出一种基于发电机组时空序列数据的清洗方法,包括获取原始数据,对原始数据进行清洗的过程中,删除原始数据中冗余数据、冲突数据以及异常数据,构建时空序列模型对原始数据中删除的数据进行填补,完成数据清洗;其中,构建时空序列模型包括以下步骤:
[0004]通过分析单个站点的原始数据,构建时间序列预测模型;
[0005]通过分析多个站点的原始数据,构建空间序列预测模型;
[0006]通过将时间序列预测模型和空间序列预测模型得到预测值通过加权平均的方法构建缺失数据的预测值,完成对缺失数据的清洗。
[0007]进一步的,缺失数据的预测值包括:
[0008][0009]其中,ST(S
t
)为时刻t的缺失数据S
t
的预测值; ...
【技术保护点】
【技术特征摘要】
1.一种基于发电机组时空序列数据的清洗方法,获取原始数据,对原始数据进行清洗的过程中,删除原始数据中冗余数据、冲突数据以及异常数据,其特征在于,构建时空序列模型对原始数据中删除的数据进行填补,完成数据清洗;其中,构建时空序列模型包括以下步骤:通过分析单个站点的原始数据,构建时间序列预测模型;通过分析多个站点的原始数据,构建空间序列预测模型;通过将时间序列预测模型和空间序列预测模型得到预测值通过加权平均的方法构建缺失数据的预测值,完成对缺失数据的清洗。2.根据权利要求1所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,缺失数据的预测值包括:其中,ST(S
t
)为时刻t的缺失数据S
t
的预测值;S
p
为所有时刻空间相关性模型预测的值,S
pt
为t时刻空间相关性模型预测的值;T
i
为所有时刻时间相关性模型预测的值,T
it
为t时刻时间相关性模型预测的值;S表示需要进行清洗的原始数据集;RMSE(,)表示求两个参数之间的均方误差。3.根据权利要求2所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,时间序列预测模型获取预测值的过程包括以下步骤:当仅有一个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:当仅有一个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:当仅有一个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:当有多个维度与当前维度呈强可靠时,时间序列预测模型获取预测值表示为:其中,ST(S
t
)为时刻t的缺失数据S
t
的预测值;为当前维度数据的平均值,即缺失数据S
t
的平均值;y
i
为当前维度数据的第i个值,即缺失数据S
t
的第i个值;x0为当仅有一个维度与缺失数据的维度呈强可靠时,该维度数据的向量表示;为与缺失数据呈强可靠的一组数据的平均值;x
i
为与确实数据呈强可靠的一组数据中的第i个值;r
i
为一组数据与当前缺失数据之间的可靠性值,l为与当前维度呈强可靠的数据个数。4.根据权利要求1所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,删除原始数据中的异常数据的过程包括:计算原始数据在当前时刻下动态滑动窗口数据集,设置一个区间偏差,将该数据集以及在该数据集的区间偏差范围内的区间作为置信区间;若具有强相关性维度d
i
与d
j
的两个时效相同的数据值x0与y0,若y0落在置信度为80%的置信区间内,则y0对于x0强可靠;若y0落在置信度为90%的置信区间内,则y0对于x0弱可靠;
否则y0违反了d
i
与d
j
的维度关系;将网络中修改代价最小的节点的集合作为异常数据。5.根据权利要求4所述的一种基于发电机组时空序列数据的清洗方法,其特征在于,当前时刻t下的动态滑动窗口数据...
【专利技术属性】
技术研发人员:付蔚,李正,童世华,冯建强,刘庆,吴志强,张棚,胡灿炜,吕贝哲,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。