本发明专利技术公开了一种发电领域时序数据清洗方法、系统、介质及设备,遍历发电领域时序基础数据集,构建数据集的特征向量;对数据特征向量进行异常值检测并将异常值标记为缺失值;基于生成对抗网络,学习时序数据集分布,将生成的时序数据替换缺失数据,得到完整的时序数据集。本发明专利技术在不破环时序数据原有数据属性的前提下删除异常值,补全缺失值,得到完整无偏的发电领域时序数据集,提高数据清洗后数据集的完整性和准确性。
【技术实现步骤摘要】
本专利技术属于数据预处理,具体涉及一种发电领域时序数据清洗方法、系统、介质及设备。
技术介绍
1、随着发电领域数字化的飞速发展,时序数据分析应用在发电领域具备了客观基础。数据集作为数据分析的基础,直接决定了数据分析的准确性和有效性,然而受电力设备故障、信息传输中断和异常信号干扰等因素影响,采集到的时序数据会出现一定的异常值和缺失值。缺失或失真的时序数据会造成数据的统计特征和分布特征发生变化,使数据的可信区间增大、置信度降低,导致后期针对发电时序数据的分析应用精准度存在偏差,因此需要对发电领域时序数据进行清洗,补全缺失数据,为后续的数据分析应用提供基础。
2、大数据时代,数据质量成为关键因素,而在工业领域的检测数据中,大部分是时序数据,因此对时序数据的高效管理是提高各领域生产效率的关键。时序数据的管理中,需要对时序数据进行清洗,以确保数据分析的准确性和决策有效性。目前对时序数据进行清洗的方式通常是通过单一清洗策略进行清洗。然而,由于时序数据的类型众多,通过单一清洗策略的清洗方式,会导致时序数据的清洗的适用度降低。
3、数据清洗主要处理数据集的缺失数据和异常数据,分为数据删除和数据补全两种方式。由于时序数据集的缺失数据通常呈现随机分布状态,且历史数据通常具有连续的时序特征,因此直接删除异常数据会破坏数据的时间连续性和时间关联性;另一方面,当数据集中存在缺失值比例较高或缺失值有连续分布的情况,常规的均值补全、零值补全等数据补全算法会降低数据的方差,同时会引入较大的协方差和相关性偏差,破坏原有数据结构。
<
p>4、因此,如何在尽可能不改变原有数据结构和特征的情况下,对时序数据进行清洗,得到完整的时序数据,为后续的分析应用提供更可靠的数据集成为时序数据预处理
中亟需解决的问题。
技术实现思路
1、本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种发电领域时序数据清洗方法、系统、介质及设备,用于解决数据清洗过程中原有数据结构和数据特征遭到破坏的技术问题,提高数据清洗后数据集的完整性和准确性。
2、本专利技术采用以下技术方案:
3、一种发电领域时序数据清洗方法,包括以下步骤:
4、遍历发电时序基础数据集,构建基础时序数据集的特征向量;
5、对数据特征向量进行异常值检测并将异常值标记为缺失值;
6、基于生成对抗网络,学习发电数据集分布,将生成的时序数据替换缺失数据,得到完整的时序数据集。
7、优选地,基础时序数据集的特征向量feature具体为:
8、feature=f(x0,xlen-1,xmax,xmin,xavg,xmid,xvar)
9、其中,x0、xlen-1、xmax、xmin、xavg、xmid、xvar分别是基础数据集x的首值、末值、最大值、最小值、均值、中位值和方差,len是时序基础数据集x的数据数量。
10、优选地,使用孤立森林算法进行异常值检测并将异常值标记为缺失值。
11、更优选地,异常值检测具体为:
12、s201、对于给定的基础时序数据集x={x0,x1,x2,...xn},从x中随机选择ψ个样本点构成x的子集x′,将子集x′放入根节点,构造二叉树;
13、s202、从特征向量feature中随机选择一个值value;
14、s203、根据value对子集x′进行分类,把小于value的数据放在左子节点,把大于value的数据放在右子节点;
15、s204、递归步骤s202和步骤s203,直到所有的叶子节点均只有一个样本或二叉树已经达到高度阈值n;
16、s205、循环步骤s201至步骤s204,直至生成t个二叉树;
17、s206、对于基础数据集x中的每一个数据点xi,令其遍历每一颗二叉树,计算点xi在森林中的平均高度h(xi),对所有点的平均高度归一化处理,计算异常数据分数s(x,ψ),将s大于给定阈值λ的数据点视为异常点,并将异常点从基础数据集中删除,得到更新后的发电领域时序数据集。
18、更优选地,异常数据分数s(x,ψ)计算如下:
19、
20、其中,h(x)为二叉树叶子节点的路径长度,e(h(x))为森林路径长度期望c(ψ)为ψ个样本构成的二叉树森林的平均路径长度。
21、优选地,将生成的时序数据替换缺失数据得到完整的时序数据集具体为:
22、通过生成器g将随机噪声向量z根据原始时序数据集x映射为伪时序数据g(z);
23、鉴别器学习基础数据集x的数学分布,并通过损失函数评价修正伪时序数据g(z)与原始数据集x的契合度,最终使得伪时序数据g(z)和基础数据集x的误差小于给定阈值;
24、将生成的时序数据替换缺失数据,得到完整的时序数据集。
25、更优选地,损失函数l(z)计算如下:
26、l(z)=lr(z)+λld(z)
27、其中,lr(z)为重建损失,ld(z)为鉴别损失,λ为控制重建损失和鉴别损失比例的超参数。
28、第二方面,本专利技术实施例提供了一种发电领域时序数据清洗系统,包括:
29、数据模块,遍历发电领域时序基础数据集,构建时序基础数据集的特征向量;
30、检测模块,对数据特征向量进行异常值检测并将异常值标记为缺失值;
31、清洗模块,基于生成对抗网络,学习基础时序数据集分布,将生成的时序数据替换缺失数据,得到完整的时序数据集。
32、第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述发电领域时序数据清洗方法的步骤。
33、第四方面,本专利技术实施例提供了一种计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现上述发电时序数据清洗方法的步骤。
34、与现有技术相比,本专利技术至少具有以下有益效果:
35、一种发电领域时序数据清洗方法,相比于其他数据清洗方法,本方法通过生成对抗网络,拟合时序数据集的分布状态,尽可能保留连续的时序特征,在剔除异常数据时保留了时间连续性和时间关联性;另一方面,相比与均值补全等数据补全算法,本方法保留了原有的数据结构,不会引入较大的协方差和相关性偏差,为后续基于时序数据的分析建模提供了数据基础。
36、进一步的,由于时序数据量大、分布随机,k-nn算法在维数增加时会遇到性能瓶颈,计算距离代价高昂,基于密度的方法如dbscan在时序数据分布不均匀时可能会失效。由于孤立森林算法的核心思想是利用随机划分来增加异常点的路径长度,从而识别出异常值。算法不依赖于数据的具体分布,也不需要计算复杂的距离或密度度量,因此适合于大规模时序数据的异常检测。
37、进一步的,对抗生成网络能够学习数据的分布并生成本文档来自技高网
...
【技术保护点】
1.一种发电领域时序数据清洗方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的发电领域时序数据清洗方法,其特征在于,时序数据集的特征向量Feature具体为:
3.根据权利要求1所述的发电领域时序数据清洗方法,其特征在于,使用孤立森林算法进行异常值检测并将异常值标记为缺失值。
4.根据权利要求3所述的发电领域时序数据清洗方法,其特征在于,异常值检测具体为:
5.根据权利要求4所述的发电领域时序数据清洗方法,其特征在于,异常数据分数s(x,ψ)计算如下:
6.根据权利要求1所述的发电领域时序数据清洗方法,其特征在于,将生成的时序数据替换缺失数据得到完整的时序数据集具体为:
7.根据权利要求6所述的发电领域时序数据清洗方法,其特征在于,损失函数L(z)计算如下:
8.一种发电领域时序数据清洗系统,其特征在于,包括:
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行权利要求1至7任一所述的方法。</p>10.一种计算设备,其特征在于,包括:
...
【技术特征摘要】
1.一种发电领域时序数据清洗方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的发电领域时序数据清洗方法,其特征在于,时序数据集的特征向量feature具体为:
3.根据权利要求1所述的发电领域时序数据清洗方法,其特征在于,使用孤立森林算法进行异常值检测并将异常值标记为缺失值。
4.根据权利要求3所述的发电领域时序数据清洗方法,其特征在于,异常值检测具体为:
5.根据权利要求4所述的发电领域时序数据清洗方法,其特征在于,异常数据分数s(x,ψ)计算如下:
<...
【专利技术属性】
技术研发人员:邓楷文,王毅,庞武华,王智微,陈丰,肖勇,
申请(专利权)人:西安热工研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。