一种发电领域时序数据清洗方法、系统、介质及设备技术方案

技术编号：43156964 阅读：15 留言：0更新日期：2024-11-01 19:52

本发明专利技术公开了一种发电领域时序数据清洗方法、系统、介质及设备，遍历发电领域时序基础数据集，构建数据集的特征向量；对数据特征向量进行异常值检测并将异常值标记为缺失值；基于生成对抗网络，学习时序数据集分布，将生成的时序数据替换缺失数据，得到完整的时序数据集。本发明专利技术在不破环时序数据原有数据属性的前提下删除异常值，补全缺失值，得到完整无偏的发电领域时序数据集，提高数据清洗后数据集的完整性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据预处理，具体涉及一种发电领域时序数据清洗方法、系统、介质及设备。

技术介绍

1、随着发电领域数字化的飞速发展，时序数据分析应用在发电领域具备了客观基础。数据集作为数据分析的基础，直接决定了数据分析的准确性和有效性，然而受电力设备故障、信息传输中断和异常信号干扰等因素影响，采集到的时序数据会出现一定的异常值和缺失值。缺失或失真的时序数据会造成数据的统计特征和分布特征发生变化，使数据的可信区间增大、置信度降低，导致后期针对发电时序数据的分析应用精准度存在偏差，因此需要对发电领域时序数据进行清洗，补全缺失数据，为后续的数据分析应用提供基础。

2、大数据时代，数据质量成为关键因素，而在工业领域的检测数据中，大部分是时序数据，因此对时序数据的高效管理是提高各领域生产效率的关键。时序数据的管理中，需要对时序数据进行清洗，以确保数据分析的准确性和决策有效性。目前对时序数据进行清洗的方式通常是通过单一清洗策略进行清洗。然而，由于时序数据的类型众多，通过单一清洗策略的清洗方式，会导致时序数据的清洗的适用度降低。

3、数据清洗主要处理数据集的缺失数据和异常数据，分为数据删除和数据补全两种方式。由于时序数据集的缺失数据通常呈现随机分布状态，且历史数据通常具有连续的时序特征，因此直接删除异常数据会破坏数据的时间连续性和时间关联性；另一方面，当数据集中存在缺失值比例较高或缺失值有连续分布的情况，常规的均值补全、零值补全等数据补全算法会降低数据的方差，同时会引入较大的协方差和相关性偏差，破坏原有数据结构。

<...

【技术特征摘要】

1.一种发电领域时序数据清洗方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的发电领域时序数据清洗方法，其特征在于，时序数据集的特征向量feature具体为：

3.根据权利要求1所述的发电领域时序数据清洗方法，其特征在于，使用孤立森林算法进行异常值检测并将异常值标记为缺失值。

4.根据权利要求3所述的发电领域时序数据清洗方法，其特征在于，异常值检测具体为：

5.根据权利要求4所述的发电领域时序数据清洗方法，其特征在于，异常数据分数s(x，ψ)计算如下：

<...

【专利技术属性】
技术研发人员：邓楷文，王毅，庞武华，王智微，陈丰，肖勇，
申请(专利权)人：西安热工研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人