一种多源数据质量提升方法及系统、存储介质技术方案

技术编号：44439323 阅读：15 留言：0更新日期：2025-02-28 18:48

本发明专利技术涉及数据处理领域，特别是涉及一种多源数据质量提升方法，尤其适用于负荷数据的处理和优化。对多源负荷数据进行特征提取，获得包含数据的模式和结构的负荷数据；应用局部异常因子LOF算法对所述负荷数据进行异常检测，筛选出异常数据；通过皮尔逊相关性分析法修正检测出的异常数据；基于前述特征提取和异常修正结果，应用熵权法计算负荷数据特征间的权重关系，对数据修正和特征提取过程进行进一步优化，以提高整体数据质量和准确性。本方案不仅为智能电网的大数据分析和运行状态评估提供了可靠的数据基础，还有效提升了数据挖掘和分析的效率和准确性，为电网的优化调度和决策支持提供了坚实的保障。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，特别是涉及一种多源数据质量提升方法及系统、存储介质，尤其适用于负荷数据的处理和优化。

技术介绍

1、随着智能电网的快速发展，配电网中数据采集的广泛性和复杂性不断增加。这些数据来自多个源头，包括智能电表、传感器和监控设备等，涵盖了负荷、电压、电流等多种信息。由于数据采集终端数量庞大、分布广泛且环境复杂，数据的质量问题日益凸显，具体表现为数据缺失、异常和冗余等。这些问题不仅降低了数据的可信度和使用价值，还对智能电网的运行和优化带来了挑战。

2、现有的研究主要集中在以下几个方面：首先，数据缺失处理是数据质量提升的重要环节。传统的方法如插值法和回归分析等在处理缺失数据时，虽然在一定程度上能够填补数据空白，但在大规模和多源数据环境下，常常面临效率低下和精度不足的问题。插值法尽管简单易行，但在面对大规模多源负荷数据时，其填补效果有限。而回归分析虽然能够提供较高的精度，但其复杂度较高，难以满足实时处理的需求。其次，数据异常检测是确保数据质量的关键步骤。常用的方法包括基于统计学的方法(如3σ法)和基于机器学习的方法(如支持向量机(svm)和孤立森林(isolation forest)等)。然而，这些方法在处理高维、非线性的数据时存在一定的局限性。统计学方法在检测数据异常时，往往依赖于数据的分布假设，对于非正态分布的数据，其检测效果较差。基于机器学习的方法虽然在一定程度上克服了这一问题，但其计算复杂度较高，难以适应大规模数据的实时检测需求。再次，数据融合与一致性是多源数据处理中的重要问题。多源数据的融合需要

技术实现思路

1、为解决上述技术问题，本专利技术提供了一种多源数据质量提升方法，包括如下步骤，

2、对多源负荷数据进行特征提取，获得包含数据的模式和结构的负荷数据；

3、应用局部异常因子lof算法对所述负荷数据进行异常检测，筛选出异常数据；

4、通过皮尔逊相关性分析法修正检测出的异常数据；

5、基于前述特征提取和异常修正结果，应用熵权法计算负荷数据特征间的权重关系，对数据修正和特征提取过程进行进一步优化，以提高整体数据质量和准确性。

6、进一步的，对多源负荷数据进行特征提取前，还包括；：

7、通过设定阈值和规则清洗多源负荷数据，去除数据中的噪声和明显错误的数据点；

8、对于采集过程中出现的缺失数据，采用插值法、回归分析数据填补技术，弥补数据空白；

9、对不同数据源的负荷数据进行标准化处理，消除因数据来源多样导致的量纲差异；

10、在清洗和填补的基础上，利用关联分析和规则匹配技术，整合多源数据，对来自不同数据源的负荷数据进行融合处理，得到多源负荷数据。

11、进一步的，对多源负荷数据进行特征提取包括根据数据的周期性特征，将负荷数据进行时间序列分割，便于聚类分析；means算法将n个对象划分为k个类簇c1…ck，每个类簇具有较高的相似度；算法的优化目标是最小化类簇的平方误差e：

12、

13、其中，为类簇ci的聚类中心。e为类簇的平方误差和，表示聚类结果的质量。平方误差越小，表示数据点与其所属类簇的聚类中心越接近，从而相似度越高。在负荷数据分析中，目标是使得同一类簇中的负荷数据特征更为一致，以便进一步进行异常检测和分析。k为类簇的数量，表示在k-means聚类算法中划分的簇的数量，每个类簇代表一个负荷模式或特征；x为数据点，表示负荷数据的一个样本；每个数据点对应某一时刻或某一地理位置的负荷数据，例如某时段的电流、电压等具体测量值。通过聚类，类似特性的负荷数据点被归为同一类簇。ci表示第i个类簇，表示通过聚类算法划分出来的负荷数据簇。每个类簇中的数据点具有相似的负荷特性。ui为类簇ci的聚类中心，表示类簇中所有数据点的平均值(即质心)。在负荷数据的使用场景中，聚类中心代表了该类簇内负荷数据的典型模式。‖x-ui‖2表示数据点x与其所属类簇ci聚类中心ui的欧几里得距离的平方，表示每个数据点与其类簇中心之间的偏差。在负荷数据场景中，这表示某一具体时刻的负荷数据与该类簇的典型负荷模式的差异大小。通过最小化这个差异，可以确保类簇中的数据点尽可能地接近聚类中心，从而增强类簇内部的相似性。通过此方法，可以提取负荷数据的特征模式，以便后续的异常检测和数据修正操作。

14、进一步的，应用局部异常因子lof算法对所述负荷数据进行异常检测包括对不同类别的负荷数据进行独立检测，以提高异常检测的精度：独立检测的体现就在于对每个类别的数据进行单独的处理和分析，而不是统一处理所有数据集。

15、这里通过计算每个数据点的邻域距离，意味着每个数据点p都是独立检测的对象。这种检测是基于每个点的邻近数据点进行的，不同类别的数据点被分别计算其邻域，这是一种间接的独立检测。

16、在这部分，局部可达密度和局部异常因子的计算实际上是针对每个数据点p独立进行的。这些计算会根据每个点所在的邻域进行分析，从而判断该点是否为异常点。这种局部的分析方法表明，异常检测是在每个数据点的局部空间中进行的，而不是在整体数据集上进行统一的检测，具体的，包括如下4个方面的计算：

17、(1)第k距离邻域：首先给定一个数据集合d，对于集合内的任意一点p，计算其他点与p点的欧几里得距离并从小到大排序，第k个记为该点的第k距离，第k距离以内的所有点为第k距离邻域，记作nk(p)，该邻域用于定义点p的局部范围。其中欧几里得距离可以表示为：

18、

19、其中，p和q分别表示n维空间中负荷数据集中的两个数据点，p和q是不同采集设备或不同时间点记录的负荷数据。dist(p,q)为两个点之间的欧几里得距离。该距离度量数据点在n维特征空间中的差异。在电力负荷数据的应用中，欧几里得距离表示两个时间点之间负荷的变化程度。通过计算距离，可以找出与某个负荷数据点最接近的数据点，构建邻域。

20、(2)可达距离：在第k距离邻域确定之后，计算点p与其邻域中各点的可达距离，以增强密度计算的鲁棒性。空间中p点和o点之间的可达距离定义为点o的第k距离和dist(p,o)之间的最大值，记为reach-dist(p,o)，这一步的目的是消除极端距离点对密度计算的影响，确保密度计算更准确；

21、⑶局部可达密度：基于可达距离，计算数据点p的局部可达密度lrdk(本文档来自技高网...

【技术保护点】

1.一种多源数据质量提升方法，其特征在于：包括如下步骤，

2.如权利要求1所述的一种多源数据质量提升方法，其特征在于：对多源负荷数据进行特征提取前，还包括；

3.如权利要求1所述的一种多源数据质量提升方法，其特征在于：对多源负荷数据进行特征提取，方法如下：

4.如权利要求1所述的一种多源数据质量提升方法，其特征在于：应用局部异常因子LOF算法对所述负荷数据点进行异常检测，包括：

5.如权利要求1所述的一种多源数据质量提升方法，其特征在于：通过皮尔逊相关性分析法修正检测出异常数据，所述数据修正包括基于多维数据特征，对检测出的异常数据进行逐步回归修正，皮尔逊相关系数的计算公式如下：

6.如权利要求1所述的一种多源数据质量提升方法，其特征在于：使用熵权法计算负荷数据特征间的权重关系，权重计算包括动态调整权重参数，以适应不同时间段和不同环境下的数据特征变化；具体的，根据公式⑺计算各个变量之间的熵：

7.一种多源数据质量提升系统，其特征在于，包括，

8.如权利要求7所述的一种多源数据质量提升系统，其特征在于

9.如权利要求7所述的一种多源数据质量提升系统，其特征在于，所述特征提取单元对多源负荷数据进行特征提取，方法如下：

10.一种计算机存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种多源数据质量提升方法，其特征在于：包括如下步骤，

2.如权利要求1所述的一种多源数据质量提升方法，其特征在于：对多源负荷数据进行特征提取前，还包括；

3.如权利要求1所述的一种多源数据质量提升方法，其特征在于：对多源负荷数据进行特征提取，方法如下：

4.如权利要求1所述的一种多源数据质量提升方法，其特征在于：应用局部异常因子lof算法对所述负荷数据点进行异常检测，包括：

6.如权利要求1所述的一种多源数...

【专利技术属性】
技术研发人员：唱一鸣，马晓松，徐轶，赵翘楚，庞欢，董盼盼，曹彬彬，胡令函，邹鲲泽，
申请(专利权)人：国网辽宁省电力有限公司沈阳供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人