一种用电时序数据的清洗方法技术

技术编号:28295428 阅读:19 留言:0更新日期:2021-04-30 16:19
本发明专利技术涉及一种用电时序数据的清洗方法,包括以下步骤:S1:获取用电时序数据,按设定规律将用电时序数据分割为多个切片;S2:将各切片按照是否含有缺失值分为第一切片和第二切片,所述的第一切片为含有缺失值的切片,所述的第二切片为不含缺失值的切片;S3:对第二切片组成的集合构建索引;S4:利用索引,在第二切片组成的集合中查询与各第一切片对应的第二切片;S5:利用查询得到的第二切片,基于清洗模型,分别对各对应的第一切片进行数据清洗,填补其中的缺失值,与现有技术相比,本发明专利技术具有实用且通用性高等优点。

【技术实现步骤摘要】
一种用电时序数据的清洗方法
本专利技术涉及电力信息大数据领域,尤其是涉及一种用电时序数据的清洗方法。
技术介绍
电力电子装置的大规模接入使得电力企业能够在用户侧和电网侧采集海量数据。特别地,随着计量基础设施的迭代更新,电力数据的频度、精度和准度均提升显著。另一方面,运行、量测、通信等一、二、三次电力设备的故障事件普遍存在并影响数据质量。在此背景下,研发高效数据清洗工具,是电力企业开展智能分析工作的重要环节。时间序列是在时间维度上对观测对象等间隔采样所形成的结构化数据。在电力系统中,基于负荷、电量等用电时序数据的智能分析工具已在各类业务场景中取得应用成效,这离不开高效数据清洗工具的辅助。专利技术专利申请CN201911226611.7提出了一种基于时间序列相似性的数据清洗方法及装置,该技术方案对用电时序数据依次执行降维、离散化和相似性度量等操作来计算待清洗时序数据的参考时序数据,并将待清洗时序数据中的缺失值/异常值替换为参考时序数据中相同位置的值;专利技术专利申请C201710790445.8提出了一种用于电力传感数据的清洗方法、装置和系统,该技术方案采用K-Means聚类方法将电力传感器采集的数据分为多个分区,检出每个分区中的异常值,采用平均值、中值或模式值对异常值进行替换。包括上述在内的现有技术方案多采用相似性度量方法计算与待清洗时序数据相似的参考时序数据,并将参考时序数据中的值作为待清洗时序数据中同位置缺失值/异常值的修正值。目前,常用的相似性度量方法主要包括平滑法和模型法,前者一般计算历史数据的均值并将其作为邻近的缺失值/异常值的修正值,后者一般提取历史数据的波动特征来建立线性/非线性方程并将缺失值/异常值的上下文带入方程来计算修正值。前述方法的主要不足是:平滑法的使用条件是时间序列稳定,而负荷、电量等时序数据深受气象、节假日等周期性因素影响;模型法充分考虑周期性因素对时序数据的影响,但是模型能力依赖于训练样本的质量和数量;这使得基于平滑法和模型法的时序数据清洗效果未必满足基于用电量时序数据的智能分析的需求。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种实用性好且通用性强的用电时序数据的清洗方法。本专利技术的目的可以通过以下技术方案来实现:一种用电时序数据的清洗方法,包括以下步骤:S1:获取用电时序数据,按设定规律将用电时序数据分割为多个切片;S2:将各切片按照是否含有缺失值分为第一切片和第二切片,所述的第一切片为含有缺失值的切片,所述的第二切片为不含缺失值的切片;S3:对第二切片组成的集合构建索引;S4:利用索引,在第二切片组成的集合中查询与各第一切片对应的第二切片;S5:利用查询得到的第二切片,基于清洗模型,分别对各对应的第一切片进行数据清洗,填补其中的缺失值。进一步地,所述的步骤S1具体包括:S11:获取用电时序数据集合,识别其中每条用电时序数据的异常值,并将异常值替换为缺失值;S12:按设定规律将用电时序数据集合中的各用电时序数据分割为多个切片。进一步地,所述的步骤S3具体包括:S31:构建样本库V和待清洗库W;S32:将第二切片放入样本库V,并将符合设定要求的第一切片放入待清洗库W;S33:对样本库V中的第二切片执行符号化处理;S34:对符号化处理后样本库V中的第二切片构建全文索引。进一步地,所述的步骤S4中,与各第一切片对应的第二切片具体为:与第一切片相似度最高的K个切片,其中,K为大于零的整数。更进一步地,所述的按设定规律将用电时序数据分割为多个切片具体为:从左向右依次将用电时序数据分割为多个等长的片段,所述的样本库V和待清洗库W中每个样本数据的长度相等,且等于各切片的长度。更进一步地,所述的步骤S32中,符合设定要求的第一切片具体为:切片中缺失值的比例不大于第一设定阈值C1,且缺失区间长度不大于第二设定阈值C2。更进一步地,两个切片之间的相似度通过欧式距离确定。更进一步地,所述的符号化处理具体为:将第二切片从浮点数集合映射至整数集合。进一步地,所述的用电时序数据包括总用电量数据、峰时用电量数据、平时用电量数据、尖时用电量数据和谷时用电量数据,各用电时序数据分别形成总用电量数据集U1、峰时用电量数据集U2、平时用电量数据集U3、尖时用电量数据U4和谷时用电量数据集U5。进一步地,在步骤S1之前,还执行以下操作:若总用电量数据集U1、峰时用电量数据集U2、平时用电量数据集U3、尖时用电量数据U4和谷时用电量数据集U5中,同一位置的五个数据中仅有一个缺失值,则根据用电量的加和约束关系:总用电量数据=峰时用电量数据+平时用电量数据+尖时用电量数据+谷时用电量数据,进行缺失值修正。与现有技术相比,本专利技术具有以下优点:1)实用性好:根据统计分析,在某沿海城市智能电表采集的过去一年用电量时序数据中,缺失/异常等脏数据的比例不超过采集数据的3%,长度不超过2和5的缺失/异常区间分别不超过65%和80%。这表明,用电量时序数据中的大部分为可用于模型训练的高质量数据,因此本专利技术将用电量时序数据切分为多个片段,并以不含异常值/缺失值的片段为基础建立样本库,能够有效提高清洗模型训练样本的质量和数量,提高其实用性;2)通用性强:通过调整样本库V和待清洗库W内样本数据的长度和K的值,能够满足不同清洗模型对训练样本数量的不同需求;通过调整第一设定阈值C1和第二设定阈值C2的值,能够满足不同业务场景对可修正缺失区间和异常区间的不同要求;索引的构建和查询可在分布式环境中执行,支持流处理作业和批处理作业,满足不同业务场景对响应时间等服务质量指标的不同要求。附图说明图1为本专利技术流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。实施例如图1所示,本专利技术提供一种用电时序数据的清洗方法,该方法首先按一定规律将用电时序数据分割为等长的多个切片,接着建立不含缺失值的切片集合的索引,然后在索引中查询与包含缺失值的切片相似的不含缺失值的切片,最后借助相似切片建立清洗模型来填补缺失值。主要包括如下步骤:已知U={u1,u2,...,ur}为用电时序数据集合,U中的每条数据的长度为p,本实施例中,取p=712。步骤1:识别用电时序数据集合U中每条用电时序数据的异常值,将异常值替换为缺失值,具体为:根据四分位距和3sigma原则,识别用电时序数据集合U中每条用电时序数据的异常值,将异常值替换为缺失值。步骤2:构建样本库V={v1,v2,...,vs}和待清洗库W={w1,w2,...,wt},样本库V和待清洗库W中的每个样本数据本文档来自技高网
...

【技术保护点】
1.一种用电时序数据的清洗方法,其特征在于,包括以下步骤:/nS1:获取用电时序数据,按设定规律将用电时序数据分割为多个切片;/nS2:将各切片按照是否含有缺失值分为第一切片和第二切片,所述的第一切片为含有缺失值的切片,所述的第二切片为不含缺失值的切片;/nS3:对第二切片组成的集合构建索引;/nS4:利用索引,在第二切片组成的集合中查询与各第一切片对应的第二切片;/nS5:利用查询得到的第二切片,基于清洗模型,分别对各对应的第一切片进行数据清洗,填补其中的缺失值。/n

【技术特征摘要】
1.一种用电时序数据的清洗方法,其特征在于,包括以下步骤:
S1:获取用电时序数据,按设定规律将用电时序数据分割为多个切片;
S2:将各切片按照是否含有缺失值分为第一切片和第二切片,所述的第一切片为含有缺失值的切片,所述的第二切片为不含缺失值的切片;
S3:对第二切片组成的集合构建索引;
S4:利用索引,在第二切片组成的集合中查询与各第一切片对应的第二切片;
S5:利用查询得到的第二切片,基于清洗模型,分别对各对应的第一切片进行数据清洗,填补其中的缺失值。


2.根据权利要求1所述的一种用电时序数据的清洗方法,其特征在于,所述的步骤S1具体包括:
S11:获取用电时序数据集合,识别其中每条用电时序数据的异常值,并将异常值替换为缺失值;
S12:按设定规律将用电时序数据集合中的各用电时序数据分割为多个切片。


3.根据权利要求1所述的一种用电时序数据的清洗方法,其特征在于,所述的步骤S3具体包括:
S31:构建样本库V和待清洗库W;
S32:将第二切片放入样本库V,并将符合设定要求的第一切片放入待清洗库W;
S33:对样本库V中的第二切片执行符号化处理;
S34:对符号化处理后样本库V中的第二切片构建全文索引。


4.根据权利要求1所述的一种用电时序数据的清洗方法,其特征在于,所述的步骤S4中,与各第一切片对应的第二切片具体为:与第一切片相似度最高的K个切片,其中,K为大于零的整数。


5.根据权利要求3所述的一种用电时序数据的清洗方法...

【专利技术属性】
技术研发人员:吴裔
申请(专利权)人:国网上海市电力公司华东电力试验研究院有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1