一种居民用电数据挖掘中应用贝叶斯估计补充缺失值的方法技术

技术编号:26418350 阅读:33 留言:0更新日期:2020-11-20 14:13
在居民用电数据管理分析中,对于数据的完整性有很高的要求,对于收集到的原数据中的缺失值,需要通过各种数学方法完成补充,并保持数据的有效性。本发明专利技术公开了一种对居民用电数据中的缺失值应用贝叶斯估计补充的方法,可以通过一系列数学计算有效补充居民用电数据中的缺失数据,达到提高数据质量,保证数据完整的的目的。

【技术实现步骤摘要】
一种居民用电数据挖掘中应用贝叶斯估计补充缺失值的方法
本专利技术涉及电力负荷预测
,具体涉及一种居民用电数据挖掘中对居民用电数据中的缺失值应用贝叶斯估计补充缺失数据的方法。
技术介绍
对居民用电消费受较多因素的影响,掌握居民用电习惯及其主要影响因素间的规律对电力系统调度,电力市场化的推进,智能化城市管理都具有重要意义。要对居民用电数据进行分析挖掘的第一步就是收集完整有效的居民用电数据。但是居民用电数据的数据集会因为各种原因(例如突发事件导致的数据丢失等)而包含缺失值,这些缺失值通常会被留为空白,或是被标记为占位符。当数据挖掘模型训练一个包含很多缺失值的数据集时,缺失值的存在会很大程度上影响机器学习模型的表现。数据阿挖掘中的一些算法会假设所有值都是数值型且包含意义的,当这些缺失值被引入数据挖掘模型中会给模型的分析结果带来不可控的影响和准确性损失的后果。面对这种情况,一种更策略是插补缺失值,也就是从观测的数据中推测出缺失值的大小,其中一种比较好的方法就是贝叶斯估计。本专利技术公开了一种对居民数据的缺失值应用贝叶斯估计的方法补充缺失数据,达到保证居民用电数据完整性的目的。
技术实现思路
本专利技术提出了一种针对居民用电数据中的缺失值应用贝叶斯估计补充缺失数据的方法,其特点在于利用贝叶斯估计方法算出极大似然数以补充居民用电数据集中的缺失值。贝叶斯估计是统计学中一种对模型的参数确定的方法,认为数据集中的各个参数是服从某种概率分布的,已有的数据只是在这种参数的分布下产生的。所以,直观理解上,就是假设一个参数θ,然后根据数据来求出这个θ.其中θ出现的概率p(θ)需要人为设定,之后再考虑结合最大化可能值的方法来求一个具体的θ。贝叶斯估计在数据量较少或者比较稀疏的情况下,考虑先验来提升准确率,其估计的参数能够较好的反映实际情况。贝叶斯估计在本专利技术中的应用是针对电力负荷预测中的缺失数据,在整个数据集的分布中进行拟合以找到最大似然数,填补空缺值,保证数据的完整性,进而确保居民用电数据挖掘模型的运行效果,填补缺失值前的原始数据集合及填补缺失值后的数据集合将进行单因素方差分析(oneway-ANOVA),计算两组数据间显著性差异值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整贝叶斯估计模型中的具体限制性参数的选择,或者仍然剔除缺失值以确保填补后的数据与原始数据不存在显著性差异,整体数据集可以保持一定的有效性,实际收集到的居民用电数据或经过去除异常值/去噪处理的数据集经过贝叶斯估计补充缺失值,可以提高整体数据集的有效性。将经过填补的数据集用于数据挖掘将大大的提高居民用电管理的可靠度与准确性。附图说明图1本专利技术实施例中利用贝叶斯估计补充缺失值的处理流程示意图。具体实施方式为使得本专利技术的内容、目的、特征及优点能够更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护说明书的范围,如图1所示本专利技术实施步骤如下。步骤一、数据预处理:对采集到的原始居民用电数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间。步骤二、贝叶斯估计补充缺失值:将经过步骤1预处理的居民用电数据标注时间戳后进行贝叶斯估计运算,补充在某些时间段没有相对应的数据,电力负荷数据在时间序列上的连贯性。具体采用的计算方法如下:1.通过数据集的分布形态确定确失值参数θ的先验分布函数P(θ);2.由整体数据集的D={x1,x2,…,xn}求出样本的联合分布函数P(D|θ),它是针对于θ的一个函数;3.利用贝叶斯公式,求出θ的后验分布:;4.求出贝叶斯估计值:;其中为计算目标所求的最大似然数,用于补充缺失值。计算方法中的先验分布函数P(θ)及样本的联合分布函数P(D|θ)由数据集拟合高斯分布而得,预设条件为数据集在整体分布上满足正态高斯分布。步骤三、数据有效性验证:原始居民用电数据集与经过补充数据处理之后的数据集需要进行数据有效性统计差异性的检查以保证数据的有效性。两组数据将进行单因素方差分析(oneway-ANOVA),计算两组数据间显著性差异值,需要保证两组数据间没有显著性差异。如果两组数据验证后存在显著性差异,则需要调整步骤二的具体参数的选择,减少对原始数据剔除极大差异值的数量以及降低去噪处理的程度以确保处理后的数据与原始数据不存在显著性差异,处理后的数据保持有效性。本专利技术提出了一种应用贝叶斯估计的方法补充居民用电数据中由于各种原因造成的缺失值的方法,其特点为在居民用电数据的处理中引入了贝叶斯估计的方法,选择最大概率的拟合数值补充缺失值,使得居民用电数据更加完整,显著提高了数据质量。通过本专利技术的应用,基于居民用电数据的分析挖掘将更准确和可靠。以上是对本专利技术的较佳实施进行了具体说明,但本专利技术创造并不限于所述实施例,熟悉本领域的技术人员在不违背本专利技术精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。本文档来自技高网...

【技术保护点】
1.本专利技术一种居民用电数据挖掘中应用贝叶斯估计补充缺失值的方法的特征在于,包括:/n步骤一、

【技术特征摘要】
1.本发明一种居民用电数据挖掘中应用贝叶斯估计补充缺失值的方法的特征在于,包括:
步骤一、数据预处理:对采集到的原始居民用电数据按时间序列排列,确定数据集起止时间,检查数据在时间序列上的缺省,标明缺省值并记录缺省的起止时间;
步骤二、贝叶斯估计补充缺失值:将经过步骤1预处理的居民用电数据标注时间戳后进行贝叶斯估计运算,补充在某些时间段没有相对应的数据,电力负荷数据在时间序列上的连贯性;
具体采用的计算方法如下:
1).通过数据集的分布形态确定确失值参数θ的先验分布函数P(θ);
2).由整体数据集的D={x1,x2,…,xn}求出样本的联合分布函数P(D|θ),它是针对于θ的一个函数;
3).利用贝叶斯公式,求出θ的后验分布:


4).求出贝叶斯估计值:


其中为计算目标所求的最大似然数,用于补充缺失值,计算方法中的先验分布函数P
(θ)及样本的联合分布函数...

【专利技术属性】
技术研发人员:周浩顾一峰胡炳谦韩俊
申请(专利权)人:上海积成能源科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1