缺失值填补方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30901799 阅读:16 留言:0更新日期:2021-11-22 23:46
本发明专利技术实施例公开了缺失值填补方法、装置、计算机设备及存储介质。所述方法包括:获取待填补的传感器数据;对待填补的传感器数据进行预处理,以得到初始数据;对所述初始数据进行信号分解,以得到分解结果;将所述分解结果输入至填补模型内进行缺失值填补,以得到填补结果;其中,所述填补模型是通过带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集训练深度学习网络所得的,所述填补模型的损失函数包括非缺失值部分的损失函数以及缺失值部分的损失函数。通过实施本发明专利技术实施例的方法可实现增强模型的表达能力,增强模型的训练,且在网络中计算缺失值部分的损失。且在网络中计算缺失值部分的损失。且在网络中计算缺失值部分的损失。

【技术实现步骤摘要】
缺失值填补方法、装置、计算机设备及存储介质


[0001]本专利技术涉及数据挖掘
,更具体地说是指缺失值填补方法、装置、计算机设备及存储介质。

技术介绍

[0002]缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。传感器所获取的数据也属于缺失值的一种。
[0003]目前对缺失值进行填补的方式主要是E2GAN,E2GAN是针对时序数据的缺失值填补而设计出来的生成式模型,对于时间序列数据采用移动窗口的方式进行切分数据,比如0

47h,48

96h,...,m

m+47h,将数据分成48h的窗口,每个样本包含48h小时数据,训练和生成的数据均包含48h数据,大段缺失填补以48小时为一个窗口进行填充,小段缺失结合已有数据进行填充,但是对于传感器数据输入至E2GAN算法进行缺失值填补时,大部分只有两列数据,时间与监测值,对于机器学习或者深度学习算法模型来说,特征太少,模型无论是做生成模型还是预测模型,模型预测或者生成性能不佳,对于缺失值填补问题,而且对于传感器数据而言,都是采用0值填充的方式再进行模型填补,由此导致模型对于有缺失值的模型无法适用,而且缺失值部分的损失通常不会在网络中计算。
[0004]因此,有必要设计一种新的方法,实现增强模型的表达能力,增强模型的训练,且在网络中计算缺失值部分的损失。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的缺陷,提供缺失值填补方法、装置、计算机设备及存储介质。
[0006]为实现上述目的,本专利技术采用以下技术方案:缺失值填补方法,包括:
[0007]获取待填补的传感器数据;
[0008]对待填补的传感器数据进行预处理,以得到初始数据;
[0009]对所述初始数据进行信号分解,以得到分解结果;
[0010]将所述分解结果输入至填补模型内进行缺失值填补,以得到填补结果;
[0011]其中,所述填补模型是通过带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集训练深度学习网络所得的,所述填补模型的损失函数包括非缺失值部分的损失函数以及缺失值部分的损失函数。
[0012]其进一步技术方案为:所述对所述初始数据进行信号分解,以得到分解结果,包括:
[0013]对所述初始数据采用变分模态分解方法进行信号分解,以得到分解结果。
[0014]其进一步技术方案为:所述对待填补的传感器数据进行预处理,以得到初始数据,包括:
[0015]对待填补的传感器数据采用线性插值方式进行插值处理,以得到插值结果;
[0016]对所述插值结果进行加噪声处理,以得到初始数据。
[0017]其进一步技术方案为:所述填补模型是通过带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集训练深度学习网络所得的,包括:
[0018]构建带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集;
[0019]构建深度学习网络模型;
[0020]设定所述损失函数;
[0021]采用样本集对所述深度学习网络模型进行训练,并采用损失函数计算对应的数值,根据所述数值对所述深度学习网络模型的网络参数进行调整,以得到填补模型。
[0022]其进一步技术方案为:所述非缺失值部分的损失函数使用已有值与填充值的均方误差进行度量。
[0023]其进一步技术方案为:所述缺失值部分的损失函数使用插值结果与填充值的均方误差进行度量。
[0024]本专利技术还提供了缺失值填补装置,包括:
[0025]数据获取单元,用于获取待填补的传感器数据;
[0026]预处理单元,用于对待填补的传感器数据进行预处理,以得到初始数据;
[0027]分解单元,用于对所述初始数据进行信号分解,以得到分解结果;
[0028]填补单元,用于将所述分解结果输入至填补模型内进行缺失值填补,以得到填补结果。
[0029]其进一步技术方案为:还包括模型获取单元;
[0030]所述模型获取单元,用于通过带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集训练深度学习网络,以得到填补模型,所述填补模型的损失函数包括非缺失值部分的损失函数以及缺失值部分的损失函数。
[0031]本专利技术还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
[0032]本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
[0033]本专利技术与现有技术相比的有益效果是:本专利技术通过对待填补的传感器数据采用线性插值和加入噪声的方式处理后,再进行信号分解,并将分解结果输入至填补模型内进行缺失值填补,且在训练填补模型时加入缺失值部分的损失函数,整个方法实现增强模型的表达能力,增强模型的训练,且在网络中计算缺失值部分的损失。
[0034]下面结合附图和具体实施例对本专利技术作进一步描述。
附图说明
[0035]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1为本专利技术实施例提供的缺失值填补方法的应用场景示意图;
[0037]图2为本专利技术实施例提供的缺失值填补方法的流程示意图;
[0038]图3为本专利技术实施例提供的缺失值填补方法的子流程示意图;
[0039]图4为本专利技术实施例提供的缺失值填补方法的子流程示意图;
[0040]图5为本专利技术实施例提供的缺失值填补装置的示意性框图;
[0041]图6为本专利技术实施例提供的缺失值填补装置的预处理单元的示意性框图;
[0042]图7为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0043]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]应当理解,当在本说明书和所附权利要求书中使用时,术语

包括"和

包含"指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0045]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.缺失值填补方法,其特征在于,包括:获取待填补的传感器数据;对待填补的传感器数据进行预处理,以得到初始数据;对所述初始数据进行信号分解,以得到分解结果;将所述分解结果输入至填补模型内进行缺失值填补,以得到填补结果;其中,所述填补模型是通过带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集训练深度学习网络所得的,所述填补模型的损失函数包括非缺失值部分的损失函数以及缺失值部分的损失函数。2.根据权利要求1所述的缺失值填补方法,其特征在于,所述对所述初始数据进行信号分解,以得到分解结果,包括:对所述初始数据采用变分模态分解方法进行信号分解,以得到分解结果。3.根据权利要求1所述的缺失值填补方法,其特征在于,所述对待填补的传感器数据进行预处理,以得到初始数据,包括:对待填补的传感器数据采用线性插值方式进行插值处理,以得到插值结果;对所述插值结果进行加噪声处理,以得到初始数据。4.根据权利要求1所述的缺失值填补方法,其特征在于,所述填补模型是通过带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集训练深度学习网络所得的,包括:构建带有缺失值的数据集以及对应的没有缺失值的数据形成的样本集;构建深度学习网络模型;设定所述损失函数;采用样本集对所述深度学习网络模型进行训练,并采用损失函数计算对应的数值,根据所述数值对所述深度学习...

【专利技术属性】
技术研发人员:张军郑增荣张亮杨杰
申请(专利权)人:杭州鲁尔物联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1