System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,特别涉及一种数据清洗方法、装置、设备及存储介质。
技术介绍
1、随着大数据和互联网的快速发展,数据量呈现爆炸式增长。在汽车制造业数字化生产过程的数据分析过程中,经常需要对原始数据进行清洗,以保证数据质量和准确性。传统的数据清洗方法在处理流数据时,会导致部分信息损坏或丢失,且无法满足电子制造行业波峰焊数据清洗的效率和准确性要求。现有的数据清洗算法对于mes(manufacturingexecution system,制造企业生产过程执行系统)系统,以及电子制造生产线的大数据和流数据而言有诸多的局限性,比如对缺失值使用通用的列平均值等方法填充缺失值时,协变之间的独立性是隐含的假设。另外,使用常见的分位数方法识别异常值也存在很多局限性,因为电子制造业中很多数据都是正态分布、指数分布等连续分布函数,传统q1/4、q3/4分位数,在数据较大时(大于约两千个数据时),由于阈值上下限间距过窄会把多个属于正态分布函数且处于其边界的数据误判为异常值,最终会导致过度删除的问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种数据清洗方法、装置、设备和存储介质,能够降低误判率,提升流数据清洗的准确性和处理效率。其具体方案如下:
2、第一方面,本专利技术公开了一种数据清洗方法,包括:
3、获取波峰焊设备的温度数据,并判断所述温度数据是否服从正态分布;
4、若所述温度数据服从正态分布,则将所述温度数据确定为目标数据,并基于所述目标数据计算
5、将所述目标导入数据导入执行管理系统,以利用所述执行管理系统基于所述目标导入数据以及预设分位数计算阈值,并基于所述阈值确定预设阈值区间;
6、基于所述预设阈值区间执行预设数据删除操作,以得到清洗后数据,并基于自动数据填充函数以及所述清洗后数据执行预设数据填充操作,得到最终数据。
7、可选的,所述获取波峰焊设备的温度数据,并判断所述温度数据是否服从正态分布,包括:
8、定时从波峰焊设备的存储器中获取预设数量个预热温区的温度数据;
9、利用预设数据类型检测函数判断所述温度数据的数据类型是否为数值型;
10、将所述数据类型不为所述数值型的所述温度数据确定为待修正数据,并利用预设数据调试脚本修正所述待修正数据,得到修正后数据;
11、将所述修正后数据确定为新的所述温度数据,并重新进入所述利用预设数据类型检测函数判断所述温度数据的数据类型是否为数值型的步骤;
12、若所述温度数据的所述数据类型为所述数值型,则对所述温度数据执行预设分布拟合操作,以判断所述温度数据是否服从所述正态分布。
13、可选的,所述基于所述目标数据计算置信区间,将位于所述置信区间内部的所述目标数据确定为目标导入数据,包括:
14、基于所述目标数据确定所述正态分布的参数;所述参数包含标准差以及均数;
15、计算所述正态分布的概率密度函数值;
16、基于所述概率密度函数值和所述参数,并利用wald方法和/或似然方法进行计算,得到计算结果;
17、将所述计算结果中的最小值确定为第一阈值下限,将所述计算结果中的最大值确定为第一阈值上限,基于所述第一阈值下限以及所述第一阈值上限确定所述置信区间;
18、依次判断所述目标数据是否位于所述置信区间,并将位于所述置信区间内部的所述目标数据确定为所述目标导入数据。
19、可选的,所述将所述目标导入数据导入执行管理系统,以利用所述执行管理系统基于所述目标导入数据以及预设分位数计算阈值,并基于所述阈值确定预设阈值区间,包括:
20、将所述目标导入数据导入执行管理系统,以利用所述执行管理系统判断所述目标导入数据的数据类型是否为所述数值型;
21、若所述目标导入数据的数据类型为所述数值型,则基于所述目标导入数据、10%分位数以及90%分位数计算第二阈值上限以及第二阈值下限;
22、基于所述第二阈值上限以及所述第二阈值下限确定所述预设阈值区间。
23、可选的,所述将所述目标导入数据导入执行管理系统,以利用所述执行管理系统基于所述目标导入数据以及预设分位数计算阈值,并基于所述阈值确定预设阈值区间之后,还包括:
24、判断所述目标导入数据是否位于所述预设阈值区间内;
25、若所述目标导入数据位于所述预设阈值区间之外,则将所述目标导入数据标记为异常值;
26、相应的,所述基于所述预设阈值区间执行预设数据删除操作,以得到清洗后数据,包括:
27、将全部所述目标导入数据中标记为所述异常值的数据删除,以得到所述清洗后数据,并将所述清洗后数据存储。
28、可选的,所述基于自动数据填充函数以及所述清洗后数据执行预设数据填充操作,得到最终数据,包括:
29、从整个数据矩阵表中指定所有列,在每个所述列中确定不存在所述清洗后数据的空缺位置;
30、利用填充模型并基于目标下限值以及目标上限值将目标填充数据填充至所述空缺位置,基于所述清洗后数据以及所述目标填充数据得到所述最终数据。
31、可选的,所述基于自动数据填充函数以及所述清洗后数据执行预设数据填充操作,得到最终数据之前,还包括:
32、将所述清洗后数据划分为训练集、验证集以及测试集,并对所述训练集、所述验证集以及所述测试集执行中心化处理和统一尺度化处理,得到处理后训练集、处理后验证集以及处理后测试集;
33、确定每个所述处理后训练集中每一列数据中存在的所述空缺位置,并在所述空缺位置填充所述目标填充数据,以得到填充后训练集;
34、基于所述目标填充数据判断预设调节参数是否满足用户需求;其中,所述预设调节参数包含维度上限以及最大迭代次数;
35、若所述预设调节参数满足所述用户需求,则基于所述填充后训练集、所述预设调节参数拟合所述填充模型;
36、利用所述处理后验证集计算所述填充模型的偏倚值,并最小化所述偏倚值,得到处理后偏倚值;
37、对所述处理后偏倚值执行秩缩减,以得到所述目标下限值;
38、对所述处理后测试集中的数据执行所述秩缩减,以得到所述目标上限值。
39、第二方面,本专利技术公开了一种数据清洗装置,包括:
40、正态分布判断模块,用于获取波峰焊设备的温度数据,并判断所述温度数据是否服从正态分布;
41、置信区间判断模块,用于若所述温度数据服从正态分布,则将所述温度数据确定为目标数据,并基于所述目标数据计算置信区间,将位于所述置信区间内部的所述目标数据确定为目标导入数据;
42、阈值区间确定模块,用于将所述目标导入数据导入执行管理系统,以利用所述执行管理系统基于所述目标导入数据以及预设分位数计算阈值,并基于所述阈值本文档来自技高网...
【技术保护点】
1.一种数据清洗方法,其特征在于,包括:
2.根据权利要求1所述的数据清洗方法,其特征在于,所述获取波峰焊设备的温度数据,并判断所述温度数据是否服从正态分布,包括:
3.根据权利要求1所述的数据清洗方法,其特征在于,所述基于所述目标数据计算置信区间,将位于所述置信区间内部的所述目标数据确定为目标导入数据,包括:
4.根据权利要求2所述的数据清洗方法,其特征在于,所述将所述目标导入数据导入执行管理系统,以利用所述执行管理系统基于所述目标导入数据以及预设分位数计算阈值,并基于所述阈值确定预设阈值区间,包括:
5.根据权利要求1至4任一项所述的数据清洗方法,其特征在于,所述将所述目标导入数据导入执行管理系统,以利用所述执行管理系统基于所述目标导入数据以及预设分位数计算阈值,并基于所述阈值确定预设阈值区间之后,还包括:
6.根据权利要求5所述的数据清洗方法,其特征在于,所述基于自动数据填充函数以及所述清洗后数据执行预设数据填充操作,得到最终数据,包括:
7.根据权利要求6所述的数据清洗方法,其特征在于,所述基于自动数
8.一种数据清洗装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据清洗方法。
...【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:
2.根据权利要求1所述的数据清洗方法,其特征在于,所述获取波峰焊设备的温度数据,并判断所述温度数据是否服从正态分布,包括:
3.根据权利要求1所述的数据清洗方法,其特征在于,所述基于所述目标数据计算置信区间,将位于所述置信区间内部的所述目标数据确定为目标导入数据,包括:
4.根据权利要求2所述的数据清洗方法,其特征在于,所述将所述目标导入数据导入执行管理系统,以利用所述执行管理系统基于所述目标导入数据以及预设分位数计算阈值,并基于所述阈值确定预设阈值区间,包括:
5.根据权利要求1至4任一项所述的数据清洗方法,其特征在于,所述将所述目标导入数据导入执行管理系统,以利用所...
【专利技术属性】
技术研发人员:杜旭辉,金润枫,曹亮军,
申请(专利权)人:科世达上海机电有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。