【技术实现步骤摘要】
一种对工业设备采集的数据进行处理和检测的方法及装置
本专利技术涉及工业数据处理领域,尤其涉及一种对工业设备采集的数据进行处理和检测的方法及装置。
技术介绍
工业大数据由工业领域信息化应用所产生的海量数据组成,由于数据采集系统的缺陷、链路问题、硬件故障、人为因素等原因,造成数据质量问题的广泛存在,而低劣的数据可能会导致分析结果出现偏差,引发生产事故,因此,迫切需要对工业大数据进行清洗操作。数据清洗的原理是利用如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据,主要处理方式包括:无效值的修正、缺失值的补全、重复数据的合并、异常值的检测。无效值是指格式不符合规范,或者数值没有意义的错误数据。工业设备采集的数据中,异常值通常与无效值相互混杂。缺失值是指由于存储设备损坏、数据输入违反规则或数据采集设备容量的限制等主观、客观原因导致缺失的数据。现有技术是保留完整的记录来分析查询,但这种方式只适用于缺失率非常低的情况。若有大量数据缺失,会导致数据分布的偏差以及对数据分析结果的误导。更合理的处理方式应当是尽可能多地恢复丢失信息。常见的恢复丢失信息的处理方式是用均值或者最常出现的值进行替换。但上述处理方式忽略了工业设备采集的数据的属性之间的关系,对同一属性的所有缺失的数据都填充一个固定值并不可取。还有许多统计学与机器学习的模型被用来解决数据缺失的问题,常见的统计学填充方法有EM算法、回归预测法、插值法等。机器学习领域中包括KNN聚类法、分类算法和神经网络算法,但基于统计学与机器学习的模型 ...
【技术保护点】
1.一种对工业设备采集的数据进行处理和检测的方法,其特征在于,包括以下步骤:/n步骤S101:接收由工业设备的传感器采集的数据;/n步骤S102:对所述数据的无效值进行修正,若采集的所述数据中,某项数据的格式不符合要求,或者某项数据的数据值大小超出允许的阈值,则将该项数据删除,将该项数据标记为数据缺失;/n步骤S103:对修正后的数据,确定数据缺失值,根据数据缺失情况及与所述工业设备的传感器的数据采样对照关系,将缺失的数据分为短时缺失和长时缺失两类,采用基于双层LSTM的模型来补全缺失数据;/n步骤S104:将填补完全部缺失数据的修正数据中的重复值进行合并处理;/n步骤S105:对合并处理重复值后的数据,检测时间序列的异常,所述时间序列的异常包括异常点和模式异常;通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常;/n步骤S106:根据异常点和模式异常数据生成报告。/n
【技术特征摘要】
1.一种对工业设备采集的数据进行处理和检测的方法,其特征在于,包括以下步骤:
步骤S101:接收由工业设备的传感器采集的数据;
步骤S102:对所述数据的无效值进行修正,若采集的所述数据中,某项数据的格式不符合要求,或者某项数据的数据值大小超出允许的阈值,则将该项数据删除,将该项数据标记为数据缺失;
步骤S103:对修正后的数据,确定数据缺失值,根据数据缺失情况及与所述工业设备的传感器的数据采样对照关系,将缺失的数据分为短时缺失和长时缺失两类,采用基于双层LSTM的模型来补全缺失数据;
步骤S104:将填补完全部缺失数据的修正数据中的重复值进行合并处理;
步骤S105:对合并处理重复值后的数据,检测时间序列的异常,所述时间序列的异常包括异常点和模式异常;通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常;
步骤S106:根据异常点和模式异常数据生成报告。
2.如权利要求1所述的对工业设备采集的数据进行处理和检测的方法,其特征在于,所述基于双层LSTM模型补全长时缺失数据,包括:
步骤S201:确定缺失数据的位置;
根据工业设备采集数据的采样间隔,从修正后的数据中确定数据缺失值的位置;根据删除了无效值的数据位置,确定数据缺失值的位置;记录全部数据缺失值的位置,并对全部数据缺失值位置按时间顺序进行排序;将当前处理位置标记为第一个数据缺失值的位置;
步骤S202:判断是否填补完全部缺失数据,若是,输出填补完全部缺失数据的修正数据,方法结束;若否,进入步骤S203;
步骤S203:通过相关性计算确定与缺失数据相关的其他n个属性,n≥1,
计算公式为:
其中,由工业设备的传感器采集的数据具有多个属性,X为工业设备采集到的含有缺失数据的属性集合,Y为工业设备在同一时间采集到的不含缺失数据的属性集合;Xi为缺失数据的属性集合中的任一属性,Yj为不含缺失数据的属性集合的任一属性;生成不含缺失数据的副本数据集,将删除工业设备采集的数据中的缺失数据,生成副本数据集,根据副本数据集,计算Cov(Xi,Yj)、D(Xi)、D(Yj),Cov(Xi,Y)为Xi,Yj的协方差,D(Xi)、D(Yj)分别为Xi、Yj的方差;
当Xi与Yj之间的相关系数的绝对值时,认为Xi与Yj是相关属性,将与Xi相关的属性按相关性数值排序,选取相关性最高的前n个属性作为与缺失数据相关的其他属性;
步骤S204:将该缺失数据前面的time_step个数据作为输入,调用训练好的LSTM模型,计算缺失数据,并将计算出的数据填补所述缺失数据;time_step为预定步长;
步骤S205:将当前处理位置向后移动一位,进入步骤S202。
3.如权利要求2所述的对工业设备采集的数据进行处理和检测的方法,其特征在于,所述LSTM模型的训练过程为:
步骤S301:配置双层LSTM模型,模型的输入层input_size=n,输出层output_size=1;确定该双层LSTM模型的训练参数,包括隐藏层的节点数量rnn_unit、每次训练传入的数量batch_size、每批数据的规模time_step;其中,n为相关性最高的属性的个数;
步骤S302:确定训练集和测试集数据,确定训练集和测试集的数据比例;
步骤S303:按比例选取删除了缺失数据的多维传感器采集的数据作为训练集中的训练数据,对双层LSTM模型进行训练,得到训练参数的各项数值;
步骤S304:根据测试集的测试结果调整训练参数。
4.如权利要求3所述的对工业设备采集的数据进行处理和检测的方法,其特征在于,通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常,包括:
所述基于密度的局部异常检测算法(LOF)检测异常点,包括:
步骤S401:将合并处理重复值后的数据作为待检测的数据,将待检测的数据及与该待检测的数据的属性相关的其他n个属性对应的数据打包成元组作为LOF算法的输入;
步骤S402:设定参数k的范围,k∈[min,max],k为整数;对于每一个k值,将每个待检测数据作为一个点,对每个点执行一次LOF算法都会获得一个离群因子值,在k的所有取值分别运行之后,对每个点的各离群因子值求均值,作为该点的离群因子均值,计算公式为:
其中,min、max分别为预置的范围值,LOFk(p)为对应于k,点p的离群因子值;
步骤S403:输出离群因子均值大于阈值的点,作为异常点;
所述基于双层LSTM模型检测模式异常,包括:
步骤S501:调用训练好的LSTM模型进行时间序列预测,得到预测结果y_predict;
步骤S502:计算预测结果y_predict与实际结果y_test的差值e;
步骤S503:设置范围区间error_buffer,若差值e不在该范围区间error_buffer内,与该差值e对应的点作为异常点。
5.一种对工业设备采集的数据进行处理和检测的装置,其特征在于,所述装置包括:
采集模块:接收由工业设备的传感器采集的数据;
修正模块:...
【专利技术属性】
技术研发人员:刘晓凯,许方敏,徐思佳,常锋伟,
申请(专利权)人:北京赛博星通科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。