一种对工业设备采集的数据进行处理和检测的方法及装置制造方法及图纸

技术编号:26420103 阅读:61 留言:0更新日期:2020-11-20 14:15
本发明专利技术提供一种对工业设备采集的数据进行处理和检测的方法及装置,所述方法包括:接收由工业设备的传感器采集的数据;对所述数据的无效值进行修正;根据数据缺失情况及与所述工业设备的传感器的数据采样对照关系,将缺失的数据分为短时缺失和长时缺失两类;采用基于双层LSTM模型补全缺失数据;合并处理重复值;检测时间序列的异常,所述时间序列的异常包括异常点和模式异常;根据异常点和模式异常数据生成报告。根据本发明专利技术的方案,可以分别找出所有异常点和模式异常点,为工厂提供更准确的设备异常信息。为工厂提供准确的设备状态变化信息,可以挖掘工业设备的潜在故障,实现设备的预维护和性能退化评估。

【技术实现步骤摘要】
一种对工业设备采集的数据进行处理和检测的方法及装置
本专利技术涉及工业数据处理领域,尤其涉及一种对工业设备采集的数据进行处理和检测的方法及装置。
技术介绍
工业大数据由工业领域信息化应用所产生的海量数据组成,由于数据采集系统的缺陷、链路问题、硬件故障、人为因素等原因,造成数据质量问题的广泛存在,而低劣的数据可能会导致分析结果出现偏差,引发生产事故,因此,迫切需要对工业大数据进行清洗操作。数据清洗的原理是利用如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据,主要处理方式包括:无效值的修正、缺失值的补全、重复数据的合并、异常值的检测。无效值是指格式不符合规范,或者数值没有意义的错误数据。工业设备采集的数据中,异常值通常与无效值相互混杂。缺失值是指由于存储设备损坏、数据输入违反规则或数据采集设备容量的限制等主观、客观原因导致缺失的数据。现有技术是保留完整的记录来分析查询,但这种方式只适用于缺失率非常低的情况。若有大量数据缺失,会导致数据分布的偏差以及对数据分析结果的误导。更合理的处理方式应当是尽可能多地恢复丢失信息。常见的恢复丢失信息的处理方式是用均值或者最常出现的值进行替换。但上述处理方式忽略了工业设备采集的数据的属性之间的关系,对同一属性的所有缺失的数据都填充一个固定值并不可取。还有许多统计学与机器学习的模型被用来解决数据缺失的问题,常见的统计学填充方法有EM算法、回归预测法、插值法等。机器学习领域中包括KNN聚类法、分类算法和神经网络算法,但基于统计学与机器学习的模型也没有考虑到工业设备采集的数据的属性之间的关系。即传统方法对缺失值的处理通常只考虑数据的自相关性,并未考虑其他相关维度数据变化的影响。重复数据是指名称或者属性值相同的数据,根据预先设置好的判断标准来检测工业设备采集的数据中是否有重复记录。合并或消除是处理重复数据的基本方法。异常值是指时间序列中与其他部分的波动明显不同的数据点或数据段。目前常用的异常检测方法包括基于统计的方法、基于聚类的方法、基于近邻的方法。基于统计的方法是假定正常数据是由符合某种分布的统计模型生成的,违背规律的数据就是异常值;还可以通过假定在随机模型中高概率区域中出现正常值的概率来描述,而异常值出现在低概率区域中。该方法的缺点是高度依赖于数据的模型假设。基于聚类的方法,通过聚类创建数据模型,将相似的数据分到同一个簇中,尽可能地使簇内相似度大,簇间相似度小。如果一个数据不属于任何簇,或者远离其他簇,则可以判断该数据为异常值。基于聚类的方法更适合检测全局异常值。基于近邻的方法,假设正常数据位于密度较高的邻域,而异常值通常远离其邻域,位于稀疏区域。基于近邻的方法包括基于距离和基于密度的方法两种。但现有技术中只能检测出异常点,却无法检测出模式异常状态。
技术实现思路
为解决上述技术问题,本专利技术提出了一种对工业设备采集的数据进行处理和检测的方法及装置,所述方法及装置,用以解决现有技术中对数据清洗,尤其是对工业设备采集到的数据清洗时,没有考虑到工业设备采集的数据的属性之间的关系、以及无法检测出模式异常状态的技术问题。根据本专利技术的第一方面,提供一种对工业设备采集的数据进行处理和检测的方法,所述方法包括以下步骤:步骤S101:步骤S101:接收由工业设备的传感器采集的数据;步骤S102:对所述数据的无效值进行修正,若采集的所述数据中,某项数据的格式不符合要求,或者某项数据的数据值大小超出允许的阈值,则将该项数据删除,将该项数据标记为数据缺失;步骤S103:对修正后的数据,确定数据缺失值,根据数据缺失情况及与所述工业设备的传感器的数据采样对照关系,将缺失的数据分为短时缺失和长时缺失两类,采用基于双层LSTM的模型来补全缺失数据;步骤S104:将填补完全部缺失数据的修正数据中的重复值进行合并处理;步骤S105:对合并处理重复值后的数据,检测时间序列的异常,所述时间序列的异常包括异常点和模式异常;通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常;步骤S106:根据异常点和模式异常数据生成报告。进一步地,所述基于双层LSTM模型补全长时缺失数据,包括:步骤S201:确定缺失数据的位置;根据工业设备采集数据的采样间隔,从修正后的数据中确定数据缺失值的位置;根据删除了无效值的数据位置,确定数据缺失值的位置;记录全部数据缺失值的位置,并对全部数据缺失值位置按时间顺序进行排序;将当前处理位置标记为第一个数据缺失值的位置;步骤S202:判断是否填补完全部缺失数据,若是,输出填补完全部缺失数据的修正数据,方法结束;若否,进入步骤S203;步骤S203:通过相关性计算确定与缺失数据相关的其他n个属性,n≥1,计算公式为:其中,由工业设备的传感器采集的数据具有多个属性,X为工业设备采集到的含有缺失数据的属性集合,Y为工业设备在同一时间采集到的不含缺失数据的属性集合;Xi为缺失数据的属性集合中的任一属性,Yj为不含缺失数据的属性集合的任一属性;生成不含缺失数据的副本数据集,将删除工业设备采集的数据中的缺失数据,生成副本数据集,根据副本数据集,计算Cov(Xi,Yj)、D(Xi)、D(Yj),Cov(Xi,Y)为Xi,Yj的协方差,D(Xi)、D(Yj)分别为Xi、Yj的方差;当Xi与Yj之间的相关系数的绝对值时,认为Xi与Yj是相关属性,将与Xi相关的属性按相关性数值排序,选取相关性最高的前n个属性作为与缺失数据相关的其他属性;步骤S204:将该缺失数据前面的time_step个数据作为输入,调用训练好的LSTM模型,计算缺失数据,并将计算出的数据填补所述缺失数据;time_step为预定步长;步骤S205:将当前处理位置向后移动一位,进入步骤S202。进一步地,所述LSTM模型的训练过程为:按比例选取删除了缺失数据的多维传感器采集的数据作为训练集中的训练数据,对双层LSTM模型进行训练,得到训练参数的各项数值;步骤S304:根据测试集的测试结果调整训练参数。进一步地,通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常,包括:所述基于密度的局部异常检测算法(LOF)检测异常点,包括:步骤S401:将合并处理重复值后的数据作为待检测的数据,将待检测的数据及与该待检测的数据的属性相关的其他n个属性对应的数据打包成元组作为LOF算法的输入;步骤S402:设定参数k的范围,k∈[min,max],k为整数;对于每一个k值,将每个待检测数据作为一个点,对每个点执行一次LOF算法都会获得一个离群因子值,在k的所有取值分别运行之后,对每个点的各离群因子值求均值,作为该点的离群因子均值,计算公式为:其中,min、max分别为预置的范围值,LOFk(p)为对应于k,点p的离群因子值;步骤S403:输出离群因子均值大于本文档来自技高网
...

【技术保护点】
1.一种对工业设备采集的数据进行处理和检测的方法,其特征在于,包括以下步骤:/n步骤S101:接收由工业设备的传感器采集的数据;/n步骤S102:对所述数据的无效值进行修正,若采集的所述数据中,某项数据的格式不符合要求,或者某项数据的数据值大小超出允许的阈值,则将该项数据删除,将该项数据标记为数据缺失;/n步骤S103:对修正后的数据,确定数据缺失值,根据数据缺失情况及与所述工业设备的传感器的数据采样对照关系,将缺失的数据分为短时缺失和长时缺失两类,采用基于双层LSTM的模型来补全缺失数据;/n步骤S104:将填补完全部缺失数据的修正数据中的重复值进行合并处理;/n步骤S105:对合并处理重复值后的数据,检测时间序列的异常,所述时间序列的异常包括异常点和模式异常;通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常;/n步骤S106:根据异常点和模式异常数据生成报告。/n

【技术特征摘要】
1.一种对工业设备采集的数据进行处理和检测的方法,其特征在于,包括以下步骤:
步骤S101:接收由工业设备的传感器采集的数据;
步骤S102:对所述数据的无效值进行修正,若采集的所述数据中,某项数据的格式不符合要求,或者某项数据的数据值大小超出允许的阈值,则将该项数据删除,将该项数据标记为数据缺失;
步骤S103:对修正后的数据,确定数据缺失值,根据数据缺失情况及与所述工业设备的传感器的数据采样对照关系,将缺失的数据分为短时缺失和长时缺失两类,采用基于双层LSTM的模型来补全缺失数据;
步骤S104:将填补完全部缺失数据的修正数据中的重复值进行合并处理;
步骤S105:对合并处理重复值后的数据,检测时间序列的异常,所述时间序列的异常包括异常点和模式异常;通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常;
步骤S106:根据异常点和模式异常数据生成报告。


2.如权利要求1所述的对工业设备采集的数据进行处理和检测的方法,其特征在于,所述基于双层LSTM模型补全长时缺失数据,包括:
步骤S201:确定缺失数据的位置;
根据工业设备采集数据的采样间隔,从修正后的数据中确定数据缺失值的位置;根据删除了无效值的数据位置,确定数据缺失值的位置;记录全部数据缺失值的位置,并对全部数据缺失值位置按时间顺序进行排序;将当前处理位置标记为第一个数据缺失值的位置;
步骤S202:判断是否填补完全部缺失数据,若是,输出填补完全部缺失数据的修正数据,方法结束;若否,进入步骤S203;
步骤S203:通过相关性计算确定与缺失数据相关的其他n个属性,n≥1,
计算公式为:
其中,由工业设备的传感器采集的数据具有多个属性,X为工业设备采集到的含有缺失数据的属性集合,Y为工业设备在同一时间采集到的不含缺失数据的属性集合;Xi为缺失数据的属性集合中的任一属性,Yj为不含缺失数据的属性集合的任一属性;生成不含缺失数据的副本数据集,将删除工业设备采集的数据中的缺失数据,生成副本数据集,根据副本数据集,计算Cov(Xi,Yj)、D(Xi)、D(Yj),Cov(Xi,Y)为Xi,Yj的协方差,D(Xi)、D(Yj)分别为Xi、Yj的方差;
当Xi与Yj之间的相关系数的绝对值时,认为Xi与Yj是相关属性,将与Xi相关的属性按相关性数值排序,选取相关性最高的前n个属性作为与缺失数据相关的其他属性;
步骤S204:将该缺失数据前面的time_step个数据作为输入,调用训练好的LSTM模型,计算缺失数据,并将计算出的数据填补所述缺失数据;time_step为预定步长;
步骤S205:将当前处理位置向后移动一位,进入步骤S202。


3.如权利要求2所述的对工业设备采集的数据进行处理和检测的方法,其特征在于,所述LSTM模型的训练过程为:
步骤S301:配置双层LSTM模型,模型的输入层input_size=n,输出层output_size=1;确定该双层LSTM模型的训练参数,包括隐藏层的节点数量rnn_unit、每次训练传入的数量batch_size、每批数据的规模time_step;其中,n为相关性最高的属性的个数;
步骤S302:确定训练集和测试集数据,确定训练集和测试集的数据比例;
步骤S303:按比例选取删除了缺失数据的多维传感器采集的数据作为训练集中的训练数据,对双层LSTM模型进行训练,得到训练参数的各项数值;
步骤S304:根据测试集的测试结果调整训练参数。


4.如权利要求3所述的对工业设备采集的数据进行处理和检测的方法,其特征在于,通过基于密度的局部异常检测算法(LOF)检测异常点,基于双层LSTM模型检测模式异常,包括:
所述基于密度的局部异常检测算法(LOF)检测异常点,包括:
步骤S401:将合并处理重复值后的数据作为待检测的数据,将待检测的数据及与该待检测的数据的属性相关的其他n个属性对应的数据打包成元组作为LOF算法的输入;
步骤S402:设定参数k的范围,k∈[min,max],k为整数;对于每一个k值,将每个待检测数据作为一个点,对每个点执行一次LOF算法都会获得一个离群因子值,在k的所有取值分别运行之后,对每个点的各离群因子值求均值,作为该点的离群因子均值,计算公式为:



其中,min、max分别为预置的范围值,LOFk(p)为对应于k,点p的离群因子值;
步骤S403:输出离群因子均值大于阈值的点,作为异常点;
所述基于双层LSTM模型检测模式异常,包括:
步骤S501:调用训练好的LSTM模型进行时间序列预测,得到预测结果y_predict;
步骤S502:计算预测结果y_predict与实际结果y_test的差值e;
步骤S503:设置范围区间error_buffer,若差值e不在该范围区间error_buffer内,与该差值e对应的点作为异常点。


5.一种对工业设备采集的数据进行处理和检测的装置,其特征在于,所述装置包括:
采集模块:接收由工业设备的传感器采集的数据;
修正模块:...

【专利技术属性】
技术研发人员:刘晓凯许方敏徐思佳常锋伟
申请(专利权)人:北京赛博星通科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1