本发明专利技术提供一种基于因果推断的工业数据特征降维方法,包括步骤:S1:获取工业系统监测数据集;S2:进行数据预处理操作;S3:使用PCMCI+因果关系推断方法,获得监测变量间的因果关系;S4:将因果关系转化为因果关系矩阵;S5:利用主成分分析对因果关系矩阵进行降维,提取因果关系矩阵中的关键信息;S6:将工业系统监测数据集与特征向量矩阵相乘,构建数据集X2;S7:利用自编码器将经过数据降维后的数据集X2进行故障检测。本发明专利技术的一种基于因果推断的工业数据特征降维方法,以便挖掘工业监测变量间的本质关系,提取出能够反映系统实际运行状态的信息,滤除无用的噪声,进而提高工业系统故障诊断的准确率并减小计算成本。诊断的准确率并减小计算成本。诊断的准确率并减小计算成本。
【技术实现步骤摘要】
基于因果推断的工业数据特征降维方法
[0001]本专利技术涉及特征降维方法
,尤其涉及一种基于因果推断的工业数据特征降维方法。
技术介绍
[0002]故障检测是指利用设备模型或设备监测数据,对工业设备的健康状态进行评估,判断设备是否发生故障,以便进行及时的维护措施,避免因设备故障导致生产安全事故。故障检测技术对于降低生产成本以及保障生产过程安全具有重要意义。故障检测方法主要包括基于模型的方法和数据驱动的方法。随着现代工业生产流程的复杂化,构建精确的工业系统模型变得愈加困难。而随着智能传感器、工业物联网和数据存储技术的发展,制造企业可以从工业设备中获取大量的监测数据并将数据用于设备故障检测。同时,计算机运算速度的提升与机器学习算法的发展又简化了检测数据应用于故障检测的流程。因此,数据驱动的工业设备故障诊断成为了热门的研究课题。
[0003]然而,大量的监测数据也会带来计算量大、数据冗余、噪声污染等问题。随着工业监测数据维数的增大,故障监测计算负担呈指数级增长。原始数据中的噪声也会影响故障检测的准确率。因此,在故障检测前需要对原始工业监测数据进行数据降维处理,从原始数据中提取设备运行的关键信息。特征降维是指通过某种数据处理规则,将高维向量空间的数据映射到低维向量空间。特征降维包括特征选择与特征提取。特征选择是指从数据中选择出可以保留原数据大部分信息的特征子集。特征提取则是将原始数据中的有用信息合并成一些新的特征。传统的特征降维方法包括相关性排序、主成分分析、独立成分分析、线性判别分析、等距映射等,均为基于相关性的方法。近年来的研究和实践表明,基于相关性的特征降维方法存在可解释性差、性能不稳定以及对高耦合系统降维效果不好等问题。
[0004]目前,研究人员已经提出大量基于因果推断的特征选择方法,也称为马尔科夫边界发现算法。然而,特征选择忽略了特征子集以外特征所包含的信息,可能会导致信息的损失,进而影响工业系统故障检测的准确率。
技术实现思路
[0005]针对上述现有技术中的不足,本专利技术提供一种基于因果推断的工业数据特征降维方法,以便挖掘工业监测变量间的本质关系,提取出能够反映系统实际运行状态的信息,滤除无用的噪声,进而提高工业系统故障诊断的准确率并减小计算成本。
[0006]为了实现上述目的,本专利技术提供一种基于因果推断的工业数据特征降维方法,包括步骤:
[0007]S1:获取工业系统监测数据集X;
[0008]S2:对获取的所述工业系统监测数据集X进行数据预处理操作;
[0009]S3:使用PCMCI+因果关系推断方法,获得监测变量间的因果关系;
[0010]S4:将所述因果关系转化为因果关系矩阵;
[0011]S5:利用主成分分析对所述因果关系矩阵进行降维,提取所述因果关系矩阵中的关键信息,构成一特征向量矩阵V2;
[0012]S6:将所述工业系统监测数据集X与所述特征向量矩阵V2相乘,构建包含k个变量的数据集X2,X2=XV2;
[0013]S7:利用自编码器将经过数据降维后的所述数据集X2进行故障检测。
[0014]优选地,所述S1步骤中,所述工业系统监测数据集X的表达式为:
[0015][0016]其中,m表示数据中变量的数量,n表示每个变量的数据点数量,数据点x
ij
表示第i个变量在第j时刻的监测值;其中i=1,2,...,n,j=1,2,...,m;数据集分为工业系统正常运行状态下收集的数据和发生故障时收集的数据。
[0017]优选地,所述S2步骤进一步包括步骤:
[0018]S21:对所述工业系统监测数据集X进行缺失值补全操作,防止数据集中的缺失值影响因果推断与故障检测操作结果的准确性;
[0019]S22:对所述工业系统监测数据集X进行线性归一化处理,防止检验结果被数量级较大的变量所支配,同时缓解因监测数据数量级差异过大导致的模型收敛速度放缓。
[0020]优选地,所述S3步骤中:
[0021]因果关系的表达式为(x
(t
‑
τ)i
,x
tj
);其中原因为x
(t
‑
τ)i
,结果为x
tj
,因果关系的方向由x
(t
‑
τ)i
指向x
tj
;因果关系具体包括因果关系的对象变量、方向、因果关系强度S(x
(t
‑
τ)i
,x
tj
)以及因果关系的时间延迟τ;因果关系强度的取值范围为
‑
1到1;因果关系的时间延迟为一个非负整数;t表示时间。
[0022]优选地,所述S4步骤中:
[0023]所述因果关系矩阵为m行m列的矩阵;对于所述因果关系矩阵的第i行和第j列中的元素,如果因果网络中的第i个特征变量和第j个特征变量之间存在因果关系,则所述因果关系矩阵中的元素a
ij
与a
ji
的值为所述因果关系强度S(x
(t
‑
τ)i
,x
tj
);如果两个变量间存在多个不同时间延迟的因果关系,则选取其中绝对值最大的所述因果关系强度值;所述因果关系矩阵的表达式为:
[0024][0025]其中,
[0026][0027]优选地,所述S5步骤中:
[0028]构造所述因果关系矩阵的协方差矩阵并对所述协方差矩阵进行特征值分解;选取前k个特征值最大的特征值或保留预设比例差异性的特征值,这些特征值对应的特征向量形成特征向量矩阵V2。
[0029]优选地,所述S6步骤中,所述故障检测步骤分为离线训练阶段和在线检测阶段;
[0030]S61:在所述离线训练阶段,使用经过步骤S1~S6降维后的工业系统正常运行状态下收集的数据进行训练;训练目标为所述自编码器的输入与输出之间的误差最小;在所述离线训练阶段确定故障检测的误差阈值;
[0031]S62:在所述在线检测阶段,将经过步骤S1~S6降维后的工业系统监测数据输入所述自编码器;如果输入与输出之间的误差大于步骤S61确定的所述误差阈值,则判定所述工业系统处于故障状态;如果所述误差小于所述误差阈值,则判定所述工业系统处于正常运行状态。
[0032]本专利技术由于采用了以上技术方案,使其具有以下有益效果:
[0033]与现有工业数据降维技术相比,本专利技术具有以下创新点:
[0034]1、针对当前基于相关性的数据降维方法可解释性弱、鲁棒性低等缺点,提出了一种基于因果推断的特征提取方法。
[0035]2、使用因果关系矩阵定量地表示变量之间的因果关系强度。
[0036]3、传统故障检测方法需要同时输入正常工况与故障状态下的数据集。然而,故障状态下的数据样本不易取得。本专利技术只需要在训练过程中输入工业正常运行状态下的数据,降低了获取监测数据的成本与难度。
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于因果推断的工业数据特征降维方法,包括步骤:S1:获取工业系统监测数据集X;S2:对获取的所述工业系统监测数据集X进行数据预处理操作;S3:使用PCMCI+因果关系推断方法,获得监测变量间的因果关系;S4:将所述因果关系转化为因果关系矩阵;S5:利用主成分分析对所述因果关系矩阵进行降维,提取所述因果关系矩阵中的关键信息,构成一特征向量矩阵V2;S6:将所述工业系统监测数据集X与所述特征向量矩阵V2相乘,构建包含k个变量的数据集X2,X2=XV2;S7:利用自编码器将经过数据降维后的所述数据集X2进行故障检测。2.根据权利要求1所述的基于因果推断的工业数据特征降维方法,其特征在于,所述S1步骤中,所述工业系统监测数据集X的表达式为:其中,m表示数据中变量的数量,n表示每个变量的数据点数量,数据点x
ij
表示第i个变量在第j时刻的监测值;其中i=1,2,
…
,n,j=1,2,
…
,m;数据集分为工业系统正常运行状态下收集的数据和发生故障时收集的数据。3.根据权利要求2所述的基于因果推断的工业数据特征降维方法,其特征在于,所述S2步骤进一步包括步骤:S21:对所述工业系统监测数据集X进行缺失值补全操作;S22:对所述工业系统监测数据集X进行线性归一化处理。4.根据权利要求3所述的基于因果推断的工业数据特征降维方法,其特征在于,所述S3步骤中:因果关系的表达式为(x
(t
‑
τ)i
,x
tj
);其中原因为x
(t
‑
τ)i
,结果为x
tj
,因果关系的方向由x
(t
‑
τ)i
指向x
tj
;因果关系具体包括因果关系的对象变量、方向、因果关系强度S(x<...
【专利技术属性】
技术研发人员:许佳,李莉,李一鸣,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。