当前位置: 首页 > 专利查询>浙江大学专利>正文

基于自适应集成半监督费舍尔判别的故障分类方法技术

技术编号:15638133 阅读:63 留言:0更新日期:2017-06-15 13:25
本发明专利技术公开了一种基于自适应的集成半监督费舍尔判别的工业过程故障分类方法,该方法在进行离线建模时,首先对无标签数据进行随机采样,与有标签数据组成半监督随机训练子集。在每次迭代训练子分类器时进行半监督费舍尔降维获得费舍尔判别矩阵,将降维后的有标签样本数据根据贝叶斯统计方法得到后验概率矩阵、该子分类器的融合权重以及下次迭代时有标签数据的样本权重。将有标签数据的后验概率矩阵及其标签作为融合算法K近邻的训练集。在线分类时,调用上述各个子分类器得到在线待测样本的后验概率矩阵,输入到带有权重的融合K近邻分类器中得到最终结果。相比现存方法,本发明专利技术提高了工业过程的故障分类效果,更有利于工业过程的自动化实施。

【技术实现步骤摘要】
基于自适应集成半监督费舍尔判别的故障分类方法
本专利技术属于工业过程控制领域,尤其涉及一种基于自适应集成半监督费舍尔判别的故障分类方法。
技术介绍
过程监测技术作为过程系统工程的重要组成部分,对于保障过程安全及提高产品质量等现代流程工业的核心目标而言,具有重大的研究意义和应用价值。随着过程工业控制技术的不断发展和集散控制系统(DCS)在流程工业中得到了广泛应用,流程工业开始产生了海量的过程数据。因此,基于多变量统计和模式识别的过程监测技术受到了学术界和工业界的普遍关注,成为过程监测领域的研究热点。近二十年来,大量的研究成果和应用随之产生。工业过程的实际数据往往是比理想的假设前提要复杂得多,例如现代工业过程广泛存在如故障数据数目与正常数据数目极其不均衡、训练样本的标签丢失或者变量丢失等问题。基于聚类或分类的方法在过程监测领域虽然已经取得了不错的进展,但是这些传统的模式识别的故障分类方法对于上述情况的表现并不尽人意。基于监督学习的故障分类方法在面对训练样本较少的情况,会出现学习得到的特征空间对少量样本过拟合的问题。然而,实际工业过程会有大量无标签数据伴随产生,这些数据含有大量对于分析过程信息的有用信息,如果能够有效利用这些信息,那么数据驱动的故障分类方法会得到更优的结果,因此半监督算法的引入是解决这一问题的重要途径。但实际问题是,半监督学习的表现并不稳定,在特定的数据下表现可能还不如有监督学习的效果。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。分类器融合中的度量层融合属于集成学习的一个分支。本专利技术采用将半监督学习和一种自适应的集成学习相结合的方法,通过半监督算法利用无标签数据中所包含的大量信息,用集成算法的泛化能力提高半监督算法表现不稳定的缺陷,两种算法的结合可以互为补充泛化出更稳定更准确的学习模型,提高工业过程故障分类的准确率。
技术实现思路
本专利技术的目的在于针对现有方法的不足,提供一种基于自适应集成半监督费舍尔判别的故障分类方法。本专利技术的目的是通过以下技术方案来实现的:一种基于自适应集成半监督费舍尔判别的故障分类方法,包括以下步骤:(1)利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rni×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rni×m表示X满足ni×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。将这些数据存入历史数据库作为有标签数据集。(2)利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q为训练样本数,m为过程变量数,R为实数集,Rq×m表示X满足q×m的二维分布。将这些数据存入历史数据库作为无标签数据集。(3)从数据库中调用训练用的有标签数据和无标签数据数据Xl,Xu,对其进行预处理和归一化,使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为(4)设定迭代次数即弱分类器个数为G,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型,初始权重均为1。(5)在有标签数据矩阵集下,利用不同的分类器模型和参数,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1),R为实数集,Rg×(C+1)表示X满足g×(C+1)的二维分布并计算下一次迭代时样本的权重系数αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)和该次迭代所得子分类器的权重ωg,重复(4)、(5)两步骤,直至完成G次迭代。(6)将建模数据和各个模型参数以及各个有标签数据的度量层矩阵存入历史数据库中备用。(7)在线收集新的过程数据Xnew,并对其进行预处理和归一化使得各个过程变量的均值为零,方差为1,得到分别采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵。(8)将在线过程数据的度量层矩阵和之前得到的有标签数据度量层矩阵及其标签进行K近邻融合,得到待分类过程数据的最终分类结果。本专利技术的有益效果是:本专利技术通过对不同的训练子集进行半监督费舍尔判别分类建模,并在每一次迭代时自适应的调整有标签数据的样本权重,最后对得到的度量层矩阵进行子分类器权重调整和K近邻融合得到分类结果。相比目前的其他故障分类方法,本专利技术不仅提高了工业过程的监测效果,增加了分类的准确性,使工业生产更加安全可靠,而且在很大程度上改善了单一故障分类方法的局限性,以及分类方法对过程知识的依赖性,增强了过程操作员对过程状态的掌握,更加有利于工业过程的自动化实施。附图说明图1为迭代次数G为7时的半监督费舍尔判别度量层融合算法(ESFDA)的分类结果图;图2为迭代次数G为7时的自适应的半监督费舍尔判别度量层融合算法(Ada-ESFDA)的分类结果图。具体实施方式本专利技术针对工业过程的故障分类问题,该方法,首先在进行离线建模时对大量的无标签数据进行随机采样,与有标签数据组成若干个半监督随机训练子集。在每次迭代训练子分类器时进行自适应的有标签样本权重调整,然后进行半监督费舍尔降维,获得多个费舍尔判别矩阵(由r个费舍尔判别向量组成,r为降维后的维度),并将降维后的有标签样本数据根据贝叶斯统计方法得到后验概率矩阵、该子分类器的融合权重以及下次迭代时有标签数据的样本权重。将有标签数据的后验概率矩阵和对应的标签作为度量层融合算法K近邻的训练样本。在线分类时,调用上述各个半监督费舍尔判别分类器得到每个在线待测样本的后验概率矩阵,输入到带有不同子分类器权重的度量层融合K近邻分类器中得到最终的故障分类结果。本专利技术采用的技术方案的主要步骤分别如下:第一步利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rn×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rn×m表示X满足n×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。将这些数据存入历史数据库作为有标签数据集。第二步利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],X本文档来自技高网
...
基于自适应集成半监督费舍尔判别的故障分类方法

【技术保护点】
一种基于自适应的集成半监督费舍尔判别的故障分类方法,其特征在于,包括以下步骤:(1)利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即X

【技术特征摘要】
1.一种基于自适应的集成半监督费舍尔判别的故障分类方法,其特征在于,包括以下步骤:(1)利用系统收集过程正常工况的数据以及各种故障数据组成建模用的有标签训练样本集:假设故障类别为C,在加上一个正常类,建模数据的总类别为C+1,即Xi=[x1;x2;…;xn]i=1,2,…,C+1。其中Xi∈Rni×m,ni为第i类样本的训练样本数,m为过程变量数,R为实数集,Rni×m表示X满足ni×m的二维分布。所以完整的有标签训练样本集为Xl=[X1;X2;…;XC+1],X∈R(∑ni)*m,记录所有数据的标签信息,正常工况下标记标签为1,故障1标签为2,以此类推,即Yi=[i;i;…;i]i=1,2,…,C+1,完整的标签集为Yl=[Y1,Y2,…,YC+1],Yl∈R1×(∑ni)。将这些数据存入历史数据库作为有标签数据集。(2)利用系统收集若干工况及故障情况未知的数据组成建模用的无标签训练样本集:Xu=[xu1;xu2;…;xuq],Xu∈Rq×m,其中q为训练样本数,m为过程变量数,R为实数集,Rq×m表示X满足q×m的二维分布。将这些数据存入历史数据库作为无标签数据集。(3)从数据库中调用训练用的有标签数据和无标签数据数据Xl,Xu,对其进行预处理和归一化,使得各个过程变量的均值为零,方差为1,得到新的数据矩阵集为(4)设定迭代次数即弱分类器个数为G,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型,初始权重均为1。(5)在有标签数据矩阵集下,利用不同的分类器模型和参数,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1),R为实数集,Rg×(C+1)表示X满足g×(C+1)的二维分布并计算下一次迭代时样本的权重系数αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)和该次迭代所得子分类器的权重ωg,重复(4)、(5)两步骤,直至完成G次迭代。(6)将建模数据和各个模型参数以及各个有标签数据的度量层矩阵存入历史数据库中备用。(7)在线收集新的过程数据Xnew,并对其进行预处理和归一化使得各个过程变量的均值为零,方差为1,得到分别采用不同的半监督费舍尔判别模型对其进行监测得到度量层矩阵。(8)将在线过程数据的度量层矩阵和之前得到的有标签数据度量层矩阵及其标签进行K近邻融合,得到待分类过程数据的最终分类结果。2.根据权利要求1所述基于自适应的集成半监督费舍尔判别的故障分类方法其特征在于,所述步骤(4)具体为:选取合适的子分类器个数G,G的选取视具体工况数据表现而定,每次在无标签数据矩阵集中随机抽取α%的数据和有标签数据矩阵集组成训练子集在本次迭代的训练子集和该次迭代的有标签数据权重系数向量αg=[α1,α2,…,α(∑ni)],αg∈R1×(∑ni)下建立不同的半监督费舍尔判别分类器模型具体步骤如下:(4.1)根据FDA算法计算有监督FDA的类间散度矩阵Sb和类内散度矩阵Sw,将公式整理改写成对等形式,计算方法如下所示:其中权值矩阵与定义为:其中权值矩阵αi与αj分别代表第i个样本和第j个样本的样本权重,样本的初始权重均为1,nl为有标签样本个数nu为无标签样本个数。(4.2)根据无监督降维方法PCA进行全局散度矩阵的计算,整理成与FDA的对应形式,计算方法如下所示:其中为n×n维矩阵,n为样本总数,且:(4.3)计算半监督费舍尔判别(SFDA)的正则化类间散度矩阵Srb与正则化类内散度矩阵Srw,计算方法如下所示:Srb=(1-β)Sb+βStSrw=(1-β)Sw+βIm其中,Im是m维的单位对角矩阵,β∈[0,1]是调整参数,负责设置SFDA的平滑性。当β的值比较大时,SFDA更倾向于无监督学习的PCA。反之,则SFDA更接近FDA。当β的值为两种极端时,会比较特殊:当β=0,SFDA退化为FDA;当β=1,SFDA退化为PCA。(4.4)进行半监督费舍尔判别向量求解,计算方法如下所示:半监督费舍尔判别向量q同样可以通过求解下面的优化问题得到:上述的优化问题同样可等价于广义特征值问题:其中,是广义特征值,而向量w是对应的广义特征向量。将所求得的广义特征值降序排列为相应广义特征向量为w1,w2,…,wm即为半监督费舍尔判别向量q1,q2,…,qm,而这些向量的分类性能依次减弱。(4.5)选取前r个特征向量,得到费舍尔判别子空间Qr=[q1,q2,…,qr]。3.根据权利要求1所述基于自适应的集成半监督费舍尔判别的故障分类方法其特征在于,所述步骤(5)具体为:在有标签数据矩阵集下,利用此次迭代的得到的费舍尔判别子空间,计算每个样本xi的度量矩阵Pi,i=1,2,…,(C+1)*n,并且Pi∈Rg×(C+1)。然后计算并更新下一次...

【专利技术属性】
技术研发人员:葛志强王虹鉴
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1