一种基于信息熵的半监督FCM和SAE的多阶段发酵过程故障监测方法技术

技术编号:32912222 阅读:17 留言:0更新日期:2022-04-07 12:02
本发明专利技术公开了一种基于信息熵的半监督FCM和SAE的多阶段发酵过程故障监测方法。首先对发酵过程的数据,利用基于信息熵的半监督模糊C均值聚类算法完成稳定阶段的划分;之后引入Silhouette系数划分每两个稳定阶段的过渡阶段,故障监测包括:利用稀疏自动编码器对每个稳定阶段和过渡阶段分别建立监测模型,构建重构误差作为统计量指标。然后再利用核密度估计方法确定每个样本统计量指标的控制限;最后将测试批次样本代入模型,计算其统计量指标,并与正常样本控制限相比,如果超出控制限,则为故障样本。本发明专利技术对故障更加敏感,增强了监控模型的鲁棒性,提高了故障监测的准确性,可以减少过程监测中误报、漏报的发生。漏报的发生。漏报的发生。

【技术实现步骤摘要】
一种基于信息熵的半监督FCM和SAE的多阶段发酵过程故障监测方法


[0001]本专利技术涉及基于数据驱动的故障监测
,特别是涉及一种针对发酵过程的故障监测技术。本专利技术的基于数据驱动的方法即是在发酵过程故障监测方面的具体应用。

技术介绍

[0002]随着工业自动化技术的迅速发展,现代工业系统的集成度以及复杂度越来越高。为了使系统能够及时监测到故障的发生,所以目前对系统故障监测性能可靠性的提升显得尤为重要。发酵过程是一种以批处理工艺为主的工业过程,指在有限的时间内将原材料制成小批量和高附加值的产品。由于人们对这些产品有着极高的日常需求,因此,为了使发酵工业过程安全有序的生产,故障监测在工业界中一直受到高度关注。目前国内外常见的故障监测方法主要分为两类,即基于机理模型的方法和基于数据驱动的方法。基于机理模型的方法由于需要对系统的机理知识做出准确的数学表达,其潜在的复杂物理化学现象的有限理解、不断变化的过程操作条件,以及与基本模型开发相关的困难,限制了机理模型方法的具体使用。而基于数据驱动的方法可以充分利用软测量和传感器技术获得大量实时数据,对这些获得的历史数据进行处理建模成为了目前常用的方法之一。
[0003]数据驱动方法如多向主成分分析(Multi

way Principal Component Analysis,MPCA)和多向偏最小二乘(Multi

way Partial Least Squares,MPLS)已得到广泛应用。但这些方法对发酵过程的生产数据进行整体建模,忽略的发酵过程的多阶段特性、非线性和动态性。因此在建立发酵过程的监测模型中,两个关键问题是如何实现有效的阶段划分以及如何建立准确的局部模型。为了解决发酵过程的多阶段特性,很多阶段划分方法都沿用了聚类算法。聚类是将数据集的所有样本按照一定的规则划分为不同簇,簇内样本点相似,而簇间样本点不同的过程,以往常见的K均值聚类作为一种硬化分算法,隶属度的值只能为0或1,一个样本只能隶属于一种聚类,这种聚类算法严格界定划分类别,导致较大的划分误差。而模糊C均值聚类作为一种软聚类,虽然弥补了K均值聚类的缺陷,但仍旧存在聚类个数需要人为确定的问题。为有效解决发酵过程中的非线性、动态特性,传统的多向核主元分析(Multivariate Kernel Principal Component Analysis,MKPCA)和动态核偏最小二乘(Dynamic Kernel Partial Least Squares Analysis,DKPCA)方法虽然可以解决以上问题,但是核函数的引入导致整个算法运算量极大增加,且不同的核个数也会对发酵过程的监测产生较大的影响。自动编码器(Autoencoder,AE)是神经网络的代表之一,是一种通过最小化输入和输出的重构误差来降维并从数据中提取非线性特征的模型。但是当AE隐层节点比输入节点多时,AE提取样本特征的能力会大大减弱,模型的泛化能力也会变差。

技术实现思路

[0004]为了克服上述方法的不足,本文提出了一种基于信息熵的半监督模糊C均值聚类(Based Entropy

Semi

supervised Fuzzy C

means clustering,ESFCM)和稀疏自动编码
器(Sparse Autoencoder,SAE)的发酵过程故障监测方法。信息熵是可以衡量数据的混乱度。所以,可以在FCM算法中引入信息熵,当阶段划分越合理时,信息熵值越小,此时最小信息熵对应的聚类个数即为最佳聚类个数。为了对阶段划分结果的有效性进行解释和验证,将每个阶段的欧式距离和时间片标签带入Silhouette系数公式,从而度量阶段划分的性能,并划分出发酵过程的过渡阶段。然后为了提高SAE的模型泛化能力,弥补传统sigmoid函数的易饱和缺陷,将Swish激活函数引入传统SAE中构建强泛化能力的SAE网络,最后对每个子阶段分别建立SAE模型进行故障监测。
[0005]本专利技术采用了如下的技术方案及实现步骤:
[0006]A.阶段划分
[0007]1)利用信息熵的半监督FCM算法(ESFCM)对发酵过程的二维数据进行聚类。具体方法为给定一个发酵过程正常工况下的三维数据样本,首先对该三维数据X(I
×
J
×
K)沿批次展开成二维数据X(I
×
KJ),其中,I为发酵过程批次数,J为为发酵过程变量,K为采样周期。数然后对该二维矩阵按列进行标准化。标准化公式为其中,x
k,j
是第k个采样时刻的时间片矩阵中的第j列元素,是其进行标准化后的值,和s
j
分别为在第j列的均值和标准差。
[0008]2)使用信息熵的半监督FCM对该二维数据进行聚类时,首先对二维样本矩阵设置最大聚类个数m
max
和最小聚类个数m
min
,因为聚类算法中聚类个数最小取2,所以m
min
=2。发酵过程中的微生物生长周期分为生长适应期、对数生长期、生长稳定期和衰亡期,所以m
max
=4。然后对FCM的隶属度矩阵U进行随机初始化,令t=0,更新m,隶属度矩阵U是表示某个样本X隶属于某个集合的函数。初始化结束后,然后对隶属度矩阵U和t进行更新。信息熵是描述样本点的无序程度的,当划分合理时,该聚类的信息熵会越小。计算信息熵它表示第k个样本点在聚类上对应的信息熵,N为样本总数。其中,p表示聚类标签号,u
px
表示样本点x属于聚类标签p的隶属度值。信息熵计算结束后,当|U
t+1

U
t
|>e,更新截止,确定当前聚类个数m。当m≥m
max
时,可确定当前聚类个数m为最终聚类个数。
[0009]3)将步骤2得到的m引入FCM算法中,求取到欧氏距离后,将欧式距离带入FCM中的目标函d即为欧氏距离,为第k个采样时刻的样本点x属于某一簇p的隶属度的隶属度值,m为步骤2中的簇个数,N为样本时间片个数。||.||表示每个时间片到聚类中心距离的度量。最大迭代次数M,迭代次数o∈(0,M)且o为正整数。计算该算法第o次迭代和第o

1次迭代的目标函数值,当两次迭代次数的目标函数值之差的绝对值小于迭代误差v时,即|R
o

R
o
‑1|<v时,则聚类算法结束,完成阶段划分。
[0010]B.离线建模:
[0011]4)将步骤3划分好的每个阶段的样本都输入到稀疏自编码器模型中,本专利技术方法
将传统的sigmoid激活函数替换成Swish激活函数,Swish函数表达式为x是SAE为后一层神经元的输入变量,该输入变量是由SAE第一层的输入变量决定的,第一层的输入变量就是发酵过程样本矩阵,其维数与每一批样本矩阵的维数一致,均为J
×
K,β是随机参数,β从0变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息熵的半监督FCM和稀疏自动编码器的多阶段发酵过程故障监测方法,其包括“阶段划分”、“离线建模”和“在线监测”3个阶段,其特征在于,具体步骤如下:A.阶段划分1)利用信息熵的半监督FCM算法(ESFCM)对发酵过程的二维数据进行聚类;具体方法为给定一个发酵过程正常工况下的三维数据样本,首先对该三维数据X(I
×
J
×
K)沿批次展开成二维数据X(I
×
KJ),其中,I为发酵过程批次数,J为为发酵过程变量,K为采样周期;数然后对该二维矩阵按列进行标准化;标准化公式为其中,x
k,j
是第k个采样时刻的时间片矩阵中的第j列元素,是其进行标准化后的值,和s
j
分别为在第j列的均值和标准差;2)使用信息熵的半监督FCM对该二维数据进行聚类时,首先对二维样本矩阵设置最大聚类个数m
max
和最小聚类个数m
min
,因为聚类算法中聚类个数最小取2,所以m
min
=2;发酵过程中的微生物生长周期分为生长适应期、对数生长期、生长稳定期和衰亡期,所以m
max
=4;然后对FCM的隶属度矩阵U进行随机初始化,令t=0,更新m,隶属度矩阵U是表示某个样本X隶属于某个集合的函数;初始化结束后,然后对隶属度矩阵U和t进行更新;计算信息熵它表示第k个样本点在聚类上对应的信息熵,N为样本总数,其中,p表示聚类标签号,u
px
表示样本点x属于聚类标签p的隶属度值;信息熵计算结束后,当|U
t+1

U
t
|>e,更新截止,确定当前聚类个数m;当m≥m
max
时,确定当前聚类个数m为最终聚类个数;e在0.001以内;3)将步骤2得到的m引入FCM算法中,求取到欧氏距离后,将欧式距离带入FCM中的目标函d即为欧氏距离,为第k个采样时刻的样本点x属于某一簇p的隶属度的隶属度值,m为步骤2中的簇个数,N为样本时间片个数;||.||表示每个时间片到聚类中心距离的度量;最大迭代次数M,迭代次数o∈(0,M)且o为正整数;计算该算法第o次迭代和第o

1次迭代的目标函数值,当两次迭代次数的目标函数值之差的绝对值小于迭代误差v时,即|R
o

R
o
‑1|<v时,则聚类算法结束,完成阶段划分;v在0.001以内;B.离线建模:4)将步骤3划分好的每个阶段的样本都输入到稀疏自编码器模型中,本发明方法将传统的sigmoid激活函数替换成Swish激活函数,Swish函数表达式为x是SAE为后一层神经元的输入变量,该输入变量是由SAE第一层的输入变量决定的,第一层的输入变量就是发酵过程样本矩阵,其维数与每一批样本矩阵的维数一致,均为J
×
K,β是随机参数,β取大于0.1小于10的随机值;在编码网络中,编码器的输出信息f(X)=W
KJ
h

t
+b
J
,X是由每个样本x构成的样本矩阵,
W
KJ
为编码器的权值矩阵,K表示权值矩阵W
KJ
的行数,J表示权值矩阵W
KJ
的列数,也表示编码网络在对应隐层输出神经元的维数;h

t
为编码器在t

时刻的隐层神经元对应的输入变量的矩阵;b
J
为编码器的偏置矩阵,J为编码器输出维数;采用随机初始化对该网络权值进行配置,当第l层神经元使用Swi...

【专利技术属性】
技术研发人员:高学金李学凤高慧慧韩华云
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1