本发明专利技术公开了一种基于加权基分类器的stacking集成污水处理故障诊断方法,用均值法补全污水数据中属性不完整的样本的缺陷项,将其归一化到[0,1]区间中;设置基分类器隐层节点数、正则化系数、核宽度的最优参数;利用处理好的训练样本对基分类器进行3折交叉验证,获得基分类器的原始输出,并得到每个基分类器对于训练样本集的G‑mean值;根据基分类器G‑mean值,定义权值计算公式,得到每个基分类器的输出权值;将基分类器的原始输出转化为概率型输出,结合其输出权值,构造出元训练集;利用元训练集对元分类器进行训练,得到最终的诊断模型。本发明专利技术可以提高污水处理过程中故障诊断的整体性能。
Stacking integrated wastewater treatment fault diagnosis method based on weighted basis classifier
【技术实现步骤摘要】
基于加权基分类器的stacking集成污水处理故障诊断方法
本专利技术涉及污水处理故障诊断的
,尤其是指一种基于加权基分类器的stacking集成污水处理故障诊断方法。
技术介绍
污水处理是一个复杂的,多变量的生化过程。污水处理厂发生故障容易引发一系列严重的污水污染问题。而污水处理过程的故障诊断可转化为一个模式识别的分类问题。污水数据由定期将污水厂采集到的数据及其当前工作状态组成,一段时间内的污水数据组成污水数据集。由于合格的污水处理厂发生故障的频率很低,采集到的污水数据集中故障状态下的数据往往远少于正常状态下的数据。这就导致污水数据集是分布高度不平衡集,即污水处理过程的故障诊断是一个数据不平衡的分类问题。传统学习算法往往基于总体准确率对参数进行优化,这容易使分类结果更偏向多数类。但在现实应用场合更被看重的是少数类的分类准确率,即在污水处理故障诊断场合,更重要的是准确分类出作为少数类的故障类。准确分类出作为少数类的故障类对及时诊断污水处理厂的运行故障并及时进行处理有巨大的帮助。及时诊断并处理污水故障可稳定出水水质并减少污水对环境的污染,并减少维护费用。因此,应注重研究及时精确少数类的故障类的故障诊断算法。
技术实现思路
本专利技术的目的是为了解决现有学习算法里对污水故障识别效果不佳的缺陷,提出了一种基于加权基分类器的stacking集成污水处理故障诊断方法,通过构造一个两层的叠加式框架结构,选择3种对不平衡数据有不错分类效果的分类算法,即SVM,RVM,WELM作为基分类器,得到基分类器的权值,并对基分类器的输出结果进行加权融合,并选择WELM作为最终输出诊断结果的分类器。实验证明,本方法提高了对污水处理故障类的分类准确率,进而有效提高了污水处理过程中故障诊断的整体性能。为实现上述目的,本专利技术所提供的技术方案为:基于加权基分类器的stacking集成污水处理故障诊断方法,包括以下步骤:1)原始污水数据中某些样本在某些属性上如化学需氧量COD,生化需氧量BOD等上存在缺失值,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间;2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择SVM,WELM,RVM(支持向量机,加权极限学习机,相关向量机),分别对3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出值,并且得到3个基分类器对于训练样本的G-mean;3)根据步骤2)中得到的G-mean值,定义基于G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi;4)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,利用每个样本属于4个类别的概率值乘以步骤3)中获得的基分类器的权值αi,加上原始的类别标签,构造成新的训练集,称为元训练集;5)用步骤4)得到的元训练集作为Stacking两层学习框架中第二层元分类器的输入,其中选择WELM作为第二层的元分类器,得到最终的诊断模型Mstacking;6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练样本D上训练学习产生的模型Mk,K=1,2,3(分别对应3个基分类器),对处理后的待测数据输出预测结果;7)对步骤6)中的预测结果用步骤4)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果;8)进行参数寻优,需要寻优的参数有WELM模型的隐层节点数L、最优正则化系数C及RVM模型的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器。在步骤2)中,3折交叉验证具体过程如下:将训练数据集D随机分为3个大小基本相等的数据集D1,D2,D3,定义Dj和D-j=D-Dj(j=1,2,3)分别为3折交叉验证的第j折测试集和训练集。在训练集D-j上训练基分类器得到模型对于测试集Dj中的每一个样本,模型会输出一个预测结果。当交叉验证过程结束,则可以得到基分类器对于整个训练样本的输出结果。在步骤3)中,基分类器hi(x)输出权值αi可表示为:其中,GMi为第i个基分类器对于训练样本集的G-mean值,c为基分类器个数。所述步骤4)包括以下步骤:4.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出。通过此方法将基分类器WELM原输出结果A1为概率型输出结果A1';4.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1;在本方法中,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3';4.3)将A1',A2',A3'和训练集标签拼接起来构造成新的训练集,即[A1'*α1A2'*α2A3'*α3train_label](train_label为原始训练样本类别标签),也称为元训练集。在步骤8)中,基分类器及元分类器的网格法寻优参数具体如下:寻找隐层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。本专利技术与现有技术相比,具有如下优点与有益效果:1、本专利技术方法采用stacking元学习策略构造了一个两层的叠加式结构作为整体算法框架,其中基分类器的输出作为元分类器的输入,使低层学习能够充分用于高层的归纳过程,进而发现并且学习基分类器在初始训练集上产生误差的原因,从而提高最终诊断结果的正确率。2、本专利技术利用元学习策略对不同的基分类器的输出结果进行融合,降低了单个基分类器在分类不平衡数据时可能会出现的偏差,有效减少了学习过程中出现过拟合现象的风险,基分类器的多样性增强了算法的稳定性。3、本专利技术在对不同的基分类器的输出结果进行融合的同时,引入了基分类器的权值,降低单个分类器在分类不平衡数据时可能会出现的偏差造成的影响,使得融合结果更加稳定。4、更注重不平衡污水数据中的故障类数据的分类性能,本专利技术采用G-mean值计算基分类器相应的权值,定义了基于G-mean的基分类器输出权值更新公式,提高了故障类别的识别正确率。5、本专利技术选择支持向量机,相关向量机,加权极限学习机作为基分类器,这三种分类模型对不平衡数据都具有不错的分类效果,单个基分类器的有效性保证了融合结果的可靠性。6、采用加权极限学习机作为本专利技术的元分类器,利用加权极限学习机的训练时间较短的优势加快了最终决策模型的学习速度,实现对污水本文档来自技高网...
【技术保护点】
1.基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,包括以下步骤:1)原始污水数据中某些样本在某些属性上存在缺失值,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间;2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择支持向量机SVM、加权极限学习机WELM和相关向量机RVM,分别对3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出值,并且得到3个基分类器对于训练样本的G‑mean值;3)根据步骤2)中得到的G‑mean值,定义基于G‑mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi;4)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,利用每个样本属于4个类别的概率值乘以在步骤3)中获得的基分类器的权值αi,加上原始的类别标签,构造成新的训练集,称为元训练集;5)用步骤4)得到的元训练集作为Stacking两层学习框架中第二层元分类器的输入,其中选择WELM作为第二层的元分类器,得到最终的诊断模型Mstacking;6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练样本D上训练学习产生的模型Mk,K=1,2,3,分别对应3个基分类器,对处理后的待测数据输出预测结果;7)对步骤6)中的预测结果用步骤4)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果;8)进行参数寻优,需要寻优的参数有WELM模型的隐层节点数L、最优正则化系数C及RVM模型的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器。...
【技术特征摘要】
1.基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,包括以下步骤:1)原始污水数据中某些样本在某些属性上存在缺失值,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间;2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择支持向量机SVM、加权极限学习机WELM和相关向量机RVM,分别对3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出值,并且得到3个基分类器对于训练样本的G-mean值;3)根据步骤2)中得到的G-mean值,定义基于G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi;4)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,利用每个样本属于4个类别的概率值乘以在步骤3)中获得的基分类器的权值αi,加上原始的类别标签,构造成新的训练集,称为元训练集;5)用步骤4)得到的元训练集作为Stacking两层学习框架中第二层元分类器的输入,其中选择WELM作为第二层的元分类器,得到最终的诊断模型Mstacking;6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练样本D上训练学习产生的模型Mk,K=1,2,3,分别对应3个基分类器,对处理后的待测数据输出预测结果;7)对步骤6)中的预测结果用步骤4)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果;8)进行参数寻优,需要寻优的参数有WELM模型的隐层节点数L、最优正则化系数C及RVM模型的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器。2.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,在步骤2)中,3折交叉验证的具体过程如下:将训练数据集D随机分为3个大小相等的数据集D1,D2,D3;定义Dj和D-j=D-Dj,j=1,2,3,分别为3折交叉验证的第j折...
【专利技术属性】
技术研发人员:许玉格,莫华森,罗飞,邓晓燕,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。