基于WGAN数据增强和难例挖掘的质量预测模型的构建方法技术

技术编号：42220038 阅读：12 留言：0更新日期：2024-07-30 19:00

本发明专利技术公开了基于WGAN数据增强和难例挖掘的质量预测模型的构建方法，先对SECOM数据集进行数据预处理，再通过融合One‑Class F‑score和mRMR的特征选择方法在特征选择上的优势，得到两组SECOM特征数据子集，分别为未通过检测数据点和通过检测数据点；再引入WGAN模型进行少数类样本扩增，以期在学习少数类样本分布的前提下扩增少数类样本数量用于降低数据的不平衡程度；使用基于Focal Loss的难例挖掘技术对LightGBM模型进行优化，并结合阈值移动方法调整LightGBM模型的决策边界，构建难例挖掘的LightGBM质量预测模型。本发明专利技术在数据分布失衡的制造数据集上拥有良好的预测性能，能够较好的拟合出复杂工序产品制造数据中的非线性关系，并兼顾不合格样本的召回率与整体产品的预测准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及产品质量预测，具体涉及基于wgan数据增强和难例挖掘的质量预测模型的构建方法。

技术介绍

1、随着工业发展及人们对产品质量需求的提高，企业质量管理模式也在改变。企业对产品质量的控制不再仅仅依赖于操作者经验，而是纷纷转向对制造过程的监控和分析。在日常生产中，如果某项监测指标发生异常，生产人员往往会凭借自己的经验知识对相关参数进行决策与调整，以使生产恢复正常。然而由于生产的各个环节紧密相连，一道生产工序的异常就可能造成生产工艺与标准工艺之间的偏差，并随着生产各个步骤传递累积，最终表现为产品质量的不合格。此时若根据监测数据进行事后分析就会明显滞后于生产，且考虑到生产过程中各变量之间的耦合性，生产监测设备在捕捉到监测变量的异常状态之前，产品的质量可能已经出现了巨大的波动。因此，若能够提前预知产品质量，生产人员就可提前准备相应的质量改进工作。

2、另外，现代流程工业生产过程的空间规模和功能复杂性迅速增加，可监测的数据指标成倍增长，各种对象和过程之间紧密联系，普遍存在多回路、多尺度耦合现象(shangc,you f.data analytics and machine learning for smart process manufacturing:recent advances and perspectives in the big data era[j].engineering,2019,5(6):1010-1016)。考虑到生产常具有高维、非平衡、非稳定和强非线性等特点(陈龙,刘全利,王霖青,等.基于数据的流

3、目前，在现有的利用数据采样技术解决工业数据不平衡问题研究中，基本是在模型构建之前对不同类别数据进行平衡处理，并没有考虑该处理方法对原始数据分布的影响，以及由此造成重要样本信息丢失和模型过拟合问题(陈圣灵.面向工业大数据的不平衡数据处理方法研究[d].长沙:国防科技大学,2018.)。

技术实现思路

1、基于此，本专利技术引入wgan技术学习少数类样本真实分布形态，进而扩增少数类样本数量以降低不平衡程度。此外，简单地平衡不同类别样本数量之间的差异，或在算法的内部损失函数中使用代价敏感的方法为不同类别样本分配不同权重，将忽略不平衡数据建模中困难和简单样本的权重问题。基于此，本专利技术通过不同类别权重优化focalloss损失函数以期提高困难样本及少数类样本的识别率。另外，考虑到现在工业生产监测数据通常具有高维特点，本专利技术通过融合oneclassf-score和mrmr方法在特征选择上的优势，保证有效特征提取的同时，较大程度降低特征维度，进而提高模型响应速度。进一步，通过lightgbm算法结合阈值移动策略，构建基于wgan数据增强和难例挖掘技术的质量预测模型(wgan_focalloss_lgb(tm))。最后，将此模型应用于开源的secom数据集中，结果表明本专利技术所提出的方法在保证整体准确率的前提下，有效提升不合格样本召回率，为深入揭示生产关键因素与产品质量之间的复杂映射关系以及智能质量预测工作提供一种科学、实用的方法。

2、为了实现上述目的，本专利技术提供如下技术方案：基于wgan数据增强和难例挖掘的质量预测模型的构建方法，包括以下步骤：

3、步骤1：先对secom数据集进行数据预处理，再通过融合one-class f-score和mrmr的特征选择方法在特征选择上的优势，得到两组secom特征数据子集，分别为未通过检测数据点和通过检测数据点；

4、步骤2：引入wgan模型进行少数类样本扩增，以期在学习少数类样本分布的前提下扩增少数类样本数量用于降低数据的不平衡程度；

5、步骤3：使用基于focal loss的难例挖掘技术对lightgbm模型进行优化，并结合阈值移动方法调整lightgbm模型的决策边界，构建难例挖掘的lightgbm质量预测模型。

6、优选的，步骤1中，所述融合one-class f-score和mrmr的特征选择方法的具体步骤包括：

7、步骤1.1：按照公式(1)对质量特性的f-score和mrmr得分进行融合，计算得到每项质量特性的fmr重要性得分：

8、fmr(i)＝10*f(i)*(1+10*mrmr(i)) (1)

9、其中，i表示特征序号，f(i)表示one-classf-score方法第i个特征的得分，mrmr(i)表示mrmr方法第i个特征的得分；

10、步骤1.2：选择在原始数据上进行10折交叉验证，每次将70％的数据作为训练集，构建lightgbm模型进行训练，剩下的30％的数据作为预测集，利用lightgbm模型输出关键质量特征识别结果。

11、优选的，步骤2中的所述wgan模型包括生成器网络和判别器网络，步骤2的具体步骤包括：

12、步骤2.1：生成器网络将输入的随机噪声转变为新的数据样本用来拟合不合格样本的真实数据，生成新的样本数据；判别器网络用来判断所输入的样本数据属于真实的不合格样本数据还是生成的不合格样本数据：

13、步骤2.2.当wgan训练直至收敛时，将生成的数据添加进原始制造数据中，形成相对平衡的样本数据，用于产品质量预测模型的构建。

14、优选的，步骤3中在lightgbm中的原始交叉熵损失函数的基础之上引入聚焦参数γ，以指数衰减的方式降低了大量的易分样本在训练过程中所占的权重，增加难分样本的权重，并进一步地结合加权交叉熵损失函数中平衡多数类和少数类样本概念，在focalloss损失函数中加入样本类别权重α，使得原先的交叉熵损失函数在关注于少数类样本的同时，解决易分样本过多所导致的模型性能降低的问题，从而提升对不合格样本的识别力度，使用focal loss优化的交叉熵损失函数表示如下：

15、

16、公式中和称为调制系数，其中聚焦参数γ≥0，α∈(0,1)。

17、优选的，步骤3中，为了进一步提升少数难分样本的识别准确率，引入阈值移动策略，阈值移动策略具体步骤如下：

18、步骤3.1：在经wgan增强的secom的训练集d＝{(xi，yi)}，i＝1，2，...n，yi∈{0，1}训练得到使用focal loss优化的lightgbm质量预测模型；

19、步骤3.2：给定测试样本x，模型将其类别预测为k的条件概率为p(y＝k|x)，其中k∈(0,1)，y＝k，即样本x的后验概率估计值为p(y＝k|x)；

20、步骤3.3:使用样本类别的后验概率估计值除以设定的类别阈值τk,得到样本x在每个类别上的得分sk,以最高得分sk的对应类别k确定为样本x的类别标签。

21、有益效本文档来自技高网...

【技术保护点】

1.基于WGAN数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于WGAN数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：步骤1中，所述融合One-Class F-score和mRMR的特征选择方法的具体步骤包括：

3.根据权利要求1所述的基于WGAN数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：步骤2中的所述WGAN模型包括生成器网络和判别器网络，步骤2的具体步骤包括：

4.根据权利要求1所述的基于WGAN数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：步骤3中在LightGBM中的原始交叉熵损失函数的基础之上引入聚焦参数γ，以指数衰减的方式降低了大量的易分样本在训练过程中所占的权重，增加难分样本的权重，并进一步地结合加权交叉熵损失函数中平衡多数类和少数类样本概念，在Focal Loss损失函数中加入样本类别权重α，使得原先的交叉熵损失函数在关注于少数类样本的同时，解决易分样本过多所导致的模型性能降低的问题，从而提升对不合格样本的识别力度，使用Focal Loss优化的交叉熵损失函数表示如下：

5.根据权利要求4所述的基于WGAN数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：步骤3中，为了进一步提升少数难分样本的识别准确率，引入阈值移动策略，阈值移动策略具体步骤如下：

...

【技术特征摘要】

1.基于wgan数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于wgan数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：步骤1中，所述融合one-class f-score和mrmr的特征选择方法的具体步骤包括：

3.根据权利要求1所述的基于wgan数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：步骤2中的所述wgan模型包括生成器网络和判别器网络，步骤2的具体步骤包括：

4.根据权利要求1所述的基于wgan数据增强和难例挖掘的质量预测模型的构建方法，其特征在于：步骤3中在lightgbm中的原始交叉...

【专利技术属性】
技术研发人员：李剑锋，柏雪，赵春财，钱鹏超，王洪涛，徐伟风，
申请(专利权)人：杭州阿虎科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人