一种基于机器学习卷烟机剔除率特征选取的方法技术

技术编号:38127036 阅读:16 留言:0更新日期:2023-07-08 09:31
本发明专利技术公开了一种基于机器学习卷烟机剔除率特征选取的方法,该方法包括:采集数据、清洗数据、数据泄漏处理;以“空头当前剔除率”为目标值,其他特征为输入特征,将处理后的数据以7:3的方式,分为训练集和验证集,分别用线性回归、支持向量机和随机森林进行建模,采用R2和MSE作为评估依据,确定随机森林为基准模型,获得模型的特征重要性并进行排序;选择不同特征逐一建模,与基准模型比对,最终选定部分特征,作为建模的特征;通过其他数据集验证该方法的有效性。本发明专利技术通过选定的特征对卷烟的参数调整提供了依据,为卷烟数字化表征提供了有力保障。力保障。力保障。

【技术实现步骤摘要】
一种基于机器学习卷烟机剔除率特征选取的方法


[0001]本专利技术属于烟草行业卷烟机剔除率特征评价、信息技术(人工智能)
,具体涉及一种基于机器学习卷烟机剔除率特征选取的方法。

技术介绍

[0002]卷烟机剔除率特征指标主要包括SRM相关烟支剔除率与CIS相关烟支剔除率。为降低生产过程中烟支缺陷提高卷烟质量,通常在卷烟机内部安装有各项烟支缺陷剔除功能的外挂设备,当某质量缺陷发生时能够自动识别并剔除,而机器参数和工艺参数的异常会对烟支质量造成影响导致烟支出现各种缺陷而被剔除。影响缺陷产生的因素很多,当卷烟机某一特征缺陷剔除率升高时,技术人员往往从自身经验与部分关键影响因素着手,现阶段还无法做到对错综复杂的技术参数和各参数间的相互作用进行整体分析。
[0003]卷烟机各质量缺陷指标剔除率的大小直接反映卷烟机的机械效率与稳定性。而卷烟机各剔除率指标受各技术参数的影响,大量的设备参数与工艺参数间又存在相互影响、交叉作用的情况,简单单一的数据分析方法已经不能全面系统地评价卷烟机剔除率特征。
[0004]目前,针对卷烟机剔除率特征选取尚未有系统的评价方法,也没有相关研究,因此,亟需提供一种卷烟机剔除率特征选取的方法。

技术实现思路

[0005]为解决现有技术存在的上述技术问题,本专利技术提供一种基于机器学习卷烟机剔除率特征选取的方法,基于机器学习的卷烟机剔除率特征评价方法可根据各参数指标变化全面分析各技术参数对卷烟机剔除率的影响预测烟支质量缺陷并及时解决,能够实现当某剔除率指标出现异常时可综合分析各技术参数的变化找出原因所在;减少因某特征指标剔除率过高引起的卷烟物料消耗;可有效评价卷烟机设备参数与工艺参数的稳定性。
[0006]本专利技术采用的技术方案是:
[0007]一种基于机器学习卷烟机剔除率特征选取的方法,其特征在于,具体包括如下步骤:
[0008]S1、采集数据;
[0009]在卷烟生产过程中,以每2秒的速度在线实时采集卷烟机特征数据;
[0010]S2、清洗数据;
[0011]将步骤S1中采集到的特征数据进行清洗,剔除缺失值特征,删除含有空值的特征,剔除方差为零特征,其中包括字符型,删除没有变化的特征,并对字符型数据进行分类编码处理;
[0012]S3、处理数据泄漏;
[0013]以“空头当前剔除率”为目标值(标签),其他特征为输入特征,将步骤S2的数据以7:3的方式,分为训练集和验证集,分别用线性回归,支持向量机和随机森林建模,得到R2均超过0.999的成绩,说明存在数据泄漏问题,需要将泄漏特征剔除。
[0014]在其他的特征中有“剔除量”和“剔除率”指标共80个,因此需要进行剔除;
[0015]S4、选择模型;
[0016]以“空头当前剔除率”为目标值,其他特征为输入特征,将步骤S3数据以7:3的分配比例分为训练集和验证集,分别用线性回归、支持向量机以及随机森林这三种模型进行建模,用训练集数据进行训练,验证集数据进行验证,采用R平方值和均方误差值进行评估,分别记为R2和MSE;根据上述模型的评估结果,依据R2越接近1和MSE最小的原则,选择随机森林作为基准模型;
[0017]S5、获得模型的特征重要性;
[0018]用步骤S4选择的随机森林模型的feature_importances_和eli5工具的PermutationImportance,分别将所有特征进行排序;
[0019]其中,随机森林是基于决策树学习器的集成学习算法,具体算法包括以下步骤:
[0020]S51、用有抽样放回的方法从样本集即所有数据中选取n个样本作为一个训练集用抽样得到;
[0021]S52、样本集生成一棵决策树,在生成的每一个结点随机不重复地选择d个特征,利用这d个特征分别对样本集进行划分,找到最佳的划分特征,可用基尼系数、增益率或者信息增益判别;
[0022]S53、重复步骤S51、到步骤S52共k次,k即为随机森林中决策树的个数;
[0023]S54、用训练得到的随机森林对测试样本进行预测,并用票选法决定预测的结果。
[0024]进一步的,在步骤S52中,所述随机森林是采用筛选法进行特征选择,每个特征在随机森林中的每颗树上做了多大的贡献,取个平均值,根据贡献大小来选择特征重要性;其中贡献度通常可以用基尼指数Gini index或者袋外数据OOB错误率作为评价指标来衡量。
[0025]进一步的,所述贡献度采用基尼指数来评价的方法如下:
[0026]将变量重要性评分variable importance measures用VIM来表示,将Gini指数用GI来表示,假设有J个特征X1,X2,

,X
J
,I棵决策树,C个类别,现在要计算出每个特征X
j
的Gini指数评分VIM
j(Gini)
,亦即第j个特征在随机森林RF所有决策树中节点分裂不纯度的平均改变量;第i棵树节点q的Gini指数的计算公式如公式(1)所示:
[0027][0028]其中,C表示有C个类别,p
qc
表示节点q中类别c所占的比例,c'代表随机从节点q中随机抽取两个样本,其类别标记不一致的概率;直观地说,就是随机从节点q中随机抽取两个样本,其类别标记不一致的概率;
[0029]特征X
j
在第i棵树节点q的重要性,即节点q分枝前后的Gini指数变化量为下方公式(2)所示:
[0030][0031]其中,表示节点q分枝前的Gini指数,和分别表示分枝后两个新节点的Gini指数;如果,特征X
j
在决策树i中出现的节点为集合Q,那么X
j
在第i颗树的重要性为
下方公式(3)所示:
[0032][0033]假设RF中共有I颗树,那么I颗树的重要性和如下方公式(4)所示:
[0034][0035]最后,把所有求得的重要性评分做一个归一化处理即可,如下方公式(5)所示:
[0036][0037]S6、确定最终选定特征;
[0038]以选取前25个特征逐一用随机森林进行建模;根据模型结果,最终选择前5个特征就可以达到模型R平方和MSE平衡。
[0039]S7、预测结果有效性;
[0040]用步骤S6选择的5个特征对其他数据集进行验证,取得一致效果。
[0041]进一步的,在步骤S4中,所述的PermutationImportance算法原理如下:当一个特征删除后,通过查看准确度、R2降低多少,来衡量特征的重要性;即从数据集中删除一个特征,重新训练估计器并检查得分,但它需要为每个特征重新训练一个估计器,它评估的是数据集中的重要性,而不是具体训练模型中的重要性;
[0042]从数据集的测试部分移除一个特征,并在不使用该特征的情况下计算分数;用随机噪声替换特征,而不是删除特征,即特征列仍然存在,但不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习卷烟机剔除率特征选取的方法,其特征在于,具体包括如下步骤:S1、采集数据;在卷烟生产过程中,以每2秒的速度在线实时采集卷烟机特征数据;S2、清洗数据;将步骤S1中采集到的特征数据进行清洗,剔除缺失值特征,删除含有空值的特征,剔除方差为零特征,其中包括字符型,删除没有变化的特征,并对字符型数据进行分类编码处理;S3、处理数据泄漏;以“空头当前剔除率”为目标值,其他特征为输入特征,将步骤S2的数据以7:3的方式,分为训练集和验证集,分别用线性回归,支持向量机和随机森林建模,得到R2均超过0.999的成绩,说明存在数据泄漏问题,需要将泄漏特征剔除。在其他的特征中有“剔除量”和“剔除率”指标共80个,因此需要进行剔除;S4、选择模型;以“空头当前剔除率”为目标值,其他特征为输入特征,将步骤S3数据以7:3的分配比例分为训练集和验证集,分别用线性回归、支持向量机以及随机森林这三种模型进行建模,用训练集数据进行训练,验证集数据进行验证,采用R平方值和均方误差值进行评估,分别记为R2和MSE;根据上述模型的评估结果,依据R2越接近1和MSE最小的原则,选择随机森林作为基准模型;S5、获得模型的特征重要性;用步骤S4选择的随机森林模型的feature_importances_和eli5工具的Permut...

【专利技术属性】
技术研发人员:林建南柴武君倪建彬郑闪闪陆成飞李茂松
申请(专利权)人:浙江中烟工业有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1