本发明专利技术公开了一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,包括如下步骤:建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,以及目标成分含量;采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类;每一次聚类完成后,利用PLS分别建立各子类谱段与目标成分含量的关系模型,并计算各关系模型的交叉验证均方根误差;以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型;采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟草样本的目标成分含量。本发明专利技术与现有的PLS方法相比,能显著降低模型的预测误差。
【技术实现步骤摘要】
本专利技术涉及烟草的理化检测
,具体涉及一种基于近红外光谱波数K均值 聚类的烟草化学值定量方法。
技术介绍
烟草中的主要化学成分如总糖、烟碱、还原糖、总氮等对烟叶品质具有重要影响, 是决定烟气劲头,醇和度等的主要因素。在烟草工业中,常规化学成分的分析测定对卷烟成 品质量的控制具有重要的意义。 近红外光谱能够表征待测物中多种含氢基团信息,具有采样方便、无损伤、无污 染、能够在线检测等优点,非常适合用于各种复杂混合物的检测。近红外光谱检测技术目前 已广泛应用于烟草领域,例如打叶复烤中基于烟碱含量的均质化加工及卷烟生产中的质量 监测等。应用近红外分析技术,可以较好的预测烟叶中烟碱,总糖,总氮等主要化学成分含 量,对烟叶质量进行快速初步的评价有极大地帮助。 目前基于近红外的烟叶主要化学成分建模主要是通过偏最小二乘算法 (PartialLeastSquares,PLS)来实现,PLS是为了弥补最小二乘在计算强共线性数据时 的缺陷而提出的(参见文献 H. Martens, S. A. Jensen, and P. Geladi, "Multivariate linearity transformations for near infrared reflectance spectroscopy, ',in Proc. Nordic Symp. Applied Statistics, 1983, pp.205 - 234.)〇 考虑一组因变量Y= {yi,y2,…,yq}和一组自变量X= {Xl,x2, ···,&},在X存在严 重多重相关性或者样本数量少于变量个数时,对矩阵XtX求逆将会失效。PLS采用成分提取 的办法解决这个问题,通过在X和Y中依次提取出成分分量,保证X中分量与Y中分量的协 方差最大,从而实现回归建模、数据结构简化以及分析两组变量之间的相关性,能够有效地 处理多变量和共线性问题,非常适合应用于近红外光谱的定量分析。 然而,针对烟草等复杂的天然产品,PLS方法在算法执行中对所有波数信息统一进 行处理,对感兴趣物质含量相关区域、无信息区域以及噪声区域等没有进行甄别,致使模型 的预测精度和解释能力没有达到最优。同时,由于近红外光谱定量分析属于二次分析方法, 即在标准分析方法(如流动分析等)的基础上进行建模,其模型误差对后续应用有较大影 响。 例如,打叶复烤中根据化学值对烟叶进行调配,保证复烤烟叶质量均一稳定,又 如,在烟叶醇化过程中,监测不同种类烟叶随醇化时间的烟叶化学值和品质变化过程,优选 最佳的醇化时间等。在上述应用中,都需利用近红外光谱快速大量的获取分析数据,同时, 由于其预测精度对后续的调配,加工等至关重要,因此,需优化定量分析模型以提供精准的 化学值预测。 现有的基于近红外的烟草化学值的建模方法为单一 PLS算法,该算法执行中对光 谱的各局部信息没有进行筛选或处理,导致部分高噪声变量同时进入到建模过程中,对于 与待测化学值关联性较强的谱段没有进行适当的增强,致使模型的预测精度和解释能力没 有达到最优。 由于现有的基于近红外的烟草化学值的建模方法为单一 PLS算法,对近红外光谱 中的各个波段统一处理,存在对光谱噪声的抑制能力不强,对光谱中的有效信息挖掘能力 不够的缺点。
技术实现思路
本专利技术提供了一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,利用 近红外光谱的波数K均值聚类和模型集成,建立烟草中化学成分的定量模型,降低近红外 光谱信号中的干扰因素,提高定量模型的预测精度。 -种基于近红外光谱波数K均值聚类的烟草化学值定量方法,包括如下步骤: (1)建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,并测量训练 集中各烟草样本的目标成分含量; (2)采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类; (3)每一次聚类完成后,利用偏最小二乘法分别建立各子类谱段与目标成分含量 的关系模型,并计算各关系模型的交叉验证均方根误差(即Root Mean Square Error for Cross-Validation, RMSECV); (4)以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类 数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型; (5)采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟 草样本的目标成分含量。 本专利技术中利用近红外光谱波数K均值聚类和模型集成的建模方法分为三步:首 先,通过K均值聚类和子类建模,对近红外光谱的局部信息进行提取,其次,通过对子类进 行比较和加权,确定各局部信息在全谱模型中的权重,最终得到全谱模型,最后,利用交叉 验证的方法,对不同的聚类和建模效果进行比较,确定最优的聚类类别数和相应的模型回 归系数,利用模型回归系数对测试集中各烟草样本的目标成分进行预测。本专利技术将局部信 息提取和模型相融合,提高了模型的预测精度和解释能力。 步骤(1)中利用现有技术中的国际国内标准或其他已经成熟的测试方法测量训 练集中各烟草样本的目标成分含量,目标成分根据需要进行选择,优选地,步骤(1)中的目 标成分为总糖、烟碱、还原糖或总氮。 步骤(2)中聚类的最大聚类数为2~10。最大聚类数依据近红外光谱所含变量的 数目确定,优选地,步骤(2)中聚类的最大聚类数为2~5。 本专利技术中,为了获得更好的精度以及计算效率,优选地,偏最小二乘法采用非线性 迭代偏最小二乘法。交叉验证均方根误差采用五折交叉验证算法。 作为优选,步骤(4)中各关系模型的权重Wk计算公式如下: 式中:ek为第k个子类的交叉验证均方根误差; η为子类的个数。 将各关系模型加权求和,得到全谱模型,全谱模型中各回归系数β的计算公式如 下: 式中,wk,β 别为第k个关系模型的权重和回归系数。 为了获得理想的近红外光谱,需要对烟草样本进行预处理,预处理过程如下: 烟草样本烘干后,磨碎至40目,密封平衡24~36h后,进行近红外光谱测量。 本专利技术提供的基于近红外光谱波数K均值聚类的烟草化学值定量方法,与现有的 PLS方法相比,能够显著降低模型的预测误差,适用于近红外光谱中对烟草样本化学值的准 确定量。【附图说明】当前第1页1 2 本文档来自技高网...
【技术保护点】
一种基于近红外光谱波数K均值聚类的烟草化学值定量方法,其特征在于,包括如下步骤:(1)建立训练集和测试集,采集训练集中所有烟草样本的近红外光谱,并测量训练集中各烟草样本的目标成分含量;(2)采用K均值聚类对训练集中各烟草样本的近红外光谱的波数进行聚类;(3)每一次聚类完成后,利用偏最小二乘法分别建立各子类谱段与目标成分含量的关系模型,并计算各关系模型的交叉验证均方根误差;(4)以各关系模型对应的交叉验证均方根误差之和最小的聚类数作为最优聚类数,并将最优聚类数对应的各关系模型进行加权求和,得到全谱模型;(5)采集测试集中各烟草样本的近红外光谱,并依据全谱模型,得到测试集中各烟草样本的目标成分含量。
【技术特征摘要】
【专利技术属性】
技术研发人员:毕一鸣,储国海,周国俊,夏琛,吴继忠,袁凯龙,史春云,夏骏,
申请(专利权)人:浙江中烟工业有限责任公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。