一种基于近红外提高鉴别结果的定性分析方法技术

技术编号:11074479 阅读:113 留言:0更新日期:2015-02-25 13:17
本发明专利技术公开了一种基于近红外提高鉴别结果的定性分析方法,该方法包括:步骤1:采集样本的近红外光谱数据,并确定建模集和测试集;步骤2:对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征提取;步骤3:采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,并校正剩余测试集;步骤4:建立定性分析模型;步骤5:利用建立的定性分析模型对剩余测试集进行定性鉴别。本发明专利技术建立在近红外定性分析基础上,在特征提取步骤中使用了在多分类和二分类问题中都能使用的正交线性鉴别方法;除此之外,通过直接模型传递方法能够校正测试集,从而能够解决同一台仪器长时间的光谱偏移带来的模型适用性问题,提高定性鉴别的结果。

【技术实现步骤摘要】
一种基于近红外提高鉴别结果的定性分析方法
本专利技术涉及近红外定性鉴别领域,特别是一种基于近红外提高鉴别结果的定性分析方法。
技术介绍
近红外光谱(NearInfraredSpectrum,NIR)是介于可见光(Vis)和中红外(MIR)之间的电磁辐射波,美国材料检测协会(ASTM)将近红外光谱区定义为780~2526nm的区域,是人们在吸收光谱中发现的第一个非可见光区。近红外光谱区与有机分子中含氢基团(O-H、N-H、C-H)振动的合频和各级倍频的吸收区一致,通过扫描样品的近红外光谱,可以得到样品中有机分子含氢基团的特征信息,而且利用近红外光谱技术分析样品具有方便、快速、高效、准确和成本较低,不破坏样品,不消耗化学试剂,不污染环境等优点,因此该技术受到越来越多人的青睐。随着分析技术的快速发展,基于近红外光谱的各类检测技术虽然得到了广泛的应用,但是基本都是在定量分析中的应用,在定性分析应用中较少。而目前较为需求的则是近红外光谱的定性分析鉴别技术,例如在食品安全领域,要鉴别作物种子的品种真实性,以保障农民的生产利益;检测奶粉中是否含有某些特殊物质以确保食用安全;在药品安全领域中,检测药物中是否含有某一种成分,以确保用药安全等。可见近红外光谱定性分析技术,会在更多的领域得到发展,同时也会在更多领域发挥越来越重要的作用。在实际应用近红外定性分析过程中,以往的实验结果都是在采集条件较为理想的数据集上得到的,而在实际应用中,采集的实验数据往往会包含很多不确定信息,这些不确定信息可能影响整个定性分析模型的性能,从而影响定性鉴别分析的结果准确性。针对该问题,有人提出了模型传递的思想,它是用于解决多台相同型号仪器之间的模型共用问题。除了不同仪器之间的差别,同一台仪器长时间的光谱偏移同样面临着模型适用性的问题,由于相同物质不同品种间成分相差较小,光谱相互交叠,因此这种差异对定性分析的影响甚至比定量分析更为严重,严重时甚至完全不能正确识别。实际应用近红外光谱进行定性分析时,很多方法在特征提取时都用到了线性鉴别分析(LDA),由于LDA方法提取的数据维数必须比类别数小1,因此如果在定性分析中使用LDA算法,当类别数较少的时候,则限定了LDA提取数据的维数,很可能导致有用信息的丢失,甚至算法完全失效。小样本问题是是线性鉴别分析最大的问题。因此本专利技术使用了正交线性鉴别分析(OLDA)方法,使本专利技术所提出来的定性鉴别分析不仅能用于多分类问题,还能用于二分类问题。针对目前近红外定性分析和模型适用性等的现状与诸多不足,本专利技术提出一种基于近红外提高鉴别结果的定性分析方法。
技术实现思路
(一)要解决的技术问题有鉴于此,本专利技术的主要目的是为了提供一种简单可行、快速高效,并且能提高定性分析鉴别结果的一种基于近红外提高鉴别结果的定性分析方法。(二)技术方案为达到上述目的,本专利技术提供了一种基于近红外提高鉴别结果的定性分析方法,该方法包括:步骤1:采集样本的近红外光谱数据,并确定建模集和测试集;步骤2:对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征提取;步骤3:采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,并校正剩余测试集;步骤4:建立定性分析模型;步骤5:利用建立的定性分析模型对剩余测试集进行定性鉴别。上述方案中,步骤1中所述采集样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集样本的近红外光谱数据。所述确定建模集和测试集,是将在同一天采集的光谱数据作为建模集,建模集是用来建立定性分析模型的原始建模数据;将不同采集日期采集的近红外光谱数据作为不同的测试集,测试集是用来鉴别种子品种真实性的原始测试数据。上述方案中,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征提取,具体包括:步骤21:对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行预处理;步骤22:对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间;步骤23:利用得到的偏最小二乘特征矩阵,将经过预处理之后的建模集和测试集数据变换到偏最小二乘空间中;步骤24:对经过偏最小二乘特征提取之后的建模集数据进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵;步骤25:利用得到的正交线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的建模集和测试集数据变换到正交线性鉴别分析空间中;步骤26:利用变换到正交线性鉴别分析空间中的建模集数据进行建模,用变换到线性鉴别分析空间中的测试集数据进行鉴别。上述方案中,步骤2中所述的预处理、偏最小二乘特征提取和正交线性鉴别分析特征提取,在对建模集和测试集处理时采用相同的参数。上述方案中,步骤22中进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,具体包括:步骤221:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵:Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属于第j类;步骤222:求矩阵X′0Y0的协方差矩阵C=X′0Y0Y0X0,协方差矩阵常数舍弃;步骤223:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS;步骤224:得到新的特征向量为x′i=xiW′PLS。上述方案中,步骤24中所述的进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵,具体包括:步骤241:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下:其中,为第i类模式的均值,为总样本均值;步骤242:将正交线性鉴别分析的优化问题转换为求解下式的优化问题:其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量,且要满足WTW=I:SBw=λSWw;步骤243:得到WOLDA-opt后,取最大的n维特征值对应的特征向量组成投影矩阵WOLDA,即可进行数据转换Y′=YW′OLDA。上述方案中,步骤24中所述的正交线性鉴别分析特征矩阵,与线性鉴别分析特征矩阵相比,正交线性鉴别分析特征矩阵在求解变换矩阵的过程中,特征向量之间是两两正交的,即满足WTW=I。上述方案中,步骤3中所述采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,具体包括:首先从建模集和测试集中各自挑选出用于光谱校正的光谱数据;然后用直接模型传递方法计算变换矩阵。上述方案中,所述挑选光谱校正数据,是从建模集和测试集中各自挑选出用于光谱校正的光谱数据,所用方法包括Kennard/Stone算法,采用Kennard/Stone算法挑选光谱校正数据的过程具体包括:步骤31:设置需要选取的校正样品个数k;步骤32:计算所有建模集样本两两之间的距离,将距离最远的两个样本选为校正集的第一、二个样本;步骤33:对于剩余样本,计算其与已选样本之间的距离并取其最小值,然后选择这些距离中最大值对应的样本为本次选择样本;步骤34:重复步骤33,直至选够k个样本组成建模集的校正集;步骤35:在测试本文档来自技高网
...
一种基于近红外提高鉴别结果的定性分析方法

【技术保护点】
一种基于近红外提高鉴别结果的定性分析方法,其特征在于,该方法包括:步骤1:采集样本的近红外光谱数据,并确定建模集和测试集;步骤2:对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征提取;步骤3:采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,并校正剩余测试集;步骤4:建立定性分析模型;步骤5:利用建立的定性分析模型对剩余测试集进行定性鉴别。

【技术特征摘要】
1.一种基于近红外提高鉴别结果的定性分析方法,其特征在于,该方法包括:步骤1:采集样本的近红外光谱数据,并确定建模集和测试集;步骤2:对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征提取;步骤3:采用直接模型传递方法计算建模集和测试集之间的光谱变换矩阵,并校正剩余测试集;步骤4:建立定性分析模型;步骤5:利用建立的定性分析模型对剩余测试集进行定性鉴别;其中,步骤2中所述对建模集和测试集依次进行预处理、偏最小二乘特征提取和正交线性鉴别特征提取,具体包括:步骤21:对建模集和测试集的原始数据用相同的预处理方法及相同的参数进行预处理;步骤22:对经过预处理之后的建模集数据进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,以利用该矩阵将数据变换到偏最小二乘空间;步骤23:利用得到的偏最小二乘特征矩阵,将经过预处理之后的建模集和测试集数据变换到偏最小二乘空间中;步骤24:对经过偏最小二乘特征提取之后的建模集数据进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵;步骤25:利用得到的正交线性鉴别分析特征矩阵,将经过偏最小二乘特征提取之后的建模集和测试集数据变换到正交线性鉴别分析空间中;步骤26:利用变换到正交线性鉴别分析空间中的建模集数据进行建模,用变换到线性鉴别分析空间中的测试集数据进行鉴别。2.根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步骤1中所述采集样本的近红外光谱数据,是采用近红外光谱仪在不同时间采集样本的近红外光谱数据。3.根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步骤1中所述确定建模集和测试集,是将在同一天采集的光谱数据作为建模集,建模集是用来建立定性分析模型的原始建模数据;将不同采集日期采集的近红外光谱数据作为不同的测试集,测试集是用来鉴别种子品种真实性的原始测试数据。4.根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步骤2中所述的预处理、偏最小二乘特征提取和正交线性鉴别分析特征提取,在对建模集和测试集处理时采用相同的参数。5.根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步骤22中进行偏最小二乘特征提取,得到偏最小二乘特征矩阵,具体包括:步骤221:对样本数据进行标准化处理,即令样本的各个变量的均值为0,方差为1;令样本矩阵为X0,类别信息矩阵为Y0;其中,X0定义为n条光谱p个数据点的原始光谱矩阵,Y0为对应的类别属性矩阵:Y0中,yij=1表示第i条光谱属于第j类,yij=0表示第i条光谱不属于第j类;步骤222:求矩阵X′0Y0的协方差矩阵C=X′0Y0Y′0X0,协方差矩阵常数舍弃;步骤223:求得协方差矩阵C的特征值以及对应的特征向量,并将特征向量按照特征值的大小排列,取最大的n维特征值对应的特征向量组成投影矩阵WPLS;步骤224:得到新的特征向量为x′i=xiW′PLS。6.根据权利要求1所述的基于近红外提高鉴别结果的定性分析方法,其特征在于,步骤24中所述的进行正交线性鉴别分析特征提取,得到正交线性鉴别分析特征矩阵,具体包括:步骤241:假设有C类样本,总样本数为N,Ni为第i类样本数,则定义类内散布矩阵SW、类间散布矩阵SB如下:其中,为第i类模式的均值,为总样本均值;步骤242:将正交线性鉴别分析的优化问题转换为求解下式的优化问题:其中,wi(i=1,2,...,)对应为下式特征值降序排列前n个值对应的特征向量,且要满足WTW=I:SBw=λSWw;步骤243:得到WOLDA-opt后,取最大的n维特征值对应的特征向量组成投影矩阵WOLDA,即可进行数据转换Y'=YW′OLDA。7.根据权利要求1所述的基于近红外提高鉴别结果的定性...

【专利技术属性】
技术研发人员:张丽萍李卫军董肖莉覃鸿
申请(专利权)人:中国科学院半导体研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1