本发明专利技术公开一种茶叶检测技术中混合GK聚类的红外光谱茶叶优劣鉴别方法,用线性判别分析法对压缩后的训练样本学习得到包含鉴别信息的训练样本和测试样本,对包含鉴别信息的测试样本运行模糊C均值聚类,得到初始模糊隶属度和初始聚类中心,先计算模糊散射矩阵和模糊隶属度值,再计算出典型值,根据典型值计算出聚类中心,分别计算包含鉴别信息的训练样本的平均值到测试样本的聚类中心的欧式距离,若聚类中心到训练茶叶的平均值的欧式距离最小则判定该聚类中心所属茶叶品种和这种训练样本的茶叶品种是相同品种,根据模糊隶属度值判定测试样本所属茶叶和类别;本发明专利技术将典型值增加进入函数中,可以大幅度降低处理噪声数据时出错的概率。
【技术实现步骤摘要】
本专利技术涉及茶叶检测技术,具体涉及基于GK聚类和红外光谱技术的茶叶优劣鉴别方法。
技术介绍
在茶叶检测中,红外光谱检测是一种快速无损检测分析技术,常用中红外光谱仪检测茶叶,中红外光谱的波数范围在4000cm-1~400cm-1之间,大多数的无机化合物和有机化合物的化学键振动的基频均在此区域。不同的分子中官能团、化合物的类别和化合物的立体结构,其红外吸收光谱不尽相同。中红外光谱技术以其方便、快速、高效、无损、低成本等特点成为检测食品和药品的有效检测技术。常见的聚类方法有两种:硬聚类方法和软(模糊)聚类方法,硬聚类方法应用于聚类边界明显的情况;对于聚类边界不是很清晰的情况采用模糊聚类方法则更为合适,例如常用的模糊C均值聚类。GK聚类方法是由Gustafson和Kessel提出的一种聚类方法(见文献GustafsonDE,KesselWC.Fuzzyclusteringwithfuzzycovariancematrix[C]//ProceedingsoftheIEEECDC,SanDiego,1979:761~766),目的是将数据集按照某种相似准则划分为若干个子集,通过聚类方法将大批数据分类为许多本质联系的簇;对于模糊C均值聚类未考虑数据集的结构这一缺陷进行了改进,采用模糊协方差矩阵对簇形状的距离测度具有局部自适应性,可以聚类多种簇形状的数据集。但是传统的GK聚类方法在聚类含噪声数据时,聚类准确率会因噪声数据而受到很大影响。而在用中红外光谱仪检测茶叶过程中会产生噪声信号,所采集得到的中红外光谱含有噪声信号,由于GK聚类方法对噪声敏感,因而在处理含噪声的茶叶中红外光谱数据时易出错。
技术实现思路
本专利技术的目的在于解决现有GK聚类方法在聚类茶叶红外光谱时存在对噪声数据易出错的问题,提出在GK聚类方法的基础上进行改进和优化的一种混合GK聚类的红外光谱茶叶优劣鉴别方法,能很好地聚类含噪声的茶叶中红外光谱数据,提高对茶叶优劣鉴别的准确率。本专利技术一种混合GK聚类的红外光谱茶叶优劣鉴别方法采用的技术方案是:采集茶叶样本红外光谱,将茶叶样本分为训练样本和测试样本,预处理茶叶样本红外光谱,然后压缩红外光谱数据,用线性判别分析法对压缩后的训练样本学习得到包含鉴别信息的训练样本和测试样本,对包含鉴别信息的测试样本运行模糊C均值聚类,得到初始模糊隶属度uik,0和初始聚类中心v0,0,还依序包括以下步骤:A、先计算第r次迭代时第i类的模糊散射矩阵Sfi,r和第r次迭代时的模糊隶属度值uik,r,再计算出第r次迭代时第k个测试样本隶属于第i类的典型值为第r-1次迭代时测试样本xk到聚类中心vi,r-1的距离范数,d为测试样本的维数,r为迭代次数,c为茶叶类别数,1≤i≤c,1≤k≤n,n为测试样本数;B、根据典型值tik,r计算出第r次迭代时的第i类的聚类中心m是权重指数值;C、计算所述包含鉴别信息的训练样本的平均值,再分别计算平均值到测试样本的聚类中心νi,r的欧式距离,若聚类中心到训练茶叶的平均值的欧式距离最小则判定该聚类中心所属茶叶品种和这种训练样本的茶叶品种是相同品种;D、根据模糊隶属度值uik,r判定测试样本xk所属茶叶和类别,若uik,21>0.5则判定xk所属茶叶为优质茶叶。由于茶叶的红外漫反射光谱包含了茶叶内部的组分信息,优劣茶叶所对应的红外漫反射光谱不同,本专利技术先运用主成分分析压缩优劣茶叶的红外光谱数据,采用线性判别分析提取红外光谱的鉴别信息,最后用混合GK聚类方法鉴别优劣茶叶,相比传统的GK聚类方法,本专利技术混合GK聚类方法所需茶叶样本少,可以有效地聚类茶叶的红外光谱数据,聚类准确率高,聚类速度快,检测速度快,分类效率高,识别率高等优点。相比传统的GK聚类目标函数,本专利技术将典型值增加进入函数中,可以大幅度降低处理噪声数据时出错的概率,对数据中的噪声有很好的处理效果。使噪声对鉴别优劣茶叶结果的影响大大降低。附图说明图1是本专利技术一种混合GK聚类的红外光谱茶叶优劣鉴别方法的流程图;图2是实施例中优质竹叶青茶叶红外光谱图;图3是实施例中劣质竹叶青茶叶红外光谱图;图4是实施例中预处理后的茶叶红外光谱图;图5是实施例中茶叶的红外光谱经LDA提取鉴别信息后得到的训练样本数据图;图6是是实施例中茶叶的红外光谱经LDA提取鉴别信息后得到的测试样本数据图;图7和图8分别是实施例中两类茶叶样本运行模糊C均值聚类产生的初始模糊隶属度图;图9和图10分别是实施例中两类茶叶第2个测试样本经过21次迭代后得到的模糊隶属度图。具体实施方式参见图1,收集优劣茶叶样本,用红外光谱仪采集茶叶样本的红外光谱,获取茶叶样本红外漫反射光谱信息,将光谱信息存储在计算机里。采集红外漫反射光谱信息时,尽量保持室内的温度和湿度基本一致。采集的红外漫反射光谱信息的光谱波数范围为4001.569cm-1~401.1211cm-1,采集到的每个茶叶样本的光谱是1868维的数据。采集好信息后,将茶叶样本分为训练样本和测试样本,训练样本数nr和测试样本数n,茶叶类别数c=2。先用常规的多元散射校正法(MSC)和标准正态变量变换法(SNV)对茶叶样本红外光谱数据进行预处理。然后对预处理后的茶叶样本红外光谱数据利用主成分分析(PCA)进行降维,获得茶叶样本红外光谱的压缩数据。再对压缩数据用线性判别分析(LDA)提取鉴别信息,得到包含鉴别信息的训练样本和测试样本数据。最后对包含鉴别信息的测试样本用混合GK聚类方法以鉴别测试样本中的优劣茶叶。混合GK聚类方法具体如下:先进行初始化设置,设置权重指数m的值且满足m∈(1,+∞),迭代次数初始值r=0,最大迭代次数为rmax,迭代最大误差参数ε;对包含鉴别信息的测试样本运行常规的模糊C均值聚类,模糊C均值聚类运行终止后的模糊隶属度和类中心分别作为初始模糊隶属度uik,0和初始聚类中心vi,0。根据初始模糊隶属度uik,0和初始聚类中心vi,0,计算第r(r=1,2,…,rmax)次迭代时第i类的模糊散射矩阵Sfi,r:上式中,xk为第k个包含鉴别信息的茶叶红外光谱测试样本,vi,r-1为第r-1次迭代时第i类的聚类中心,i=1,2,uik,r-1为第r-1次迭代时测试样本xk属于第i类的模糊隶属度,Sfi,r是第r次迭代时第i类的模糊散射矩阵。并计算第r次迭代时的模糊隶属度值uik,r:上式中为第r-1次迭代时测试样本xk到聚类中心vi,r-1的距离范数,为第r-1次迭代时测试样本xk到聚类中心vj,r-1的距离范数,j=1,2,j≠i,vj,r-1为第r-1次迭代时第j类的聚类中心。其中:上式中,Ai,r是第r次迭代时的第i个聚类中心的范数矩阵,d为测试样本xk的维数。然后根据距离范数和模糊散射矩阵Sfi,r计算第r次迭代时第k个测试样本xk隶属于第i类的典型值tik,r:根据典型值tik,r计算第r次迭代时的第i类的聚类中心νi,r:判断迭代次数或者||νi,r-νi,r-1||的值,当||νi,r-νi,r-1||<ε或者r>rmax时,则计算终止,否则从计算第r次迭代时第i类的模糊散射矩阵Sfi,r开始重新计算,如此迭代直至终止。迭代终止后,分别计算包含鉴别信息的训练样本的平均值,以及平均值到聚类中心νi,r本文档来自技高网...
【技术保护点】
一种混合GK聚类的红外光谱茶叶优劣鉴别方法,采集茶叶样本红外光谱,将茶叶样本分为训练样本和测试样本,预处理茶叶样本红外光谱,然后压缩红外光谱数据,用线性判别分析法对压缩后的训练样本学习得到包含鉴别信息的训练样本和测试样本,对包含鉴别信息的测试样本运行模糊C均值聚类,得到初始模糊隶属度uik,0和初始聚类中心v0,0,其特征是还依序包括以下步骤:A、先计算第r次迭代时第i类的模糊散射矩阵Sfi,r和第r次迭代时的模糊隶属度值uik,r,再计算出第r次迭代时第k个测试样本隶属于第i类的典型值为第r‑1次迭代时测试样本xk到聚类中心vi,r‑1的距离范数,d为测试样本的维数,r为迭代次数,c为茶叶类别数,1≤i≤c,1≤k≤n,n为测试样本数;B、根据典型值tik,r计算出第r次迭代时的第i类的聚类中心m是权重指数值;C、计算所述包含鉴别信息的训练样本的平均值,再分别计算平均值到测试样本的聚类中心νi,r的欧式距离,若聚类中心到训练茶叶的平均值的欧式距离最小则判定该聚类中心所属茶叶品种和这种训练样本的茶叶品种是相同品种;D、根据模糊隶属度值uik,r判定测试样本xk所属茶叶和类别,若uik,21>0.5则判定xk所属茶叶为优质茶叶。...
【技术特征摘要】
1.一种混合GK聚类的红外光谱茶叶优劣鉴别方法,采集茶叶样本红外光谱,将茶叶样本分为训练样本和测试样本,预处理茶叶样本红外光谱,然后压缩红外光谱数据,用线性判别分析法对压缩后的训练样本学习得到包含鉴别信息的训练样本和测试样本,对包含鉴别信息的测试样本运行模糊C均值聚类,得到初始模糊隶属度uik,0和初始聚类中心v0,0,其特征是还依序包括以下步骤:A、先计算第r次迭代时第i类的模糊散射矩阵Sfi,r和第r次迭代时的模糊隶属度值uik,r,再计算出第r次迭代时第k个测试样本隶属于第i类的典型值为第r-1次迭代时测试样本xk到聚类中心vi,r-1的距离范数,d为测试样本的维数,r为迭代次数,c为茶叶类别数,1≤i≤c,1≤k≤n,n为测试样本数;B、根据典型值tik,r计算出第r次迭代时的第i类的聚类中心m是权重指数值;C、计算所述包含鉴别信息的训练样本的平均值,再分别计算平均值到测试样本的聚类中心νi,r的欧式距离,若聚类中心到训练茶叶的平均值的欧式距离最小则判定该聚类中心所属茶叶品种和这种训练样本的茶叶品种是相同品...
【专利技术属性】
技术研发人员:武小红,陈博文,武斌,孙俊,田潇瑜,戴春霞,杨梓耘,张伟,
申请(专利权)人:江苏大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。