一种基于SIMCA-SVDD的细菌拉曼光谱识别分类方法技术

技术编号:27266788 阅读:23 留言:0更新日期:2021-02-06 11:30
本发明专利技术公开了一种基于SIMCA

【技术实现步骤摘要】
一种基于SIMCA-SVDD的细菌拉曼光谱识别分类方法


[0001]本专利技术是一种针对细菌拉曼光谱的快速识别分类方法,涉及细菌拉曼光谱分析领域。

技术介绍

[0002]肉毒梭菌(Clostridium botulinum)为厌氧型细菌,极易在封闭无氧环境下生存。作为导致全球范围内细菌性中毒的重要致病菌,肉毒梭菌一直是疾控领域的重点监测对象。肉毒梭菌广泛存在于各类包括罐头,冷冻食物等真空包装食品中。同样,如果肉毒梭菌存在于水源中,将造成更加广泛的伤害。
[0003]过去数十年,细菌的识别与检测领域产生了许多解决问题的新思路,其中包括荧光原位杂交、质谱、聚合酶链式反应等。这些方法耗费时间和人力成本,难以进行实际推广。因此,传统的细菌培养法及动物实验法在细菌检测领域仍占据主导地位。传统的方法也有其缺陷:如检测结果无法实现最后的菌种鉴定,检测的正确率不高等。拉曼光谱分析法因其简便、准确、快速等优点,进入公众视野,迅速成为一种极具潜力的细菌检测手段。
[0004]拉曼光谱可以作为一种分子光谱,用于分析物质成分结构信息。拉曼分析在微生物检测上的使用最早出现于上世纪90年代。Gaus等采用紫外共振拉曼技术检测出酸奶中的嗜酸乳杆菌、德氏乳杆菌和嗜热链球菌。Xie等利用拉曼技术得到了存活的单细菌孢子的原始光谱图,并使用化学计量学方法对六种细菌进行分类。可见,拉曼光谱技术可以检测单细菌或孢子的光谱图。因此,显微拉曼光谱技术在细菌检测领域依旧是常用且有效的手段。常见的分类判别分析方法包括:主成分分析(PCA)以及簇类软独立模式分类法(SIMCA)等。
[0005]SIMCA方法作为一种定性分类的化学计量学的方法,成熟应用于各类谱图的分析中。对于获取的细菌拉曼数据,最常使用的分类方法就是SIMCA分类法。SIMCA进行分类的过程中的样本边界问题,仍旧是一个值得讨论的问题。如何画出更小更准确的分类边界,得到的更好的分类结果,减少错分样本的数量,问题依旧亟待解决。原始的SIMCA方法采用欧氏距离对样本进行分类,对于遇到的非线性问题,圆并不能非常准确地描述出样本的分界线。由于细菌包含的物质相似,细菌光谱的谱图较为相似,样本数据分类本身存在一定难度。因此,需要对SIMCA原始算法的边界进行改进。本专利技术加入支持向量域描述SVDD,改进SIMCA过程中样本边界的划分,提出一种SIMCA-SVDD的改进方法进行细菌拉曼光谱的快速分类,为细菌的快速分类提供新的解决方案。

技术实现思路

[0006]由于细菌的结构相似,细菌内部的物质结构也较为相似。对于每一类细菌获取的拉曼光谱谱图有较大的相似性,采用原始的SIMCA方法存在较难区分各类细菌的情况。本专利技术提出一种基于SIMCA-SVDD的新方法对细菌拉曼光谱数据进行识别分类,其重点在于:在采用SIMCA方法中的PCA方法进行建模后,采用SVDD原则划分目标区域,而非采用原始的圆弧,改变了区域划分的规则,从而得到更好的拉曼数据分类结果。
[0007]本专利技术所采用的技术方案是:
[0008]一种用于细菌快速检测的方法,所述的方法可用于鉴别细菌拉曼光谱数据。本专利技术使用的光谱仪是显微共聚焦拉曼光谱仪,具体的步骤如下:
[0009]本专利技术解决其技术问题所采取的技术方案是:基于电子显微图像的肉毒梭菌识别方法,旨在建立一种基于肉毒梭菌细菌电子显微图像的在线识别分类系统及方法。
[0010]该专利技术使用的方法的主要内容包括如下:
[0011]步骤1:获取各类细菌拉曼光谱数据。
[0012]步骤2:对得到的细菌拉曼光谱数据进行数据预处理,消除数据中存在的噪声问题。
[0013]步骤3:将得到的预处理后的拉曼数据输入到SIMCA-SVDD算法中进行建模。
[0014]步骤4:将需要预测分类的数据输入到训练好的SIMCA-SVDD模型中进行预测分类。
[0015]进一步的,本专利技术步骤1所述的获取细菌拉曼光谱数据的方法,其步骤具体包括:
[0016]假设每一次测量得到的细菌光谱数据为y
i
=f(x
i
),横坐标表示波长信息,单位为cm-1
,纵坐标表示吸光度。则获取的细菌拉曼光谱数据矩阵为:其中n为细菌拉曼光谱样本总数。
[0017]进一步的,本专利技术步骤2所述的细菌拉曼数据预处理过程,其步骤具体包括:
[0018]对获取的细菌拉曼光谱数据Y进行标准正态变换(Standard Normal Variate Transformation,SNV)。它可以减少光谱数据的噪声。其的计算过程为:
[0019][0020][0021]其中y
ki
表示第k行第i列的样本的吸光度大小,表示该行吸光度的平均值,S
k
表示该行样本吸光度的方差。SNV变换对每一行的细菌拉曼光谱数据进行处理,Y矩阵经过处理得到Y
snv
作为下一步骤的输入。
[0022]进一步的,本专利技术步骤3所述的SIMCA-SVDD方法,其步骤具体包括:
[0023]对于经过数据预处理的细菌拉曼光谱数据矩阵Y
snv
,首先采用PCA将每类样本矩阵分解为:
[0024][0025]其中T,P分别代表均值矩阵,得分矩阵以及负载矩阵。利用交叉验证确定主成分A的数量:
[0026][0027]其中E为残差矩阵。统计量Q可以表示为:
[0028]Q=1-PRESS/SS
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0029]其中PRESS是预测误差的平方和,SS是残差E的平方和。根据选定的主成分A,Hotelling T2计算如下:
[0030][0031]其中是由得分向量计算得到的,是t
ia
的方差。用F检验计算T2临界值得到:
[0032][0033][0034]其中v校正因子,e
ik
表示校正集中第i个得分值和第k个负载值的残差值。K是负载矢量的数量,F
crit
是F检验的临界值。每一个样本都可以计算出对应的和值用于描述样本特征。在SIMCA算法中,采用传统的欧式距离对样本进行分类:
[0035][0036]在SIMCA-SVDD算法中,并非采用原始的欧式距离而是采用SVDD对样本进行分类,对于n个样本的特征集合{x1,x2,...,x
n
},使用球面a的中心和半径R将一个类表示为:
[0037][0038]s.t.||x
i-a||2≤R2+ξ
i

i
≥0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0039]其中C是惩罚系数,ξ
i
是松弛因子。根据上式,可以将拉格朗日函数定义为:
[0040][0041]其中α
i

i
≥0),γ...

【技术保护点】

【技术特征摘要】
1.一种基于SIMCA-SVDD的细菌拉曼光谱识别分类方法,所述的方法可以用于成分相似细菌拉曼光谱数据分类,所述的方法基于SIMCA-SVDD,在获取细菌拉曼挂光谱数据之后,通过SIMCA中的PCA对每一类细菌拉曼光谱数据进行建模,利用SVDD规则进行区域划分,计算验证数据到每一类模型的相对距离,并对验证使用的细菌拉曼光谱数据进行分类。2.如权利要求1所述的基于SIMCA-SVDD的细菌拉曼光谱识别分类方法,其特征在于:(1)获取各类细菌拉曼光谱数据。(2)对得到的细菌拉曼光谱数据进行数据预处理,消除数据中存在的噪声问题。(3)将得到的预处理后的拉曼数据输入到SIMCA-SVDD算法中进行建模。(4)将需要预测分类的数据输入到训练好的SIMCA-SVDD模型中进行预测分类。3.如权利要求2所述的细菌拉曼光谱的数据获取过程,其特征在于:假设每一次测量得到的细菌光谱数据为y
i
=f(x
i
),横坐标表示波长信息,单位为cm-1
,纵坐标表示吸光度。则获取的细菌拉曼光谱数据矩阵为:其中n为细菌拉曼光谱样本总数。4.如权利要求2所述的数据预处理过程,其特征在于:对获取的细菌拉曼光谱数据进行SNV变换,它可以减少光谱数据的噪声。其的计算过程为:为:其中y
ki
表示第k行第i列的样本的吸光度大小,表示该行吸光度的平均值,S
k
表示该行样本吸光度的方差。5.如权利要求2所述的SIMCA-SVDD建模过程,其特征在于:SIMCA作为一种有监督的模式识别算法,首先采用PCA将每类样本矩阵分解为:其中T,P分别代表均值矩阵,得分矩阵以及负载矩阵。利用交叉验证确定主成分A的数量:其中E为残差矩阵。统计量Q可以表示为:Q=1-PRESS/SS
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中PRESS是预测误差的平方和,SS是残差E的平方和。根据选定的主成分A,Hotelling T2计算如下:
其中是由得分向量计算得到的,是t
ia
的方差。用F检验计算T2临界值得到:临界值得到:其中v校正因子,e
ik
表示校正集中第i个得分值和...

【专利技术属性】
技术研发人员:李彬赵众
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1