System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种用于吸收谱峰重叠物质浓度检测的特征提取方法,包括对原始光谱数据的特征选择和特征提取。
技术介绍
1、随着水污染日益严重,污染物浓度检测在水污染治理工作中十分关键。吸收光谱技术由于其显著的灵敏度、无二次污染、免试剂、准确、稳定等优点,在水污染物浓度检测中得到了广泛的应用。然而,一些物质的吸收峰所在波段存在高度重叠,当待测样本中同时存在这些物质时,要从重叠的光谱信号中提取出关键特征,并检测出各物质浓度,其难度较大。
2、目前常用于吸收光谱特征提取的算法主要分为三类。一类是直接对原始数据进行处理,如寻峰法、区域积分法等,这些方法往往易受到噪声的干扰,和吸收峰形状的影响。一类是在高维空间对原始数据进行压缩处理,如主成分分析(pca)、独立成分分析(ica)、连续投影法(spa)等。这些方法主要是基于统计学方法对全谱段数据进行分析,从而实现数据压缩和特征提取。然而实际上,不同物质的吸收响应波段只占各自特定的一部分,全光谱段数据中包含大量的无关冗余信息。一类是基于机器学习来进行特征提取,如卷积神经网络(cnn)、偏最小二乘法(pls)、随机森林(rf)等。这类方法通常需要大量的标记数据进行训练,并且对参数的选择和模型的调优有一定的要求,往往会出现过拟合和欠拟合等问题。然而,一些物质的吸收峰所在波段存在高度重叠,当待测样本中同时存在这些物质时,以上的方法要从重叠的光谱信号中提取出关键特征,并检测出各物质浓度,其难度较大。
3、因此,需要寻找一种有选择性和针对性的特征提取方法来获取关键光谱特征,用于吸收
技术实现思路
1、为克服现有光谱特征提取技术的不足,本专利技术在特征选择的基础上结合特征提取技术,提出了一种基于二进制小龙虾优化算法-主成分分析(bcoa-pca)的吸收光谱特征提取方法。首先用bcoa对原始光谱数据进行特征选择,选择出一组最优的光谱特征子集;再通过pca对bcoa选择的光谱特征进行特征提取。
2、为了解决上述技术问题本专利技术提供如下技术方案:
3、一种用于吸收谱峰重叠污染物检测的特征提取方法,包括以下步骤:
4、1)用bcoa对原始光谱进行特征选择,选择出一组最优的光谱特征子集;
5、2)将步骤1)选择得到的最优光谱特征子集进行pca特征提取;
6、将bcoa选择的最优光谱特征子集xg,所对应最优特征波长的吸光度[a(λopt,1),a(λopt,2),a(λopt,3),…,a(λopt,l)]组成n行l列矩阵m,其中n为样本数据,l为选择的特征波长数。然后将o的每一行进行去均值化,即减去这一行的均值,其次求出m的协方差矩阵conv和特征值以及对应的特征向量。最后将特征向量按对应特征值大小从小到大按行排列成矩阵,去矩阵前k行组成矩阵p,即为降维到k维后的数据;
7、
8、其中,为矩阵m去均值化后的矩阵,n为样本数量。conv为矩阵m的协方差矩阵;
9、p=[ξ1,ξ2,ξ3,…,ξk] (2)
10、其中,ξi为协方差矩阵特征值按大小从小到大对应的特征向量。
11、进一步,所述步骤1)包括以下子步骤:
12、1.1)随机生成一组光谱特征初始子集;
13、随机生成一组光谱特征初始子集x的定义如式(1)所示:
14、
15、其中,d为特征子集x的维度,代表光谱数据的波长数量;n代表行数,这个值越大,代表搜索的空间越大,优化的效果越好,但是不可避免的优化时间会增长。为了寻求最优光谱特征子集,把x看作小龙虾在d维搜索空间的初始解,n看作小龙虾个数,d看作种群的维度,xi,j看作个体i在j维的位置,xi,j的值由式(2)所得:
16、xi,j=lbj+(ubj-lbj)×rand1 (4)
17、其中,lbj为-8,表示第j维的下界,ubj为8,表示第j维的上界,rand1是[0,1]的随机数;
18、1.2)计算适应度函数;
19、1.3)迭代更新光谱特征子集。
20、优选的,所述1.2)的过程如下:
21、121)光谱特征子集二值化
22、将光谱特征子集x中的各个值从连续的[-8,8],经过s型传递函数后,转化为[0,1]之间,再二值化为0或1;
23、
24、其中,s(x)为s型传递函数;
25、
26、其中,xbi,j是小龙虾个体经过传递函数得到的二进制版本,rand2为[0,1]之间的随机数;
27、122)对应特征波长转换
28、将得到的二进制光谱特征子集转换成对应的波长,如公式(5):
29、
30、其中,λi为xbi,j对应选择的特征波长,λd为原始光谱数据波长,find表示选择其中不为0的成分,l为算法选择的特征波长数;
31、123)适应度函数计算
32、将第i个选中的特征波长所对应的吸光度[a(λi,1),a(λi,2),a(λi,3),…,a(λi,l)]作为svm模型的输入,并且将各种污染物模型预测的均方根误差rsme累加作为适应度函数,来选取适应度值最大光谱特征子集,适应度函数公式如下所示:
33、
34、
35、其中。a为不同污染物序号,a为种类数。s是污染物的样本数量,s是样本序号,其中y(a)为真是的浓度,ypred(a)为预测的浓度,rsme(a)为均方根误差。
36、再优选的,1.3)的过程如下:
37、131)定义温度temp,避暑洞穴xshade
38、温度temp定义如下:
39、temp=rand3×15+20 (10)
40、其中,rand3是[0,1]的随机数;
41、避暑洞穴xshade的定义如下:
42、xshade=(xg+xl)/2 (11)
43、xl=xi|max(fit(xi)) (12)
44、xl为在当前迭代中n个个体里面,适应度值最大的个体,表示当前种群的最优位置,即局部最优光谱特征子集,其中,xg为在t次迭代中适应度值最大xl,表示小龙虾的最优位置,即全局最优光谱特征子集;
45、132)计算新的光谱特征子集
46、i.模拟小龙虾直接进入洞穴避暑状态
47、当temp>30,且random≤0.5时模拟洞穴内没有其他小龙虾时直接进入洞穴避暑状态,进入洞穴后的位置状态即为更新后的光谱特征子集,如公式(11)和(12):
48、
49、c2=2-(t/t) (14)
50、其中,t为当前迭代次数,t+1表示下一次迭代次数,c2为递减曲线,rand4为[0,1]之间的随机数,t表示最大迭代次数本文档来自技高网...
【技术保护点】
1.一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述步骤1)包括以下子步骤:
3.如权利要求2所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述1.2)的过程如下:
4.如权利要求2所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述1.3)的过程如下:
5.如权利要求2~4之一所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述步骤1)中,所述的N为100,当光谱重叠更加复杂时,可以选择更大的整数。
6.如权利要求1~4之一所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述步骤2)中,所述的特征波长数L为36。
7.如权利要求4所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述132)中,控制小龙虾摄取量参数C1和σ为0.2和3。
8.如权利要求2~4之一所述的一种用于吸收谱峰重叠污染物检测的特
...【技术特征摘要】
1.一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述方法包括以下步骤:
2.如权利要求1所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述步骤1)包括以下子步骤:
3.如权利要求2所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述1.2)的过程如下:
4.如权利要求2所述的一种用于吸收谱峰重叠污染物检测的特征提取方法,其特征在于,所述1.3)的过程如下:
5.如权利要求2~4之一所述的一种用于吸收谱峰重叠污染物检测的特征提取方法...
【专利技术属性】
技术研发人员:沈杰,朱康辉,何建彬,黄付岭,
申请(专利权)人:三亚罗盘星科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。