一种用于水污染物识别的三维荧光光谱生成方法技术

技术编号：42648160 阅读：21 留言：0更新日期：2024-09-06 01:42

一种用于水污染物识别的三维荧光光谱生成方法，采用在Wasserstein Auto‑Encoder(WAE)模型的基础上进行改进；在编码阶段，将三维荧光光谱数据作为输入数据，一方面通过卷积提取到局部特征；另一方面通过具有保留自注意力机制的RMT网络结构获取全局特征，将二者结合最终得到目标特征，放入解码器后生成真实且多样的三维荧光光谱数据。本发明专利技术不仅扩大了三维荧光光谱数据样本的数量并使其兼具一定差异性，同时该模型还具备泛用性，在后续的水污染物识别中，有利于对各类水环境污染物进行生成，解决了数据量不足的问题，也解决了一定的过拟合现象，提高模型识别精度和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于水污染检测领域，涉及一种用于水污染物识别的三维荧光光谱生成方法。

技术介绍

1、水对动植物以及人类的生存起着重要的作用，是人类生存和发展必不可少的最重要的物质资源之一。近年来，随着水资源的污染日渐加剧，及时快速地识别污染物种类并采取相应的治理措施至关重要。三维荧光光谱技术由于具有灵敏度高、选择性强、信息丰富、检测速度快、可定性定量分析等优点，在水环境监测领域得到了广泛的研究和应用。

2、三维荧光光谱技术是利用分子在特定波长的激发光照射下发出特征发射光的原理来对待测物质进行定性和定量的分析。三维荧光光谱反映了样品中的荧光特性，能够提供关于样品中化学成分、结构和环境的信息。且根据样品的不同特征，可以选择不同的激发波长和检测波长，以获取物质大量的多维信息。随着深度学习技术的发展，开始将识别模型用于水污染物识别领域中。现实情况中能采集到的真实污染水样相对较少，加上采集原始样本需要耗费大量的时间和精力。而在数据处理的过程中，样本量不足会产生过拟合现象，导致建立识别模型时得到的结果不理想，因此，解决样本不足问题是当前课题研究的热点之一。

3、目前增加样本数量常见的方法一种是数据增强，通过对训练数据进行随机变换，如旋转、翻转、缩放等，增加训练样本的多样性，有助于提高模型的泛化能力，但该方法一般用于图片处理上。另一种是插值法，根据一系列标准选择可行的虚拟样本。但是，在实验室和真实水体系统中实验测量，其步骤既复杂又昂贵，且扩展后的样本容易出现信息丢失的现象。

4、因此，就需要进一步地开展三维荧光光

技术实现思路

1、为了克服现有技术的不足，为生成更加具有多样性的三维荧光光谱数据，本专利技术在wasserstein auto-encoder(wae)模型的基础上进行改进，提出了一种基于wae-rmt模型的三维荧光光谱生成方法，在编码阶段，将三维荧光光谱数据作为输入数据，一方面通过卷积提取局部特征；另一方面通过具有保留自注意力机制的rmt模块获取全局特征，将二者结合最终得到目标特征，放入解码器后生成真实且多样的三维荧光光谱数据，参考图1。该生成方法具有良好的普适性，有利于对各类水环境污染物进行生成，解决样本数量不足的问题。

2、为了解决上述技术问题本专利技术提供如下的技术方案：

3、一种用于水污染物识别的三维荧光光谱生成方法，包括以下步骤：

4、1)将三维荧光光谱数据转化为图片格式并保存，过程如下：

5、三维荧光光谱数据作为二维数组，不符合生成模型的输入需求，因此，将光谱数据按照公式(1)进行归一化，在按照公式(2)转化为灰度值，相当于把物质的荧光强度类比为图片的像素值，避免因数据集格式所带来的不收敛问题；

6、

7、p＝f*255 (2)

8、其中，f是三维荧光光谱数据，f是归一化后的荧光强度值，std(x)为光谱数据的标准差，mean(x)为光谱数据的均值，p是转化为图片后的像素值，由于光谱数据是二维数组，其均值和标准差是针对整个矩阵；为保证训练集的准确度，要保存格式为tiff的图片以便保留小数，即三维荧光光谱图片数据集real；

9、2)将三维荧光光谱图片数据集real进行编码，过程如下：

10、21)利用卷积网络结构提取局部特征u，推断网络中的卷积网络结构包含4个卷积层，2个全连接层，经过卷积网络将数据集映射到低位潜在空间，作为提取到的局部特征u保留并供后续需求；

11、22)利用rmt模块提取全局特征，数据要先通过patch框架切分成一个个token，再经过resa框架实现保留自注意力机制，以及dwc框架实现局部信息增强机制，之后再通过ln框架和ffn框架得到进一步丰富的全局特征信息；

12、3)将步骤21)和步骤22)的局部特征和全局特征进行整合，过程为：

13、由公式(3)计算，特征信息中的元素对应相加得到终值特征m；

14、m[k]＝u[k]+t[k] (3)

15、其中k＝1，2，3...w，w为维度参数，即元素的个数；

16、4)解码得到三维荧光光谱生成数据fake，解码器是由4个反卷积层和1个全连接层构成，终值特征m进入解码器以此恢复信息得到三维荧光光谱生成数据fake；

17、5)计算损失并优化参数，过程为：

18、总损失函数可以看作重构损失recon_loss加上mmd损失mmd_loss：

19、dwae＝recon_loss+mmd_loss (4)

20、重构损失是通过交叉熵损失函数计算得出，如公式(5)所示

21、

22、其中，fakei为三维荧光光谱生成数据，reali为三维荧光光谱真实数据；

23、mmd损失是通过最大均值差异计算得出，如公式(6)所示

24、

25、其中，mi为三维荧光光谱数据通过编码器后的终值特征，n为终值特征的维度长度，nj为与三维荧光光谱数据维度相同的标准正态分布随机数，m为三维荧光光谱数据维度长度；

26、采用adam优化器，利用间隔调整法(steplr)调整学习率，通过反向传播更新模型参数，最终得到训练好的wae-rmt生成模型。

27、进一步，所述22)的过程如下：

28、221)通过patch框架切分成一个个token，patch框架包含4个卷积层，通过下采样的方式把图片数据real切分成一个个tokeni，i∈r，方便放入之后的rmt模块；

29、222)通过resa框架实现保留自注意力机制，过程为：

30、通过公式(7)和公式(8)所示，计算长度方向上的注意力分数attnentionh和显示衰减矩阵dh；

31、

32、

33、又通过公式(9)和公式(10)计算宽度方向上的注意力分数attentionw和显示衰减矩阵dw；

34、

35、

36、衰减系数γ是通过公式(11)计算得出；

37、γ＝ln(1-2-2-arange(0，h)) (11)

38、其中，q、k、v为tokeni通过线性层投影到查询，键和值的空间，qh，kh是q和k沿长度的分解值；qw，kw是q和k沿宽度的分解值，(xn，yn)表示第n个tokenn的二维坐标；(xm，ym)表示第m个tokenm的二维坐标；arange(0，h)代表q、k、v的head数量所展开的一维张量；

39、最后通过公式(12)计算注意力加权分数值resad(x)，分数值越高说明该部分信息量越丰富，模型应赋予这部分的token更大的权重；

40、resad(x)＝attnenti本文档来自技高网...

【技术保护点】

1.一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述22)的过程如下：

3.如权利要求2所述的一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述222)中，head数量为5，计算衰减系数γ＝(-0.28，-0.13,-0.06,-0.03,-0,01)。

4.如权利要求1～3之一所述的一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述步骤3)中，维度参数W，即元素的最大个数为1024。

5.如权利要求1～3之一所述的一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述步骤5)中，计算MMD损失中，n为8，m为77。

【技术特征摘要】

1.一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述22)的过程如下：

3.如权利要求2所述的一种用于水污染物识别的三维荧光光谱生成方法，其特征在于，所述222)中，head数量为5，计算衰减系数γ＝(-0.28，-0...

【专利技术属性】
技术研发人员：黄付岭，沈杰，朱康辉，何建彬，
申请(专利权)人：三亚罗盘星科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人