System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及光谱数据的分析领域,即在各种波长通道或光谱带中具有多个强度值的数据的分析领域。数据可以是多光谱或超光谱数据,其中光谱带的数量从几十到几百变化,并且数据源自包含数千个波长通道的化学种类的发射或吸收光谱。本专利技术适用于任何类型的光谱分析,只要输入数据的大量副本是必要的,并且这些副本不容易大量获得。本专利技术特别但不排他地适用于定量分析(例如确定浓度)或用于对样本进行分类,其中,针对该样本来测量光谱数据。更具体地,本专利技术涉及一种用于对合成光谱数据进行合成的方法,以便为机器学习引擎提供学习数据以用于分析与光谱数据相关联的种类,特别地但非排他地,用于化学种类的定量分析或定性分析。本专利技术的一个可能的应用涉及基于光谱数据来确定化学元素的浓度或对样本进行分类,光谱数据例如是通过激光诱导击穿光谱(libs)技术获取的。本专利技术不限于该特定技术,并且可以应用于产生关于化学种类的发射或吸收的多光谱或超光谱数据或光谱数据的任何类型的光谱技术。本专利技术适用于任何类型的光谱分析。事实上,本专利技术可以在定量分析的上下文中使用,其包括例如预测要分析的数量表征样本。它也适用于定性分析,诸如使用产生多光谱或超光谱图像或化学种类的光谱的技术来分割或识别场景或图,多光谱或超光谱图像或化学种类的光谱是使用光谱技术(诸如libs等)获得的。此外,它还可以应用于生成用于超分辨率和其他无监督学习技术的样本。差异仅仅是要预测或要处理的变量的性质,这些变量例如在量化方面是连续的(例如,物种的浓度),在分类方面是离散的(例如,类别或种类标签),或者是与用于无监督分析的输入数据
技术介绍
1、在光谱数据的上下文中,各种处理方法用于各种类型的分析。特别地,主要基于人工神经网络的多变量深度学习方法已经被探索和使用,例如用于定量分析(校准、回归)或用于样本的分类。此类方法的实例描述于参考文献[1]-[3]中。然而,这些算法的特征通常在于其基于非常大量的实现(谱(spectra))进行学习的能力,从而在可用数据集包含有限数量的实现的情况下限制其使用。
2、与[4]中提出的基于全连接神经网络的最广泛使用的方法不同,光谱特征分析的最新发展已经导致引入了受基于卷积神经网络的对象检测和图像分类算法启发的架构(参见例如[5]和[6])。尽管所有神经网络模型都出现了相同的问题,但是这种类型的架构特别旨在基于训练数据来学习模型,这需要大量的实现方式,以便例如在受监督学习的上下文中基于模型正确地学习将输入数据与输出数据相关联。作为示例,用于图像处理的标准数据集包含104到106个样本量级的多个训练数据(参见),而传统的libs数据集包含数十或数百个光谱(参见[7]),或者数千到数万libs映射(参见[8])。该观察对于其他类型的光谱也是如此。
3、获得大量光谱数据是要解决的问题。例如,在libs光谱术的背景下,大量光谱的收集可以通过破坏样本的表面或通过太小的可用表面积或甚至通过简单的时间原因(例如,不能足够快地探测给定区域)而被阻止。
4、除了libs光谱术之外,训练光谱数据的缺乏也可能归因于获得足够数量的标记数据以用于学习的高成本。
5、因此,需要实际地增加可用于光谱数据的学习数据的数量。
6、在文献中很少解决在光谱分析的上下文中缺乏实现的问题。下面评论的一些工作旨在丰富提供给架构(例如神经网络)的信息或仅关注信息的任意相关部分,但是从深度学习技术的角度来看,大量不同的实现(即谱)的缺乏可能仍然导致过度拟合或泛化性能不佳的问题。
7、通常,数据增强和合成是在深度学习的上下文中使用的方法,例如在计算机视觉的上下文中。基本思想是以非平凡的方式创建输入数据的过采样。常规地,利用数据增强,使用训练数据的变换(旋转、放大、反射等)来丰富学习数据,以便在大多数深度学习应用(诸如图像分类、时间序列、自然语言处理等)中产生新的具体实施(参见例如[9]、[10]、[12]和[18])。该过程使得可以产生直接基于训练数据的分布产生的任意数量(除了与数据的大小或形式相关的约束之外)的示例。该效果是正则化和稳定学习的效果,从而生成在分类的上下文中或对于回归任务更好地一般化的模型。新数据的合成通常用于图像处理(例如超分辨率)[11]。另外,在较小的数据集(特别是光谱数据集)上或在计算机视觉中的单样本学习的上下文中开发深度学习模型是高度主题问题。
8、例如,参考文献[2]涉及一种用于libs技术的“数据增强”方法,该“数据增强”方法使用化学元素的时间分辨光谱以用于利用浅层神经网络进行多元分析。换句话说,对于表面上的每个凹坑,代替单个光谱特征,在激光发射的不同时间记录多个光谱。然后,对于每个凹坑,使用这些光谱的级联作为测量的代表,其现在具有附加的时间方向,因此称为“时间分辨的光谱”。因此,用于分析神经网络的数据集由时间分辨的光谱的集合组成。这里,术语数据“增强”未被正确使用。实际上,没有真实地增加实施方式的数量,但是增加了给定实施方式的信息量。可以说,即使没有产生新的数据,数据的质量当然也已经被增强。参考文献[3]中提出的分析使用相同类型的时间分辨的数据,而没有明确提及“数据增强”。
9、参考文献[13]和[14]中描述的方法基于卷积神经网络使用深度学习方法来分析libs数据。然而,其中没有解决数据增强的问题。最近,[15]中的作者介绍了直接从标准深度学习图像处理方法导出的数据增强技术。它们的分析再次基于卷积神经网络,并且集中于凹坑之间的空间分辨率为150μm的基本二维图。从基于预选线的强度获得的图开始,它们使用切片、重新组合、图像滤波器(例如,添加高斯噪声和中值滤波器)和反射来产生附加的学习数据以对样本进行分类。应当注意,在这种情况下,作者不直接使用原始数据中包含的光谱信息,而是他们提取图以便利用其中的空间信息。然后直接在图上执行增强。在图像分类的上下文中,并且出于作者所示的目的,文章中使用的技术可以改进分类器网络的泛化能力。然而,出于更一般的目的,使用切片和重组来生成新图像不直接修改与每个像素相关联的数据(即,与每个凹坑相关联),而是经由该图来重组它们:这种数据增强技术导致对强度图中收集的数据的过采样,而不是光谱的产生。例如,其他类型的分析,诸如用于定量分析的多元回归,可能不会从该处理中大大受益,因为它可能被认为是回归网络的输入数据的简单复制(尽管它可能导致轻微的性能改进)。此外,其中仅执行少量激光发射的非常小的基本图可能仅稍微受益于此,因为相关变换的数量显著减少。
10、综述文章[16]通过建议通过向每个实验谱(experimental spectrum)添加随机噪声来生成任意数量的谱来呈现数据增强的概念。然而,在文章中没有示出该技术的实现,并且没有提出随机噪声的定义。
11、参考文献[17]中描述的其他分析使用各种类型的libs光谱数据,例如仅考虑用于分析的特定波长通道,以便相对于神经网络模型的大小减小训练数据的大小。这种方法使得可以使用输入数据的简化版本,其中假设相关的信息已经被预本文档来自技高网...
【技术保护点】
1.一种用于合成光谱数据的计算机实现的方法,包括以下步骤:
2.根据权利要求1所述的用于合成光谱数据的方法,其中,所述理论模型是基于概率分布的,所述概率分布是根据由在所获取的光谱上测量的所述强度而参数化的泊松分布的。
3.根据前述权利要求中的任一项所述的用于合成光谱数据的方法,其中,所述一组光谱数据包括针对相同样本的多个光谱测量,并且所述方法包括确定一组测量的平均光谱的步骤(122)。
4.根据前述权利要求中的任一项所述的用于合成光谱数据的方法,其中,所述合成光谱数据是通过向所述随机绘制的强度添加噪声值来生成(140)的,所述噪声值是根据以所述强度为中心并且具有可参数化宽度的间隔内的均匀分布绘制的。
5.根据权利要求1到3中的任一项所述的用于合成光谱数据的方法,其中,所述合成光谱数据是通过向所述随机绘制的强度添加噪声值来生成(140)的,所述噪声值是根据以所述强度为中心的正态分布绘制的,所述噪声值的标准差是可修改参数。
6.根据前述权利要求中的任一项所述的用于合成光谱数据的方法,其中,所述光谱数据是经由激光诱导击穿光谱学
7.根据前述权利要求中的任一项所述的用于合成光谱数据的方法,其中,所述光谱数据源自化学种类的发射或吸收光谱。
8.一种用于对光谱数据进行定量分析或定性分析的方法,包括以下步骤:
9.一种包括指令的计算机程序,所述指令用于在所述计算机程序由处理器执行时实施如权利要求1-7中的任一项所述的方法的指令。
10.一种处理器可读记录介质,其上记录有包括指令的程序,所述指令用于在所述程序由处理器执行时实施如权利要求1至7中的任一项所述的方法。
...【技术特征摘要】
【国外来华专利技术】
1.一种用于合成光谱数据的计算机实现的方法,包括以下步骤:
2.根据权利要求1所述的用于合成光谱数据的方法,其中,所述理论模型是基于概率分布的,所述概率分布是根据由在所获取的光谱上测量的所述强度而参数化的泊松分布的。
3.根据前述权利要求中的任一项所述的用于合成光谱数据的方法,其中,所述一组光谱数据包括针对相同样本的多个光谱测量,并且所述方法包括确定一组测量的平均光谱的步骤(122)。
4.根据前述权利要求中的任一项所述的用于合成光谱数据的方法,其中,所述合成光谱数据是通过向所述随机绘制的强度添加噪声值来生成(140)的,所述噪声值是根据以所述强度为中心并且具有可参数化宽度的间隔内的均匀分布绘制的。
5.根据权利要求1到3中的任一项所述的用于合成光谱数据的方法,其中,所述合成光谱数据是通过向所述...
【专利技术属性】
技术研发人员:R·菲诺泰洛,M·塔玛祖斯蒂,JB·西尔旺,
申请(专利权)人:原子能和辅助替代能源委员会,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。