当前位置: 首页 > 专利查询>北京大学专利>正文

从质谱数据中识别多种化合物的方法、装置和设备制造方法及图纸

技术编号:23933990 阅读:43 留言:0更新日期:2020-04-25 02:28
本发明专利技术实施例公开了一种从质谱数据中识别多种化合物的方法、装置和设备,涉及混合物分析领域,该方法包括:提供混合物质谱数据集;对所述化合物质谱数据集进行数据预处理得到预处理数据集,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型;根据所述识别模型对目标质谱数据进行识别得到化合物信息。本发明专利技术分析串联质谱数据中的化学峰信息,且使用的模型可以提取不同化合物的特征并对多标记质谱数据进行分类。

Methods, devices and equipment for identifying multiple compounds from mass spectrometry data

【技术实现步骤摘要】
从质谱数据中识别多种化合物的方法、装置和设备
本专利技术实施例涉及混合物分析领域,具体涉及从质谱数据中识别多种化合物的方法、装置和设备。
技术介绍
混合物分析可以提供比单个组分更多的信息。重要的是要检测实际复杂样品中的不同化合物。但是,混合物通常会受到杂质和噪音的干扰,从而影响分析的准确性。净化和去噪将花费大量算法时间。质谱法是鉴定纯物质的最强大工具之一。质谱数据包含一系列质荷比(m/z)及其强度。物质定性分析信息,例如相对分子量测定,化学式确定和结构鉴定,可以通过手动比较测得的质谱图和标准质谱图来获得。质谱图中的峰表示样品中离子的分布。根据分辨率差异,质谱数据可分为两种类型:高分辨率和低分辨率。低分辨率质谱只能区分不同的标称质量离子。高分辨率质谱可以计算每种电离化合物的精确质量。高分辨率质谱也可以区分同位素。同位素的存在,以及样品的纯度,电子噪声或质谱仪的准确性,都会严重影响高分辨率的质谱数据。即使在精密的实验条件控制下,也很难获得相同的质谱。但是,在现实生活中,通常将不同的化合物混合在一起。由于质谱的复杂性,经常使用数学方法来检测混合样品中的特定化合物。机器学习作为分析化学中的有效工具已被长期使用。偏最小二乘(PartialLeastSquares,PLS)是用于化合物检测的方法之一。但是,当数据量很大时,PLS不能很好地工作。通常,人工神经网络的良好性能通常基于大规模数据集。此外,质谱输入数据的大尺寸是“数据-响应”相关问题的自然特征。但是,少量的样本和较大的输入构成了现实数据集的典型难题。在分析化学中,主要成分分析(PrincipalComponentsAnalysis,PCA)通常用于数据的降维。尽管PCA具有广泛的应用领域,例如消除冗余和消除数据噪声的数据压缩,但PCA只能获得单一方向的主要成分,贡献率小的主成分通常可能包含有关样本差异的重要信息。在某些情况下,这些主要组成部分不能忽略。
技术实现思路
本专利技术实施例的目的在于提供从质谱数据中识别多种化合物的方法、装置和设备,用以解决现有混合物分析准确性低和效率低的问题。为实现上述目的,本专利技术实施例主要提供如下技术方案:第一方面,本专利技术实施例提供了一种从质谱数据中识别多种化合物的方法,包括:提供混合物质谱数据集;对所述化合物质谱数据集进行数据预处理得到预处理数据集,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;对所述预处理数据集使用卷积神经网络(ConvolutionalNeuralNetworks,CNN)进行训练得到用于从质谱数据中识别化合物的识别模型;根据所述识别模型对目标质谱数据进行识别得到化合物信息。进一步地,所述卷积神经网络包括两个卷积层、一个变平层和三个全连接层。进一步地,所述卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到所述识别模型。进一步地,所述卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。第二方面,本专利技术实施例还提供一种从质谱数据中识别多种化合物的装置,包括:提供模块,用于提供混合物质谱数据集;模型训练模块,用于对所述化合物质谱数据集进行数据预处理得到预处理数据集,并对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型,其中,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;模型使用模块,用于根据所述识别模型对目标质谱数据进行识别得到化合物信息。进一步地,所述卷积神经网络包括两个卷积层、一个变平层和三个全连接层。进一步地,所述卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到所述识别模型。进一步地,所述卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。第三方面,本专利技术实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的从质谱数据中识别多种化合物的方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于执行如第一方面所述的从质谱数据中识别多种化合物的方法。本专利技术实施例提供的技术方案至少具有如下优点:本专利技术实施例提供的从质谱数据中识别多种化合物的方法、装置和设备,通过卷积神经网络可以减少数据预处理的时间,并可以提取不同化合物的特征并对多标记质谱数据进行分类。本专利技术对混合物分析准确性高和效率高。附图说明图1为本专利技术实施例的从质谱数据中识别多种化合物的方法的流程图;图2为本专利技术实施例中使用卷积神经网络进行卷积运算的示意图;图3为本专利技术实施例中添加噪声前后不同能量的质谱图;图4为本专利技术实施例中卷积神经网络的流程示意图;图5为本专利技术实施例中使用卷积神经网络对真实阳性MS数据进行预测的示意图;图6为本专利技术实施例中使用卷积神经网络对假阳性MS数据进行预测的示意图;图7为本专利技术实施例中使用卷积神经网络对真实的阴性MS数据进行预测的示意图;图8为本专利技术实施例的从质谱数据中识别多种化合物的装置的结构框图。具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本专利技术。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”和“连接”应做广义理解,例如,可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。图1为本专利技术实施例的从质谱数据中识别多种化合物的方法的流程图。如图1所示,本专利技术实施例的从质谱数据中识别多种化合物的方法,包括:S1:提供混合物质谱数据集。S2:对混合物质谱数据集进行数据预处理得到预处理数据集。其中,数据预处理包括对混合物质谱数据集添加噪声和对混合物质谱数据集添加化合物类别标签。示例性地,以混合物质谱数据集为基础,70%作为训练集20%作为验证集、10%作为测试集。数据添加一部分噪声来保证训练后模型的鲁棒性与泛用性,噪声是通过高斯函数来加的高斯噪声。此外需要对数据进行标注、一共有20种化合物类别,为数据集各个质谱数据所含化合物类别打上标签(one-hot形式)。S3:对预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型。其中,卷积神经网络本文档来自技高网
...

【技术保护点】
1.一种从质谱数据中识别多种化合物的方法,其特征在于,包括:/n提供混合物质谱数据集;/n对所述混合物质谱数据集进行数据预处理得到预处理数据集,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;/n对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型;/n根据所述识别模型对目标质谱数据进行识别得到化合物信息。/n

【技术特征摘要】
1.一种从质谱数据中识别多种化合物的方法,其特征在于,包括:
提供混合物质谱数据集;
对所述混合物质谱数据集进行数据预处理得到预处理数据集,所述数据预处理包括对所述混合物质谱数据集添加噪声和对所述混合物质谱数据集添加化合物类别标签;
对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识别化合物的识别模型;
根据所述识别模型对目标质谱数据进行识别得到化合物信息。


2.根据权利要求1所述的从质谱数据中识别多种化合物的方法,其特征在于,所述卷积神经网络包括两个卷积层、一个变平层和三个全连接层。


3.根据权利要求1所述的从质谱数据中识别多种化合物的方法,其特征在于,所述卷积神经网络通过梯度下降法更新权重,并选取交叉验证的方式对预处理数据集进行训练得到所述识别模型。


4.根据权利要求1所述的从质谱数据中识别多种化合物的方法,其特征在于,所述卷积神经网络采用三乘以三的卷积核,并采用步长为一的卷积方式进行卷积操作。


5.一种从质谱数据中识别多种化合物的装置,其特征在于,包括:
提供模块,用于提供混合物质谱数据集;
模型训练模块,用于对所述混合物质谱数据集进行数据预处理得到预处理数据集,并对所述预处理数据集使用卷积神经网络进行训练得到用于从质谱数据中识...

【专利技术属性】
技术研发人员:王振宇秦东风魏剑陈严
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1