质谱的数据序列在质量评估中的分析方法、装置和存储介质制造方法及图纸

技术编号:35191014 阅读:12 留言:0更新日期:2022-10-12 18:10
本发明专利技术公开了一种质谱的数据序列在质量评估中的分析方法、装置和计算机可读存储介质,涉及质谱信息处理领域。质谱的数据序列在质量评估中的分析方法包括:获取包括多种类型的质谱的数据序列的集合,每个质谱的数据序列包括多个质谱数据、并具有质谱的数据序列的质量标记,每个质谱数据包括质谱信号的产生时刻和信号强度;对于集合中的每个质谱的数据序列:将质谱的数据序列中的质谱数据映射到预设的多个产生时刻;以及将质谱的数据序列中的质谱数据的信号强度进行归一化处理;根据集合中的质谱的数据序列、质谱的数据序列的类型以及质量标记,对待测的质谱的数据序列进行质量评估。估。估。

【技术实现步骤摘要】
质谱的数据序列在质量评估中的分析方法、装置和存储介质


[0001]本专利技术涉及质谱信息处理领域,特别涉及一种质谱的数据序列在质量评估中的分析方法、装置和存储介质。

技术介绍

[0002]随着质谱仪器的不断升级换代,基于质谱高通量、大队列的蛋白质组学的研究可以更加容易地展开。而原始文件的质量评估是质谱分析中关注的重点。
[0003]基于质谱的定量蛋白质组学研究,通过表征蛋白质组丰度的动态变化规律,对生命科学及人类许多疾病的发生、发展的诊断有重大意义。非标记定量蛋白质组学技术,因具有实验操作简单等优势而被广泛应用。虽然基于质谱的非标记定量蛋白质组学技术日新月异,但是在大队列的实验分析中,质谱运行异常也会带来原始文件重复性低的问题,因此建立自动化的仪器质量控制流程来保证仪器稳定性在大队列分析过程中也显得尤为重要。
[0004]基于非数据依赖模式的非标记定量蛋白质组学技术,因具有较好的定量准确性,因此在近几年逐渐流行。但是,该技术使用数据非依赖模式,这会增加数据分析的困难程度。目前,多数实验室使用数据依赖模式方法产生的原始文件的分析结果,例如肽段和蛋白鉴定数目,评估在非数据依赖模式下采集数据的质谱仪器状态。这个过程中,缺少详细的色谱分离(Liquid Chromatography,简称:LC)和质谱(Mass Spectrometer,简称:MS)的定量层面的评估指标,例如色谱峰宽分布、保留时间分布、色谱峰容量、肽段丰度等定量结果。
[0005]目前,基于数据依赖模式方法产生的原始文件的评价方案包含以上参数的部分内容。然而,这些方法没有利用实际产出的结果形成一个定量结果,而这一定量结果是仪器性能状态变化的直接体现。

技术实现思路

[0006]专利技术人经过分析后发现,在相关技术中,对总离子流色谱图的分析仅仅停留在统计分析层面,无法挖掘到其深层次的特征和信息。并且,由于不同仪器类型存在质量分析器差异以及质谱采集频率差异,导致形成轮廓图的谱图叠加数量存在差异。并且,对于不同的质谱仪器产生的总离子流色谱图,相同的特征的数值甚至会有数倍、甚至数个数量级的差异。但是,这些特征对于质谱文件的质量控制(Quality Control,简称:QC)是非常重要的。
[0007]因此,相关技术无法准确地将总离子流色谱图用于质谱文件的质量评估。
[0008]本专利技术实施例所要解决的一个技术问题是:如何对质谱文件进行更准确的质量评估。
[0009]根据本专利技术一些实施例的第一个方面,提供一种质谱的数据序列在质量评估中的分析方法,包括:获取包括多种类型的质谱的数据序列的集合,其中,每个质谱的数据序列包括多个质谱数据、并具有质谱的数据序列的质量标记,每个质谱数据包括质谱信号的产生时刻和信号强度;对于集合中的每个质谱的数据序列:将质谱的数据序列中的质谱数据映射到预设的多个产生时刻;以及将质谱的数据序列中的质谱数据的信号强度进行归一化
处理;根据集合中的质谱的数据序列、质谱的数据序列的类型以及质量标记,对待测的质谱的数据序列进行质量评估。
[0010]在一些实施例中,质谱的数据序列是由仪器产生的,多种类型中的每一种对应一种型号的仪器。
[0011]在一些实施例中,质谱的数据序列为总离子流色谱图中的数据构成的序列。
[0012]在一些实施例中,将质谱的数据序列中的质谱数据映射到预设的多个产生时刻包括:将质谱的数据序列中的质谱数据的产生时刻进行归一化处理;将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻。
[0013]在一些实施例中,将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻包括:在进行归一化处理后的质谱数据中,对于每个预设的产生时刻,如果存在预设的产生时刻的质谱数据,将质谱数据作为映射后的质谱数据;如果不存在预设的产生时刻的质谱数据,对与预设的产生时刻邻近的质谱数据进行线性插值,获得映射后的质谱数据。
[0014]在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列,其中,新的质谱的数据序列与多个质谱的数据序列属于同一类型、并且具有相同的质量标记。
[0015]在一些实施例中,基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列包括:获取基于同一类型的、具有相同质量标记的质谱的数据序列Q1和Q2;生成随机数r,其中,0≤r≤1;生成新的质谱的数据序列Q=r*Q1+(1

r)*Q2。
[0016]在一些实施例中,重复基于同一类型的、具有相同质量标记的多个质谱的数据序列、生成新的质谱的数据序列的步骤,直到同一类型的质谱的数据序列的数量达到预设值。
[0017]在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后:复制质谱的数据序列;随机删除复制的质谱的数据序列中的预设数量个质谱数据;在被删除的质谱数据的产生时刻维度的邻域范围内,随机选择一个质谱数据;以及根据被删除的质谱数据的产生时刻、以及随机选择的质谱数据的信号强度,生成新的质谱数据。
[0018]在一些实施例中,邻域范围包括被删除的质谱数据产生时刻维度的相邻质谱数据。
[0019]在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,复制质谱的数据序列,并随机选择复制的质谱的数据序列中的一个或多个质谱数据,进行信号强度的随机波动。
[0020]在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:对于集合中的至少一个质谱的数据序列,在将质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,复制质谱的数据序列,任意选择复制的质谱的数据序列中多对相邻的质谱数据,并将每对相邻的质谱数据的信号强度进行交换。
[0021]在一些实施例中,对待测的质谱的数据序列进行质量评估包括:根据集合中的每个质谱的数据序列、质谱的数据序列的类型以及预先确定的质量标记,对机器学习模型进
行训练,其中,训练后的机器学习模型用于确定待测的质谱的数据序列的质量。
[0022]在一些实施例中,对机器学习模型进行训练包括:对于集合中的每个质谱的数据序列:将质谱的数据序列输入到双向LSTM模型中;将质谱的数据序列的类型进行编码;将双向LSTM模型的输出和编码的结果进行拼接,获得拼接向量;以及将拼接向量输入到全连接层,获得全连接层的预测结果;根据集合中的质谱的数据序列对应的预测结果和质量标记确定损失值;根据损失值,对双向LSTM模型和全连接层的参数进行调整。
[0023]在一些实施例中,质谱的数据序列在质量评估中的分析方法还包括:获取待测的质谱的数据序列和待测的质谱的数据序列的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种质谱的数据序列在质量评估中的分析方法,包括:获取包括多种类型的质谱的数据序列的集合,其中,每个质谱的数据序列包括多个质谱数据、并具有所述质谱的数据序列的质量标记,每个质谱数据包括质谱信号的产生时刻和信号强度;对于所述集合中的每个质谱的数据序列:将所述质谱的数据序列中的质谱数据映射到预设的多个产生时刻;以及将所述质谱的数据序列中的质谱数据的信号强度进行归一化处理;根据所述集合中的质谱的数据序列、所述质谱的数据序列的类型以及所述质量标记,对待测的质谱的数据序列进行质量评估。2.根据权利要求1所述的分析方法,其中,所述质谱的数据序列是由仪器产生的,所述多种类型中的每一种对应一种型号的仪器。3.根据权利要求1所述的分析方法,其中,所述质谱的数据序列为总离子流色谱图中的数据构成的序列。4.根据权利要求1中任一项所述的分析方法,其中,所述将所述质谱的数据序列中的质谱数据映射到预设的多个产生时刻包括:将所述质谱的数据序列中的质谱数据的产生时刻进行归一化处理;将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻。5.根据权利要求4所述的分析方法,其中,所述将对产生时刻进行归一化处理后的质谱数据映射到预设的多个产生时刻包括:在进行归一化处理后的质谱数据中,对于每个预设的产生时刻,如果存在所述预设的产生时刻的质谱数据,将所述质谱数据作为映射后的质谱数据;如果不存在所述预设的产生时刻的质谱数据,对与所述预设的产生时刻邻近的质谱数据进行线性插值,获得映射后的质谱数据。6.根据权利要求1~5中任一项所述的分析方法,还包括:在将所述质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列,其中,所述新的质谱的数据序列与所述多个质谱的数据序列属于同一类型、并且具有相同的质量标记。7.根据权利要求6所述的分析方法,其中,所述基于同一类型的、具有相同质量标记的多个质谱的数据序列,生成新的质谱的数据序列包括:获取基于同一类型的、具有相同质量标记的质谱的数据序列Q1和Q2;生成随机数r,其中,0≤r≤1;生成新的质谱的数据序列Q=r*Q1+(1

r)*Q2。8.根据权利要求6所述的分析方法,其中,重复基于同一类型的、具有相同质量标记的多个质谱的数据序列、生成新的质谱的数据序列的步骤,直到所述同一类型的质谱的数据序列的数量达到预设值。9.根据权利要求1~5中任一项所述的分析方法,还包括:对于所述集合中的至少一个质谱的数据序列,在将所述质谱的数据序列中的质谱数据的信号强度进行归一化处理之后:复制所述质谱的数据序列;
随机删除复制的质谱的数据序列中的预设数量个质谱数据;在被删除的质谱数据的产生时刻维度的邻域范围内,随机选择一个质谱数据;以及根据被删除的质谱数据的产生时刻、以及随机选择的质谱数据的信号强度,生成新的质谱数据。10.根据权利要求9所述的分析方法,其中,所述邻域范围包括所述被删除的质谱数据产生时刻维度的相邻质谱数据。11.根据权利要求1~5中任一项所述的分析方法,还包括:对于所述集合中的至少一个质谱的数据序列,在将所述质谱的数据序列中的质谱数据的信号强度进行归一化处理之后,复制所述质谱的数据序列,并随机选择复制的质谱的数据序列中的一个或多个质谱数据,进行信号强度的随机波动。12.根据权利要求1~5中任一项所述的分析方法,还包括:对于所述集合中的至少一个质谱的数据序列,在将所述...

【专利技术属性】
技术研发人员:郭天南朱怡高欢欢刘友琦
申请(专利权)人:西湖欧米杭州生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1