本发明专利技术提供一种基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法,所述方法包括以下步骤:利用“相似谱图模型法”计算P值;利用“随机谱图模型法”计算错误检出率FDR值。本发明专利技术的基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法通过P值和FDR值大小表征待评价样品搜库匹配结果的可靠性;P值越大,FDR值越小,表示搜库结果的可靠性越好;P值越小,FDR值越大,表示搜库结果的可靠性得不到保证。应用时,可通过显著性试验确定P值和FDR值的显著性水平,凡待评价样品P值大于其相应的显著性水平,FDR值小于其相应的显著性水平的表示搜库结果可靠性能得到保证。
【技术实现步骤摘要】
本专利技术涉及谱图,特别涉及基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法。
技术介绍
谱图的匹配比对在生物医学、化学、物理学等领域中有着广泛的应用。在血液细菌感染(菌血症)的细菌鉴定工作中,由于患者的临床表现不典型,给感染的诊断带来困难。目前,临床上菌血症诊断的金标准是血液细菌培养法,但血液培养的阳性率极低从而导致延误治疗。相比之下,质谱谱图法准确度高、稳定性好、操作简单,易于临床推广。从1990年代起,基质辅助激光解析电离源飞行时间质谱(MALDI-TOF-MS)被用于细菌鉴定[R.D.Holland,J.G.Wilkes,F.Rafii,J.B.Sutherland,C.C.Persons,K.J.Voorhees,J.O.Lay,RapidCommunicationsinMassSpectrometry1996,10,1227-1232;M.A.Claydon,S.N.Davey,V.EdwardsJones,D.B.Gordon,NatureBiotechnology1996,14,1584-1586.]。通过分析不同的细菌,科学家发现从完整的细菌细胞中可以得到具有指纹特征性的质谱图。通过记录多种单一纯细菌的指纹质谱图可以构建细菌鉴定所需的生物特征数据库。之后通过比对临床样本中采集的细菌的MALDI-TOF-MS指纹质谱图,可以实现细菌种类的鉴定[A.Croxatto,G.Prod'hom,G.Greub,FemsMicrobiologyReviews2012,36,380-407;T.R.Sandrin,J.E.Goldstein,S.Schumaker,MassSpectrometryReviews2013,32,188-217.]谱图匹配也广泛用于蛋白质测序工作。肽段质量指纹谱图(peptidemassfingerprint)匹配法用于蛋白酶解产物的质谱分析,根据数据库中已有蛋白的序列及酶解反应特征可以生成单个蛋白的理论肽段列表暨理论标准谱图,通过比对实验谱图可以实现未知蛋白的鉴定。[WebsterJ,OxleyD,MethodsMolBiol2005,310,227-240.]蛋白质组学中常使用的“鸟枪法”(shotgun)也是依赖于质谱图的匹配完成的,如基于二级碎片质谱图的肽谱匹配打分和蛋白质鉴定。[Fernández-PuenteP,MateosJ,BlancoFJ,Ruiz-RomeroC,MethodsMolBiol2014,1156,27-38.]质谱匹配已经成为当今蛋白质鉴定中至关重要的技术手段。基于谱学方法的检测、鉴定中最为关键的一步是实验样本和参考样本的谱图匹配。近年来发展了多种用于谱图匹配的打分方法。SeonghoKim和XiangZhang研究了质谱图相似性打分的夹角余弦法、皮尔森和斯皮尔曼相关系数法、偏相关与部分相关系数法。[S.Kim,X.Zhang,Computational&MathematicalMethodsinMedicine2013,9,399-412]然而传统的谱图匹配方法往往基于最优的谱图相似性计算结果及一个给定的分值阈值,缺乏假设验证。譬如,在临床微生物鉴定普遍使用的质谱法中,Bruker公司提供的商业解决方案Biotyper软件以2.0的相似度分值为鉴定阈值,然而该阈值的合理性有待考量。针对这一问题,本专利技术旨在建立一种谱图相似性匹配的假设验证方法,以P值和错误检出率(FDR)值替代相似度分值作为准确鉴定的标准。
技术实现思路
本专利技术为了克服现有技术的至少一个不足,提供一种基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法,以实现鉴定可靠性高的目的。为了实现上述目的,本专利技术采用以下技术方案:一种基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法,所述方法包括以下步骤:利用“相似谱图模型法”计算P值;利用“随机谱图模型法”计算错误检出率FDR值。(一)其中“相似谱图模型法”包括以下步骤:(1)提取数次重复性实验产生的谱图间的差异信息;(2)根据上述信息及已有实验谱图利用计算机模拟的方式生成模拟重复性实验谱图;(3)计算大量模拟重复性实验谱图与真实实验谱图间的相似度及其分布,将P值定义为在该分布中相似度得分低于实验谱图搜库匹配结果的相似度得分的模拟重复性实验谱图占全部模拟重复性实验谱图的比例,如果P值高于给定的显著性水平则称该实验谱图的搜库匹配结果可通过相似谱图模型检验。具体的,根据若干次重复性实验的实验谱图形成一张合并谱图,该合并谱图的特征在于对基线校正后的实验谱图进行纵向加总,并进行强度归一化。将重复性实验的实验谱图中的谱峰与合并谱图的谱峰列表比对筛选,所有包含在合并谱图每个谱峰的半峰宽范围内的实验谱图的峰被归为一组,这样的谱峰被称为组内峰,其余的未被包含在任何组中的谱峰被称为组外峰。计算每个组内的所有谱峰的质荷比(m/z)g的均值及其相对标准差(RSD)。计算每个组内的所有峰的强度Ig的均值及其相对标准差。对每张实验谱图,计算组内峰的个数(Ng),组内峰占所有谱峰的比例(pg),得到所有重复性实验的实验谱图的Ng值和pg的均值及其标准差(SD)。利用计算机生成一个模拟谱图,该谱图的组内峰个数(N’g)从Ng的正态分布中随机获取N′g=Normal(Ng,SD(Ng))该模拟谱图的组内峰数量与总峰数量的比值(p’g)从pg的正态分布中随机获取从所有的组中随机抽取N’g个组,对于每个抽取的组得到一个计算机模拟的峰,该峰的质荷比(m/z)’g从(m/z)g的正态分布中随机获取该峰的强度I’g从Ig的正态分布中随机获取式中,kmz和kI为调整系数。从所有实验谱图的组外峰中随机抽取N’g×(1/p’g-1)个峰,对每一个峰形成一个计算机模拟的峰,该峰的质荷比满足(m/z)′og=Normal((m/z)og,kmz·(fwhm)og/6)式中,(m/z)og是该组外峰的质荷比,(fwhm)og是该组外峰的半峰宽。该模拟峰的强度满足I′og=Normal(Iog,kI·ε·Iog)式中,(I)og是该组外峰的强度,ε是一个很小的正数,0.001。根据上述组内峰和组外峰可以完成计算机模拟谱图的构建,重复上述过程可以完成若干个计算机模拟谱图的构建。利用“相似谱图模型”产生实验谱图的计算机模拟重复性谱图,得到大量计算机模拟谱图与实验谱图的合并谱图的相似度得分分布结果。判断合并谱图的搜库匹配结果的P值,也即在该分布中比搜库匹配结果得分还低的得分占全部得分的比例。如果该P值高于显著性水平则称该结果可通过相似谱图模型检验。(二)“随机谱图模型法”包括以下步骤:a.将参考数据库中全部谱图的所有谱峰混合在一起,随机选取特定数量的谱峰,构成模拟随机谱图,该模拟随机谱图的峰数量与待分析的实验谱图的峰数量保持一致;b.计算大量模拟随机谱图与实验谱图间的相似度及其分布,将错误检出率FDR值定义为在该分布中相似度得分高于实验谱图搜库匹配结果的相似度得分的模拟随机谱图占全部模拟随机谱图的比例,如果FDR值低于给定的显著性水平则称该实验谱图的搜库匹配结果可通过随机谱图模型检验。利用相似谱图模型的P值和随机谱图模型的FDR值对谱图本文档来自技高网...
【技术保护点】
一种基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法,其特征在于,所述方法如下:利用“相似谱图模型法”计算P值;利用“随机谱图模型法”计算错误检出率FDR值。
【技术特征摘要】
1.一种基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法,其特征在于,所述方法如下:利用“相似谱图模型法”计算P值;利用“随机谱图模型法”计算错误检出率FDR值。2.根据权利要求1所述的基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法,其特征在于,其中“相似谱图模型法”包括以下步骤:(1)提取数次重复性实验产生的谱图间的差异信息;(2)根据上述信息及已有实验谱图利用计算机模拟的方式生成模拟重复性实验谱图;(3)计算大量模拟重复性实验谱图与真实实验谱图间的相似度及其分布,将P值定义为在该分布中相似度得分低于实验谱图搜库匹配结果的相似度得分的模拟重复性实验谱图占全部模拟重复性实验谱图的比例,如果P值高于给定的显著性水平则称该实验谱图的搜库匹配结果可通过相似谱图模型检验。3.根据权利要求1所述的基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法,其特征在于,“随机谱图模型法”包括以下步骤:a.将参考数据库中全部谱图的所有谱峰混合在一起,随机选取特定数量的谱峰,构成模拟随机谱图;b.计算大量模拟随机谱图与真实实验谱图间的相似度及其分布,将错误检出率值定义为在该分布中相似度得分高于实验谱图搜库匹配结果的相似度得分的模拟随机谱图占全部模拟随机谱图的比例,如果FDR值低于给定的显著性水平则称该实验谱图的搜库匹配结果可通过随机谱图模型检验。4.根据权利要求...
【专利技术属性】
技术研发人员:乔振刚,
申请(专利权)人:浙江和谱生物科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。