本发明专利技术提供一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。本发明专利技术能够提高串联质谱谱图鉴定的鉴定率和准确度,并且具有较高的搜索速度。
【技术实现步骤摘要】
一种串联质谱谱图鉴定方法
本专利技术涉及生物信息学
,具体地说,本专利技术涉及一种串联质谱谱图鉴定方法。
技术介绍
串联质谱鉴定技术是蛋白质组学研究中的关键技术,也是大规模蛋白质序列和修饰鉴定的主要方法。序列库搜索是一种常规的串联质谱谱图鉴定方法。在进行通常的序列库搜索时,对每张谱图均划定一个以该谱图质量m为中心的质量区间,然后把该谱图与序列库中处于相应质量区间内的所有肽段(肽段也可称为肽段序列)进行匹配,得到肽-谱匹配打分,打分最好的肽段即作为这张谱图的鉴定结果。由于序列库包含待测序物种的所有已知肽段,如人类库的肽段数目的数量级大致为109,因此在常规的序列库搜索中,所划定的质量区间很狭窄,一般不超过1Da,例如[m-0.00002m,m+0.00002m],这样落在这个质量区间范围内的肽段数目相对较小,可以较为快速的完成串联质谱谱图的鉴定。然而,众所周知,蛋白质翻译后修饰会造成由蛋白质得到的肽段额外多加一个基团或者丢失一个基团。肽段加上修饰之后,会引起其质量的改变。因此,由带修饰的肽段生成的谱图的质量同肽段的原始质量之间存在一个质量差。这个质量差一般很大,甚至可以达到上百Da。因此,用带修饰的谱图(即由带修饰的肽段生成的谱图)去查询数据库中的肽段(数据库中的肽段都是不带修饰的原始形式),如果只开小窗口,如1Da,就无法把谱图鉴定出来。所以,上述串联质谱鉴定方法无法鉴定带有未知修饰的肽段,对于同批次蛋白质酶切样品所得的谱图数据集,其鉴定率(又称为解析率)较低,通常不到30%。另一方面,现有技术中还存在一种开放式序列库搜索,为了提高鉴定率,它考虑到了串联质谱谱图可能带有未知修饰的情况,对于每个谱图使用较大的质量区间(即开放的窗口)在序列库中进行搜索。例如:预估修饰的质量范围为[-200Da,200Da],则质量为m的谱图需要同质量区间[m-200Da,m+200Da]之内的所有肽段进行肽-谱匹配。这种开放式序列库搜索理论上可以有效鉴定出串联质谱数据中的修饰谱图。然而,由于采用的质量区间相对较大,需要匹配的肽段数量十分巨大,假设落在区间[m-0.00002m,m+0.00002m]之内的肽段数为n,则落入区间[m-200Da,m+200Da]之内的肽段可能超过400n,这导致现有技术中的开放式序列库搜索计算量十分巨大,搜索速度大幅降低。另外,由于开放式序列库搜索的搜索空间过大,同每张谱图进行匹配打分的肽段数量急剧增加。在众多错误肽段的竞争下,正确的肽段很有可能无法获得最高的肽-谱匹配打分。因此,开放式序列库搜索对谱图鉴定准确度的提升很有限。
技术实现思路
因此,本专利技术的任务是提供一种既能提高鉴定率又能保持较高搜索速度的串联质谱谱图鉴定方法。本专利技术提供了一种串联质谱谱图快速鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)得到的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。其中,所述步骤1)中,所述全局序列库为包含待测序物种的全部蛋白质序列的序列库。其中,所述步骤1)中,所述限制性搜索中,以待鉴定谱图的质量为中心,结合肽段的质量误差,确定肽段质量区间。其中,所述步骤2)中,所述开放式搜索中,以待鉴定谱图的质量为中心,结合修饰所引起的肽段质量变化,确定肽段质量区间。其中,所述步骤2)包括下列子步骤:21)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,鉴定出待鉴定谱图数据集中部分带有修饰的肽段;22)对于步骤21)所获得的带有修饰的肽段,在已知的修饰数据库搜索与其匹配的修饰,抛弃无法获得匹配修饰的肽段;23)对经过步骤22)处理的带有修饰的肽段,计算其所带修饰的质量和误差区间。其中,所述步骤23)包括下列子步骤:231)对经过步骤22)处理的带有修饰的肽段,根据修饰的数目选取其中的高丰度修饰,抛弃其它修饰;232)计算高丰度修饰的质量和误差区间。其中,所述步骤3)包括下列子步骤:31)根据步骤2)得到的的高丰度修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得匹配肽段;32)利用基于SVM的算法对步骤31)所得的匹配肽段进行过滤,得到最终的匹配结果。其中,所述步骤31)中,将当前待鉴定谱图的质量和高丰度修饰的质量之差设置为中心,再根据高丰度修饰的误差区间设置边界,从而获得所述限制性搜索区间。其中,所述步骤1)、2)和3)中,在进行搜索时,根据肽-谱匹配打分获得匹配结果。其中,所述肽-谱匹配打分采用KSDP打分、XCorr打分或者E-value打分。与现有技术相比,本专利技术具有下列技术效果:1、能够提高串联质谱谱图鉴定的鉴定率。2、具有较高的搜索速度。3、能够提高鉴定结果的准确度。附图说明以下,结合附图来详细说明本专利技术的实施例,其中:图1示出了本专利技术一个实施例的串联质谱谱图鉴定方法的流程图。具体实施方式图1示出了本专利技术一个实施例的串联质谱谱图鉴定方法的流程图,该串联质谱谱图鉴定方法包括下列步骤:步骤1:对待鉴定串联质谱谱图数据集,对其中每张串联质谱谱图(串联质谱谱图是质谱仪输出的信号,为便于描述,下文中简称为谱图),分别基于全局序列库在小质量窗口内进行搜索,鉴定出部分肽段。本步骤的搜索就是在全局序列库上的常规搜索(即非开放式搜索,又称为限制性搜索),其中小窗口是指以待鉴定谱图质量为中心的质量区间,且该质量区间较为狭窄。例如,待鉴定谱图质量为m,则相应的小窗口为[m-0.00002m,m+0.00002m],0.00002m通常小于1Da。本实施例中,全局序列库包含待鉴定谱图数据集所对应的待测序物种的所有已知肽段,通常地,全局序列库中的肽段数目巨大,如人类库中肽段数目的量级大致为109。本步骤中,谱图数据集是同一批次蛋白质样品酶切后经串联质谱测试所得的谱图数据集。步骤2:用步骤1搜索出的肽段构造局部序列库,然后对待鉴定谱图数据集中的每张谱图,分别基于所构造的局部序列库进行开放式搜索,鉴定出部分带有修饰的肽段。如前文所述,开放式搜索是在一个大质量区间内的搜索。假如将修饰的质量范围设定为[-200Da,200Da],则开放式搜索的质量区间为[m-200Da,m+200Da],其中m为待鉴定谱图的质量。在一个实施例中,所述步骤2包括下列子步骤:步骤21:基于步骤1的搜索结果,解析出待鉴定谱图数据集中每个谱图所匹配到的肽段和肽-谱匹配打分,如KSDP打分(参考文献Fu,Y.,etal.,Exploitingthekerneltricktocorrelatefragmentionsforpeptideidentificationviatandemmassspectrometry.Bioinformatics,2004本文档来自技高网...
【技术保护点】
一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果。
【技术特征摘要】
1.一种串联质谱谱图鉴定方法,其特征在于,包括下列步骤:1)对于待鉴定谱图数据集中的每张谱图,分别在全局序列库中进行限制性搜索,获得各谱图的匹配肽段;所述限制性搜索中,以待鉴定谱图的质量为中心,结合肽段的质量误差,确定肽段质量区间;2)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,获得与一部分谱图相匹配的带修饰的肽段,并获得所带修饰的质量和误差区间;所述开放式搜索中,以待鉴定谱图的质量为中心,结合修饰所引起的肽段质量变化,确定肽段质量区间;3)对于待鉴定谱图数据集中的每张谱图,根据步骤2)所匹配的修饰的质量和误差区间以及当前待鉴定谱图的质量,设定限制性搜索区间,并在全局序列库中进行搜索,获得最终的匹配结果;其中,所述步骤2)包括下列子步骤:21)根据步骤1)所得各谱图的匹配肽段,构建局部序列库,对于待鉴定谱图数据集的每张谱图,分别在所述局部序列库中进行开放式搜索,鉴定出待鉴定谱图数据集中部分带有修饰的肽段;22)对于步骤21)所获得的带有修饰的肽段,在已知的修饰数据库搜索与其匹配的修饰,抛弃无法获得匹配修饰的肽段;23)对经过步骤22)处理的带有修饰的肽段,计算其所带修饰的质量和误差区间。2.根据权利要...
【专利技术属性】
技术研发人员:何昆,曾文锋,付岩,迟浩,贺思敏,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。