本发明专利技术公开了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。该方法基于相互作用蛋白质间的存在概率亦相互影响的现象,在鸟枪法蛋白质组学数据上融合蛋白质相互作用网络信息,定义了新的蛋白质鉴定图模型,利用图模型中蛋白质的存在概率及其所获得的邻居蛋白质结点的支持度来调整肽映射到蛋白质的概率,从而调整蛋白质的存在概率。该方法能识别大部分的蛋白质,与其它鉴定方法比较,具有较的高的精确度。为生物学家通过蛋白质组学数据推断和鉴定蛋白质的实验以及进一步研究提供有价值的参考信息。
【技术实现步骤摘要】
基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法
本专利技术属于系统生物学领域,尤其涉及一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法。
技术介绍
人类基因组测序的完成标志着后基因组时代的来临,而蛋白质组学是后基因组时代中最重要的领域之一。蛋白质组学的目的是通过系统地、定量地研究蛋白质在细胞组织中的表达情况,来揭示基因的功能、蛋白质之间的关系以及生命过程的运行机制。其主要任务包括:蛋白质序列鉴定、蛋白质修饰鉴定、蛋白质定量分析、蛋白质结构预测和蛋白质功能预测等问题,而确定出某种细胞器官或组织在一定条件下表达出了哪些蛋白质是其最基本任务之一。目前,蛋白质鉴定主要是采用鸟枪法蛋白质组学研究方法,其步骤是先将标识生物样本中的蛋白质混合物经过简单或不经过分离就被酶解为肽段混合物,肽段混合物经色谱分离和离子化后,经串联质谱仪产生质谱数据用于肽段鉴定,最后再从鉴定的肽段推导可能的蛋白质。该方法可在短时间内获得大量质谱数据并鉴定出蛋白质。目前,用于鸟枪法蛋白质组学中鉴定蛋白质的方法包括基于图模型、基于统计模型、基于优化模型、基于节俭模型、基于多信息集成的分析方法。基于统计模型鉴定方法主要包括ProteinProphet、PANORAMICS、MSBayesPro、Fido、Qscore等方法。其主要思想是用肽鉴定软件得出的肽得分和相关信息,通过统计方法估算出给定蛋白质存在的概率。基于统计模型方法可以分为非参数统计模型和参数统计模型。非参数统计模式未考虑肽样本的概率分布,较参数统计模型而言,非参数统计模型具有更高的鲁棒性。ProteinProphet是应用最广泛的蛋白质推断方法,该方法是采用一个迭代过程来估计蛋白质概率,在迭代过程中不断调整蛋白质概率。PANORAMICS也是一个与ProteinProphet类似的方法,它在迭代推断蛋白质过程中不断的调整肽和蛋白质概率,直到收敛。针对一个肽映射多个蛋白质的情况,MSBayesPro、Fido应用贝叶斯方法推断蛋白质存在概率。Qscore是一个参数统计模型来预测蛋白质概率,该方法应用一个类似于二项式分布的统计算法,其参数使用如蛋白质大小、肽匹配质量、一个蛋白质匹配的肽数量、质谱数据集大小等。PROT_ROBE方法在蛋白质数据库搜索能得到适当肽的概率时,使用二项式分布模型推断蛋白质概率,它还设计了一个多项式模型用于任何蛋白质数据库搜索的肽结果。ComByne应用p值方法对偶然出现的肽的概率进行建模,并充分利用蛋白质长度、保留时间和谱相关系数等信息,采用多重假设检验方法来评估蛋白质存在可信度。基于节俭模型鉴定方法主要包括IDPicker、DBParser、MassSieve、LDFA、ProteinLasso等方法。这些方法的主要思想是将肽和蛋白质描述为二分图模型,使用最少的蛋白质子集来解释所有被标识的肽,将问题规约为集合覆盖问题(NP难问题)。IDPicker首先根据用户设定的假阳率过滤低可信度的肽集合,然后使用贪婪算法去选择候选的蛋白质来覆盖所有保留的肽。该方法还支持把重复的肽标识归类。DBParser将蛋白质分成6个层次,应用节俭模型分别得到每一个层次的蛋白质列表。该方法首先获得无二义的蛋白质列表,然后得出不明确的蛋白质列表,最后对已推断的蛋白质去冗。LDFA是引入肽的可测度,应用简单的贪婪算法解决蛋白质集合覆盖所有标识肽问题。ProteinLasso也引入了肽的可测度,应用Lasso算法解决蛋白质集合覆盖所有标识肽问题。基于优化模型的主要思想是:在二分图的模型的基础上,应用优化模型获取所有的满足一些简单标准的潜在蛋白质列表,这是基于蛋白质样本中有一大部分是同源蛋白质的假设。DTASelect是经典的优化模型,该方法能推断出的包含充分数量肽的蛋白质。基于多元信息集成的分析方法的主要思想是引入一些额外已知信息,如原始的二级质谱数据、一级质谱数据、mRNA表达数据、蛋白质相互作用网络、基因模型等,来提高蛋白质鉴定的准确度,以及推断出一些未被肽识别的蛋白质。方法要包括PIPER、CEA、MSNet、MSpresso、nestedmodel、HSM、Barista、PSC、PeptideClassifier等方法。HSM融合了原始的二级质谱数据,该方法构造了层次统计模型根据串联质谱数据来评估肽和蛋白质自信度。Nestedmodel也融合了质谱数据,提出了一个反馈机制用于同时估计蛋白质和肽的概率,但该方法没有考虑一个肽映射多个蛋白质的情况。Barista应用三部图来描述蛋白质鉴定问题,三部图中每层分别对应质谱、肽和蛋白质,三部图和一些肽谱匹配的特征作为Barista的输入,用机器学习方法直接优化蛋白质总数,并发掘在已鉴定蛋白质中肽谱匹配得分低的肽和谱。Scaffold采用了肽-谱-蛋白质图结构,该方法选择没有选择一个最优的肽,还是选择了对应的多个可能的肽,然后构造肽组和蛋白质间的多对多的关系,最后采用贪婪算法鉴定出最有可能的蛋白质。PIPER提出来源于相同蛋白质的肽具有相关的表达谱的假设,融合肽表达谱信息来鉴定蛋白质,通过表达谱相关性过滤,该方法输出结果包含差异表达蛋白质和假阳错误率的估计。CEA和MSNet在进行蛋白质鉴定后,通过融合蛋白质相互作用网络信息推断出高自信的蛋白质列表。MSpresso基于mRNA的表达越高的蛋白质存在可能性越大的假设,通过融合mRNA表达信息对鉴定出的蛋白质得分进行重新调整。上述各类方法从不同的角度解决了从肽推断蛋白质中存在的一些问题。其中,基于二分图模型的方法因其建模简单而得到了广泛应用。之前提出的绝大多数的方法都是基于二分图模型来设计的。但是,由于蛋白质推断问题本身的复杂性,如:一个肽映射不同蛋白质的问题(即共享肽问题),基于二分图模型的方法无法准确推断出共享肽归属哪个蛋白质。此外,当前的很多鉴定方法仍然处于“黑盒子”阶段,它们很少考虑共享肽,或者没有对共享肽映射到蛋白质的关系进行解释,这不利于进一步的蛋白质鉴定和定量分析工作。由于蛋白质并不是孤立地起作用,本专利技术从蛋白质之间相互作用的角度出发,借鉴融合多元信息集成的分析方法,深层次使用蛋白质相互作用网络对以前构建的二分图模型(肽到蛋白质模型)进行重新定义,在此基础上设计蛋白质鉴定方法,从而提高蛋白质定性的精确度。蛋白质鉴定时,存在一个肽映射不同蛋白质的情况(即共享肽),而现有技术很少考虑共享肽,或者没有对共享肽映射到蛋白质的关系进行解释,这不利于进一步的蛋白质鉴定和定量分析。
技术实现思路
本专利技术所要解决的技术问题是:基于相互作用蛋白质间的存在概率亦相互影响的现象,提出了一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,该方法识别精度高。本专利技术的技术方案为:一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,包括以下步骤:步骤一:通过质谱识别软件比较理论质谱图和实验质谱图,得到肽的存在概率Probpep_i,过滤概率小于0.05的肽;步骤二:根据过滤后的肽建立肽映射蛋白质的二分图Gv(Ni,Mj,E),其中Ni为肽结点集合,Mj为蛋白质结点集合,E为表示肽和蛋白质映射关系的边的集合;输入一组蛋白质相互作用数据,过滤掉其中的重复相互作用和自相互作用数据,在二分图上蛋白本文档来自技高网...
【技术保护点】
一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,包括以下步骤:步骤一:通过质谱识别软件比较理论质谱图和实验质谱图,得到肽的存在概率Probpep_i,过滤概率小于0.05的肽;步骤二:根据过滤后的肽建立肽映射蛋白质的二分图Gv(Ni,Mj,E),其中Ni为肽结点集合,Mj为蛋白质结点集合,E为表示肽和蛋白质映射关系的边的集合;输入一组蛋白质相互作用数据,过滤掉其中的重复相互作用和自相互作用数据,在二分图上蛋白质侧建立蛋白质相互作用无向图Gu(Nu,E’),其中Nu为蛋白质结点集合,Nu结点集合与二分图中Mj结点集合相同,E’为表示蛋白质相互作用信息的边的集合;步骤三:计算Gv中蛋白质的存在概率Probpro_j:Probpro_j=[1-Πi∈Gv;(i,j)∈E(1-Probi_j)]-log(Deg(pro_j)Theory(pro_j))]]>其中,Probpro_j表示蛋白质j的存在概率,Probi_j表示肽i映射到蛋白质j的概率,根据公式计算得到,其中Probpep_i表示肽i的存在概率,Deg(pep_i)表示二分图Gv中i结点的度;Deg(pro_j)表示蛋白质j所包含的实际肽的匹配数,即为二分图Gv中j结点的度;Theory(pro_j)表示按某种酶切方式,蛋白质j所包含的理论肽的匹配数;所述度是指和该结点相关联的边的条数;步骤四:计算蛋白质j所获得的邻居蛋白质结点的支持度Supportpro_j:Supportpro_j=Σk∈Gu;(k,j)∈E′Probpro_k*Weight(k,j)]]>其中Probpro_k表示在Gu上蛋白质j的邻居蛋白质结点k的存在概率,Weight(k,j)表示蛋白质k与蛋白质j的相互作用权值;如果步骤二中输入的蛋白质相互作用数据是加权的,则Weight(k,j)依据蛋白质相互作用数据确定;如果步骤二中输入的蛋白质相互作用数据是非加权的,则令Weight(k,j)=1;计算蛋白质j的每个邻居蛋白质结点的贡献度,计算公式为:Probpro_k*Weight(k,j),判断其是否大于设置的阈值,若低于设置的阈值,认为该邻居蛋白质结点的贡献度为假阳性,则在计算蛋白质j所获得的邻居蛋白质结点的支持度时,不考虑该邻居蛋白质;步骤五:调整共享肽i映射到蛋白质j的概率Probi_j:Probi_j=Supportpro_j*Probpro_jSumSupportpep_i]]>其中,SumSupportpep_i表示共享肽i所映射到的所有的蛋白质所获得的支持度之和,计算公式为:SumSupportpep_i=Σi∈Gv;(i,j)∈ESupportpro_j*Probpro_j;]]>Supportpro_j表示蛋白质j所获得的邻居结点的支持度,Probpro_j表示第j个蛋白质的存在概率;根据调整后共享肽i映射到蛋白质j的概率Probi_j,利用步骤三中的公式重新计算蛋白质的存在概率Probpro_j;步骤六:判断蛋白质的存在概率是否收敛,即检查本次计算得到的蛋白质的存在概率与上一次计算得到的蛋白质存在概率有没有变化;如果没有变化,则输出蛋白质的存在概率列表;否则转步骤四。...
【技术特征摘要】
1.一种基于蛋白质相互作用网络和蛋白质组学的蛋白质鉴定方法,其特征在于,包括以下步骤:步骤一:通过质谱识别软件比较理论质谱图和实验质谱图,得到肽的存在概率Probpep_i,过滤概率小于0.05的肽;步骤二:根据过滤后的肽建立肽映射蛋白质的二分图Gv(Ni,Mj,E),其中Ni为肽结点集合,Mj为蛋白质结点集合,E为表示肽和蛋白质映射关系的边的集合;输入一组蛋白质相互作用数据,过滤掉其中的重复相互作用和自相互作用数据,在二分图上蛋白质侧建立蛋白质相互作用无向图Gu(Nu,E′),其中Nu为蛋白质结点集合,Nu结点集合与二分图中Mj结点集合相同,E′为表示蛋白质相互作用信息的边的集合;步骤三:计算Gv中蛋白质的存在概率Probpro_j:其中,Probpro_j表示蛋白质j的存在概率,Probi_j表示肽i映射到蛋白质j的概率,根据公式计算得到,其中Probpep_i表示肽i的存在概率,Deg(pep_i)表示二分图Gv中i结点的度;Deg(pro_j)表示蛋白质j所包含的实际肽的匹配数,即为二分图Gv中j结点的度;Theory(pro_j)表示按某种酶切方式,蛋白质j所包含的理论肽的匹配数;所述度是指和该结点相关联的边的条数;步骤四:计算蛋白质j所获得的邻居蛋白质结点的支持度Supportpro_j:其中Probpro_k表示在Gu上蛋白质j的邻居蛋白质结点k的存在概率,Weight(k,j)表示蛋白质k与蛋白质j的相互作用权值;如果步...
【专利技术属性】
技术研发人员:王建新,钟坚成,李敏,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。