本发明专利技术涉及一种利用整合工具预测水稻蛋白质磷酸化位点的方法,其特征在于:以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以n种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将n种子工具整合成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。其中,由基于网格的随机数加权法整合而成的整合工具PhosphoRice预测性能最佳。该方法有利于提高蛋白质磷酸化位点的预测准确性。
【技术实现步骤摘要】
本专利技术涉及基因组学和蛋白质组学研究中的蛋白质翻译后修饰
,特别是一种。
技术介绍
蛋白质磷酸化是最重要的蛋白质翻译后修饰过程之一,对细胞功能起着重要的调节作用。随着生物化学研究技术的不断发展,越来越多的蛋白质磷酸化位点得到鉴定,刺激了蛋白质磷酸化位点预测算法、工具的开发。当前有大量的蛋白质磷酸化位点预测工具可供在线检测。但由于蛋白质磷酸化位点预测工具存在数据采样的偏差,造成由特定数据训练开发的预测工具只对特定物种的蛋白质磷酸化位点具有较高的预测性能。不同物种的蛋白质在序列形态、空间结构及激酶类型等方面具有较大的差异性。而现有的蛋白质磷酸化位点数据大都来源于哺乳动物,因此,大部分预测软件的模板和算法也是以哺乳动物蛋白质磷酸化位点数据为训练集,使得现有大部分工具只适合预测哺乳动物蛋白质磷酸化位 点。前人也针对不同的物种,开发出相应的蛋白质磷酸化位点预测工具。如拟南芥的蛋白质磷酸化位点预测工具PhosphAt,酵母蛋白质磷酸化位点预测工具NetPhosYeast。其中,PhosphAt以经试验验证的拟南芥蛋白质磷酸化位点数据为训练集,用支持向量机(SVM)方法开发出拟南芥蛋白质丝氨酸磷酸化位点的预测工具。而NetPhosYeast是以神经网络方法建立酵母蛋白质磷酸化位点的预测工具。不同的蛋白质磷酸化位点预测工具适用于特定的物种,不同的预测工具可能采用不同的算法。为了配合快速发展的水稻基因组学和蛋白质组学研究,开发水稻蛋白质磷酸化位点预测工具势在必行。
技术实现思路
本专利技术的目的在于提供一种,该方法有利于提高蛋白质磷酸化位点的预测准确性。一种利用整合工具预测蛋白质磷酸化位点的方法,以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以η种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将η种子工具整合而成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。上述权重策略是建立于限制性网格搜索法和随机加权法基础上的基于网格的随机数加权法。本专利技术的有益效果是利用整合算法,将国际上新近开发、性能较优的蛋白质磷酸化位点预测工具综合起来,作为整合工具,用于预测水稻蛋白质的磷酸化位点,与新近开发的预测工具相比,本专利技术具有更优的预测性能。附图说明图I是本专利技术实施例的实施流程图。图中,I为已发表文献中的水稻蛋白质磷酸化位点数据;2为从蛋白质数据库下载的水稻蛋白质磷酸化位点数据;3为本专利技术试验验证的水稻蛋白质磷酸化位点数据;4为数据库整理技术;5为水稻蛋白质磷酸化位点数据库PhosRice ;6、7、…、12为若干种新近开发的蛋白质磷酸化位点预测工具;13为工具整合策略;14为由各子工具加权整合而成的水稻蛋白质磷酸化位点预测的Meta-sever工具;15为由基于网格的随机数加权法整合而成的整合工具PhosphoRice。具体实施例方式本专利技术利用整合工具预测蛋白质磷酸化位点的方法,以在生物化学试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以国际上新近开发的η种蛋白质磷酸化位点预测工具为子工具,在本实施例中筛选7种作为子工具,通过一定的权重策略,即工具整合策略,包括未加权表决法、减数加权表决法、加权表决法、限制性网格搜索法、基于网格的随机数加权法,为各子工具分配权重,将η种子工具整合而成水稻蛋白质磷酸化位点预测的整 合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。经比较验证,由基于网格的随机数加权法整合而成的整合工具PhosphoRice预测性能最佳。因此,在本专利技术较佳实施例中,采用基于网格的随机数加权法作为本专利技术方法的权重策略。本专利技术一实施例的实施流程如图I所示。首先,选择已发表文献中的水稻蛋白质磷酸化位点数据(I)、从蛋白质数据库下载的水稻蛋白质磷酸化位点数据(2)以及本专利技术试验验证的水稻蛋白质磷酸化位点数据(3)作为训练集,通过数据库整理技术(4)进行整理,建立水稻蛋白质磷酸化位点数据库PhosRice (5)。所述数据库整理技术(4)包括提取蛋白质序列信息、剪取磷酸化位点前后各12个氨基酸残基的片段、删除不足25个位点的数据、去除冗余数据等。同时,以若干种国际上新近开发的蛋白质磷酸化位点预测工具(6)、(7)、…、(12)为子工具,通过工具整合策略(13)进行整合,即通过未加权表决法、减数加权表决法、加权表决法、限制性网格搜索法、基于网格的随机数加权法等权重策略为各子工具分配权重,将各子工具加权整合而成水稻蛋白质磷酸化位点预测的Meta-sever工具(14)。经比较验证,由基于网格的随机数加权法整合而成的整合工具PhosphoRice (15)预测性能最佳。由此产生了水稻蛋白质磷酸化位点预测工具PhosphoRice (15)。下面对本专利技术作进一步的说明。首先用已经试验验证的水稻蛋白质磷酸化位点数据构建数据集,筛选7种新近开发的蛋白质磷酸化位点预测工具为子工具。通过不同的权重策略,包括未加权表决法、减数加权表决法、加权表决法、限制性网格搜索法、基于网格的随机数加权法等,对各子工具分配相应权重,整合而成水稻蛋白质磷酸化位点预测的Meta-sever工具。通过比较基于不同权重策略的所有Meta-sever工具的预测性能,基于网格的随机数加权法的整合工具PhosphoRice的预测性能最优。因此,在本实施例中通过所述蛋白质磷酸化位点预测工具PhosphoRice预测水稻蛋白质磷酸化位点。由于限制性网格搜索法的网格选择受到网点的限制,只能是一些离散的数值,从中可能无法获得最优解。为进一步优化算法,在加权表决算法的基础上,我们制定了一个随机搜索的策略来进一步选择不同子工具的权重,任何子工具的权重都被允许在一定范围内波动。波动的范围以限制性网格搜索法获得的结果为基础,波动范围处于上一个网格与下一个网格之间。随机数是专门的随机试验结果。如果所选择的预测方法有15种,对于每个方法都要产生一个随机数作为该预测方法的权重。对于每组随机数(即15个随机数)还需要一个阈值,作为判别每个位点是否为磷酸化位点的标准。因此,在每个随机数的Meta组合中一共需要16个参数。因此,我们启用一个随机数发生器,在有限循环次数内,如果满足下式,就判断结果为一个积极的预测,并得出结论。如果超过设定的循环次数,也会停止并给出在该循环中最佳的结果。权利要求1.一种,其特征在于以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以η种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将η种子工具整合而成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。2.根据权利要求I所述的,其特征在于所述权重策略是建立于限制性网格搜索法和随机加权法基础上的基于网格的随机数加权法。全文摘要本专利技术涉及一种,其特征在于以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以n种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将n种子工具整合成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。其中,由基于网格的随机数加权法整合而成的整合工具PhosphoRice预测性能最佳。该方法有利于提高蛋白质磷酸化位点的预测准本文档来自技高网...
【技术保护点】
一种利用整合工具预测水稻蛋白质磷酸化位点的方法,其特征在于:以在试验中检测到的水稻蛋白质磷酸化位点数据为训练集,以n种蛋白质磷酸化位点预测工具为子工具,通过一定的权重策略,为各子工具分配权重,将n种子工具整合而成水稻蛋白质磷酸化位点预测的整合工具,通过所述整合工具预测水稻蛋白质磷酸化位点。
【技术特征摘要】
【专利技术属性】
技术研发人员:何华勤,
申请(专利权)人:福建农林大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。