采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法技术

技术编号:15691301 阅读:124 留言:0更新日期:2017-06-24 04:23
本发明专利技术公开了一种采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法,将蛋白质相互作用网络转化为无向图、获取蛋白质对应的核糖核酸基因表达值、对蛋白质相互作用网络边和结点预处理、构建动态蛋白质相互作用网络、选取已知关键蛋白质作为蜜源、采蜜蜂搜索蜜源邻域、跟随蜂搜索采蜜蜂邻域、更新蜜源、侦查蜂全局搜索新蜜源、更新蜜源、产生关键蛋白质。本发明专利技术方法能准确地识别关键蛋白质;仿真实验结果表明,敏感度、特异性、阳性预测值、阴性预测值等指标性能较优;与其他关键蛋白识别方法相比,结合人工蜂群的优化特性与蛋白质相互作用网络的特征实现关键蛋白质的识别过程,提高了关键蛋白质的识别准确率。

A method for identifying key proteins using foraging mechanism artificial bee colony optimization algorithm

The invention discloses a method for using the foraging mechanism of artificial bee colony optimization algorithm to identify the key proteins, the protein interaction network into DNA undirected graph, the corresponding expression values for protein, and construct dynamic protein interaction network, select the known proteins as nectar, honey bees, follow the neighborhood search the bee bees search neighborhood, honey, bee investigation update global search and update new nectar, nectar of key protein protein interaction network of nodes and edges pretreatment. The method of the invention can accurately identify the key proteins; simulation results show that the sensitivity, specificity, positive predictive value and negative predictive value of index performance is better; compared with other key protein identification methods, combined with the characteristics and optimization of protein interaction process of artificial bee colony identification of key proteins with the characteristics of network implementation, improve the accuracy of identification of essential proteins.

【技术实现步骤摘要】
采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法
本专利技术属于生物信息领域,涉及一种动态蛋白质相互作用网络中关键蛋白质的识别方法,具体涉及采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法。
技术介绍
关键蛋白质是生物体生存和繁殖所必须的蛋白质,关键蛋白质的缺失会导致有关蛋白质复合物功能丧失,并导致生物体无法生存。由于关键蛋白质在生命活动中扮演重要角色,因此对于关键蛋白质的预测与识别成为一项重要研究工作。在生物学上,关键蛋白质的识别主要是依靠生物实验方法,例如单基因挑出和条件性基因剔除等。通过这些实验技术得到的结果虽然是明确和有效的,但代价高,效率低,试用范围有限。因此,利用计算生物学的方法来预测关键蛋白质成为一个新的发展方向。目前,通过计算方法实现关键蛋白质的识别主要基于两种措施,拓扑中心性方法和异类源融合方法。2001年提出的“中心性-致死性”法则指出蛋白质的关键性与蛋白质相互作用网络的拓扑结构紧密相关,具体表现为拥有较多相邻结点的蛋白质的缺失更易于影响整个网络的拓扑结构,进而产生致死的效应。也就是说,蛋白质网络中度越高的蛋白质结点越倾向于表现关键性。该理论成为了基于网络拓扑结构的关键蛋白质识别的基础。此后,许多研究人员提出了基于拓扑中心性的关键蛋白质识别方法,其中包括度中心性(DegreeCentrality,DC),介数中心性(BetweennessCentrality,BC),紧密度中心性(ClosenessCentrality,CC),特征向量中心性(EigenvectorCentrality,EC),信息中心性(InformationCentrality,IC),子图中心性(SubgraphCentrality,SC)。通过计算蛋白质相互作用网络中所有蛋白质结点在网络中某个中心性的值的大小来判断其为关键蛋白质的可能性。这些中心性方法高度依赖蛋白质相互作用网络的精确性。但蛋白质相互作用网络是通过高通量生物实验获得,包含了很多假阳性,很大地影响了关键蛋白质识别的准确率。针对中心性拓扑特征识别关键蛋白质的缺点,研究人员提出一些新的识别方法进一步提高关键蛋白质的识别准确率。如PeC关键蛋白质识别方法将蛋白质相互作用网络与基因表达谱整合起来,ION关键蛋白质识别方法主要结合了蛋白质的同源特性和蛋白质相互作用网络。基于边的聚集系数的关键蛋白质识别方法。通过考虑蛋白质本身及其周围邻居的聚集状况来识别蛋白质。此外,还有一些通过融合其他信息进行关键蛋白质识别的方法,如基于结构域的关键蛋白质识别方法,基于基因共表达的关键蛋白质识别方法等。近年来,有研究指出生物网络存在显著的模块化特性,在蛋白质网络中表现为存在大量的蛋白质复合物功能模块。Hart等人提出关键性是蛋白质复合物的一种属性,并通过实验数据显示出关键蛋白质往往大量集中在某些复合物中。随后Zotenko等人提出了关键复合物模块的概念,并指出具有相同功能或相近生物功能的高度联通的蛋白质网络功能模块中具有大量关键蛋白质。因此许多研究者提出基于蛋白质复合物及功能模块的关键蛋白质识别方法。尽管关键蛋白质的识别问题越来越引起人们的关注,但目前结合网络信息的识别方法的准确率依旧较低,而且大多数方法都是孤立或者零碎地使用少数参数或特征分析关键蛋白质,对于结点缺乏从整体和全局上的把握。另外,当前的关键蛋白识别方法大多基于静态的蛋白质相互作用网络识别的,而生物体中蛋白质的活性是随着生物体的生命周期而变化的,因此构建一个更能真实模仿生物体的动态生命的蛋白质相互作用网络能帮助进一步提升关键蛋白质识别准确率。综合上述关键蛋白质识别方法的缺陷,主要有没考虑蛋白质相互作用网络的动态性,只考虑局部特征而忽视了网络的全局性以及蛋白质相互作用网络数据的假阳性,关键蛋白质识别准确率低。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法,能真实地模拟蛋白质相互作用网络的动态性,关键蛋白质识别准确度高。为达到上述目的,本专利技术采用如下技术方案:采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法,包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用;(2)对蛋白质相互作用网络边和结点的预处理对结点vi预处理:按式(1)计算结点vi的介数中心性:式中ρ(s,v,t)表示蛋白质相互作用网络中结点s与结点t之间经过结点v的最短路径的条数,ρ(s,t)表示蛋白质相互作用网络中结点s与结点t之间的最短路径的条数;按式(2)计算边的聚集系数:式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是点vi,vj的度;按式(3)计算边的皮尔森相关系数:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(3)构建动态蛋白质相互作用网络在时间点t时,蛋白质vi的基因表达值GEit若大于基因表达阈值AT(i),则被认为蛋白质vi在时间点t具有活性;否则认为该结点在时间点t不具有活性;将所有时间点的活性蛋白质组合在一起,对应到原静态蛋白质相互作用网络中形成一个新的蛋白质相互作用网络,即动态蛋白质网络;GEit为蛋白质vi在时间点t处的基因表达值;基因表达阈值AT(i)由式(4)得到:AT(i)=μ(i)+3σ(i)(1-F(i))式(4)式中μ(i)是蛋白质vi平均基因表达值,σ(i)是基因表达值的标准差,F(i)=1/(1+σ2(i))是权函数;(4)选取已知关键蛋白质作为蜜源令N为蜜源中包含的已知关键蛋白质的数量,在目前已知的关键蛋白质中随机选取N个关键蛋白质作为先验知识的蜜源;Ep_set表示蜜源包含的蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter∈[100,800];(5)采蜜蜂搜索蜜源邻域蜜源的邻域即与蜜源蛋白质有相互作用的蛋白质结点集合niber_set1,每一个邻域结点看作一只采蜜蜂;按照score1(i)=relevant(vi,,Ep_set)确定采蜜蜂当前所在位置的蜜源收益度及该邻域结点成为新蜜源的可能性,式中score1(i)为采蜜蜂当前位置的蜜源收益度,vi是采蜜蜂所代表的蛋白质结点,relevant表示蛋白质结点vi与当前蜜源集合Ep_set之间的关联度;(6)跟随蜂搜索采蜜蜂邻域设采蜜蜂vi的邻域即与采蜜蜂所代表的蛋白质有相互作用且不在当前蜜源集合Ep_set内的蛋白质结点集合为niber_set2;跟随蜂接收采蜜蜂的信息并且对采蜜蜂的邻域进行搜索,即跟随蜂根据公式score2(i)=fitness(vi,,niber_set2,Ep_set)确定当前位置成为新蜜源的可能性,式中vi是采蜜蜂所代表的蛋白质结点,niber_set2表示采蜜蜂的邻域蛋白质结点,fitness表示当前位置成为蜜源的适应度;(7)更新蜜源对蛋白质结点集合niber_set1中的结点按照其score2本文档来自技高网
...
采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法

【技术保护点】
采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法,其特征在于包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={v

【技术特征摘要】
1.采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法,其特征在于包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用;(2)对蛋白质相互作用网络边和结点的预处理对结点vi预处理:按式(1)计算结点vi的介数中心性:式中ρ(s,v,t)表示蛋白质相互作用网络中结点s与结点t之间经过结点v的最短路径的条数,ρ(s,t)表示蛋白质相互作用网络中结点s与结点t之间的最短路径的条数;按式(2)计算边的聚集系数:式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是点vi,vj的度;按式(3)计算边的皮尔森相关系数:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(3)构建动态蛋白质相互作用网络在时间点t时,蛋白质vi的基因表达值GEit若大于基因表达阈值AT(i),则被认为蛋白质vi在时间点t具有活性;否则认为该结点在时间点t不具有活性;将所有时间点的活性蛋白质组合在一起,对应到原静态蛋白质相互作用网络中形成一个新的蛋白质相互作用网络,即动态蛋白质网络;GEit为蛋白质vi在时间点t处的基因表达值;基因表达阈值AT(i)由式(4)得到:AT(i)=μ(i)+3σ(i)(1-F(i))式(4)式中μ(i)是蛋白质vi平均基因表达值,σ(i)是基因表达值的标准差,F(i)=1/(1+σ2(i))是权函数;(4)选取已知关键蛋白质作为蜜源令N为蜜源中包含的已知关键蛋白质的数量,在目前已知的关键蛋白质中随机选取N个关键蛋白质作为先验知识的蜜源;Ep_set表示蜜源包含的蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter∈[100,800];(5)采蜜蜂搜索蜜源邻域蜜源的邻域即与蜜源蛋白质有相互作用的蛋白质结点集合niber_set1,每一个邻域结点看作一只采蜜蜂;按照score1(i)=relevant(vi,,Ep_set)确定采蜜蜂当前所在位置的蜜源收益度及该邻域结点成为新蜜源的可能性,式中score1(i)为采蜜蜂当前位置的蜜...

【专利技术属性】
技术研发人员:雷秀娟丁玉连陆铖代才程适
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1