The invention discloses a method for using the foraging mechanism of artificial bee colony optimization algorithm to identify the key proteins, the protein interaction network into DNA undirected graph, the corresponding expression values for protein, and construct dynamic protein interaction network, select the known proteins as nectar, honey bees, follow the neighborhood search the bee bees search neighborhood, honey, bee investigation update global search and update new nectar, nectar of key protein protein interaction network of nodes and edges pretreatment. The method of the invention can accurately identify the key proteins; simulation results show that the sensitivity, specificity, positive predictive value and negative predictive value of index performance is better; compared with other key protein identification methods, combined with the characteristics and optimization of protein interaction process of artificial bee colony identification of key proteins with the characteristics of network implementation, improve the accuracy of identification of essential proteins.
【技术实现步骤摘要】
采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法
本专利技术属于生物信息领域,涉及一种动态蛋白质相互作用网络中关键蛋白质的识别方法,具体涉及采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法。
技术介绍
关键蛋白质是生物体生存和繁殖所必须的蛋白质,关键蛋白质的缺失会导致有关蛋白质复合物功能丧失,并导致生物体无法生存。由于关键蛋白质在生命活动中扮演重要角色,因此对于关键蛋白质的预测与识别成为一项重要研究工作。在生物学上,关键蛋白质的识别主要是依靠生物实验方法,例如单基因挑出和条件性基因剔除等。通过这些实验技术得到的结果虽然是明确和有效的,但代价高,效率低,试用范围有限。因此,利用计算生物学的方法来预测关键蛋白质成为一个新的发展方向。目前,通过计算方法实现关键蛋白质的识别主要基于两种措施,拓扑中心性方法和异类源融合方法。2001年提出的“中心性-致死性”法则指出蛋白质的关键性与蛋白质相互作用网络的拓扑结构紧密相关,具体表现为拥有较多相邻结点的蛋白质的缺失更易于影响整个网络的拓扑结构,进而产生致死的效应。也就是说,蛋白质网络中度越高的蛋白质结点越倾向于表现关键性。该理论成为了基于网络拓扑结构的关键蛋白质识别的基础。此后,许多研究人员提出了基于拓扑中心性的关键蛋白质识别方法,其中包括度中心性(DegreeCentrality,DC),介数中心性(BetweennessCentrality,BC),紧密度中心性(ClosenessCentrality,CC),特征向量中心性(EigenvectorCentrality,EC),信息中心性(Informati ...
【技术保护点】
采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法,其特征在于包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={v
【技术特征摘要】
1.采用觅食机制的人工蜂群优化算法识别关键蛋白质的方法,其特征在于包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用;(2)对蛋白质相互作用网络边和结点的预处理对结点vi预处理:按式(1)计算结点vi的介数中心性:式中ρ(s,v,t)表示蛋白质相互作用网络中结点s与结点t之间经过结点v的最短路径的条数,ρ(s,t)表示蛋白质相互作用网络中结点s与结点t之间的最短路径的条数;按式(2)计算边的聚集系数:式中,Z(vi,vj)表示包含边(vi,vj)的三角形个数,di,dj分别是点vi,vj的度;按式(3)计算边的皮尔森相关系数:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(3)构建动态蛋白质相互作用网络在时间点t时,蛋白质vi的基因表达值GEit若大于基因表达阈值AT(i),则被认为蛋白质vi在时间点t具有活性;否则认为该结点在时间点t不具有活性;将所有时间点的活性蛋白质组合在一起,对应到原静态蛋白质相互作用网络中形成一个新的蛋白质相互作用网络,即动态蛋白质网络;GEit为蛋白质vi在时间点t处的基因表达值;基因表达阈值AT(i)由式(4)得到:AT(i)=μ(i)+3σ(i)(1-F(i))式(4)式中μ(i)是蛋白质vi平均基因表达值,σ(i)是基因表达值的标准差,F(i)=1/(1+σ2(i))是权函数;(4)选取已知关键蛋白质作为蜜源令N为蜜源中包含的已知关键蛋白质的数量,在目前已知的关键蛋白质中随机选取N个关键蛋白质作为先验知识的蜜源;Ep_set表示蜜源包含的蛋白质的集合;iter,maxiter分别表示当前迭代次数和最大迭代次数,iter=1,matxiter∈[100,800];(5)采蜜蜂搜索蜜源邻域蜜源的邻域即与蜜源蛋白质有相互作用的蛋白质结点集合niber_set1,每一个邻域结点看作一只采蜜蜂;按照score1(i)=relevant(vi,,Ep_set)确定采蜜蜂当前所在位置的蜜源收益度及该邻域结点成为新蜜源的可能性,式中score1(i)为采蜜蜂当前位置的蜜...
【专利技术属性】
技术研发人员:雷秀娟,丁玉连,陆铖,代才,程适,
申请(专利权)人:陕西师范大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。