基于熵增的二分网络模块识别方法、系统及存储介质技术方案

技术编号:19351917 阅读:40 留言:0更新日期:2018-11-07 17:25
本发明专利技术公开了一种基于熵增的二分网络模块识别方法、系统及存储介质,该方法包括以下步骤:网络转换步骤:根据二分网络中两类节点间的概率关系,将二分网络转换为只包含其中一类节点的单类节点概率网络;单类节点聚簇步骤:计算单类节点概率网络中每条关系边的信息熵,根据信息熵增原理对单类节点概率网络中的各节点进行聚簇,得到只含有其中一类节点的单类节点初始簇;加入另一类节点和关系边步骤:根据二分网络关系,将另一类节点、以及用于表示两类节点之间连接关系的关系边添加至单类节点初始簇,得到最终的模块。本发明专利技术简单易行,不需要另外附加参数即可运行,而且模块识别率较高,对于开展复杂网络和生物信息网络研究具有重要的参考价值。

【技术实现步骤摘要】
基于熵增的二分网络模块识别方法、系统及存储介质
本专利技术涉及复杂网络模块识别
,尤其是一种基于熵增的二分网络模块识别方法、系统及存储介质。
技术介绍
二分网络是一种重要的复杂网络的表现形式。现实生活中许多网络都呈现出二分结构,如:会员和活动关系网络、电影和演员关系网络、疾病和基因关系网络、microRNA(miRNA)和messagerRNA(mRNA)调控网络等。这种网络的特点是:它由两类节点组成,连边只存在于不同类型的节点之间,同类节点之间无连边。模块是复杂网络最基本和最重要的拓扑属性之一,能够帮助我们了解整个网络的结构和特性,因此模块识别对于复杂网络,特别是生物网络研究具有重要的意义。然而选择一个合适的模块识别算法来发现复杂网络中的模块可能是困难的。因为当前提出的很多算法例如FN算法(FastNewman)和TGA算法(TraditionalGeneticAlgorithm)都是基于一些代价函数,通过调优参数在特定网络上来获取最佳效果,若将这些算法应用于其他网络,识别准确率往往较低,其识别结果是难以保障的。目前的算法需要先设置参数,存在算法复杂、普适性差、识别率低等问题。
技术实现思路
为了克服现有技术的缺陷,本专利技术提出一种基于熵增的二分网络模块识别方法、系统及存储介质。本专利技术采用的技术方案如下:一方面,本专利技术提供了一种基于熵增的二分网络模块识别方法,二分网络包含两类节点,且仅不同类的节点间存在关系边,方法包括以下步骤:网络转换步骤:根据二分网络中两类节点间的概率关系,将二分网络转换为只包含其中一类节点的单类节点概率网络;单类节点聚簇步骤:计算单类节点概率网络中每条关系边的信息熵,根据信息熵增原理对单类节点概率网络中的各节点进行聚簇,得到只含有其中一类节点的单类节点初始簇;加入另一类节点和关系边步骤:根据二分网络关系,将另一类节点、以及用于表示两类节点之间连接关系的关系边添加至单类节点初始簇,得到最终的模块。进一步地,二分网络表示为G=(U,V,E),其中,E={<Ui,Vj>|Ui∈U,Vj∈V,i=1,2...M,j=1,2...N},U表示第一类节点的集合,V表示第二类节点的集合,E表示U类节点与V类节点之间关系边的集合,<Ui,Vj>表示第i个U类节点和第j个V类节点之间的关系边,M表示第一类节点的个数,N表示第二类节点的个数;网络转换步骤包括:假设两个V类节点和同一个U类节点有联系,则两个V类节点之间存在一次连接关系,将所述二分网络中每对V类节点的连接关系叠加在一起,获得每对V类节点之间的叠加次数;总叠加次数为所述二分网络中全部V类节点之间的叠加次数之和;将所述叠加次数除以所述总叠加次数得到每对V类节点之间的关系边的概率关系;根据所述每对V类节点之间的关系边的概率关系构建出只包含V类节点的单类节点概率网络。进一步地,每对V类节点之间的关系边的概率关系的计算公式如下:其中,Va和Vb为两个V类节点,p(Va,Vb)为Va和Vb之间的关系边的概率关系,Ui→Vj表示第i个U类节点和第j个V类节点之间存在关系边。进一步地,单类节点聚簇步骤包括:根据以下公式计算单类节点概率网络中每个V类节点的概率:其中,Va为V类节点,p(Va,Vj)为节点Va和它的邻居节点Vj之间的关系边<Va,Vj>的概率。进一步地,单类节点聚簇步骤还包括:根据以下公式计算单类节点概率网络中每条关系边的信息熵:其中,H(Vi,Vj)为两个V类节点Vi和Vj之间关系边的信息熵。进一步地,单类节点聚簇步骤还包括:在单类节点概率网络中查找最大概率的节点作为原有节点;在最大概率的节点的邻接节点中查找最大概率的关系边,并将通过最大概率的关系边与最大概率的节点连接的节点作为新节点;如果新节点与原有节点组成的集合的熵增dH不小于集合的平均熵则将新节点加入原有节点组成一个新的集合,否则不加入,本次查找结束,得到一个新的V类节点初始簇,且新的V类节点初始簇中的所有节点作为下一次查找的原有节点;继续在剩余的节点中查找具有最大概率的节点,并执行上两个步骤;重复上一步骤,直到没有剩余的V类节点;过滤掉只含有一个V类节点的模块,得到最终的只含有V类节点的单类节点初始簇。进一步地,集合的熵增dH通过以下公式计算获得:dH=H2-H1其中,H2为加入新节点之后集合的熵,H1为加入新节点之前集合的熵;集合的平均熵的计算公式如下:其中,|C|为集合内的节点个数,H为集合的熵,集合的熵H的计算公式如下:进一步地,加入另一类节点和关系边步骤包括:将同时与至少两个V类节点有连接关系的U类节点作为待加入U类节点;根据二分网络关系,将待加入U类节点与单类节点初始簇进行合并,并加入用于表示两类节点之间连接关系的关系边,得到最终的模块。根据本专利技术的另一方面,还提供了一种基于熵增的二分网络模块识别系统,包括:网络转换单元,用于根据二分网络中两类节点间的概率关系,将二分网络转换为只包含其中一类节点的单类节点概率网络;单类节点聚簇单元,用于计算单类节点概率网络中每条关系边的信息熵,根据信息熵增原理对单类节点概率网络中的各节点进行聚簇,得到只含有其中一类节点的单类节点初始簇;加入另一类节点和关系边单元,用于根据二分网络关系,将另一类节点、以及用于表示两类节点之间连接关系的关系边添加至单类节点初始簇,得到最终的模块。根据本专利技术的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现上述的基于熵增的二分网络模块识别方法的步骤。本专利技术通过首先根据连接关系将二分网络转换成单类节点边的概率网络;然后利用概率计算出每条边的信息熵;再利用信息熵增原理得出该类节点的簇;最后通过加入另一类节点来获得完整的模块。与现有模块识别算法相比,本专利技术的基于熵增的二分网络模块识别方法、系统及存储介质具有如下优势:1)该方法简单易行,系统结构简单,运算效率高;算法不需要预设任何参数,即可运行;不存在调优参数对结果的影响问题。2)本专利技术基于熵增原理,算法理论基础扎实,普适性好。根据秩序越混乱熵越大的原理来聚簇节点,结果不但准确率高,而且稳定性好,因此算法具有较好的普适性,能够广泛地用于各种复杂网络。附图说明图1为本专利技术优选实施例的基于熵增的二分网络模块识别方法DMIE的算法流程图;图2为本专利技术优选实施例的网络转换步骤的流程图;图3为人工模拟网络的示意图;图4为本专利技术的基于熵增的二分网络模块识别方法DMIE与现有的FN算法和TGA算法的识别性能比较示意图;图5为本专利技术的基于熵增的二分网络模块识别方法应用于卵巢癌数据集所发现的部分卵巢癌模块的示意图;图6为本专利技术的方法所发现的模块的生物表达分析;图7为模块与癌症的关联性分析;图8为模块表达与病人存活率之间的关系分析。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。一、基于熵增的二分网络模块识别方法、系统及存储介质为方便说明,先给出如下定义和假设:模块是一种包含两类节点的二分网络子图。概率网络是一个抽象而来的V类节点网络。其中,如果两个V类节点被同一个U类节点联系,则二者之间存在连边,该连边的概率(权重)为这两个V类节点同U类节点联系的本文档来自技高网...

【技术保护点】
1.一种基于熵增的二分网络模块识别方法,所述二分网络包含两类节点,且仅不同类的节点间存在关系边,其特征在于,所述方法包括以下步骤:网络转换步骤:根据所述二分网络中两类节点间的概率关系,将所述二分网络转换为只包含其中一类节点的单类节点概率网络;单类节点聚簇步骤:计算所述单类节点概率网络中每条关系边的信息熵,根据信息熵增原理对所述单类节点概率网络中的各节点进行聚簇,得到只含有其中一类节点的单类节点初始簇;加入另一类节点和关系边步骤:根据所述二分网络关系,将另一类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。

【技术特征摘要】
1.一种基于熵增的二分网络模块识别方法,所述二分网络包含两类节点,且仅不同类的节点间存在关系边,其特征在于,所述方法包括以下步骤:网络转换步骤:根据所述二分网络中两类节点间的概率关系,将所述二分网络转换为只包含其中一类节点的单类节点概率网络;单类节点聚簇步骤:计算所述单类节点概率网络中每条关系边的信息熵,根据信息熵增原理对所述单类节点概率网络中的各节点进行聚簇,得到只含有其中一类节点的单类节点初始簇;加入另一类节点和关系边步骤:根据所述二分网络关系,将另一类节点、以及用于表示两类节点之间连接关系的关系边添加至所述单类节点初始簇,得到最终的模块。2.根据权利要求1所述的基于熵增的二分网络模块识别方法,其特征在于:所述二分网络表示为G=(U,V,E),其中,E={<Ui,Vj>|Ui∈U,Vj∈V,i=1,2...M,j=1,2...N},U表示第一类节点的集合,V表示第二类节点的集合,E表示U类节点与V类节点之间关系边的集合,<Ui,Vj>表示第i个U类节点和第j个V类节点之间的关系边,M表示第一类节点的个数,N表示第二类节点的个数;所述网络转换步骤包括:假设两个V类节点和同一个U类节点有联系,则两个V类节点之间存在一次连接关系,将所述二分网络中每对V类节点的连接关系叠加在一起,获得每对V类节点之间的叠加次数;总叠加次数为所述二分网络中全部V类节点之间的叠加次数之和;将所述叠加次数除以所述总叠加次数得到每对V类节点之间的关系边的概率关系;根据所述每对V类节点之间的关系边的概率关系构建出只包含V类节点的单类节点概率网络。3.根据权利要求2所述的基于熵增的二分网络模块识别方法,其特征在于:所述每对V类节点之间的关系边的概率关系的计算公式如下:其中,Va和Vb为两个V类节点,p(Va,Vb)为Va和Vb之间的关系边的概率关系,Ui→Vj表示第i个U类节点和第j个V类节点之间存在关系边。4.根据权利要求2所述的基于熵增的二分网络模块识别方法,其特征在于:所述单类节点聚簇步骤包括:根据以下公式计算所述单类节点概率网络中每个V类节点的概率:其中,Va为V类节点,p(Va,Vj)为节点Va和它的邻居节点Vj之间的关系边<Va,Vj>的概率。5.根据权利要求4所述的基于熵增的二分网络模块识别方法,其特征在于:所述单类节点聚簇步骤还包括:根据以下公式计算所述单类节点...

【专利技术属性】
技术研发人员:杨亦
申请(专利权)人:湖南女子学院
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1