当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于功能模块的疾病关联因子识别方法及系统技术方案

技术编号:15691299 阅读:141 留言:0更新日期:2017-06-24 04:23
本发明专利技术提供了一种基于功能模块的疾病关联因子识别方法及系统,该方法包括:1)在人类共调控网络上识别包括转录因子、miRNA和目标基因的功能模块;2)获得差异表达基因的p‑value值,根据模块内差异表达基因的组合确定疾病关联功能模块;3)将疾病关联功能模块中的非差异表达转录因子、miRNA和目标基因作为候选疾病关联因子;4)计算候选疾病关联因子与疾病的关联值,并根据关联值为候选疾病关联因子排序。该方法识别疾病关联因子时结合了多种相互作用关系,即使在不知道转录因子、miRNA和基因功能的情况下,应用本发明专利技术所述方法能够进行预测识别疾病关联因子,且本发明专利技术预测疾病关联因子的准确率非常高。

Method and system for identifying disease associated factors based on functional modules

The present invention provides a system and associated factor identification method based on function modules, the method comprises the following steps: 1) in human co regulation network identification includes function modules of transcription factors, miRNA and target gene; 2) gene expression differences of P obtained value value, according to the module combination in identifying differentially expressed genes the disease association function module; 3) non difference disease association in functional module, and the expression of transcription factor miRNA gene as the target candidate disease associated factor; 4) correlation disease association factor and disease candidate values, and according to the correlation value of candidate disease associated factors. The method of identifying disease associated factors with interaction between variety, even without knowing the transcription factor miRNA and gene function, by applying the method of the invention can identify disease related factors, and the prediction of disease associated factor accuracy rate is very high.

【技术实现步骤摘要】
一种基于功能模块的疾病关联因子识别方法及系统
本专利技术属于生物信息学领域,涉及一种基于功能模块的疾病关联因子识别方法及系统。
技术介绍
疾病相关miRNA、转录因子和基因的识别对于从分子水平上研究和揭示复杂疾病发病机制具有显著的意义。测序技术极大的促进了人们对miRNA、转录因子和基因的功能的研究,基因信息和基因表达谱阵列也越来越多的被用来辅助分析复杂疾病。科学界广泛认为病人的关键因子的综合分子特征,比如基因表达,是研究复杂疾病治疗的关键。细胞面对环境压力时,主要通过改变基因表达产生需要的蛋白质,因此面对环境压力产生正确的蛋白质至关重要。而异常表达的miRNA和基因则可能导致疾病的发生。比如一些miRNA表现出致病的特性,异常表达就会促进疾病的发生。还有一些miRNA具有抑制疾病的作用,降低致病基因的生成,异常表达时将会使致病基因快速增长,最终导致疾病的产生。当前研究人员提出许多生物信息学方法通过分析公共和私有基因组数据来寻找疾病相关的miRNA、转录因子和基因。这些生物信息学技术最早关注疾病样本和控制样本中候选基因的重新排序,在多基因中辅助识别致病基因。除了位置上的致病基因排序,也提出了从多种基因列表中识别可能的候选基因的方法,如从微阵列或者蛋白质组实验中获得差异表达基因。为候选基因进行排序时需要输入一列需要进行排序的候选基因和排列标准,如包括在特定疾病或者细胞过程中。这些排列标准主要以生物关键词的形式出现或者是一系列与疾病或者生物过程关联的种子基因(即训练基因)。基因排序的方法是基于因有关联而被认为有罪(guiltbyassociation)的思想。通过查询包括基因或蛋白质之间简单关系的数据库,如蛋白质相互作用数据库,来发现基因之间未知的关系。因此,基因能够根据与其他已确定的疾病关联基因之间推测的关系而进行排列。大规模组数据的出现,如高通量序列数据,迫切需要高效的疾病关联因子识别方法。同时机器学习方法的进步也极大的发展了识别方法。Perez-Iratxeta等人基于模糊集理论设计了一个数据挖掘系统为455个疾病查找关联基因,此方法能够识别潜在的疾病关联基因。Lage等人进一步结合基于网络的方法以及表型相似性来预测疾病相关的基因,但是此方法只考虑了网络的局部信息,即网络中候选基因或致病基因的直接邻居,会忽略一些功能信息。而Li和Patra通过在异构网络上进行随机游走识别与表型关联度高的基因,综合考虑了网络的全局特性。通过结合多数据源构建的网络来进行疾病相关miRNA、转录因子和基因的预测是现今研究疾病基因的主要方法。但仍然存在一些挑战。首先,所提出的的方法结合的信息较少,没有体现miRNA、转录因子和基因在疾病发生过程中共同协作的关系。此外已有的方法不适用于预测未知功能的miRNA、转录因子和基因与疾病的关系。因此,有必要设计一种基于功能模块的疾病关联因子识别方法。
技术实现思路
本专利技术提出了一种基于功能模块的疾病关联因子识别方法及系统,通过结合疾病样本和正常样本的基因表达谱,获得差异表达基因的p-value值;并依此计算人类共调控网络中识别的功能模块的疾病关联值,来确定疾病关联模块;进一步在疾病关联模块中根据候选miRNA、转录因子和基因的疾病关联值查找疾病关联因子,预测疾病关联因子的准确率非常高。一种基于功能模块的疾病关联因子识别方法,包括以下步骤:步骤一:构建人类共调控网络,利用功能模块识别方法从人类共调控网络中识别miRNA、转录因子和基因的功能模块,并计算每个功能模块的疾病关联值;步骤二:依据每个功能模块的疾病关联值,筛选出疾病关联模块;步骤三:将每个疾病关联模块中的非差异表达的miRNA、转录因子和基因作为候选疾病关联因子;步骤四:根据候选疾病关联因子在各个功能模块内与差异表达基因的距离分布,计算候选疾病关联因子与疾病的关联值,并根据候选疾病关联因子与疾病的关联值大小对候选疾病关联因子从大到小排序,识别出疾病关键因子。依据具体情况对排序后的候选疾病关联因子进行选取,通常选取前5%-10%;进一步地,所述功能模块的疾病关联值Rj按照以下公式计算获得:其中,n为功能模块Mj内部节点个数,表示功能模块Mj内部节点中的第i个目标基因Mji的z-score值,通过对目标基因Mji的差异表达基因的p-value值进行逆正态累积分布转换获得;k为功能模块Mj内部节点中的目标基因个数;目标基因的差异表达基因的p-value值是根据疾病样本和正常样本的基因表达谱获得。代表Mji的差异表达基因的p-value值,α为逆正太累积分布的参数;功能模块Mj与疾病的关联值Rj为功能模块Mj内所有基因组合中具有的最高z-score值;Rj值越高,则此功能模块与疾病的关联度越高。功能模块Mj内部节点包括miRNA、转录因子和目标基因;进一步地,所述依据每个功能模块的疾病关联值,筛选出疾病关联模块是指首先对功能模块的疾病关联值进行归一化处理,然后对归一化处理后的结果进行逆正太累积分布转换成p-value值,若p-value值小于0.05,则对应的功能模块为疾病关联模块;归一化处理公式为:其中,μj为功能模块Mj对应的10000个随机模块rmij的疾病关联值的平均值,σj为10000个随机模块rmij的疾病关联值的标准方差;功能模块Mj对应的随机模块rmij的内部节点从共调控网络中随机选择,0≤i<10000,且规模与模块Mj规模一致。进一步地,所述候选疾病关联因子与疾病的关联值按照以下公式计算:其中,|BAM|为候选疾病关联因子所属的疾病关联模块个数,nxy表示候选疾病关联因子与第x个疾病关联模块中的差异表达基因之间最短路径长度为y的差异表达基因个数,D和y分别为候选疾病关联因子与第x个疾病关联模块中的各差异表达基因之间最短路径长度的最大值和最小值。DID的值越高,则候选疾病关联因子与疾病的关联度越高。进一步地,所述步骤一中的人类共调控网络包括人类物种的转录因子、miRNA和目标基因三种类型的节点,以及各个节点之间的相互作用。进一步地,所述从人类共调控网络中识别miRNA、转录因子和基因的功能模块采用基于调控子模块和基因模块间带重启的随机游走的算法。一种基于功能模块的疾病关联因子识别系统,包括:人类共调控网络构建单元,用于利用功能模块识别方法从人类共调控网络中识别miRNA、转录因子和基因的功能模块,并计算每个功能模块的疾病关联值;疾病关联模块筛选单元,依据每个功能模块的疾病关联值,筛选出疾病关联模块;候选疾病关联因子确定单元,将每个疾病关联模块中的非差异表达的miRNA、转录因子和基因作为候选疾病关联因子;候选疾病关联因子与疾病的关联值计算单元,根据候选疾病关联因子在各个功能模块内与差异表达基因的距离分布,计算候选疾病关联因子与疾病的关联值;疾病关键因子识别单元,根据候选疾病关联因子与疾病的关联值大小对候选疾病关联因子从大到小排序,识别出疾病关键因子;所述每个功能模块的疾病关联值的计算以及筛选过程,候选疾病关联因子与疾病的关联值的计算过程按照上述的方法进行。人类共调控网络包括人类物种的转录因子、miRNA和目标基因,以及各类型节点之间的相互作用关系。共调控网络实现了转录调控和转录后调控两个阶段的整合,并包本文档来自技高网
...
一种基于功能模块的疾病关联因子识别方法及系统

【技术保护点】
一种基于功能模块的疾病关联因子识别方法,其特征在于,包括以下步骤:步骤一:构建人类共调控网络,利用功能模块识别方法从人类共调控网络中识别miRNA、转录因子和基因的功能模块,并计算每个功能模块的疾病关联值;步骤二:依据每个功能模块的疾病关联值,筛选出疾病关联模块;步骤三:将每个疾病关联模块中的非差异表达的miRNA、转录因子和基因作为候选疾病关联因子;步骤四:根据候选疾病关联因子在各个功能模块内与差异表达基因的距离分布,计算候选疾病关联因子与疾病的关联值,并根据候选疾病关联因子与疾病的关联值大小对候选疾病关联因子从大到小排序,识别出疾病关键因子。

【技术特征摘要】
1.一种基于功能模块的疾病关联因子识别方法,其特征在于,包括以下步骤:步骤一:构建人类共调控网络,利用功能模块识别方法从人类共调控网络中识别miRNA、转录因子和基因的功能模块,并计算每个功能模块的疾病关联值;步骤二:依据每个功能模块的疾病关联值,筛选出疾病关联模块;步骤三:将每个疾病关联模块中的非差异表达的miRNA、转录因子和基因作为候选疾病关联因子;步骤四:根据候选疾病关联因子在各个功能模块内与差异表达基因的距离分布,计算候选疾病关联因子与疾病的关联值,并根据候选疾病关联因子与疾病的关联值大小对候选疾病关联因子从大到小排序,识别出疾病关键因子。2.根据权利要求1所述的方法,其特征在于,所述功能模块的疾病关联值Rj按照以下公式计算获得:其中,n为功能模块Mj内部节点个数,表示功能模块Mj内部节点中的第i个目标基因Mji的z-score值,通过对目标基因Mji的差异表达基因的p-value值进行逆正态累积分布转换获得;k为功能模块Mj内部节点中的目标基因个数;目标基因的差异表达基因的p-value值是根据疾病样本和正常样本的基因表达谱获得。3.根据权利要求2所述的方法,其特征在于,所述依据每个功能模块的疾病关联值,筛选出疾病关联模块是指首先对功能模块的疾病关联值进行归一化处理,然后对归一化处理后的结果进行逆正太累积分布转换成p-value值,若p-value值小于0.05,则对应的功能模块为疾病关联模块;归一化处理公式为:其中,μj为功能模块Mj对应的10000个随机模块rmij的疾病关联值的平均值,σj为10000个随机模块rmij的疾病关联值的标准方差;功能模块Mj对应的随机模块rmij的内部节点从共调控网络中随机选择,0≤i<10000,且规模与模块Mj规模一致...

【专利技术属性】
技术研发人员:骆嘉伟宋丹蔡洁王伟胜刘智明
申请(专利权)人:湖南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1