System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种大规模基因调控网络推断方法及装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>湖南大学专利>正文

一种大规模基因调控网络推断方法及装置制造方法及图纸

技术编号:41562482 阅读:15 留言:0更新日期:2024-06-06 23:45
一种大规模基因调控网络推断方法及装置,获取标准仿真数据集中的时间序列实验数据和来自大肠杆菌的真实基因表达稳态数据;利用非线性常微分方程对时间序列实验数据和稳态数据进行整合,构建基因网络模型;采用最大互信息系数对基因网络模型进行降维,通过计算因子间的最大互信息系数作为基因网络模型处理的前置步骤;对特征融合算法计算出来的加权向量进行汇总,生成目标基因的综合调控基因重要性列表,通过综合调控基因重要性列表对基因对之间的调控关系表达;将来自大肠杆菌的真实基因表达数据放入模型进行训练和预测,通过交叉验证来评估模型的性能。本发明专利技术解决传统技术因固有的高维性、稀疏性和非线性,导致的推断效率和准确性低的问题。

【技术实现步骤摘要】

本专利技术属于深度学习和生物信息学,具体涉及一种大规模基因调控网络推断方法及装置


技术介绍

1、基因调控网络(grns)展示了基因之间错综复杂的相互作用和相互影响,在塑造细胞功能和特性方面发挥着举足轻重的作用。全面掌握基因组网络中的信息能加深对基本生物机制的理解,包括细胞周期、损伤修复和细胞凋亡等过程。随着基因测序技术的进步和大量基因表达数据的积累,计算方法有助于从现有数据集中直接推断基因调控网络(grns)。

2、目前,当应用于大规模网络时,传统用于推断基因调控网络(grns)的各种算法,如尔网络模型(booleannetworkmodels)、贝叶斯网络模型(bayesian network models)和微分方程模型(differential equationmodels),由于固有的高维性、稀疏性和非线性构成了挑战,极大地阻碍了推断算法的效率和准确性。此外,结合grns的时间维度也提出了具体的挑战。

3、由于使用xgboost、随机森林(rf)和lasso-cox等先进技术可以深入挖掘基因对之间的关联,不仅可以提高时间序列下基因对调控关系预测的准确性,而且为疾病的诊断、治疗和预防提供了更有效的手段。因此有必要设计一种大规模基因调控网络推断技术方案,以预测潜在的目标基因与调控基因之间的重要性关系。


技术实现思路

1、为此,本专利技术提供一种大规模基因调控网络推断方法及装置,解决传统技术因固有的高维性、稀疏性和非线性,导致的推断效率和准确性低的问题。

2、为了实现上述目的,本专利技术提供如下技术方案:一种大规模基因调控网络推断方法,包括:

3、获取标准仿真数据集中的时间序列实验数据和来自大肠杆菌的真实基因表达稳态数据,所述时间序列实验数据具有时间序列和稳态序列,所述稳态数据包括指定形式的基因敲除数据;

4、利用非线性常微分方程对所述时间序列实验数据和所述稳态数据进行整合,构建基因网络模型;

5、采用最大互信息系数对所述基因网络模型进行降维,通过计算因子间的最大互信息系数作为所述基因网络模型处理的前置步骤;

6、通过xgboost模型、rf模型和lasso-cox模型的集成,建立特征融合算法;

7、对所述特征融合算法计算出来的加权向量进行汇总,生成目标基因的综合调控基因重要性列表,通过所述综合调控基因重要性列表对基因对之间的调控关系进行表达;

8、将来自大肠杆菌的真实基因表达稳态数据放入所述基因网络模型进行训练和预测,通过交叉验证评估所述基因网络模型的性能。

9、作为大规模基因调控网络推断方法优选方案,所述标准仿真数据集为:从dream4in silico网络挑战赛提供的基因数据中获取的dream4 in silico size100模拟数据;所述标准仿真数据集中包括若干组时间序列实验数据,每组时间序列实验数据包括21个时间点;

10、所述稳态数据包括从geo数据库获取的大肠杆菌真实基因表达稳态数据,所述稳态数据包括基因在冷、热、氧化应激、二氧化乳糖和稳定期环境扰动下的表达水平。

11、作为大规模基因调控网络推断方法优选方案,所述非线性常微分方程的表达公式为:

12、

13、式中,表示基因gi的时间导数,描述基因gi表达水平随时间变化的速率;fi(x1(t),x2(t),...,xn(t),t)表示基因gi表达水平的非线性函数;

14、假设在时间tk观察到的基因表达水平表示为xi(k),差分方程的一种形式为:

15、xi(k+1)=xi(k)+δt·fi(x1(k),x2(k),...,xn(k),tk)

16、式中,δt表示时间步长,表示相邻观察时间点之间的间隔。

17、作为大规模基因调控网络推断方法优选方案,采用最大互信息系数对所述基因网络模型进行降维,通过计算因子间的最大互信息系数作为所述基因网络模型处理的前置步骤过程中:

18、对于两个随机基因变量x和y,随机基因变量x和y互信息mi(x,y)定义为,x和y各自的熵,与x和y的联合熵之差:

19、mi(x,y)=h(x)+h(y)-h(x,y)

20、最大互信息系数mic(x,y)的计算公式为:

21、

22、式中,h(x)、h(y)分别表示随机基因变量x和y各自的熵,h(x,y)表示随机基因变量x和y的联合熵,m表示因变量x的总数;n表示因变量y的总数;

23、对于整个基因表达数据集中的g个基因,选择其中的基因j作为目标基因,其余基因作为候选调控基因,计算目标基因与候选调控基因之间的互信息系数mic(x,y),基于预定义的mic阈值,排除多余的调控基因,得到目标基因与调控基因集,以获取到每个目标基因的基因调控基因集。

24、作为大规模基因调控网络推断方法优选方案,在识别与目标基因j相关的调控基因rj后,采用机器学习算法独立学习非线性函数fj,随后计算调控基因与目标基因之间的重要性得分,使用几何平均方法确定目标基因的调控基因重要性列表:

25、

26、式中,scorexgboost表示从xgboost模型获取的目标基因的调控基因重要性列表,scorerf和scorelc分别表示从rf和lasso-cox模型获得的目标基因的调控基因重要性列表;

27、规范化因子normalize_factor定义为:

28、normalize_factor=w1+w2+w3=1

29、式中,w1、w2和w3分别是分配给xgboost模型、rf模型和lasso-cox减轻过拟合的权重,通过汇总加权向量,生成目标基因的综合调控基因重要性列表;

30、将所有目标基因的调控基因重要性列表合并成一个矩阵的目标基因的综合调控基因重要性列表。

31、作为大规模基因调控网络推断方法优选方案,通过交叉验证评估所述基因网络模型的性能过程中,引入了一个综合得分评估公式:

32、

33、式中,overallscore表示基因网络模型的综合得分,auroc表示受试者工作特征roc曲线下的面积;aupr表示精度-召回率曲线下的面积。

34、本专利技术还提供一种大规模基因调控网络推断装置,包括:

35、初始数据获取模块,用于获取标准仿真数据集中的时间序列实验数据和来自大肠杆菌的真实基因表达稳态数据,所述时间序列实验数据具有时间序列和稳态序列,所述稳态数据包括指定形式的基因敲除数据;

36、基因网络模型构建模块,用于利用非线性常微分方程对所述时间序列实验数据和所述稳态数据进行整合,构建基因网络模型;

37、互信息系数分析模块,用于采用最大互信息系数对所述基因网络模型进行降维,通过计算因子间的最大互信息系数作为所述基因网络模型处理的前置步骤;

38、特征本文档来自技高网...

【技术保护点】

1.一种大规模基因调控网络推断方法,其特征在于,包括:

2.根据权利要求1所述的一种大规模基因调控网络推断方法,其特征在于,所述标准仿真数据集为:从DREAM4 in silico网络挑战赛提供的基因数据中获取的DREAM4 in silicosize100模拟数据;所述标准仿真数据集中包括若干组时间序列实验数据,每组时间序列实验数据包括21个时间点;

3.根据权利要求1所述的一种大规模基因调控网络推断方法,其特征在于,所述非线性常微分方程的表达公式为:

4.根据权利要求1所述的一种大规模基因调控网络推断方法,其特征在于,采用最大互信息系数对所述基因网络模型进行降维,通过计算因子间的最大互信息系数作为所述基因网络模型处理的前置步骤过程中:

5.根据权利要求4所述的一种大规模基因调控网络推断方法,其特征在于,在识别与目标基因j相关的调控基因Rj后,采用机器学习算法独立学习非线性函数fj,随后计算调控基因与目标基因之间的重要性得分,使用几何平均方法确定目标基因的调控基因重要性列表:

6.根据权利要求5所述的一种大规模基因调控网络推断方法,其特征在于,通过交叉验证评估所述基因网络模型的性能过程中,引入了一个综合得分评估公式:

7.一种大规模基因调控网络推断装置,其特征在于,包括:

8.根据权利要求7所述的一种大规模基因调控网络推断装置,其特征在于,所述初始数据获取模块中采用的标准仿真数据集为:从DREAM4 in silico网络挑战赛提供的基因数据中获取的DREAM4 in silico size100模拟数据;所述标准仿真数据集中包括若干组时间序列实验数据,每组时间序列实验数据包括21个时间点;

9.根据权利要求7所述的一种大规模基因调控网络推断装置,其特征在于,所述基因网络模型构建模块中,所述非线性常微分方程的表达公式为:

10.根据权利要求8所述的一种大规模基因调控网络推断装置,其特征在于,所述调控关系表达模块中,在识别与目标基因j相关的调控基因Rj后,采用机器学习算法独立学习非线性函数fj,随后计算调控基因与目标基因之间的重要性得分,使用几何平均方法确定目标基因的调控基因重要性列表:

...

【技术特征摘要】

1.一种大规模基因调控网络推断方法,其特征在于,包括:

2.根据权利要求1所述的一种大规模基因调控网络推断方法,其特征在于,所述标准仿真数据集为:从dream4 in silico网络挑战赛提供的基因数据中获取的dream4 in silicosize100模拟数据;所述标准仿真数据集中包括若干组时间序列实验数据,每组时间序列实验数据包括21个时间点;

3.根据权利要求1所述的一种大规模基因调控网络推断方法,其特征在于,所述非线性常微分方程的表达公式为:

4.根据权利要求1所述的一种大规模基因调控网络推断方法,其特征在于,采用最大互信息系数对所述基因网络模型进行降维,通过计算因子间的最大互信息系数作为所述基因网络模型处理的前置步骤过程中:

5.根据权利要求4所述的一种大规模基因调控网络推断方法,其特征在于,在识别与目标基因j相关的调控基因rj后,采用机器学习算法独立学习非线性函数fj,随后计算调控基因与目标基因之间的重要性得分,使用几何平均方法确定目标基因的调控基因重要性列表:

6.根据权利...

【专利技术属性】
技术研发人员:王树林白亮
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1