【技术实现步骤摘要】
一种结合信息论和机器学习的基因调控网络推断方法
[0001]本专利技术涉及基因调控网络领域,尤其涉及一种结合信息论和机器学习的基因调控网络推断方法。
技术介绍
[0002]基因调控网络指生物体内细胞层次上控制基因表达的机制,推断基因调控网络、揭示其拓扑结构有助于从分子水平理解细胞功能,具有广泛的生物学意义。然而,由于生物网络的复杂性和稀疏性,通过实验手段来确定基因间调控作用工程量庞大且易受各种外界不确定因素的影响。生物信息学的快速发展以及高通量测序技术提供的海量基因表达数据给研究人员提供了新思路,近些年来,通过建立计算模型来推断基因调控网络已成为研究热点。
[0003]目前,基于信息论推断基因调控网络的方法依据基因间的相关程度,但无法明确基因间信息传递的方向性和动态特性,并且基因时间序列的复杂性给计算带来了一定难度。同时仅依赖于设定阈值来判断调控作用可靠性较低。
[0004]基于机器学习的方法,往往存在训练模型过拟合、泛化能力差等问题。在预测较大规模的未经处理的基因调控网络时,精度有待提高。
技术实现思路
[0005]本专利技术提供一种结合信息论和机器学习的基因调控网络推断方法,以克服上述技术问题。
[0006]一种结合信息论和机器学习的基因调控网络推断方法,包括
[0007]步骤一、获取不同基因表达过程的时间序列,分别将不同基因的时间序列转换为符号序列,获取不同基因的符号序列集合,分别计算不同基因符号序列之间的符号转移熵;
[0008]步骤二、计算对各基因具有 ...
【技术保护点】
【技术特征摘要】
1.一种结合信息论和机器学习的基因调控网络推断方法,其特征在于,包括步骤一、获取不同基因表达过程的时间序列,分别将不同基因的时间序列转换为符号序列,获取不同基因的符号序列集合,分别计算不同基因符号序列之间的符号转移熵;步骤二、计算对各基因具有调控作用的调控基因集合,包括令各基因轮流作为靶基因,除靶基因外的基因作为剩余基因集合,基于剩余基因集合中的基因对靶基因的符号转移熵值、靶基因对剩余基因集合中基因的符号转移熵值,判断剩余基因集合中的基因是否对靶基因具有调控作用,若具有调控作用,则将具有调控的基因加入至靶基因的调控基因集合中,获取各基因的调控基因集合;步骤三、对于任意靶基因及其调控基因集合,构建靶基因的时间序列和其调控基因集合所对应的时间序列集合之间的关系,对所述关系构建CatBoost模型并进行训练,计算每次训练过程所有调控基因作为模型中叶子结点的次数,将次数作为调控基因的重要性分数,根据重要性分数排序,删除重要性分数不满足第一阈值的调控基因,将剩余的调控基因加入核心调控基因集合中,将核心调控基因集合中的核心调控基因的重要性分数做归一化处理;步骤四、获取所有核心调控基因对靶基因的符号转移熵,并进行归一化处理,将核心调控基因归一化后的重要性分数和符号转移熵合并为调控系数,当核心调控基因的调控系数不满足第二阈值时,删除该核心调控基因,获取靶基因的核心调控基因集合;步骤五、重复执行步骤三、步骤四,直到获取所有靶基因的核心调控基因集合。2.根据权利要求1所述的一种结合信息论和机器学习的基因调控网络推断方法,其特征在于,所述分别将不同基因的时间序列转换为符号序列包括,将基因X表达过程的N点时间序列X={x
i
,1≤i≤N}嵌入L维相空间,则有L维向量X(i)={x
i
,x
i+μ
,
···
,x
i+(L
‑
1)μ
},μ为时间延迟;根据公式(1)计算第i个L维向量相邻两点间差值的均方根,作为间隔尺度R(i),将α
×
R(i)作为序列符号化的标准,其中α是可调参数,根据公式(2)将每个L维向量转化成L维符号序列S
i
(i),其中i=1,2,3,
···
,N
‑
L
‑
1,k=0,1,2,
···
,L
‑
1,R(i)分别表示第i个L维向量的均值、间隔尺度。3.根据权利...
【专利技术属性】
技术研发人员:马宝山,钱冰,梁沛霖,陈护升,吉嘉琦,陈嘉煦,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。