一种结合信息论和机器学习的基因调控网络推断方法技术

技术编号:35223542 阅读:11 留言:0更新日期:2022-10-15 10:41
本发明专利技术公开了一种结合信息论和机器学习的基因调控网络推断方法,包括获取不同基因表达过程的时间序列,将时间序列转换为符号序列,计算不同基因符号序列之间的符号转移熵,计算对各基因的调控基因集合,对靶基因的时间序列和其调控基因集合所对应的时间序列集合构建模型并进行训练,计算调控基因重要性分数,筛选重要性分数满足第一阈值的调控基因,将其加入核心调控基因集合中;获取所有核心调控基因对靶基因的符号转移熵,将核心调控基因的重要性分数和符号转移熵分别归一化后合并为调控系数,筛选满足第二阈值的核心调控基因集合,获取所有靶基因的核心调控基因集合。降低计算复杂度,解决基于机器学习的模型的过拟合问题,提高预测精度。提高预测精度。提高预测精度。

【技术实现步骤摘要】
一种结合信息论和机器学习的基因调控网络推断方法


[0001]本专利技术涉及基因调控网络领域,尤其涉及一种结合信息论和机器学习的基因调控网络推断方法。

技术介绍

[0002]基因调控网络指生物体内细胞层次上控制基因表达的机制,推断基因调控网络、揭示其拓扑结构有助于从分子水平理解细胞功能,具有广泛的生物学意义。然而,由于生物网络的复杂性和稀疏性,通过实验手段来确定基因间调控作用工程量庞大且易受各种外界不确定因素的影响。生物信息学的快速发展以及高通量测序技术提供的海量基因表达数据给研究人员提供了新思路,近些年来,通过建立计算模型来推断基因调控网络已成为研究热点。
[0003]目前,基于信息论推断基因调控网络的方法依据基因间的相关程度,但无法明确基因间信息传递的方向性和动态特性,并且基因时间序列的复杂性给计算带来了一定难度。同时仅依赖于设定阈值来判断调控作用可靠性较低。
[0004]基于机器学习的方法,往往存在训练模型过拟合、泛化能力差等问题。在预测较大规模的未经处理的基因调控网络时,精度有待提高。

技术实现思路

[0005]本专利技术提供一种结合信息论和机器学习的基因调控网络推断方法,以克服上述技术问题。
[0006]一种结合信息论和机器学习的基因调控网络推断方法,包括
[0007]步骤一、获取不同基因表达过程的时间序列,分别将不同基因的时间序列转换为符号序列,获取不同基因的符号序列集合,分别计算不同基因符号序列之间的符号转移熵;
[0008]步骤二、计算对各基因具有调控作用的调控基因集合,包括令各基因轮流作为靶基因,除靶基因外的基因作为剩余基因集合,基于剩余基因集合中的基因对靶基因的符号转移熵值、靶基因对剩余基因集合中基因的符号转移熵值,判断剩余基因集合中的基因是否对靶基因具有调控作用,若具有调控作用,则将具有调控的基因加入至靶基因的调控基因集合中,获取各基因的调控基因集合;
[0009]步骤三、对于任意靶基因及其调控基因集合,构建靶基因的时间序列和其调控基因集合所对应的时间序列集合之间的关系,对所述关系构建CatBoost模型并进行训练,计算每次训练过程所有调控基因作为模型中叶子结点的次数,将次数作为调控基因的重要性分数,根据重要性分数排序,删除重要性分数不满足第一阈值的调控基因,将剩余的调控基因加入核心调控基因集合中,将核心调控基因集合中的核心调控基因的重要性分数做归一化处理;
[0010]步骤四、获取所有核心调控基因对靶基因的符号转移熵,并进行归一化处理,将核心调控基因归一化后的重要性分数和符号转移熵合并为调控系数,当核心调控基因的调控
系数不满足第二阈值时,删除核心调控基因,获取靶基因的核心调控基因集合;
[0011]步骤五、重复执行步骤三、步骤四,直到获取所有靶基因的核心调控基因集合。
[0012]优选地,所述分别将不同基因的时间序列转换为符号序列包括,将基因X表达过程的N点时间序列X={x
i
,1≤i≤N}嵌入L维相空间,,则有L维向量X(i)={x
i
,x
i+μ

···
,x
i+(L

1)μ
},μ为时间延迟;
[0013]根据公式(1)计算每一个L维向量计算相邻两点间差值的均方根,作为间隔尺度R(i),
[0014][0015]将α
×
R(i)作为序列符号化的标准,其中α是可调参数,根据公式(2)将每个L维向量转化成L维符号序列S
i
(i),
[0016][0017]其中i=1,2,3,
···
,N

L

1,k=0,1,2,
···
,L

1,R(i)分别表示第i个L维向量的均值、间隔尺度。
[0018]优选地,所述构建靶基因的时间序列和其调控基因集合所对应的时间序列集合之间的关系是根据公式(3)建立关系,
[0019]p=w
l
q+ε
l
(3)
[0020]其中,p表示靶基因的时间序列,q表示调控基因集合的时间序列集合,w
l
为调控基因的权重向量,ε
l
为随机噪声。
[0021]优选地,所述判断剩余基因集合中的基因是否对靶基因具有调控作用包括若剩余基因集合中的基因为X,靶基因为Y,剩余基因集合中的基因X对靶基因Y的符号转移熵值为STE
X

Y
,靶基因Y对剩余基因集合中基因X的符号转移熵值为STE
Y

X
,当STE
X

Y
<STE
Y

X
,基因Y对基因X具有调控作用。
[0022]优选地,所述判断剩余基因集合中的基因是否对靶基因具有调控作用还包括若剩余基因集合中的基因为X、Y,靶基因为Z,剩余基因集合中的基因X、Y之间的符号转移熵值为STE
X

Y
,剩余基因集合中的基因X对靶基因Z的符号转移熵值为STE
X

Z
,剩余基因集合中的基因Y对靶基因Z的符号转移熵值为STE
Y

Z
,当STE
X

Z
≤min[STE
X

Y
,STE
Y

Z
],则排除基因X对基因Z的调控作用。
[0023]优选地,所述将核心调控基因归一化后的重要性分数和符号转移熵合并为调控系数包括将核心调控基因归一化后的重要性分数表示为w
j
,将核心调控基因归一化后的符号转移熵表示为w

j
,根据公式(4)合并为调控系数,
[0024][0025]其中,I
j
表示调控系数。
[0026]本专利技术提供一种结合信息论和机器学习的基因调控网络推断方法,该方法将基因
的表达过程符号化,降低了计算复杂度,采用CatBoost模型构建基因之间的调控作用,通过两次筛选获取了核心调控基因,解决了基于机器学习的模型的过拟合问题,并整体提高预测精度。
附图说明
[0027]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]图1是本专利技术方法流程图。
具体实施方式
[0029]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合信息论和机器学习的基因调控网络推断方法,其特征在于,包括步骤一、获取不同基因表达过程的时间序列,分别将不同基因的时间序列转换为符号序列,获取不同基因的符号序列集合,分别计算不同基因符号序列之间的符号转移熵;步骤二、计算对各基因具有调控作用的调控基因集合,包括令各基因轮流作为靶基因,除靶基因外的基因作为剩余基因集合,基于剩余基因集合中的基因对靶基因的符号转移熵值、靶基因对剩余基因集合中基因的符号转移熵值,判断剩余基因集合中的基因是否对靶基因具有调控作用,若具有调控作用,则将具有调控的基因加入至靶基因的调控基因集合中,获取各基因的调控基因集合;步骤三、对于任意靶基因及其调控基因集合,构建靶基因的时间序列和其调控基因集合所对应的时间序列集合之间的关系,对所述关系构建CatBoost模型并进行训练,计算每次训练过程所有调控基因作为模型中叶子结点的次数,将次数作为调控基因的重要性分数,根据重要性分数排序,删除重要性分数不满足第一阈值的调控基因,将剩余的调控基因加入核心调控基因集合中,将核心调控基因集合中的核心调控基因的重要性分数做归一化处理;步骤四、获取所有核心调控基因对靶基因的符号转移熵,并进行归一化处理,将核心调控基因归一化后的重要性分数和符号转移熵合并为调控系数,当核心调控基因的调控系数不满足第二阈值时,删除该核心调控基因,获取靶基因的核心调控基因集合;步骤五、重复执行步骤三、步骤四,直到获取所有靶基因的核心调控基因集合。2.根据权利要求1所述的一种结合信息论和机器学习的基因调控网络推断方法,其特征在于,所述分别将不同基因的时间序列转换为符号序列包括,将基因X表达过程的N点时间序列X={x
i
,1≤i≤N}嵌入L维相空间,则有L维向量X(i)={x
i
,x
i+μ
,
···
,x
i+(L

1)μ
},μ为时间延迟;根据公式(1)计算第i个L维向量相邻两点间差值的均方根,作为间隔尺度R(i),将α
×
R(i)作为序列符号化的标准,其中α是可调参数,根据公式(2)将每个L维向量转化成L维符号序列S
i
(i),其中i=1,2,3,
···
,N

L

1,k=0,1,2,
···
,L

1,R(i)分别表示第i个L维向量的均值、间隔尺度。3.根据权利...

【专利技术属性】
技术研发人员:马宝山钱冰梁沛霖陈护升吉嘉琦陈嘉煦
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1