System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基因调控网络的预测方法及预测系统技术方案_技高网

一种基因调控网络的预测方法及预测系统技术方案

技术编号:44345028 阅读:4 留言:0更新日期:2025-02-25 09:32
本发明专利技术提供了一种基因调控网络的预测方法及预测系统,涉及定量预测的技术领域,该方法包括:获取转录因子‑目标靶点对数据作为第一数据,将第一数据进行数据增强处理得到第二数据;将第一数据与第二数据基于预定任务生成伪标签,并将生成伪标签后的第一数据与第二数据输入神经网络模型进行训练迭代得到包括转录因子‑目标靶点对的特征矩阵;基于基因调控网络数据中具有调控关系的转录因子‑目标靶点对提升特征矩阵中对应的转录因子‑目标靶点对的权重;基于微调后的特征矩阵判断转录因子‑目标靶点对是否具有调控关系,得到基因调控网络的预测结果。本发明专利技术基于无标签数据与小样本学习实现对基因调控网络的准确预测。

【技术实现步骤摘要】

本专利技术涉及定量预测,具体而言,涉及一种基因调控网络的预测方法及预测系统


技术介绍

1、随着科学技术的发展,现有科研人员发现对基因调控网络的研究在作物育种培育时提升抗逆性和抗病性、获取高产性植株等方面具有非常重要的作用,其中,基因调控网络是指基因之间的相互作用和基因调控关系的复杂网络结构,涉及到细胞内、组织间的复杂调控机制,现有技术中,通常是通过传统的监督学习来对基因调控网络进行预测,在预测过程中往往需要大量的具有标签的基因调控网络数据,但由于基因调控网络较高的知识门槛和较少的数据,导致标注基因调控网络数据的标签的成本非常高,具有标签的基因调控网络数据较少,无法满足传统的监督学习中需要大量的有标签的基因调控网络数据的要求,使得传统监督学习在对基因调控网络进行预测时的准确性低。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种基因调控网络的预测方法及预测系统,能够解决现有技术中传统监督学习在没有大量有标签数据的情况下对基因调控网络进行预测时准确性低的技术问题。

2、为了实现上述目的,本专利技术实施例采用的技术方案如下:

3、第一方面,本专利技术实施例提供了一种基因调控网络的预测方法,包括:获取转录因子-目标靶点对数据作为第一数据,将所述转录因子-目标靶点对数据进行数据增强处理,得到处理后的转录因子-目标靶点对数据作为第二数据;将所述第一数据与所述第二数据基于预定任务对转录因子与目标靶点进行相关性的假设,生成所述转录因子与所述目标靶点的伪标签,并将生成伪标签后的所述第一数据与所述第二数据输入神经网络模型进行训练迭代得到包括转录因子-目标靶点对的特征矩阵;其中,所述特征矩阵体现了各转录因子-目标靶点对是否具有调控关系;获取基因调控网络数据,并识别其中具有调控关系的转录因子-目标靶点对,基于所述具有调控关系的转录因子-目标靶点对提升所述特征矩阵中对应的转录因子-目标靶点对的权重;基于调整权重后的所述特征矩阵判断转录因子-目标靶点对是否具有调控关系,得到基因调控网络的预测结果。

4、可选地,所述基于所述具有调控关系的转录因子-目标靶点对对所述特征矩阵进行微调的步骤,包括:基于所述具有调控关系的转录因子-目标靶点对及二元交叉熵构建了一种简单线性编码器进行训练,并对所述特征矩阵中具有调控关系的转录因子-目标靶点对进行标注,并提升该转录因子-目标靶点对在所述特征矩阵中的权重。

5、可选地,所述预定任务为:假设所述第一数据和所述第二数据中各转录因子仅与各转录因子-目标靶点对中的目标靶点具有相关性,而与其他目标靶点不具有相关性。

6、可选地,所述将生成伪标签后的所述第一数据与所述第二数据输入神经网络模型进行训练迭代得到包括转录因子-目标靶点对的特征矩阵的步骤,包括:设定神经网络模型,将生成伪标签后的所述第一数据与所述第二数据分别划分为d个长度为s的不重叠的网格,并输入所述神经网络模型的嵌入层进行升维处理;将升维处理后的所述第一数据与所述第二数据分别输入至所述神经网络模型的编码器中得到第一嵌入序列和第二嵌入序列;将所述第一嵌入序列和所述第二嵌入序列输入所述神经网络模型的投影层进行升维处理得到第一升维序列和第二升维序列,并将所述第一升维序列和所述第二升维序列进行梯度更新得到第一梯度序列和第二梯度序列;将所述第一梯度序列和所述第二梯度序列输入所述神经网络模型的预测层得到第一输出序列和第二输出序列,基于所述第一升维序列、所述第二升维序列、所述第一输出序列和所述第二输出序列得到损失函数;进行多次迭代,使得损失函数最小化,得到转录因子-目标靶点对的特征矩阵。

7、可选地,所述并输入所述神经网络模型的嵌入层进行升维处理的步骤,包括:将分别划分为d个长度为s的不重叠的网格后的所述第一数据与所述第二数据输入至所述嵌入层经过线性投影,通过嵌入权重矩阵进行升维处理;其中,所述嵌入权重矩阵的表达式为:

8、

9、所述嵌入权重矩阵的表达式中:e表示嵌入权重矩阵,为实数集,s表示划分网格的长度,g表示基因数,h表示嵌入层中隐藏层的层数。

10、可选地,所述将升维处理后的所述第一数据与所述第二数据分别输入至所述神经网络模型的编码器中得到第一嵌入序列和第二嵌入序列的步骤,包括:将升维处理后的所述第一数据和所述第二数据的网格段分别输入至所述神经网络模型的编码器中的各个编码器块;基于各个所述编码器块中的多头注意力机制使得输入至各个所述编码器块中的网格段进行注意力权重学习;将经过注意力权重学习后各个所述编码器块中的网格段输入至前馈神经网络进行梯度更新;将进行梯度更新后的各个所述编码器块中的网格段添加残差连接并进行归一化处理得到所述第一嵌入序列和所述第二嵌入序列。

11、可选地,所述基于所述第一升维序列、所述第二升维序列、所述第一输出序列和所述第二输出序列得到损失函数的步骤,包括:计算所述第一升维序列和所述第二输出序列的余弦相似度得到第一余弦相似度,计算所述第二升维序列和所述第一输出序列的余弦相似度得到第二余弦相似度;基于所述第一余弦相似度数值的一半与所述第二余弦相似度数值的一半之和得到所述损失函数。

12、可选地,所述获取转录因子-目标靶点对数据作为第一数据的步骤,包括:获取基因表达量数据,确定所述基因表达量数据中对应的方差最大的前n个基因数据,并将所述基因数据进行归一化处理;获取归一化处理后的所述基因数据中各基因对应的转录因子-目标靶点对作为所述第一数据。

13、可选地,所述数据增强处理包括:插值处理、引噪处理、放缩处理、对比度调整和丢弃处理。

14、本专利技术实施例提供了基因调控网络的预测方法,在通常情况下,基因调控网络的预测就是预测转录因子-目标靶点对是否具有调控关系的过程,因此获取转录因子-目标靶点对数据作为第一数据,为了保证模拟过程中基因序列的模式不变性的特性,将第一数据进行数据增强处理得到第二数据,基于预定任务对转录因子与目标靶点间的相关性判断,生成转录因子与目标靶点间的伪标签,将第一数据与第二数据输入至神经网络模型进行训练迭代得到体现各转录因子-目标靶点对是否具有调控关系的特征矩阵,基于获取的具有调控关系的转录因子-目标靶点对调整特征矩阵中对应的转录因子-目标靶点对的权重,引入自监督学习中的对比学习框架,利用大量的未确定是否具有调控关系的转录因子-目标靶点对少部分已确定具有调控关系的转录因子-目标靶点对进行自监督学习,基于学习结果调整特征矩阵中转录因子-目标靶点对的权重,基于调整权重后的特征矩阵得到基因调控网络的预测结果,引入自监督学习,在不需要大量有标签的基因调控网络数据的情况下,仍能通过保证对于基因调控网络网络预测的准确性,同时,避免了标注基因调控网络数据过程中成本过高的情况。

15、本专利技术实施例还提供了一种基因调控网络的预测系统,用于执行上述的基因调控网络的预测方法。

16、本专利技术实施例的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定本文档来自技高网...

【技术保护点】

1.一种基因调控网络的预测方法,其特征在于,包括:

2.根据权利要求1所述的基因调控网络的预测方法,其特征在于,所述基于所述具有调控关系的转录因子-目标靶点对提升所述特征矩阵中对应的转录因子-目标靶点对的权重的步骤,包括:

3.根据权利要求1所述的基因调控网络的预测方法,其特征在于,所述预定任务为:假设所述第一数据和所述第二数据中各转录因子仅与各转录因子-目标靶点对中的目标靶点具有相关性,而与其他目标靶点不具有相关性。

4.根据权利要求1所述的基因调控网络的预测方法,其特征在于,所述将生成伪标签后的所述第一数据与所述第二数据输入神经网络模型进行训练迭代得到包括转录因子-目标靶点对的特征矩阵的步骤,包括:

5.根据权利要求4所述的基因调控网络的预测方法,其特征在于,所述并输入所述神经网络模型的嵌入层进行升维处理的步骤,包括:

6.根据权利要求4所述的基因调控网络的预测方法,其特征在于,所述将升维处理后的所述第一数据与所述第二数据分别输入至所述神经网络模型的编码器中得到第一嵌入序列和第二嵌入序列的步骤,包括:

7.根据权利要求4所述的基因调控网络的预测方法,其特征在于,所述基于所述第一升维序列、所述第二升维序列、所述第一输出序列和所述第二输出序列得到损失函数的步骤,包括:

8.根据权利要求1-7所述的基因调控网络的预测方法,其特征在于,所述获取转录因子-目标靶点对数据作为第一数据的步骤,包括:

9.根据权利要求8所述的基因调控网络的预测方法,其特征在于,所述数据增强处理包括:插值处理、引噪处理、放缩处理、对比度调整和丢弃处理。

10.一种基因调控网络的预测系统,其特征在于,用于执行权利要求1-9任一项所述的基因调控网络的预测方法。

...

【技术特征摘要】

1.一种基因调控网络的预测方法,其特征在于,包括:

2.根据权利要求1所述的基因调控网络的预测方法,其特征在于,所述基于所述具有调控关系的转录因子-目标靶点对提升所述特征矩阵中对应的转录因子-目标靶点对的权重的步骤,包括:

3.根据权利要求1所述的基因调控网络的预测方法,其特征在于,所述预定任务为:假设所述第一数据和所述第二数据中各转录因子仅与各转录因子-目标靶点对中的目标靶点具有相关性,而与其他目标靶点不具有相关性。

4.根据权利要求1所述的基因调控网络的预测方法,其特征在于,所述将生成伪标签后的所述第一数据与所述第二数据输入神经网络模型进行训练迭代得到包括转录因子-目标靶点对的特征矩阵的步骤,包括:

5.根据权利要求4所述的基因调控网络的预测方法,其特征在于,所述并输入所述神经网络模型的嵌入层进行升维处理的步骤,包括:...

【专利技术属性】
技术研发人员:段然郭茂祖雒金旭
申请(专利权)人:北京建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1