System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法技术_技高网

一种基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法技术

技术编号:42955812 阅读:16 留言:0更新日期:2024-10-11 16:13
本发明专利技术公开了一种基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,通过构建的DeepOCR模型实现,包括:测序得到的玉米染色质开放区域数据经过处理后进行One‑hot编码处理;将编码后的序列输入多尺度卷积网络,利用不同大小的卷积核关注并融合多尺度特征和捕获不同长度的重要基序,并使用Softpool减少特征图中的信息损失;利用Batch Normalization和Dropout防止过拟合现象;利用gMLP捕获DNA序列中的全局依赖关系,并提取更具区分度的特征表示以提高网络性能,增强模型预测的准确性。在输出层,使用全连接函数和Sigmoid函数完成对玉米染色质开放区域的预测。本发明专利技术方法预测准确率高,可以为玉米及不同物种不同组织的序列开放保守性和特异性研究提供新参考,具有广泛的应用前景。

【技术实现步骤摘要】

本专利技术涉及生物信息,尤其涉及一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法。


技术介绍

1、玉米作为世界上最重要的粮食作物之一,其产量和品质对于全球粮食安全具有重大意义。然而,玉米的遗传机制复杂,许多与产量、品质、抗逆性等关键性状相关的基因调控机制尚未被完全揭示。染色质开放区作为基因表达调控的重要部分,其准确预测对于理解玉米的遗传机制以及田间育种具有重要意义。染色质开放区是指染色质中相对松散、易于转录因子结合的区域,这些区域通常与基因的表达水平相关联。准确识别玉米染色质开放区有助于理解基因表达调控的分子机制,进而为解析玉米复杂性状的遗传基础提供理论依据。

2、近年来,深度学习在生物信息学领域得到广泛应用,其强大的特征学习和表示能力为复杂生物数据的处理和分析提供了新的手段。深度学习模型能够从大量数据中自动学习特征,并通过多层次的非线性变换挖掘数据中的深层信息。因此,将深度学习应用于玉米染色质开放区的预测,有望提高预测的准确性和效率,进而便于分析玉米不同组织和品种间的保守性和特异性。

3、然而,目前基于深度学习的玉米染色质开放区预测方法仍处于起步阶段,尚未形成完善的技术体系。现有的方法一方面基于传统的机器学习算法,如支持向量机、随机森林等,这些方法在特征提取和模型构建上存在一定的局限性,导致序列信息挖掘不全面。另一方面,现有方法利用的深度学习算法较为简单,例如charplant,basset,smoc等,这些方法不能较好地综合序列信息,进而影响预测准确性。因此,开发具有较高准确率的玉米染色质开放区预测方法具有重要的研究意义。


技术实现思路

1、本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法。

2、本专利技术解决其技术问题所采用的技术方案是:

3、本专利技术提供一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法,通过该方法构建deepocr模型,包括输入层、多尺度卷积网络层、gmlp层以及输出层;该方法具体包括以下步骤:

4、步骤1,输入层中,获取玉米染色质的atac-seq数据,采用one-hot编码方式对atac-seq数据进行处理,得到矩阵后输入多尺度卷积网络层;

5、步骤2,利用多尺度卷积网络层中不同大小的卷积核关注并融合多尺度特征和捕获不同长度的重要基序,并利用softpool去除大量冗余信息的同时减少信息损失;将多尺度卷积网络层的输出作为gmlp层的输入;

6、步骤3,gmlp层将多尺度卷积网络层的输出作为其输入,用于捕获跨token的复杂空间交互信息,从而得到序列中特征间的长距离依赖关系;gmlp层包括层归一化、三层gmlpblocks和类残差结构;

7、步骤4,将gmlp层的输出特征为输出层的输入,然后通过一次layernormalization和两层全连接层可以学习到gmlp特征的复杂组合,增强模型的表达能力,实现对玉米染色质开放区特征的分类;

8、步骤5,利用衡量目标标签值和预测的概率值之间差异的二进制交叉熵损失函数bceloss计算网络损失,并利用优化的梯度算法adamw更新参数,其将权重衰减项直接添加到损失函数中,确保在自适应学习率更新过程中更加准确地调整参数。

9、进一步地,本专利技术的所述步骤1中的方法包括:

10、将测序得到的玉米染色质开放区域数据进行数据划分等处理,并以1000bp的序列长度作为模型的输入;然后对序列进行one-hot encoding,将碱基a转换为[1,0,0,0],将碱基t转换为[0,1,0,0],将碱基c转换为[0,0,1,0],将碱基g转换为[0,0,0,1],进而得到1000*4的one-hot encoded矩阵,将该矩阵输入到多尺度卷积层进行下一步处理。

11、进一步地,本专利技术的所述步骤2中的方法包括:

12、多尺度卷积网络层包括:多个不同大小的卷积核、激活函数、softpool、batchnormalization和dropout;其中:各个不同大小的卷积核分别连接一个激活函数和一个softpool;然后多个softpool的输出端相加融合后依次连接至batch normalization和dropout;多尺度卷积网络层中的卷积运算通过卷积核提取关键数据特征,实现局部感知与降维功能。

13、进一步地,本专利技术的所述步骤2中的方法包括:

14、卷积操作的具体实现如下所示:

15、conv(x)i,j=∑m∑nx(m*s,n*s)*wk(i-m,j-n)

16、其中,i,j是输出位置索引,k是核索引,m和n是卷积核中的索引变量;卷积核以步长s在特征图上进行滑动,在每个位置(i,j),通过对特征图和卷积核逐元素相乘,然后对所有乘积求和,从而输出特征图中该位置上的值;为了能够同时感知和提取不同尺度的特征,使用不同尺度的卷积核实现多尺度卷积;

17、激活函数relu用于学习特征之间的非线性关系,表达式如下所示:

18、relu(x)=max(0,x)

19、基于softmax函数,softpool通过突出影响大的激活值而非直接选择最大值或平均值,使输出服从一定的概率分布;softpool的表达式如下所示:

20、

21、其中,i是原始特征图位置索引,j是池化权值索引;输入序列分别经过不同尺度的卷积、relu和softpool操作之后,对其进行相加以融合提取出的重要特征;

22、为了提高训练速度和模型的稳定性,在多尺度卷积层中间加入批量归一化操作batch normalization,其表达式如下所示:

23、

24、其中,μ,σ2是全局均值和方差,γ和β是可学习的参数,用于特征缩放和平移操作,ε是一个小常数,用于稳定数值,避免出现除以零的情况;

25、dropout操作以概率p将部分神经网络单元的激活值变为0,即不更新权重,以减少中间特征的数量,从而增加每层各个特征之间的正交性,防止过拟合。

26、进一步地,本专利技术的所述步骤3中的gmlpblocks包含一个微型attention模块,用于捕获特征间长距离依赖关系;将gmlpblocks的输出与gmlp层的输入合并,作为gmlp层的输出,进而实现了维持网络性能的残差结构。

27、进一步地,本专利技术的所述步骤3中的方法包括:

28、gmlp层包括若干个大小和结构相同的blocks,基于带门控的mlps;在空间而非通道维度上,gmlp层捕获跨token的复杂空间交互信息;对模块输入x进行patches embedding操作,整个gmlp层的表达式如下所示:

29、y=norm(x)

30、y=gmlpblocks(y)

31、z=y+x

32、其中,nor本文档来自技高网...

【技术保护点】

1.一种基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,通过该方法构建DeepOCR模型,包括输入层、多尺度卷积网络层、gMLP层以及输出层;该方法具体包括以下步骤:

2.根据权利要求1所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,所述步骤1中的方法包括:

3.根据权利要求1所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,所述步骤2中的方法包括:

4.根据权利要求3所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,所述步骤2中的方法包括:

5.根据权利要求1所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,所述步骤3中的gMLPblocks包含一个微型Attention模块,用于捕获特征间长距离依赖关系;将gMLPblocks的输出与gMLP层的输入合并,作为gMLP层的输出,进而实现了维持网络性能的残差结构。

6.根据权利要求5所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,所述步骤3中的方法包括:

7.根据权利要求1所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,所述步骤4中的方法包括:

8.根据权利要求1所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的方法,其特征在于,所述步骤5中的方法包括:

9.一种基于多尺度卷积网络和gMLP预测玉米染色质开放区的系统,其特征在于,该系统中构建了DeepOCR模型,包括数据输入模块、多尺度卷积网络模块、gMLP模块以及数据输出模块;具体包括:

10.根据权利要求9所述的基于多尺度卷积网络和gMLP预测玉米染色质开放区的系统,其特征在于,所述多尺度卷积网络模块包括:多个不同大小的卷积核、激活函数、SoftPool、Batch Normalization和Dropout;其中:各个不同大小的卷积核分别连接一个激活函数和一个SoftPool;然后多个SoftPool的输出端相加融合后依次连接至Batch Normalization和Dropout。

...

【技术特征摘要】

1.一种基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法,其特征在于,通过该方法构建deepocr模型,包括输入层、多尺度卷积网络层、gmlp层以及输出层;该方法具体包括以下步骤:

2.根据权利要求1所述的基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法,其特征在于,所述步骤1中的方法包括:

3.根据权利要求1所述的基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法,其特征在于,所述步骤2中的方法包括:

4.根据权利要求3所述的基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法,其特征在于,所述步骤2中的方法包括:

5.根据权利要求1所述的基于多尺度卷积网络和gmlp预测玉米染色质开放区的方法,其特征在于,所述步骤3中的gmlpblocks包含一个微型attention模块,用于捕获特征间长距离依赖关系;将gmlpblocks的输出与gmlp层的输入合并,作为gmlp层的输出,进而实现了维持网络性能的残差结构。

6.根据权利要求5所述的基于多尺度卷积网络和gm...

【专利技术属性】
技术研发人员:刘建晓姚州张文婧任禹齐袁豪
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1