System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法技术_技高网

一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法技术

技术编号:44407838 阅读:3 留言:0更新日期:2025-02-25 10:20
本发明专利技术涉及一种基于卷积块注意力机制密集网络的RNA‑蛋白质结合位点判别方法,属于生物信息学领域。首先,获取公共RNA‑蛋白质结合位点数据集,然后,采用4种特征提取方法构建特征空间,最后,运用基于卷积块注意力机制改进的密集连接卷积网络学习高级局部特征,双向门控循环网络以及自注意力机制组合捕获序列中的长期依赖关系。本发明专利技术创造性的使用基于卷积块注意力机制改进的密集网络结合双向门控循环网络以及自注意力机制的思想对RNA‑蛋白质结合位点进行判别分析,能够学习提取更丰富的特征信息,进而提升模型判别准确性。

【技术实现步骤摘要】

本专利技术涉及一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,属于生物信息学领域。


技术介绍

1、环状rna(circrna)是一类保守单链rna分子,与经典线性rna不同,circrna形成共价闭合、连续稳定的环,没有5'端帽和3'端poly(a)尾。然而,circrna最初被认为是异常rna剪接的副产物,长期以来一直被人们忽视。随着生物信息学的发展,大量的circrnas被鉴定出来,它们的一些特征也越来越清晰。

2、新出现的证据表明,circrna在各种人类疾病(尤其是癌症)中起作用,并可能作为癌症治疗的更好的判别生物标志物和治疗靶点。考虑到其潜在的临床意义,circrna已成为肿瘤病理学领域的新研究热点。

3、鉴于人们越来越认识到circrna在疾病病理生理学中的关键作用,它们作为治疗靶点和诊断生物标志物的潜力值得进一步研究。因此,研究circrnas与rbps的相互作用机制具有重要意义。

4、近年来,由于高通量测序技术在检测每个rna和rbp对的结合位点方面成本高昂,许多用于判别circrna-rbp相互作用的计算方法逐渐出现。例如,crip使用基于堆叠密码子的编码方案。cscrsites使用多个卷积层从原始circrna序列中提取特征。crpbsites仅仅使用circrna2vec编码方案来提取序列特征。此外,circ-psbla和circrb采用one-hot方法作为编码机制。在生物信息学领域,卷积神经网络(cnn)通常用于从原始序列中提取局部特征信息。递归神经网络(rnn)通常用于从原始序列中提取全局特征信息。但是,cnn存在梯度消失和网络退化等问题。并且,在处理长序列特征时,rnn存在梯度消失或梯度爆炸的问题。因此,研究人员更喜欢使用残差神经网络(resnet)、密集卷积网络(densenet)、长短期记忆网络(lstm)和门控循环单元(gru)。resnet通过短路连接来防止梯度消失和网络退化的问题。在resnet的基础上,densenet提出了一种密集块结构,该结构使用密集连接机制来复用所有前几层的特征信息。因此,与resnet相比,densenet在效果方面更加出色。icircrbp-dhn使用了多种特征子集,并使用多尺度残差网络架构来训练识别circrna-rbp结合位点的深度神经网络。然而,现有方法仍存在局限性:一是一些研究表明,相较于仅使用单一编码方法的模型,使用多种特征编码方法来分析circrna序列能够提高模型的准确性。这些方法的基本原理在文献中有所体现:circrna序列包含丰富的短程和长程特征。因此,选择合适的序列编码方法至关重要,以便有效地捕获这些短程和长程特征。合理地结合不同的序列编码方法,有望进一步提高结合位点判别的准确性。二是对于rbp结合位点判别模型来说,既有着专注于局部特征信息的cnn模型,也有着专注于全局特征信息的rnn模型。然而,研究表明,这些单一模型并不能完全捕获序列中的复杂特征。相反,混合模型则能够同时提取局部和全局特征信息,因而展现出更好的性能。通过结合局部和全局特征,这些混合模型能够更准确地判别rbp结合位点。因此,混合模型的发展代表着对更全面序列信息利用的追求,有望推动rbp结合位点判别领域的进一步发展。


技术实现思路

1、本专利技术要解决的技术问题是提供一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,传统判别方法提取特征信息不丰富、判别不准确的问题。

2、本专利技术的技术解决方案是:一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,包括以下步骤:

3、步骤1:获取公开rna-蛋白质结合位点数据集,且按比例分为训练集、测试集和验证集,提取序列特征,连接序列特征,得到一个新的特征矩阵;

4、步骤2:构建基于卷积块注意力机制密集网络的深度学习网络,包括基于卷积块注意力机制改进的密集网络、双向门控循环单元和自我注意力机制;

5、步骤3:利用构建的深度学习网络对新的特征矩阵提取局部特征信息以及全局特征信息,输出组合后的特征信息;

6、步骤4:设置类权重;

7、步骤5:将组合后的特征信息输入分类模块,进行模型训练;

8、步骤6:将待测数据输入到训练好的模型中,实现rna序列上的蛋白质结合位点的判别。

9、所述步骤1具体为:

10、根据rna序列的物理化学性质特征,采用4种编码方法提取序列特征;数据集中rna序列长度为101,通过杂交核苷酸频率结合单核苷酸、二核苷酸和三核苷酸的编码,提取特征矩阵为101×41的序列特征,通过核苷酸密度获得核苷酸的位置和频率信息,提取特征矩阵为101×1的序列特征,通过核苷酸化学性质将a、g、c和u四种核苷酸分别编码为(1,1,1)、(1,0,0)、(0,1,0)和(0,0,1),得到一个大小为101×3的序列特征,通过二核苷酸理化性质得到一个大小为101×11的特征矩阵,连接4种序列特征,得到一个新的101×56的特征矩阵。

11、所述步骤2具体为:

12、所述的基于卷积块注意力机制密集网络的深度学习网络包括基于卷积块注意力机制改进的密集网络、双向门控循环单元和自我注意力机制,所述基于卷积块注意力机制改进的密集网络结构通过在密集块中引入卷积块注意力机制,从通道和空间维度来评估密集块中每个卷积层的特征图,设置密集块数量为4,并且在密集网络中,为了解决特征图通道数量多、参数爆炸的问题,使用过渡层来优化这个问题,过渡层由1×1卷积和2×2平均池化组成,通过1×1卷积,可以减少特征图中的通道数,降低模型的复杂度,同时,2×2平均池化减小特征图的大小,进一步减少参数和计算的数量,然后在改进的密集网络后接双向门控循环单元和自我注意力机制;

13、在密集块中,xl层的输入与之前所有层的输出相关,xl表示为:

14、xl=hl([x0,x1,x2,…,xl-1])

15、其中[]表示连接操作,hl(·)为非线性变换函数,由批量归一化、relu激活函数以及3×3卷积组成;其中l表示网络中某一层(l=0,1,2,…),xl是第l层的输出特征,[x0,x1,x2,…,xl-1]表示将从第0层到第l-1层的输出特征在通道维度上进行拼接,hl(·)为非线性变换函数,由批量归一化、relu激活函数以及3×3卷积组成,最终得到第l层的输出;

16、卷积块注意力模块是一个可以同时结合空间和通道的注意力模块,通道注意力模块使用全局最大池化和全局平均池化对原始特征图进行压缩,得到两个通道维度大小的特征向量,这两个特征向量由共享的全连接神经网络进行训练,然后将两个特征向量与相应的元素相加,最后得到sigmoid后通道注意力的权重系数:

17、mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))

18、其中mc(f)是通道注意力模块的输出,f是输入特本文档来自技高网...

【技术保护点】

1.一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述步骤1具体为:根据RNA序列的物理化学性质特征,采用4种编码方法提取序列特征;数据集中RNA序列长度为101,通过杂交核苷酸频率结合单核苷酸、二核苷酸和三核苷酸的编码,提取特征矩阵为101×41的序列特征,通过核苷酸密度获得核苷酸的位置和频率信息,提取特征矩阵为101×1的序列特征,通过核苷酸化学性质将A、G、C和U四种核苷酸分别编码为(1,1,1)、(1,0,0)、(0,1,0)和(0,0,1),得到一个大小为101×3的序列特征,通过二核苷酸理化性质得到一个大小为101×11的特征矩阵,连接4种序列特征,得到一个新的101×56的特征矩阵。

3.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述步骤2具体为:

4.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述步骤3具体为:将所述新的特征矩阵输入所述构建好的基于卷积块注意力机制密集网络的深度学习网络中,其中基于卷积块注意力机制改进的密集网络对新特征矩阵提取局部特征信息,双向门控循环单元和自我注意力机制提取全局特征信息,最终输出局部特征信息和全局特征信息组合后的特征信息。

5.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述设置类权重具体为:设置类权重自动调整不平衡样本的权重,以平衡不平衡样本在训练中的影响,类权重数值根据数据集类型进行调整。

6.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述步骤5具体为:首先设置“早停法”触发机制和模型训练最大轮数阈值,再将组合后的特征信息输入分类模块,利用训练集结合标签数据、交叉熵损失函数和反向传播算法对模型进行训练,确定模型各分支参数,最后,在每轮训练完成后,输入测试集进行测试,若触发早停条件或到达模型训练最大轮数阈值,完成模型训练,否则返回到步骤3。

7.根据权利要求6所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述触发早停条件具体为:触发早停条件为自定义训练轮次,当验证集的损失在自定义的训练轮次内没有下降时,触发“早停法”机制。

8.根据权利要求6所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述分类模块具体为:所述分类模块根据输入特征信息,对RNA碱基序列是否为蛋白质结合位点进行判别并输出结果,所述分类模块由Flatten层、全连接层和Dropout层组成,用于对输入特征信息进行分类。

...

【技术特征摘要】

1.一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,所述步骤1具体为:根据rna序列的物理化学性质特征,采用4种编码方法提取序列特征;数据集中rna序列长度为101,通过杂交核苷酸频率结合单核苷酸、二核苷酸和三核苷酸的编码,提取特征矩阵为101×41的序列特征,通过核苷酸密度获得核苷酸的位置和频率信息,提取特征矩阵为101×1的序列特征,通过核苷酸化学性质将a、g、c和u四种核苷酸分别编码为(1,1,1)、(1,0,0)、(0,1,0)和(0,0,1),得到一个大小为101×3的序列特征,通过二核苷酸理化性质得到一个大小为101×11的特征矩阵,连接4种序列特征,得到一个新的101×56的特征矩阵。

3.根据权利要求1所述的一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,所述步骤2具体为:

4.根据权利要求1所述的一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,所述步骤3具体为:将所述新的特征矩阵输入所述构建好的基于卷积块注意力机制密集网络的深度学习网络中,其中基于卷积块注意力机制改进的密集网络对新特征矩阵提取局部特征信息,双向门控循环单元和自我注意力机制提取全局特征信息,最终输出局部特征信...

【专利技术属性】
技术研发人员:马磊杨慧
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1