System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,属于生物信息学领域。
技术介绍
1、环状rna(circrna)是一类保守单链rna分子,与经典线性rna不同,circrna形成共价闭合、连续稳定的环,没有5'端帽和3'端poly(a)尾。然而,circrna最初被认为是异常rna剪接的副产物,长期以来一直被人们忽视。随着生物信息学的发展,大量的circrnas被鉴定出来,它们的一些特征也越来越清晰。
2、新出现的证据表明,circrna在各种人类疾病(尤其是癌症)中起作用,并可能作为癌症治疗的更好的判别生物标志物和治疗靶点。考虑到其潜在的临床意义,circrna已成为肿瘤病理学领域的新研究热点。
3、鉴于人们越来越认识到circrna在疾病病理生理学中的关键作用,它们作为治疗靶点和诊断生物标志物的潜力值得进一步研究。因此,研究circrnas与rbps的相互作用机制具有重要意义。
4、近年来,由于高通量测序技术在检测每个rna和rbp对的结合位点方面成本高昂,许多用于判别circrna-rbp相互作用的计算方法逐渐出现。例如,crip使用基于堆叠密码子的编码方案。cscrsites使用多个卷积层从原始circrna序列中提取特征。crpbsites仅仅使用circrna2vec编码方案来提取序列特征。此外,circ-psbla和circrb采用one-hot方法作为编码机制。在生物信息学领域,卷积神经网络(cnn)通常用于从原始序列中提取局部特征信息。递归神经
技术实现思路
1、本专利技术要解决的技术问题是提供一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,传统判别方法提取特征信息不丰富、判别不准确的问题。
2、本专利技术的技术解决方案是:一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,包括以下步骤:
3、步骤1:获取公开rna-蛋白质结合位点数据集,且按比例分为训练集、测试集和验证集,提取序列特征,连接序列特征,得到一个新的特征矩阵;
4、步骤2:构建基于卷积块注意力机制密集网络的深度学习网络,包括基于卷积块注意力机制改进的密集网络、双向门控循环单元和自我注意力机制;
5、步骤3:利用构建的深度学习网络对新的特征矩阵提取局部特征信息以及全局特征信息,输出组合后的特征信息;
6、步骤4:设置类权重;
7、步骤5:将组合后的特征信息输入分类模块,进行模型训练;
8、步骤6:将待测数据输入到训练好的模型中,实现rna序列上的蛋白质结合位点的判别。
9、所述步骤1具体为:
10、根据rna序列的物理化学性质特征,采用4种编码方法提取序列特征;数据集中rna序列长度为101,通过杂交核苷酸频率结合单核苷酸、二核苷酸和三核苷酸的编码,提取特征矩阵为101×41的序列特征,通过核苷酸密度获得核苷酸的位置和频率信息,提取特征矩阵为101×1的序列特征,通过核苷酸化学性质将a、g、c和u四种核苷酸分别编码为(1,1,1)、(1,0,0)、(0,1,0)和(0,0,1),得到一个大小为101×3的序列特征,通过二核苷酸理化性质得到一个大小为101×11的特征矩阵,连接4种序列特征,得到一个新的101×56的特征矩阵。
11、所述步骤2具体为:
12、所述的基于卷积块注意力机制密集网络的深度学习网络包括基于卷积块注意力机制改进的密集网络、双向门控循环单元和自我注意力机制,所述基于卷积块注意力机制改进的密集网络结构通过在密集块中引入卷积块注意力机制,从通道和空间维度来评估密集块中每个卷积层的特征图,设置密集块数量为4,并且在密集网络中,为了解决特征图通道数量多、参数爆炸的问题,使用过渡层来优化这个问题,过渡层由1×1卷积和2×2平均池化组成,通过1×1卷积,可以减少特征图中的通道数,降低模型的复杂度,同时,2×2平均池化减小特征图的大小,进一步减少参数和计算的数量,然后在改进的密集网络后接双向门控循环单元和自我注意力机制;
13、在密集块中,xl层的输入与之前所有层的输出相关,xl表示为:
14、xl=hl([x0,x1,x2,…,xl-1])
15、其中[]表示连接操作,hl(·)为非线性变换函数,由批量归一化、relu激活函数以及3×3卷积组成;其中l表示网络中某一层(l=0,1,2,…),xl是第l层的输出特征,[x0,x1,x2,…,xl-1]表示将从第0层到第l-1层的输出特征在通道维度上进行拼接,hl(·)为非线性变换函数,由批量归一化、relu激活函数以及3×3卷积组成,最终得到第l层的输出;
16、卷积块注意力模块是一个可以同时结合空间和通道的注意力模块,通道注意力模块使用全局最大池化和全局平均池化对原始特征图进行压缩,得到两个通道维度大小的特征向量,这两个特征向量由共享的全连接神经网络进行训练,然后将两个特征向量与相应的元素相加,最后得到sigmoid后通道注意力的权重系数:
17、mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))
18、其中mc(f)是通道注意力模块的输出,f是输入特本文档来自技高网...
【技术保护点】
1.一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述步骤1具体为:根据RNA序列的物理化学性质特征,采用4种编码方法提取序列特征;数据集中RNA序列长度为101,通过杂交核苷酸频率结合单核苷酸、二核苷酸和三核苷酸的编码,提取特征矩阵为101×41的序列特征,通过核苷酸密度获得核苷酸的位置和频率信息,提取特征矩阵为101×1的序列特征,通过核苷酸化学性质将A、G、C和U四种核苷酸分别编码为(1,1,1)、(1,0,0)、(0,1,0)和(0,0,1),得到一个大小为101×3的序列特征,通过二核苷酸理化性质得到一个大小为101×11的特征矩阵,连接4种序列特征,得到一个新的101×56的特征矩阵。
3.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述步骤2具体为:
4.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点
5.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述设置类权重具体为:设置类权重自动调整不平衡样本的权重,以平衡不平衡样本在训练中的影响,类权重数值根据数据集类型进行调整。
6.根据权利要求1所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述步骤5具体为:首先设置“早停法”触发机制和模型训练最大轮数阈值,再将组合后的特征信息输入分类模块,利用训练集结合标签数据、交叉熵损失函数和反向传播算法对模型进行训练,确定模型各分支参数,最后,在每轮训练完成后,输入测试集进行测试,若触发早停条件或到达模型训练最大轮数阈值,完成模型训练,否则返回到步骤3。
7.根据权利要求6所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述触发早停条件具体为:触发早停条件为自定义训练轮次,当验证集的损失在自定义的训练轮次内没有下降时,触发“早停法”机制。
8.根据权利要求6所述的一种基于卷积块注意力机制密集网络的RNA-蛋白质结合位点判别方法,其特征在于,所述分类模块具体为:所述分类模块根据输入特征信息,对RNA碱基序列是否为蛋白质结合位点进行判别并输出结果,所述分类模块由Flatten层、全连接层和Dropout层组成,用于对输入特征信息进行分类。
...【技术特征摘要】
1.一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,所述步骤1具体为:根据rna序列的物理化学性质特征,采用4种编码方法提取序列特征;数据集中rna序列长度为101,通过杂交核苷酸频率结合单核苷酸、二核苷酸和三核苷酸的编码,提取特征矩阵为101×41的序列特征,通过核苷酸密度获得核苷酸的位置和频率信息,提取特征矩阵为101×1的序列特征,通过核苷酸化学性质将a、g、c和u四种核苷酸分别编码为(1,1,1)、(1,0,0)、(0,1,0)和(0,0,1),得到一个大小为101×3的序列特征,通过二核苷酸理化性质得到一个大小为101×11的特征矩阵,连接4种序列特征,得到一个新的101×56的特征矩阵。
3.根据权利要求1所述的一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,所述步骤2具体为:
4.根据权利要求1所述的一种基于卷积块注意力机制密集网络的rna-蛋白质结合位点判别方法,其特征在于,所述步骤3具体为:将所述新的特征矩阵输入所述构建好的基于卷积块注意力机制密集网络的深度学习网络中,其中基于卷积块注意力机制改进的密集网络对新特征矩阵提取局部特征信息,双向门控循环单元和自我注意力机制提取全局特征信息,最终输出局部特征信...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。