System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于生物信息,具体涉及一种lncrna-mirna关联预测方法。
技术介绍
1、非编码rna(ncrnas)不能编码蛋白质,但是它们在许多生命过程中发挥着不可或缺的作用。其中,长非编码rna(lncrnas)和微小rna(mirnas)作为两种典型的ncrnas,在癌症发展、基因调控、细胞代谢过程中具有重要作用。lncrna的长度约为200个核苷酸,作为生物体内最丰富的rna广泛参与蛋白质折叠和细胞分化等多种细胞过程,mirna是一种小型ncrna,长度约为22个核苷酸,通过附着在lncrna上来间接调控基因表达,调整lncrna的功能,并与lncrna协同完成调控过程。越来越多的证据表明,lncrna与mirna之间的关联关系(lmis)有助于发现一些潜在的调控关系,因此,研究lncrna和mirna之间的潜在关系可以为我们理解lncrna和mirna的生物功能以及复杂疾病的发病机制提供新的见解。
2、然而,通过传统的生物实验发现lncrna和mirna之间潜在的关联关系存在耗时、成本高且难以标记大批量数据的缺点,所以利用计算的方法,进行大规模lncrna和mirna关联关系的预测成为解决这一问题的关键。以往的计算方法大致分为两类:基于网络的方法和基于序列的方法。基于网络的方法一般利用lncrna和mirna的多种信息来计算lncrna和mirna的多重相似性,进一步构建二分网络,最后用各种机器学习模型从二分网络中提取特征并推断lmis分数。基于序列的方法仅利用lncrna和mirna序列信息,进行编码后
技术实现思路
1、本专利技术的目的是为了解决现有方法未能恰当地融合多种数据源的特征表示且未能通过对比学习方法学习样本之间的相似性和差异性,导致可能没有学习到更加有效和鲁棒的特征表示的问题。
2、一种多通道注意力机制的lncrna-mirna关联预测方法,包括以下步骤:
3、s1:基于lncrna和mirna的序列信息、表达谱信息以及lncrna-mirna关联信息;得到lncrna和mirna各自对应的序列相似性ls、表达谱相似性le和gip核相似性lg,进而得到lncrna和mirna各自对应的三种相似性矩阵;
4、填充lncrna序列和mirna序列到固定长度,分别利用三种不同步长对lncrna和mirna序列进行切分,对切分后的序列进行编码,将每一种切分步长对应的所有切分组合对应的编码作为一个整体编码结果得到一个编码矩阵,三种切分步长得到三个编码矩阵,分别得到lncrna序列和mirna序列的三种不同步长切分结构对应的编码矩阵;
5、s2:利用p最近邻图方法处理lncrna和mirna各自对应的三种相似性矩阵,分别得到各自对应的稀疏的相似性矩阵;分别利用gcn处理稀疏的相似性矩阵,基于lncrna的三种相似性矩阵经过gcn的结果得到lncrna的特征表示lgcn,基于mirna的三种相似性矩阵经过gcn的结果得到mirna的特征表示mgcn;
6、s3:基于lncrna序列三种不同步长切分结构对应的编码矩阵,利用嵌入层和transformer得到lncrna的特征,并构成lncrna的特征表示ltrans;针对mirna序列的三种不同步长切分结构对应的编码矩阵,采用相同的方式,得到mirna的特征表示mtrans;
7、s4:利用通道注意力机制分别对特征表示lgcn和特征表示ltrans加权融合得到利用通道注意力机制对特征表示mgcn和特征表示mtrans加权融合得到
8、s5:利用对比学习方法捕捉gcn和tranformer之间的信息交互,得到最终的lncrna特征表示和最终的mirna特征表示
9、s6:将s5得到的lncrna特征表示进行拼接得到l*,mirna特征表示进行拼接得到m*,利用kan得到最终的预测分数y。
10、进一步地,所述的序列相似性ls:
11、
12、其中,i和j分别表示第i个和第j个lncrna或mirna,函数l获得lncrna或mirna序列长度,函数lev计算序列i和序列j之间的莱文斯坦距离。
13、进一步地,所述的表达谱相似性le:
14、
15、其中,pin和pjn分别表示第i个和第j个lncrna或mirna表达谱的第n个属性值,n代表相关属性的数量,pi和pj分别表示第i个和第j个lncrna或mirna表达谱的平均值。
16、进一步地,所述的gip核相似性如下:
17、将lncrna-mirna关联数据的邻接矩阵表示为im∈rnl×nm,其中nl和nm分别表示lncrna数量和mirna数量;邻接矩阵im中的元素imij表示第i个lncrna与第j个mirna之间的关系,若矩阵中值为1表示该关系得到实验证实,否则值为0;
18、利用矩阵im,得到lncrna之间或mirna之间的gip核相似性lg:
19、lg(i,j)=exp(-λl||ip(i)-ip(j)||2)
20、其中,i和j分别表示第i个和第j个lncrna或mirna,ip表示从邻接矩阵im每行中获取每个lncrna/mirna与所有mirna/lncrna之间的相互作用信息;λl表示带宽参数。
21、进一步地,填充lncrna序列和mirna序列到固定长度的过程中采用复制填充的方法将序列进行填充:
22、
23、其中,l表示所有lncrna序列或mirna序列中的最大长度,l表示lncrna序列或mirna序列的初始长度,mod表示取余数;当余数为0时,序列x1x2x3……xl被复制整数次以达到最大长度l,当余数为c时,复制整数次后还需要复制序列中的前c个碱基。
24、进一步地,得到lncrna序列和mirna的三种不同步长切分结构对应的编码矩阵的具体过程包括以下步骤:
25、针对填充到固定长度的lncrna序列,取切分步长k=2、3、4,针对三种切分步长,分别生成长度小于等于k的切分组合,将每个切分组合映射为独热向量,然后将每一种切分步长对应的所有切分组合对应的独热向量作为一个整体编码结果得到一个编码矩阵,三种切分步长得到三个编码矩阵;针对lncrna,三个编码矩阵分别记为lk=2、lk=3、lk=4;
26、针对填充到固定长度的mirna序列,采用相同的方式,得到mirna的三个编码矩阵mk=2、mk=3、mk=4。
27、进一步地,利用p最近邻图方法处理lncrna和mirna各自对应的三种相似性矩阵,分别得到各自对应的稀疏的相似性矩阵的过程包括:
2本文档来自技高网...
【技术保护点】
1.一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,所述的序列相似性LS:
3.根据权利要求1所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,所述的表达谱相似性LE:
4.根据权利要求1所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,所述的GIP核相似性如下:
5.根据权利要求1所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,填充lncRNA序列和miRNA序列到固定长度的过程中采用复制填充的方法将序列进行填充:
6.根据权利要求1至5之一所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,得到lncRNA序列和miRNA的三种不同步长切分结构对应的编码矩阵的具体过程包括以下步骤:
7.根据权利要求6至所述的一种多通道注意力机制的lncRNA-miRNA关联预测
8.根据权利要求7所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,S2中分别利用GCN处理稀疏的相似性矩阵,基于lncRNA的三种相似性矩阵经过GCN的结果得到lncRNA的特征表示LGCN,基于miRNA的三种相似性矩阵经过GCN的结果得到miRNA的特征表示MGCN的过程包括:
9.根据权利要求8所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,所述步骤S3具体过程包括以下步骤:
10.根据权利要求9所述的一种多通道注意力机制的lncRNA-miRNA关联预测方法,其特征在于,S4的具体过程包括以下步骤:
...【技术特征摘要】
1.一种多通道注意力机制的lncrna-mirna关联预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种多通道注意力机制的lncrna-mirna关联预测方法,其特征在于,所述的序列相似性ls:
3.根据权利要求1所述的一种多通道注意力机制的lncrna-mirna关联预测方法,其特征在于,所述的表达谱相似性le:
4.根据权利要求1所述的一种多通道注意力机制的lncrna-mirna关联预测方法,其特征在于,所述的gip核相似性如下:
5.根据权利要求1所述的一种多通道注意力机制的lncrna-mirna关联预测方法,其特征在于,填充lncrna序列和mirna序列到固定长度的过程中采用复制填充的方法将序列进行填充:
6.根据权利要求1至5之一所述的一种多通道注意力机制的lncrna-mirna关联预测方法,其特征在于,得到lncrna序列和mirna的三种不同步长切分结构对应的编...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。