一种基于注意力机制对lncRNA和mRNA的预测方法技术

技术编号:30823714 阅读:11 留言:0更新日期:2021-11-18 12:13
本发明专利技术公开了一种基于注意力机制对lncRNA和mRNA的预测方法,将需要预测的fasta文件输入程序,首先对fasta文件进行预处理,筛选出符合条件的RNA转录本序列,然后单独生成序列文件;将生成的序列文件作为网络模型的输入,计算序列的加权k

【技术实现步骤摘要】
一种基于注意力机制对lncRNA和mRNA的预测方法


[0001]本专利技术涉及生物信息学
,具体为一种基于注意力机制对lncRNA和mRNA的预测方法。

技术介绍

[0002]随着高通量转录组测序技术(RNA

seq,RNA sequencing)的发展,在许多物种中发现了新的转录本。其中一类新的转录本,long non

coding RNA(lncRNA,长非编码RNA)是一类长度大于200nt(碱基)并且不能编码蛋白的转录本,它参与许多重要的生物过程,例如剂量补偿、基因表达和细胞周期的调控。此外,一些研究表明,长非编码RNA的突变和调控失调与人类疾病有关。目前区分messenger RNA(mRNA,信使RNA)和lncRNA的工具大都依赖于序列比对,这些工具会受到不良基因注释的影响且需要消耗大量的时间和计算资源。因此,我们提供一种无需比对的方法,使用RNA

seq序列内在特征k

mer加权频率作为计算特征,然后使用注意力机制对lncRNA和mRNA进行预测。

技术实现思路

[0003](一)解决的技术问题
[0004]针对现有技术的不足,本专利技术提供了一种基于注意力机制对lncRNA和mRNA的预测方法。便于从RNA转录本中识别非编码RNA或具有编码蛋白质能力的RNA,从而为研究RNA的生物学功能奠定基础,并提高实验效率。
[0005](二)技术方案
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于注意力机制对lncRNA和mRNA的预测方法,包括以下步骤:
[0007]1)从RefSeq数据库(https://www.ncbi.nlm.nih.gov/refseq/)中下载lncRNA转录本数据的fasta文件和mRNA转录本数据的fa sta文件,通过对fasta文件进行预处理,筛选出满足条件的转录本;满足的条件为:RNA的长度必须超过200个碱基,对于非编码RNA,需要注释类型为lncRNA类型,对于mRNA,需要注释为protein

cod ing类型;将满足条件的lncRNA转录本序列和mRNA转录本序列作为实验数据;
[0008]2)将实验数据每一条转录本序列转化为加权k

mer频率,其中k的取值为1,2,3,4,5。
[0009]3)将加权k

mer频率转化为一维向量的形式,作为注意力机制模型的输入;然后分别通过注意力机制层和采用softmax函数作为激活函数的全连接层,搭建一个包括一个注意力机制和三个全连接层的模型框架;
[0010]4)将实验数据分为模型训练样本数据集、验证样本数据集和测试样本数据集,利用模型训练样本和验证样本数据集对基于注意力机制的网络模型进行训练,得到分类模型;
[0011]5)通过调整网络模型的超参数,优化网络模型,并利用模型测试样本数据集验证
分类准确率,从而准确预测mRNA和lncRNA序列。
[0012](三)有益效果
[0013]本专利技术提供了一种基于注意力机制对lncRNA和mRNA的预测方法。具备以下有益效果:
[0014]1.该方法具有高准确率和运行速度更快的优点。使用注意力机制和全连接网络进行联合处理,然后对网络参数的不断调整,可以达到96.4%的准确率。另外,此方法的特征为序列k

mer的使用频率,相比于传统的特征

开放框阅读框架(ORF),可以节约计算资源和缩短预测时间。
[0015]2.该方法不受基因注释的影响。对于不完整的RNA转录本注释的序列,也可以通过该方法进行预测。
附图说明
[0016]图1是本专利技术的流程图;
[0017]图2是本专利技术的网络结构图;
[0018]图3是本专利技术的k

mer示例图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]如图1所示,本专利技术提供一种技术方案:本专利技术的总体设计思路为:将需要预测的fasta文件输入程序,首先对fasta文件进行预处理,筛选出符合条件的RNA转录本序列,然后单独生成序列文件;将生成的序列文件作为网络模型的输入,计算序列的加权k

mer特征,最后在三层全连接网络的基础上引入注意力机制,获取关键特征,对lncRNA和mRNA进行预测。具体包括以下三个步骤:
[0021](1)对fasta文件进行预处理
[0022]a.将输入的fasta文件变为一行注释行和一行序列行,交替出现的形式,并将对应序列行合并为一行。
[0023]b.在步骤a的基础上,移除长度小于200nt的序列,再将上述经过筛选的文件分为两个文件,分别包括定义行和序列行。
[0024]c.将经过筛选后的序列文件中的序列数据(A,G,C,U)全部变为大写。
[0025]d.最后将序列中的字母

U

全部替换为字符

T

,这样为了方便后续计算A,T,G,C组合的k

mer的频率。
[0026](2)将预处理后的序列文件计算加权k

mer
[0027]一个k

mer模式是指一个具有k个核苷酸的特定字符串,每个字符串都是由A,T,G,C四个碱基组成。对于k等于1到5,此时有4+16+64+256+1024=1364个模式:4个one

mer模式(A,T,G,C四种模式),16个two

mer模式(AA,AT,AG,AC,TA,TT,TG

),64个three

mer模式,256个four

mer模式,1024个five

mer模式。
[0028]为了更好的区分lncRNA和mRNA,该方法使用k

mer的使用率以及具有一个核苷酸步长的滑动窗来分析每个转录本。
[0029]如图2所示,滑动窗口的长度为k(k=1,2,3,4,5),它将沿着长度为ι的转录本滑动,每个滑动窗口的步长为1。如果在滑动窗口内的字符串与某种模式匹配,则在转录本中该模式出现次数加1,由c
i
表示。该方法使用频率表示为f
i
,i为1到1364,首先计算c
i
/s
k
(s
k
为k

mer滑动窗口沿着转录本出现的总本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制对lncRNA和mRNA的预测方法,其特征在于,包括以下步骤:1)从RefSeq数据库中下载lncRNA转录本数据的fasta文件和mRNA转录本数据的fasta文件,通过对fasta文件进行预处理,筛选出满足条件的转录本;满足的条件为:RNA的长度必须超过200个碱基,对于非编码RNA,需要注释类型为lncRNA类型,对于mRNA,需要注释为protein

coding类型;将满足条件的lncRNA转录本序列和mRNA转录本序列作为实验数据;2)将实验数据每一条转录本序列转化为加权k

【专利技术属性】
技术研发人员:李爱民熊思琪刘雅君费蓉周红芳刘光明王彬黑新宏王磊
申请(专利权)人:西安理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1