一种miRNA预测方法、miRNA系统及应用技术方案

技术编号:20235512 阅读:30 留言:0更新日期:2019-01-29 20:59
本申请公开了一种miRNA预测方法、miRNA系统及应用。本申请的miRNA预测方法包括,(1)设定种子序列长度;(2)按照设定的长度对A、T、C、G四种碱基进行全排列,形成种子序列集;(3)去除种子序列集中冗余序列;(4)搜索种子序列在基因组上的位置,得到位置集;(5)将种子序列位置集,从小到大排列;(6)按位置集的位置遍历,如果前后两个位置序列互补,且距离不大于设定前体序列长度,输出该段序列;(7)采用二级结构预测软件对输出序列进行二级结构预测,获得miRNA,生成该物种的miRNA集。本申请的miRNA预测方法,直接在基因组序列中搜索miRNA,获得的miRNA集更完整,并且,效率高、更便捷,为后续miRNA研究奠定了基础。

A Prediction Method of MicroRNAs, MicroRNAs System and Its Application

This application discloses a method for predicting microRNAs, a microRNAs system and its application. The microRNAs prediction method in this application includes: (1) setting the length of seed sequence; (2) arranging the four bases of A, T, C and G according to the set length to form seed sequence set; (3) removing the redundant sequence of seed sequence set; (4) searching the position of seed sequence on the genome to get the position set; (5) arranging the seed sequence position set from small to large; (6) arranging the seed sequence position set according to the position set. Calendar, if the front and back position sequences complement each other, and the distance is not greater than the length of the precursor sequence, output the sequence; (7) Predict the secondary structure of the output sequence by using secondary structure prediction software, obtain the microRNAs, and generate the microRNAs of the species. The proposed predictive method of microRNAs directly searches for microRNAs in genome sequences, and achieves a more complete set of microRNAs with high efficiency and convenience, which lays a foundation for subsequent research on microRNAs.

【技术实现步骤摘要】
一种miRNA预测方法、miRNA系统及应用
本申请涉及核酸分析检测领域,特别是涉及一种miRNA预测方法,miRNA预测方法得到的miRNA系统,以及miRNA预测方法的应用。
技术介绍
miRNA是一类由内源基因编码的长度约为22个核苷酸的非编码单链RNA分子,通过与基因完全或非完全互补结合,进行基因表达调控,进而引起形状、表型的差异。目前miRNA相关的数据库很多,诸如miRBase、Tarbase等,有利于对miRNA进行下游分析。但是,除了少部分模式生物外,大部分物种的已知miRNA数量非常有限,例如文昌鱼在miRBase中收录的miRNA只有173条,这在某种程度上局限了对miRNA的进一步研究,因此,对于潜在的新的miRNA的鉴定是至关重要的。目前也有很多miRNA预测方法,如miRDeep2、miRA、mireap等;它们都是基于测序数据,再结合基因组上的比对结果,通过判断测序片段在基因上的侧翼序列是否能形成发夹结构,来推测潜在的miRNA分子。这些miRNA预测方法,都是基于单次测序结果进行预测,对于不同批次或不同实验室的数据平行分析,需要全部放在一起进行,不仅影响项目周期,也增加计算资源消耗;并且,现有的miRNA预测方法整体运行时间较长。
技术实现思路
本申请的目的是提供一种新的miRNA预测方法,该miRNA预测方法的应用,以及该miRNA预测方法获得的miRNA系统。本申请采用了以下技术方案:本申请的一方面公开了一种miRNA预测方法,包括以下步骤,(1)设定种子序列长度;其中,种子序列长度是根据已知miRNA的前体序列发夹结构特征设计的,优选的,在对待测物种的miRNA进行预测时,是根据待测物种目前已经公开的miRNA前体序列发夹结构特征设计的;需要说明的是,miRNA前体序列的发夹结构是目前预测miRNA的主要依赖特征,一般认为符合类似结构的序列,是潜在的miRNA分子;本申请根据miRNA前体序列的发夹结构特征设定种子序列长度,具体来说,就是根据待测物种已知miRNA前体序列的发夹结构长度或平均长度或最具代表性的长度,来定义种子序列的长度,而本申请的预测方法就是要找出和待测物种已知miRNA前体序列的发夹结构最接近的前体序列,将其作为潜在的miRNA分子,放入miRNA集中,实现miRNA预测;(2)对A、T、C、G四种碱基进行步骤(1)设定的序列长度的全排列,形成种子序列集;需要说明的是,四种碱基进行设定的序列长度的全排列,即每个碱基分别为A、T、C、G,如此排列形成种子序列集;例如,设定长度为7bp,即设定种子序列长度为7bp,则其中每个碱基分别为A、T、C、G进行排列,形成47条序列,所有序列构成种子序列集;(3)去除种子序列集中的冗余种子序列,具体包括,如果一条种子序列与另一条种子序列的反向互补序列相同,则只保留其中一条;(4)在步骤(3)剩余的种子序列中,搜索每一条种子序列和其反向互补序列在待测物种的基因组上的位置,得到种子序列位置集;需要说明的是,如果种子序列或其反向互补序列在待测物种的基因组上没有相应的位置,则直接滤除该种子序列;(5)将步骤(4)获得的种子序列位置集,在基因组上,按从小到大的顺序排列;(6)按位置集的位置遍历,如果基因组上相邻的前后两个位置正好是互补序列,且两者的距离小于或等于设定前体序列长度,则输出前面位置对应的种子序列前50bp至后面位置对应的种子序列后50bp的一段核酸序列,作为初选前体序列;需要说明的是,其中初选前体序列实际上就是包括两个种子序列、两个种子序列之间的序列,以及两个种子序列前后各50bp的一段基因组序列;其中,“设定前体序列长度”默认为500bp,这是参考目前大多数物种的前体序列长度而确定的,当然,根据具体分析的对象物种,统计其前体序列长度,可以对“设定前体序列长度”进行相应的调整,在此不做具体限定;(7)采用二级结构预测软件对步骤(6)获得的初选前体序列进行二级结构预测,如果不能形成发夹结构,则弃用该初选前体序列;如果能形成发夹结构,则从发夹结构的起始点开始,逐个碱基向后推移的取20-25bp的片段及其互补序列片段作为预成熟体,对各个预成熟体进行打分,取其中分数最高者及其互补序列,并给出两者对应的二级结构;其中,对各成熟体进行打分的依据主要是碱基互补情况,即互补匹配数和空位数,匹配数越多,空位数越少,分数越高。需要说明的是,虽然在筛选时初选前体序列的前后两个种子序列是互补的,但是,因为种子序列长度较短,所以筛选到的初选前体序列可能只有两个种子序列那段是互补的,而整条初选前体序列本身折叠不出二级结构;需要说明的是,取其中分数最高者及其互补序列是因为,本申请的预测方法不能确认最终的miRNA序列是预测得到的成熟体序列还是其互补序列,因此,将分数最高的预成熟体序列及其对应的互补序列一起放入miRNA集中;(8)合并步骤(7)获得的分数最高的成熟体序列及其对应的互补序列,以及各成熟体序列和其互补序列的二级结构,组成待测物种的miRNA集。需要说明的是,本申请的miRNA预测方法,直接在待测物种的基因组序列中进行搜索,所获得的miRNA集,实际上包含了该待测物种所有可能的miRNA;而现有的miRNA分析方法通常只能得到待测物种某个组织特定时期的miRNA;相比之下,本申请的预测方法及其获得的miRNA集更加完整。可以理解,本申请的miRNA集,是包含了物种在各个时期所有可能存在的miRNA,一方面,这些miRNA可能只是理论预测存在的,并非全部都是真实存在的miRNA,本申请的预测方法提供所有可能存在的miRNA方便了后续研究;另一方面,本申请的预测方法只是能够相对其它方法,更准确的预测miRNA,但是,对于具体的真实的miRNA成熟体本身而言,差一个碱基就会导致完全不同的成熟体,因此,本申请预测的miRNA在具体位置上会与真实的miRNA存在一些差异,但是,其必然都包含在本申请所预测的前体序列内。因此,在步骤(7)中通过二级结构预测软件筛选获得能够形成发夹结构的前体序列,根据不同的使用需求,至此已经能够满足后续科研的使用需求,则无需进一步的列举所有可能的预成熟体并对其进行打分、筛选分数最高者。还需要说明的是,现有的miRNA分析方法通常是单线程运行,即每个步骤串行运行,很少把中间某一部分拆开并行,因此整体运行时间较长;而本申请的miRNA预测方法,在将每条种子序列和其反向互补序列定位到基因组上后,可以统一输出所有可能的初选序列,然后各初选序列可以并行,同时进行二级结构预测,最终合并组成miRNA集,即可以采用多线程执行,能有效提升运行速度,缩短预测时间。优选的,本申请的miRNA预测方法还包括步骤(9),将待测物种所有已知miRNA与步骤(8)生成的miRNA集比对,将比对上的已知miRNA在miRNA集中进行标注,将未比对上的已知miRNA加入miRNA集中形成新的miRNA集,并对新加入的已知miRNA进行标注。优选的,步骤(1)中,设定种子序列长度为2-8bp。更优选的,步骤(1)中,设定种子序列长度为7bp。需要说明的是,理论上种子序列的长度只要小于或等于miRNA前体序列的发夹结构长度即可,这个长度通本文档来自技高网...

【技术保护点】
1.一种miRNA预测方法,其特征在于:包括以下步骤,(1)设定种子序列长度;(2)对A、T、C、G四种碱基进行步骤(1)设定的种子序列长度的全排列,形成种子序列集;(3)去除种子序列集中的冗余种子序列,具体包括,如果一条种子序列与另一条种子序列的反向互补序列相同,则只保留其中一条;(4)在步骤(3)剩余的种子序列中,搜索每一条种子序列和其反向互补序列在待测物种的基因组上的位置,得到种子序列位置集;(5)将步骤(4)获得的种子序列位置集,在基因组上,按从小到大的顺序排列;(6)按位置集的位置遍历,如果基因组上相邻的前后两个位置正好是互补序列,且两者的距离小于或等于设定前体序列长度,则输出前面位置对应的种子序列前50bp至后面位置对应的种子序列后50bp的一段核酸序列,作为初选前体序列;(7)采用二级结构预测软件对步骤(6)获得的初选前体序列进行二级结构预测,如果不能形成发夹结构,则弃用该初选前体序列;如果能形成发夹结构,则从发夹结构的起始点开始,逐个碱基向后推移的取20‑25bp的片段及其互补序列片段作为预成熟体,对各个预成熟体进行打分,取其中分数最高者及其互补序列,并给出两者对应的二级结构;(8)合并步骤(7)获得的分数最高的成熟体序列及其对应的互补序列,以及各成熟体序列和其互补序列的二级结构,组成待测物种的miRNA集。...

【技术特征摘要】
1.一种miRNA预测方法,其特征在于:包括以下步骤,(1)设定种子序列长度;(2)对A、T、C、G四种碱基进行步骤(1)设定的种子序列长度的全排列,形成种子序列集;(3)去除种子序列集中的冗余种子序列,具体包括,如果一条种子序列与另一条种子序列的反向互补序列相同,则只保留其中一条;(4)在步骤(3)剩余的种子序列中,搜索每一条种子序列和其反向互补序列在待测物种的基因组上的位置,得到种子序列位置集;(5)将步骤(4)获得的种子序列位置集,在基因组上,按从小到大的顺序排列;(6)按位置集的位置遍历,如果基因组上相邻的前后两个位置正好是互补序列,且两者的距离小于或等于设定前体序列长度,则输出前面位置对应的种子序列前50bp至后面位置对应的种子序列后50bp的一段核酸序列,作为初选前体序列;(7)采用二级结构预测软件对步骤(6)获得的初选前体序列进行二级结构预测,如果不能形成发夹结构,则弃用该初选前体序列;如果能形成发夹结构,则从发夹结构的起始点开始,逐个碱基向后推移的取20-25bp的片段及其互补序列片段作为预成熟体,对各个预成熟体进行打分,取其中分数最高者及其互补序列,并给出两者对应的二级结构;(8)合并步骤(7)获得的分数最高的成熟体序列及其对应的互补序列,以及各成熟体序列和其互补序列的二级结构,组成待测物种的miRNA集。2.根据权利要求1所述的miRNA预测方法,...

【专利技术属性】
技术研发人员:朱欠华黎万顺万胜青
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1