一种基于分层深度学习miRNA-lncRNA互作关系的预测方法技术

技术编号:27142698 阅读:39 留言:0更新日期:2021-01-27 21:27
一种基于分层深度学习miRNA

【技术实现步骤摘要】
一种基于分层深度学习miRNA-lncRNA互作关系的预测方法


[0001]本专利技术涉及生物信息学领域,具体涉及一种基于分层深度学习miRNA-lncRNA互作关系的预测方法。

技术介绍

[0002]非编码RNA(ncRNA)在很多动生命活动方面起着重要的调节作用,而微小RNA(miRNA)与长非编码RNA(lncRNA)的相互作用更为重要,其互作关系的研究不仅有助于深入分析基因间生物学功能,也可为疾病的诊治和的遗传育种方面提供新思路。目前,miRNA-lncRNA互作关系的预测大多使用生物实验和传统机器学习方法。
[0003]自然界的生物细胞基因组大家庭中含有各种各样RNA,有很多数RNA不参与蛋白质的编码,大约只有1-2%能够编码蛋白质。这些不参与蛋白质编码的RNA称为非编码RNA(no-coding RNA)。长度约20核苷酸到24核苷酸的microRNAs(miRNA),长度大于200核苷酸的lncRNA的相互作用在基因表达调控中起着重要作用,并与物种进化和疾病发生密切相关。miRNA与lncRNA之间也存在交互关系。MiRNA(miR9678)以lncRNA为靶点,触发小干扰RNAs的产生,从而影响生物学特性的表达。因此,miRNA与lncRNA的相互作用具有生物学意义,预测miRNA与lncRNA的相互作用是了解基因表达和细胞功能的关键步骤,有助于研究疾病的发病机制和寻找药物作用的最佳靶点。
[0004]对于miRNA与lncRNA相互调控机制的研究大多集中在动物和人类癌症方面,植物方面的研究相对较少。传统单一的深度学习方法有些限制,如CNN通过卷积运算从输入信息中提取深度特征,忽略了特征之间的相关性。此外,合并操作会丢失一些信息,这限制了CNN的性能。为了避免这些问题,胶囊网络被广泛使用。胶囊网络由与每个胶囊中包含的信息相对应的向量表示,下层胶囊代表输入数据的特征信息,上层胶囊代表下层胶囊特征之间的聚集和相关性。
[0005]研究miRNA-miRNA的相互调控网络是新热点。现有鉴定miRNA-lncRNA互作关系预测的方法主要分为生物实验和计算机方法这两类。生物实验鉴定费时费力,成本高昂,对于样本数量特别大的不适合鉴定。传统计算预测方法则是利用机器学习相关算法建立预测模型,通过提取miRNA靶基因的序列特征和结构特征作为输入数据,构建分类器模型,但机器学习方法涉及了过多的人工干预且特征提取过程复杂。为克服两者的弊端,利用多网络深度学习融合模型可自动学习特征的特点来实现分类预测是一个突破点。

技术实现思路

[0006]本专利技术提出一种基于分层深度学习miRNA-miRNA互作关系的预测方法,该方法解决了传统生物实验的局限性、传统机器学习特征提取的不确定性,提高了miRNA-miRNA预测的准确性。
[0007]为了达到上述技术效果,本专利技术的技术方案如下:
[0008]一种基于分层深度学习miRNA-lncRNA互作关系的预测方法,包括以下步骤:
[0009]S1:数据的收集和预处理。由于没有miRNA和lncRNA相互作用对的公共数据库,本专利技术使用的玉米miRNA和lncRNA数据集是分别是公共数据库PNRD(http://structuralbiology.cau.edu.cn/PNRD/)和GreeNC(http://greenc.sciencedesigners.com/wiki/Main Pag)下载。
[0010]S2:特征提取。为了真实有效地表达序列信息,同时考虑局部序列信息和全局序列信息,根据植物RNA序列特点,将miRNA序列和lncRNA序列成一条单链序列,并对这条单链序列进行k-mer组合统计特征以及对序列二级结构进行one-hot编码。
[0011]S3:构建融合深度学习预测模型。本专利技术提出了一种融合两种深度学习网络进行miRNA-lncRNA互作关系预测的模型。该模型由并行胶囊网络、融合注意机制的独立递归神经网络和Bi-LSTM网络组成。
[0012]进一步地,步骤S1中数据收集和预处理的具体过程包括:
[0013]S11:首先,将得到植物miRNA和lncRNA数据集去重,然后分别上传到在线软件psRNATarget(https://plantgrn.noble.org/psRNATarget/analysis)上,得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称,根据miRNA-lncRNA的名称从原始的数据集序列中提取序列。
[0014]S12:对psRNATarget软件得出的miRNA-lncRNA互作关系对经S11步骤处理并去重后,将其作为正样本。由于lncRNA序列长度是大于200nt,miRNA的长度大约为20nt-24nt,所以这条合并序列中lncRNA所占比重大,故将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA,并将这些未参与互作关系的lncRNA,和之前所得到正样本中lncRNA进行相似性对比,去除相似性高于80%的lncRNA样本。
[0015]S13:将S12步骤种不参于互作关系的lncRA随机组合miRNA,形成负样本数据集。为确保正样本和负样本的数量相同,采用随机抽样方法,从负样本中抽取的样本数保证和正样本相同。
[0016]进一步地,步骤S2中特征提取的具体过程包括:
[0017]S21:考虑到序列的全局位置信息,我们采用one-hot编码来表征lncRNA-miRNA序列的二级特征。首先,利用bpRNA获得lncRNA和miRNA二级结构的通用表达,分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X);其次,将两个序列组合成一个公共序列,用one-hot编码将其表示为一个7行N列的矩阵,其中N为最长长度。对于小于N的序列,将对空列执行零填充操作。例如,S被编码为(1,0,0,0,0,0,0)
T
,I被编码为(0,1,0,0,0,0,0)
T
,H编码为(0,0,1,0,0,0,0,0,0)
T
,E编码为(0,0,0,1,0,0,0)
T
,M被编码为(0,0,0,0,1,0,0)
T
,B编码为(0,0,0,0,0,1,0)
T
,X编码为(0,0,0,0,0,1)
T
,零填充编码为(0,0,0,0,0,0,0)
T
。将RNA序列编码成二进制矩阵后,下面就可以输入到设计好的卷积神经网络中进行训练、调参。
[0018]S22:k-mer组合统计特征。miRNA和lncRNA序列衍生的(内在的)特征包括k-mer频率、GC含量、碱基对数和最小自由能(MFE)。每个子序列在生物序列中的分布可以用序列中的k-mer频率信息来表示,从而计算出序列的相似性。对于miRNA-lncRNA序列使用k-mer算法用于提取非重叠子序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层深度学习miRNA-lncRNA互作关系的预测方法,其特征在于,包括以下步骤:S1:数据的收集和预处理:植物的miRNA和lncRNA数据集是分别来自公共数据库PNRD和GreeNC;S11:首先,将得到植物miRNA和lncRNA数据集去重,经在线软件psRNATarget处理,得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称,根据miRNA-lncRNA的名称从原始的数据集序列中提取序列;S12:对psRNATarget软件得出的miRNA-lncRNA互作关系对经S11步骤处理并去重后,将其作为正样本数据集;将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA,并将未参与互作关系的lncRNA与正样本中lncRNA进行相似性对比,去除相似性高于80%的lncRNA样本;S13:将S12步骤中未参于互作关系的lncRA随机组合miRNA,形成负样本数据集;采用随机抽样方法,从负样本中抽取的样本数保证和正样本相同;S2:特征提取,同时考虑局部序列信息和全局序列信息,根据miRNA和lncRNA序列特点,将其合并成一条单链序列,并对序列进行k-mer编码以及序列二级结构进行one-hot编码;具体步骤为:S21:采用one-hot编码来表征lncRNA-miRNA序列的二级特征:利用bpRNA获得lncRNA和miRNA二级结构的通用表达,分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X);其次,将两个序列组合成一个公共序列,用one-hot编码将其表示为一个7行N列的矩阵,其中N为最长长度;对于小于N的序列,将对空列执行零填充操作;S编码为(1,0,0,0,0,0,0)
T
,I被编码为(0,1,0,0,0,0,0)
T
,H编码为(0,0,1,0,0,0,0,0,0)
T
,E编码为(0,0,0,1,0,0,0)
T
,M被编码为(0,0,0,0,1,0,0)
T
,B编码为(0,0,0,0,0,1,0)
T
,X编码为(0,0,0,0,0,1)
T
,零填充编码为(0,0,0,0,0,0,0)
T
;将RNA序列编码成二进制矩阵后,输入到设计好的卷积神经网络中进行训练、调参;S22:k-mer组合统计特征:miRNA和lncRNA序列衍生的特征包括k-mer频率、GC含量、碱基对数和最小自由能;每个子序列在生物序列中的分布用序列中的k-mer频率信息来表示,计算序列的相似性;对于miRNA-lncRNA序列使用k...

【专利技术属性】
技术研发人员:宋金淼张子晨谢凡森段晓东代启国
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1