【技术实现步骤摘要】
一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
[0001]本专利技术涉及生物信息学领域,具体涉及一种基于分层深度学习miRNA-lncRNA互作关系的预测方法。
技术介绍
[0002]非编码RNA(ncRNA)在很多动生命活动方面起着重要的调节作用,而微小RNA(miRNA)与长非编码RNA(lncRNA)的相互作用更为重要,其互作关系的研究不仅有助于深入分析基因间生物学功能,也可为疾病的诊治和的遗传育种方面提供新思路。目前,miRNA-lncRNA互作关系的预测大多使用生物实验和传统机器学习方法。
[0003]自然界的生物细胞基因组大家庭中含有各种各样RNA,有很多数RNA不参与蛋白质的编码,大约只有1-2%能够编码蛋白质。这些不参与蛋白质编码的RNA称为非编码RNA(no-coding RNA)。长度约20核苷酸到24核苷酸的microRNAs(miRNA),长度大于200核苷酸的lncRNA的相互作用在基因表达调控中起着重要作用,并与物种进化和疾病发生密切相关。miRNA与lncRNA之间也存在交互关系。MiRNA(miR9678)以lncRNA为靶点,触发小干扰RNAs的产生,从而影响生物学特性的表达。因此,miRNA与lncRNA的相互作用具有生物学意义,预测miRNA与lncRNA的相互作用是了解基因表达和细胞功能的关键步骤,有助于研究疾病的发病机制和寻找药物作用的最佳靶点。
[0004]对于miRNA与lncRNA相互调控机制的研究大多集中在动物和人类癌症方面,植物方面 ...
【技术保护点】
【技术特征摘要】
1.一种基于分层深度学习miRNA-lncRNA互作关系的预测方法,其特征在于,包括以下步骤:S1:数据的收集和预处理:植物的miRNA和lncRNA数据集是分别来自公共数据库PNRD和GreeNC;S11:首先,将得到植物miRNA和lncRNA数据集去重,经在线软件psRNATarget处理,得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称,根据miRNA-lncRNA的名称从原始的数据集序列中提取序列;S12:对psRNATarget软件得出的miRNA-lncRNA互作关系对经S11步骤处理并去重后,将其作为正样本数据集;将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA,并将未参与互作关系的lncRNA与正样本中lncRNA进行相似性对比,去除相似性高于80%的lncRNA样本;S13:将S12步骤中未参于互作关系的lncRA随机组合miRNA,形成负样本数据集;采用随机抽样方法,从负样本中抽取的样本数保证和正样本相同;S2:特征提取,同时考虑局部序列信息和全局序列信息,根据miRNA和lncRNA序列特点,将其合并成一条单链序列,并对序列进行k-mer编码以及序列二级结构进行one-hot编码;具体步骤为:S21:采用one-hot编码来表征lncRNA-miRNA序列的二级特征:利用bpRNA获得lncRNA和miRNA二级结构的通用表达,分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X);其次,将两个序列组合成一个公共序列,用one-hot编码将其表示为一个7行N列的矩阵,其中N为最长长度;对于小于N的序列,将对空列执行零填充操作;S编码为(1,0,0,0,0,0,0)
T
,I被编码为(0,1,0,0,0,0,0)
T
,H编码为(0,0,1,0,0,0,0,0,0)
T
,E编码为(0,0,0,1,0,0,0)
T
,M被编码为(0,0,0,0,1,0,0)
T
,B编码为(0,0,0,0,0,1,0)
T
,X编码为(0,0,0,0,0,1)
T
,零填充编码为(0,0,0,0,0,0,0)
T
;将RNA序列编码成二进制矩阵后,输入到设计好的卷积神经网络中进行训练、调参;S22:k-mer组合统计特征:miRNA和lncRNA序列衍生的特征包括k-mer频率、GC含量、碱基对数和最小自由能;每个子序列在生物序列中的分布用序列中的k-mer频率信息来表示,计算序列的相似性;对于miRNA-lncRNA序列使用k...
【专利技术属性】
技术研发人员:宋金淼,张子晨,谢凡森,段晓东,代启国,
申请(专利权)人:大连民族大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。