本发明专利技术公开了一种基于卷积神经网络和规划动态算法的RNA二级结构生成器,包括:微处理器;存储单元,处理单元,其包括:预处理单元,负责获取缓存单元中RNA数据,并对所述RNA数据进行预处理;滑动窗口单元,其连接所述预处理单元,用于将经过预处理后的RNA数据分割为大小相同的RNA二维数组;卷积神经网络模型单元,其以前期收集的大量RNA测序及其结构数据为基础,构建卷积神经网络模型,对序列内各个碱基进行分类预测;规划动态算法单元,其用于修正卷积神经网络模型单元的预测结果,还公开了一种基于卷积神经网络和规划动态算法的RNA二级结构预测方法。
A RNA Secondary Structure Generator Based on Convolutional Neural Network and Dynamic Planning Algorithms and Its Prediction Method
【技术实现步骤摘要】
一种基于卷积神经网络和规划动态算法的RNA二级结构生成器及其预测方法
本专利技术涉及生物信息学领域,涉及一种基于卷积神经网络和规划动态算法的RNA二级结构的生成器及预测方法。
技术介绍
核糖核酸(缩写为RNA,即RibonucleicAcid),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。RNA就是由核糖核苷酸经磷酸二酯键缩合而成长链状分子。RNA分子通过其结构来表现其功能,然而,RNA分子的三级结构较为复杂,缺少有效的表示方法对其进行描述。因此,一般情况下会通过RNA的二级结构来研究RNA的功能及特性。二级结构以往是由生物大分子在原子量级结构下的氢键来定义的。在蛋白质,二级结构则是以主链中氨基之间的氢键模式来定义,亦即DSSP所定义的氢键,并不包括主链与旁链间或是旁链之间的氢键。而RNA的二级结构则是以碱基之间的氢键来定义。在很多RNA分子,二级结构对RNA正常功能非常重要,有时甚至于较序列重要。现有的生物实验测定RNA二级结构的方法主要有X射线晶体衍射和NMR等方法。通过生物实验方法可以得到较为精确的RNA二级结构,然而这种方法十分低效、昂贵,难以大批量测定其结构。因此,通过计算机算法对RNA二级结构进行模拟成为一种有效的途径。通过计算机设计算法来预测RNA的二级结构的主要方法有两大类,一类是利用动态规划算法,算法在能量或其他限制条件的影响下,通过迭代递归的思想来对RNA二级结构进行预测。另一类是通过序列比对的方法,在已知结构的RNA数据库中找到其同源序列,通过与同源序列比对的方法来对未知结构的RNA来进行预测。目前,深度学习在各大领域的预测问题上均有非常有效的结果。深度学习的方法可以在大规模数据中,通过构建深层网络来提取出有效的、隐含的特征,并利用这些特征构建出有效的预测模型。目前,深度学习的方法在蛋白质的二级结构预测领域已经有了较大的突破。因此,将深度学习方法应用到RNA二级结构预测领域成为一个新的研究领域。
技术实现思路
本专利技术设计开发了一种RNA二级结构生成器,自动提取出数据中有效的隐藏特征,对序列内各个碱基进行分类预测。本专利技术还设计开发了一种RNA二级结构预测方法,使用规划动态算法对预测结果进行修正,利用这种方法可以排除能量对RNA二级结构预测结果的影响。本专利技术提供的技术方案为:一种基于卷积神经网络和规划动态算法的RNA二级结构生成器,包括:微处理器;存储单元,其包括:内存储单元,其用于RNA初始数据的存储;缓存单元,其连接所述内存储单元;存储单元,其与所述缓存单元连接,用于完成所述RNA二级结构预测结果数据的存储;处理单元,其包括:预处理单元,其用于获取缓存单元中RNA数据,并对所述RNA数据进行预处理;滑动窗口单元,其连接所述预处理单元,用于将经过预处理后的RNA数据分割为大小相同的核苷酸序列二维数组;卷积神经网络模型单元,其以RNA测序及其结构数据为基础,构建卷积神经网络模型,对序列内各个碱基进行分类预测;规划动态算法单元,其用于修正卷积神经网络模型单元的预测结果。优选的是,还包括:上位机,其包括:USB接口,其与可移动存储设备连接,用于所述存储单元的扩容和数据转存;JTAG调试接口,其与编程器转换设备连接,用于程序在线调试;以太网接口,其用于连接所述微处理器,用于上位机与所述微处理器之间的通信;显示单元,用于将预测结果输出显示。优选的是,所述微处理器为ARM9微处理器。一种基于卷积神经网络和规划动态算法的RNA二级结构预测方法,包括:步骤一、选取已知RNA二级结构的数据作为训练样本,并对训练进行预处理得到训练数据;步骤二、将经过预处理后的RNA数据分割为大小相同的RNA二维数组;步骤三、准备训练样本集,将训练样本集进行分类,构建卷积神经网络模型,提取出数据中有效的隐藏特征,调整模型参数,优化预测精度,直至模型内部参数收敛,得到训练完成的卷积神经网络模型;步骤四,对待预测的RNA序列数据进行预处理,并输入训练完成的卷积神经网络模型,对序列内各个碱基进行分类预测;其中,分类预测结果为生成RNA二级结构的概率;步骤五、将分类预测完成的二级结构预测结果输入规划修正算法模型进行误差修正,进而得到最终的二级结构预测结果。优选的是,所述预处理包括将RNA序列数据进行独热编码。优选的是,所述步骤二利用滑动窗口的方式,将RNA四元组分割为多个相同的二维数组,并将其对应的结构数据作为对应数组的特征标签。优选的是,所述步骤二包括:将所述二维数组作为输入向量群输入卷积神经网络模型,所述神经网络模型包括两个卷积层、两个池化层,两个全连接层和一个输出层,第一卷积层的卷积核为维度相等的矩阵,其大小为3×1×1,第二卷积层卷积核大小为3×1×8,输出层向量为三种RNA二级结构的生成概率。优选的是,所述步骤五包括:规划动态算法单元将读取卷积神经网络模型单元中的l个三元组与未标记的RNA的序列数据,并以此为依据,经过下面公式计算其中,N(i,j)表示未知结构RNA序列中第i个碱基到第j个碱基之间形成的结构的最大概率和;Ri为RNA序列上第i个碱基类别,Rj为RNA序列上的第j个碱基类别;经过多次迭代后生成的N(1,l)所对应的结构为所求的符合RNA二级结构定义且各个碱基匹配概率之和最大的RNA二级结构。本专利技术所述的有益效果本专利技术能够从大量RNA序列及结构数据中自动提取出有效的隐含特征,从概率学的角度角度阐述RNA二级结构的形成规律;基于真实实验验证的RNA数据,通过卷积神经网络与规划动态算法相结合,可以预测出未知结构的RNA测序数据的结构,并以此为依据设计生物实验;本专利技术为RNA二级结构预测等RNA相关研究领域提供了一条新思路。附图说明图1为本专利技术所述的RNA二级结构生成器的硬件结构原理图。图2为本专利技术所述的RNA二级结构生成器的电路原理图。图3为本专利技术所述的RNA二级结构生成器的逻辑功能图。图4为本专利技术所述的基于卷积神经网络和规划动态算法的RNA二级结构预测算法的流程图。图5为本专利技术所述的卷积神经网络的结构图。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。如图1所示,本专利技术提供的基于卷积神经网络和规划动态算法的RNA二级结构生成器,包括,本专利技术的基于卷积神经网络与规划动态算法的RNA二级结构的生成器装置与上位机连接硬件结构图,包括上位机01及ARM9微处理器02构成的RNA二级结构生成装置。在本专利技术的实施例中,通常利用一台通用的PC计算机作为上位机01,该上位机可通过RS-23串口和基于三星公司生产的32位的ARM920T核的微处理器的RNA二级结构生成装置进行连接,共同作用以完成RNA二级结构的生成。上位机01的输入单元0111及显示单元0131均采用PC计算机的输入及输出设备来实现其功能。本专利技术中可通过上位机01的以太网接口0123及ARM9微处理器02的以太网接口0213实现上位机01与ARM9微处理器02的互通信,以太网接口采用DM9000完全综合的、成本较低的单一快速以太网控制器芯片。本专利技术中增加了上位01的JTAG调试接口0122及ARM9微处理器02的JTAG调试接口0212,将此类接口通过JTAG仿真即编程器转换设备进行连接,可以实本文档来自技高网...
【技术保护点】
1.一种基于卷积神经网络和规划动态算法的RNA二级结构生成器,其特征在于,包括:微处理器;存储单元,其包括:内存储单元,其用于RNA初始数据的存储;缓存单元,其连接所述内存储单元;存储单元,其与所述缓存单元连接,用于完成所述RNA二级结构预测结果数据的存储;处理单元,其包括:预处理单元,其用于获取缓存单元中RNA数据,并对所述RNA数据进行预处理;滑动窗口单元,其连接所述预处理单元,用于将经过预处理后的RNA数据分割为大小相同的核苷酸序列二维数组;卷积神经网络模型单元,其以RNA测序及其结构数据为基础,构建卷积神经网络模型,对序列内各个碱基进行分类预测;规划动态算法单元,其用于修正卷积神经网络模型单元的预测结果。
【技术特征摘要】
1.一种基于卷积神经网络和规划动态算法的RNA二级结构生成器,其特征在于,包括:微处理器;存储单元,其包括:内存储单元,其用于RNA初始数据的存储;缓存单元,其连接所述内存储单元;存储单元,其与所述缓存单元连接,用于完成所述RNA二级结构预测结果数据的存储;处理单元,其包括:预处理单元,其用于获取缓存单元中RNA数据,并对所述RNA数据进行预处理;滑动窗口单元,其连接所述预处理单元,用于将经过预处理后的RNA数据分割为大小相同的核苷酸序列二维数组;卷积神经网络模型单元,其以RNA测序及其结构数据为基础,构建卷积神经网络模型,对序列内各个碱基进行分类预测;规划动态算法单元,其用于修正卷积神经网络模型单元的预测结果。2.根据权利要求1所述的基于卷积神经网络和规划动态算法的RNA二级结构生成器,其特征在于,还包括:上位机,其包括:USB接口,其与可移动存储设备连接,用于所述存储单元的扩容和数据转存;JTAG调试接口,其与编程器转换设备连接,用于程序在线调试;以太网接口,其用于连接所述微处理器,用于上位机与所述微处理器之间的通信;显示单元,用于将预测结果输出显示。3.根据权利要求1所述的基于卷积神经网络和规划动态算法的RNA二级结构生成器,其特征在于,所述微处理器为ARM9微处理器。4.一种基于卷积神经网络和规划动态算法的RNA二级结构预测方法,其特征在于,包括:步骤一、选取已知RNA二级结构的数据作为训练样本,并对训练进行预处理得到训练数据;步骤二、将经过预处理后的RNA数据分割为大小相同的RNA二维数组;步骤三、准备训练样本集,将训练样本集进行分类,构建卷积神经网络模型,提取出数据中有效的隐藏特征,调整模型参数,优化预测精度,直至模型内部参数收敛,得到训练完...
【专利技术属性】
技术研发人员:张浩,张春鹤,刘元宁,魏旭,常浩武,李聪,
申请(专利权)人:吉林大学,
类型:发明
国别省市:吉林,22
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。