System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及编辑位点预测技术,特别是一种作物线粒体编辑位点预测方法、系统及存储介质。
技术介绍
1、rna编辑是指由rna水平的核苷酸改变所引起密码子发生变化的一种预定修饰,通过核苷酸的替换、插入或删除而实现,是线粒体基因产生功能蛋白所必需的加工步骤,同时也是细胞核调控线粒体基因表达的重要方式之一,自20世纪首次被发现至今,rna编辑的机理研究一直受到高度关注。
2、c-to-u rna编辑是作物中最常见的类型。高效地、快速地、经济地鉴定c-to-u rna编辑位点仍是一个巨大的挑战。传统rna编辑位点鉴定实验流程复杂,步骤多,成本高,虽然结果较为准确,但是往往只能对编码区单个基因进行鉴定,事实上,非编码区也存在的rna编辑现象同样可以调控基因表达;其次,整个实验流程也会存在许多潜在的干扰,如pcr错误、snp和突变体的dna编辑干扰,以及不同类型细胞基因表达水平对转录本影响等,在鉴定时,需要使用一系列技术手段来减少错误结果的影响。
3、得益于机器学习的发展,为编辑位点高精度预测提供了新的研究思路。众多学者通过传统的机器学习方法,如决策树、随机森林、支持向量机等,在rna编辑位点预测上已经做了大量的尝试,但预测精度普遍较低,且较少考虑到物种之间的差异。直到2022年,覃等人通过多种特征提取的建模方法,推测近缘物种的c-to-u rna编辑机制可能存在更大的相似性,这为c-to-u rna编辑跨编辑位点预测提供了新的研究思路。
4、人为设定的特征提取方式对传统的机器学习模型精度影响极大,得益于
5、基因组数据本质上就是一段由碱基组成的文本序列,现有技术未探讨c-to-urna编辑机制的种间联系,导致预测精度有限。
技术实现思路
1、本专利技术所要解决的技术问题是,针对现有技术不足,提供一种作物线粒体编辑位点预测方法、系统及存储介质,提高编辑位点预测精度。
2、为解决上述技术问题,本专利技术所采用的技术方案是:一种作物线粒体编辑位点预测方法,包括以下步骤:
3、s1、获取多个物种的线粒体基因组序列和对应的c-to-u rna编辑位点注释信息;以编辑位点为中心,在线粒体基因组序列和对应的c-to-u rna编辑位点注释信息序列上游、下游各取设定长度的片段作为正样本;以无编辑位点注释的任一位点为中心,在线粒体基因组序列和对应的c-to-u rna编辑位点注释信息上游、下游各取设定长度的片段作为负样本;
4、s2、利用各物种对应的部分正样本和负样本构建各个物种的训练集,将各物种的训练集作为卷积神经网络的输入,以各个样本中心位点是编辑位点的概率为卷积神经网络的输出,训练所述卷积神经网络,得到各物种对应的最优预测模型;
5、其中,所述卷积神经网络包括依次连接的输入层、嵌入层、第一卷积层、第二卷积层、下采样层和输出层。
6、本专利技术首次通过深度学习的方法,利用基因组序列来预测作物线粒体c-to-u rna编辑事件。相较于传统机器学习建模预测,该模型具有自主学习特征的优势,避免了人为设计特征提取的局限性,能最大程度地还原生物学中c-to-u rna编辑现象的规律,提高编辑位点预测精度。
7、通过模型预测结果的种间分析后,发现近缘物种的c-to-u rna编辑机制越相似,这说明,在预测新物种时,应该将这一发现作为筛选模型的条件,使得预测结果更为可靠。
8、本专利技术中,所述卷积神经网络训练过程中,学习率设置为0.001。
9、本专利技术中,所述第一卷积层、第二卷积层尺寸设置为16~30。
10、本专利技术中,所述正样本和所述负样本的数量相等。以尽可能减小参数的次优化(即优化不佳)和评估失真的风险。
11、为了进一步提高预测可靠性,本专利技术步骤s1中:
12、1)判断所述多个物种的属是否相同,融合相同属的所有物种的正样本和负样本,得到第一融合样本;
13、2)判断其余不同属的物种的科是否相同,融合相同科的所有物种的正样本和负样本,得到第二融合样本;
14、3)判断其余不同科的物种的目是否相同,融合相同目的所有物种的正样本和负样本,得到第三融合样本;
15、4)判断其余不同目的物种的纲是否相同,融合相同纲的所有物种的正样本和负样本,得到第四融合样本;
16、则步骤s2中训练集获取过程分别对应为:
17、利用所述第一融合样本/第二融合样本/第三融合样本/第四融合样本构建训练集。
18、本专利技术的方法还包括:
19、s3、对于新获取的物种,利用该物种对应的最优预测模型预测c-to-u rna编辑位点。
20、为了进一步提高预测结果的可靠性,上述步骤s3中,步骤s3中,对于待预测物种,依次根据待预测物种的属、科、目和纲,获取与所述待预测物种最近缘的最优预测模型,利用该最优预测模型预测所述带预测物种的c-to-u rna编辑位点。
21、作为一个专利技术构思,本专利技术还提供了一种作物线粒体编辑位点预测系统,其包括:
22、一个或多个处理器;
23、存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本专利技术上述方法的步骤。
24、作为一个专利技术构思,本专利技术还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术上述方法的步骤。
25、与现有技术相比,本专利技术所具有的有益效果为:本专利技术预测精度高,能够更好的拟合出不同物种c-to-u rna编辑的潜在编码机理。
本文档来自技高网...【技术保护点】
1.一种作物线粒体编辑位点预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述卷积神经网络训练过程中,学习率设置为0.001。
3.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述第一卷积层、第二卷积层尺寸设置为16~30。
4.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述正样本和所述负样本的数量相等。
5.根据权利要求1~4之一所述的作物线粒体编辑位点预测方法,其特征在于,步骤S1中:
6.根据权利要求5所述的作物线粒体编辑位点预测方法,其特征在于,还包括:
7.根据权利要求6所述的作物线粒体编辑位点预测方法,其特征在于,步骤S3中,对于待预测物种,依次根据待预测物种的属、科、目和纲,获取与所述待预测物种最近缘的最优预测模型,利用该最优预测模型预测所述带预测物种的C-to-U RNA编辑位点。
8.一种作物线粒体编辑位点预测系统,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,其存储
...【技术特征摘要】
1.一种作物线粒体编辑位点预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述卷积神经网络训练过程中,学习率设置为0.001。
3.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述第一卷积层、第二卷积层尺寸设置为16~30。
4.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述正样本和所述负样本的数量相等。
5.根据权利要求1~4之一所述的作物线粒体编辑位点预测方法,其特征在于,步骤s1中:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。