System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 作物线粒体编辑位点预测方法、系统及存储介质技术方案_技高网

作物线粒体编辑位点预测方法、系统及存储介质技术方案

技术编号:43567374 阅读:4 留言:0更新日期:2024-12-06 17:37
本发明专利技术公开了一种作物线粒体编辑位点预测方法、系统及存储介质,获取多个物种的线粒体基因组序列和对应的C‑to‑U RNA编辑位点注释信息;以编辑位点为中心,在线粒体基因组序列和对应的C‑to‑U RNA编辑位点注释信息序列上游、下游各取设定长度的片段作为正样本;以无编辑位点注释的任一位点为中心,在线粒体基因组序列和对应的C‑to‑U RNA编辑位点注释信息上游、下游各取设定长度的片段作为负样本;利用各物种对应的部分正样本和负样本构建各个物种的训练集,将各物种的训练集作为卷积神经网络的输入,得到各物种对应的最优预测模型。本发明专利技术预测精度高,能够更好的拟合出不同物种C‑to‑U RNA编辑的潜在编码机理。

【技术实现步骤摘要】

本专利技术涉及编辑位点预测技术,特别是一种作物线粒体编辑位点预测方法、系统及存储介质


技术介绍

1、rna编辑是指由rna水平的核苷酸改变所引起密码子发生变化的一种预定修饰,通过核苷酸的替换、插入或删除而实现,是线粒体基因产生功能蛋白所必需的加工步骤,同时也是细胞核调控线粒体基因表达的重要方式之一,自20世纪首次被发现至今,rna编辑的机理研究一直受到高度关注。

2、c-to-u rna编辑是作物中最常见的类型。高效地、快速地、经济地鉴定c-to-u rna编辑位点仍是一个巨大的挑战。传统rna编辑位点鉴定实验流程复杂,步骤多,成本高,虽然结果较为准确,但是往往只能对编码区单个基因进行鉴定,事实上,非编码区也存在的rna编辑现象同样可以调控基因表达;其次,整个实验流程也会存在许多潜在的干扰,如pcr错误、snp和突变体的dna编辑干扰,以及不同类型细胞基因表达水平对转录本影响等,在鉴定时,需要使用一系列技术手段来减少错误结果的影响。

3、得益于机器学习的发展,为编辑位点高精度预测提供了新的研究思路。众多学者通过传统的机器学习方法,如决策树、随机森林、支持向量机等,在rna编辑位点预测上已经做了大量的尝试,但预测精度普遍较低,且较少考虑到物种之间的差异。直到2022年,覃等人通过多种特征提取的建模方法,推测近缘物种的c-to-u rna编辑机制可能存在更大的相似性,这为c-to-u rna编辑跨编辑位点预测提供了新的研究思路。

4、人为设定的特征提取方式对传统的机器学习模型精度影响极大,得益于深度学习自主特征学习模式,虽然这种学习到的特征过于抽象,为特征解释带来麻烦,但是能避免人类思维的局限性,最大程度还原事物的发生规律,提高模型的拟合能力。1986年,rumelhart等人提出了一种(learning representations by back-propagating errors)的网络(back propagation network,bpn),深度学习逐步被研究者们重视起来。而作为深度学习模型的一种——卷积神经网络(convolutional neural network,cnn)拥有局部连接、权值共享、池化操作及多层结构等特点,其强大的自动学习特征能力,在图像和文本识别领域使用最为广泛。

5、基因组数据本质上就是一段由碱基组成的文本序列,现有技术未探讨c-to-urna编辑机制的种间联系,导致预测精度有限。


技术实现思路

1、本专利技术所要解决的技术问题是,针对现有技术不足,提供一种作物线粒体编辑位点预测方法、系统及存储介质,提高编辑位点预测精度。

2、为解决上述技术问题,本专利技术所采用的技术方案是:一种作物线粒体编辑位点预测方法,包括以下步骤:

3、s1、获取多个物种的线粒体基因组序列和对应的c-to-u rna编辑位点注释信息;以编辑位点为中心,在线粒体基因组序列和对应的c-to-u rna编辑位点注释信息序列上游、下游各取设定长度的片段作为正样本;以无编辑位点注释的任一位点为中心,在线粒体基因组序列和对应的c-to-u rna编辑位点注释信息上游、下游各取设定长度的片段作为负样本;

4、s2、利用各物种对应的部分正样本和负样本构建各个物种的训练集,将各物种的训练集作为卷积神经网络的输入,以各个样本中心位点是编辑位点的概率为卷积神经网络的输出,训练所述卷积神经网络,得到各物种对应的最优预测模型;

5、其中,所述卷积神经网络包括依次连接的输入层、嵌入层、第一卷积层、第二卷积层、下采样层和输出层。

6、本专利技术首次通过深度学习的方法,利用基因组序列来预测作物线粒体c-to-u rna编辑事件。相较于传统机器学习建模预测,该模型具有自主学习特征的优势,避免了人为设计特征提取的局限性,能最大程度地还原生物学中c-to-u rna编辑现象的规律,提高编辑位点预测精度。

7、通过模型预测结果的种间分析后,发现近缘物种的c-to-u rna编辑机制越相似,这说明,在预测新物种时,应该将这一发现作为筛选模型的条件,使得预测结果更为可靠。

8、本专利技术中,所述卷积神经网络训练过程中,学习率设置为0.001。

9、本专利技术中,所述第一卷积层、第二卷积层尺寸设置为16~30。

10、本专利技术中,所述正样本和所述负样本的数量相等。以尽可能减小参数的次优化(即优化不佳)和评估失真的风险。

11、为了进一步提高预测可靠性,本专利技术步骤s1中:

12、1)判断所述多个物种的属是否相同,融合相同属的所有物种的正样本和负样本,得到第一融合样本;

13、2)判断其余不同属的物种的科是否相同,融合相同科的所有物种的正样本和负样本,得到第二融合样本;

14、3)判断其余不同科的物种的目是否相同,融合相同目的所有物种的正样本和负样本,得到第三融合样本;

15、4)判断其余不同目的物种的纲是否相同,融合相同纲的所有物种的正样本和负样本,得到第四融合样本;

16、则步骤s2中训练集获取过程分别对应为:

17、利用所述第一融合样本/第二融合样本/第三融合样本/第四融合样本构建训练集。

18、本专利技术的方法还包括:

19、s3、对于新获取的物种,利用该物种对应的最优预测模型预测c-to-u rna编辑位点。

20、为了进一步提高预测结果的可靠性,上述步骤s3中,步骤s3中,对于待预测物种,依次根据待预测物种的属、科、目和纲,获取与所述待预测物种最近缘的最优预测模型,利用该最优预测模型预测所述带预测物种的c-to-u rna编辑位点。

21、作为一个专利技术构思,本专利技术还提供了一种作物线粒体编辑位点预测系统,其包括:

22、一个或多个处理器;

23、存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本专利技术上述方法的步骤。

24、作为一个专利技术构思,本专利技术还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术上述方法的步骤。

25、与现有技术相比,本专利技术所具有的有益效果为:本专利技术预测精度高,能够更好的拟合出不同物种c-to-u rna编辑的潜在编码机理。

本文档来自技高网...

【技术保护点】

1.一种作物线粒体编辑位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述卷积神经网络训练过程中,学习率设置为0.001。

3.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述第一卷积层、第二卷积层尺寸设置为16~30。

4.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述正样本和所述负样本的数量相等。

5.根据权利要求1~4之一所述的作物线粒体编辑位点预测方法,其特征在于,步骤S1中:

6.根据权利要求5所述的作物线粒体编辑位点预测方法,其特征在于,还包括:

7.根据权利要求6所述的作物线粒体编辑位点预测方法,其特征在于,步骤S3中,对于待预测物种,依次根据待预测物种的属、科、目和纲,获取与所述待预测物种最近缘的最优预测模型,利用该最优预测模型预测所述带预测物种的C-to-U RNA编辑位点。

8.一种作物线粒体编辑位点预测系统,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种作物线粒体编辑位点预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述卷积神经网络训练过程中,学习率设置为0.001。

3.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述第一卷积层、第二卷积层尺寸设置为16~30。

4.根据权利要求1所述的作物线粒体编辑位点预测方法,其特征在于,所述正样本和所述负样本的数量相等。

5.根据权利要求1~4之一所述的作物线粒体编辑位点预测方法,其特征在于,步骤s1中:

【专利技术属性】
技术研发人员:周玮覃思东
申请(专利权)人:湖南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1