作物线粒体编辑位点预测方法、系统及存储介质技术方案

技术编号：43567374 阅读：4 留言：0更新日期：2024-12-06 17:37

本发明专利技术公开了一种作物线粒体编辑位点预测方法、系统及存储介质，获取多个物种的线粒体基因组序列和对应的C‑to‑U RNA编辑位点注释信息；以编辑位点为中心，在线粒体基因组序列和对应的C‑to‑U RNA编辑位点注释信息序列上游、下游各取设定长度的片段作为正样本；以无编辑位点注释的任一位点为中心，在线粒体基因组序列和对应的C‑to‑U RNA编辑位点注释信息上游、下游各取设定长度的片段作为负样本；利用各物种对应的部分正样本和负样本构建各个物种的训练集，将各物种的训练集作为卷积神经网络的输入，得到各物种对应的最优预测模型。本发明专利技术预测精度高，能够更好的拟合出不同物种C‑to‑U RNA编辑的潜在编码机理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及编辑位点预测技术，特别是一种作物线粒体编辑位点预测方法、系统及存储介质。

技术介绍

1、rna编辑是指由rna水平的核苷酸改变所引起密码子发生变化的一种预定修饰，通过核苷酸的替换、插入或删除而实现，是线粒体基因产生功能蛋白所必需的加工步骤，同时也是细胞核调控线粒体基因表达的重要方式之一，自20世纪首次被发现至今，rna编辑的机理研究一直受到高度关注。

2、c-to-u rna编辑是作物中最常见的类型。高效地、快速地、经济地鉴定c-to-u rna编辑位点仍是一个巨大的挑战。传统rna编辑位点鉴定实验流程复杂，步骤多，成本高，虽然结果较为准确，但是往往只能对编码区单个基因进行鉴定，事实上，非编码区也存在的rna编辑现象同样可以调控基因表达；其次，整个实验流程也会存在许多潜在的干扰，如pcr错误、snp和突变体的dna编辑干扰，以及不同类型细胞基因表达水平对转录本影响等，在鉴定时，需要使用一系列技术手段来减少错误结果的影响。

3、得益于机器学习的发展，为编辑位点高精度预测提供了新的研究思路。众多学者通过传统的机器学习方法，如决策树、随机森林、支持向量机等，在rna编辑位点预测上已经做了大量的尝试，但预测精度普遍较低，且较少考虑到物种之间的差异。直到2022年，覃等人通过多种特征提取的建模方法，推测近缘物种的c-to-u rna编辑机制可能存在更大的相似性，这为c-to-u rna编辑跨编辑位点预测提供了新的研究思路。

4、人为设定的特征提取方式对传统的机器学习模型精度影响极大，得益于

5、基因组数据本质上就是一段由碱基组成的文本序列，现有技术未探讨c-to-urna编辑机制的种间联系，导致预测精度有限。

技术实现思路

1、本专利技术所要解决的技术问题是，针对现有技术不足，提供一种作物线粒体编辑位点预测方法、系统及存储介质，提高编辑位点预测精度。

2、为解决上述技术问题，本专利技术所采用的技术方案是：一种作物线粒体编辑位点预测方法，包括以下步骤：

3、s1、获取多个物种的线粒体基因组序列和对应的c-to-u rna编辑位点注释信息；以编辑位点为中心，在线粒体基因组序列和对应的c-to-u rna编辑位点注释信息序列上游、下游各取设定长度的片段作为正样本；以无编辑位点注释的任一位点为中心，在线粒体基因组序列和对应的c-to-u rna编辑位点注释信息上游、下游各取设定长度的片段作为负样本；

4、s2、利用各物种对应的部分正样本和负样本构建各个物种的训练集，将各物种的训练集作为卷积神经网络的输入，以各个样本中心位点是编辑位点的概率为卷积神经网络的输出，训练所述卷积神经网络，得到各物种对应的最优预测模型；

5、其中，所述卷积神经网络包括依次连接的输入层、嵌入层、第一卷积层、第二卷积层、下采样层和输出层。

6、本专利技术首次通过深度学习的方法，利用基因组序列来预测作物线粒体c-to-u rna编辑事件。相较于传统机器学习建模预测，该模型具有自主学习特征的优势，避免了人为设计特征提取的局限性，能最大程度地还原生物学中c-to-u rna编辑现象的规律，提高编辑位点预测精度。

7、通过模型预测结果的种间分析后，发现近缘物种的c-to-u rna编辑机制越相似，这说明，在预测新物种时，应该将这一发现作为筛选模型的条件，使得预测结果更为可靠。

8、本专利技术中，所述卷积神经网络训练过程中，学习率设置为0.001。

9、本专利技术中，所述第一卷积层、第二卷积层尺寸设置为16～30。

10、本专利技术中，所述正样本和所述负样本的数量相等。以尽可能减小参数的次优化(即优化不佳)和评估失真的风险。

11、为了进一步提高预测可靠性，本专利技术步骤s1中：

12、1)判断所述多个物种的属是否相同，融合相同属的所有物种的正样本和负样本，得到第一融合样本；

13、2)判断其余不同属的物种的科是否相同，融合相同科的所有物种的正样本和负样本，得到第二融合样本；

14、3)判断其余不同科的物种的目是否相同，融合相同目的所有物种的正样本和负样本，得到第三融合样本；

15、4)判断其余不同目的物种的纲是否相同，融合相同纲的所有物种的正样本和负样本，得到第四融合样本；

16、则步骤s2中训练集获取过程分别对应为：

17、利用所述第一融合样本/第二融合样本/第三融合样本/第四融合样本构建训练集。

18、本专利技术的方法还包括：

19、s3、对于新获取的物种，利用该物种对应的最优预测模型预测c-to-u rna编辑位点。

20、为了进一步提高预测结果的可靠性，上述步骤s3中，步骤s3中，对于待预测物种，依次根据待预测物种的属、科、目和纲，获取与所述待预测物种最近缘的最优预测模型，利用该最优预测模型预测所述带预测物种的c-to-u rna编辑位点。

21、作为一个专利技术构思，本专利技术还提供了一种作物线粒体编辑位点预测系统，其包括：

22、一个或多个处理器；

23、存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本专利技术上述方法的步骤。

24、作为一个专利技术构思，本专利技术还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现本专利技术上述方法的步骤。

25、与现有技术相比，本专利技术所具有的有益效果为：本专利技术预测精度高，能够更好的拟合出不同物种c-to-u rna编辑的潜在编码机理。

本文档来自技高网...

【技术保护点】

1.一种作物线粒体编辑位点预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的作物线粒体编辑位点预测方法，其特征在于，所述卷积神经网络训练过程中，学习率设置为0.001。

3.根据权利要求1所述的作物线粒体编辑位点预测方法，其特征在于，所述第一卷积层、第二卷积层尺寸设置为16～30。

4.根据权利要求1所述的作物线粒体编辑位点预测方法，其特征在于，所述正样本和所述负样本的数量相等。

5.根据权利要求1～4之一所述的作物线粒体编辑位点预测方法，其特征在于，步骤S1中：

6.根据权利要求5所述的作物线粒体编辑位点预测方法，其特征在于，还包括：

7.根据权利要求6所述的作物线粒体编辑位点预测方法，其特征在于，步骤S3中，对于待预测物种，依次根据待预测物种的属、科、目和纲，获取与所述待预测物种最近缘的最优预测模型，利用该最优预测模型预测所述带预测物种的C-to-U RNA编辑位点。

8.一种作物线粒体编辑位点预测系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其存储

...

【技术特征摘要】

1.一种作物线粒体编辑位点预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的作物线粒体编辑位点预测方法，其特征在于，所述卷积神经网络训练过程中，学习率设置为0.001。

3.根据权利要求1所述的作物线粒体编辑位点预测方法，其特征在于，所述第一卷积层、第二卷积层尺寸设置为16～30。

4.根据权利要求1所述的作物线粒体编辑位点预测方法，其特征在于，所述正样本和所述负样本的数量相等。

5.根据权利要求1～4之一所述的作物线粒体编辑位点预测方法，其特征在于，步骤s1中：

【专利技术属性】
技术研发人员：周玮，覃思东，
申请(专利权)人：湖南农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人