RNA修饰预测模型构建方法、mRNA及RNA修饰预测方法技术

技术编号：41335543 阅读：18 留言：0更新日期：2024-05-20 09:55

本发明专利技术涉及RNA修饰预测技术领域，特别涉及一种RNA修饰预测模型构建方法、mRNA及RNA修饰预测方法。本发明专利技术通过将发生修饰的RNA序列作为正样本序列，将未发生修饰的RNA序列作为负样本序列，构建依次包括嵌入层、transformer encoder层、Bi LSTM层、卷积层和全连接层的预测模型。使用正样本序列和负样本序列对预测模型进行训练，确定预测模型的参数数值，使预测模型表现最佳。通过transformer encoder层和Bi LSTM层进行特征学习，通过卷积层提取特征，通过全连接层进行拟合。transformer encoder层和Bi LSTM层的结合使预测模型具有更好的学习序列特征信息的能力，提高了预测模型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及rna修饰预测，特别涉及一种rna修饰预测模型构建方法、mrna及rna修饰预测方法。

技术介绍

1、rna修饰是rna序列中经常观察到的一种生物学现象，包括m6a、m7g和m5c。在生物机制上，rna修饰在基因表达调控、翻译过程效率和rna稳定性中发挥作用。此外，rna修饰也被发现与癌症、神经紊乱和心血管系统功能障碍密切相关，并由此研发出了许多治疗癌症、神经紊乱和心血管疾病的新思路。因此准确的判断rna序列是否发生修饰将有利于rna修饰的后续研究。近年来，测序技术的出现为rna修饰预测作出了许多贡献，同时获得了大量rna修饰数据。例如，乙酰化rna免疫沉淀(acrip-seq)是鉴定ac4c修饰位点最广泛使用的传统实验方法之一。这种方法是将乙酰化rna特异性抗体与随机中断的rna片段共孵育，然后选择有乙酰化修饰的片段进行测序。acrip-seq能显示目标序列特定区域的乙酰化水平，但它不能识别碱基水平分辨率的ac4c位点。近来，一种被称为n4-乙酰胞嘧啶测序(ac4c-seq)的更复杂的方法被开发出来，能够在单碱基水平上鉴定ac4c修饰位点。但传统的实验室测序方法流程复杂，耗时及成本较高，因此在生物信息学领域出现了将rna修饰数据库与深度学习技术结合，得到预测模型，用于判断rna序列是否发生修饰。现有方法虽然取得了一定成果，但预测准确度较低。

技术实现思路

1、本专利技术提供一种rna修饰预测模型构建方法，解决了现有技术中预测模型准确度较低的技术问题。

3、在第一方面的实施例中，本专利技术提供了一种rna修饰预测模型构建方法，该方法包括：

4、获取rna序列数据，将发生修饰的rna序列作为正样本序列，将未发生修饰的rna序列作为负样本序列；

5、构建预测模型，所述预测模型依次包括嵌入层、transformer encoder层、bilstm层、卷积层和全连接层；

6、使用所述正样本序列和所述负样本序列对所述预测模型进行训练，确定所述预测模型的参数数值，使所述预测模型表现最佳。

7、在某些实施方式中，对所述预测模型进行训练前，需对所述正样本序列和所述负样本序列进行预处理，包括：

8、将每条所述正样本序列和所述负样本序列中的碱基按照其序列顺序迭代性的将每三个所述碱基转化为一个词；

9、对不同的所述词分别赋予不同的编号，使所述正样本序列和所述负样本序列均能够通过一维矩阵表示。

10、在某些实施方式中，所述嵌入层将通过一维矩阵表示的所述正样本序列和所述负样本序列转化为高维矩阵，将所述高维矩阵作为所述transformer encoder层的输入。

11、在某些实施方式中，所述transformer encoder层包括多头自注意力模块和全连接前馈模块，所述多头自注意力模块和所述全连接前馈模块均采用层标准化和残差连接。

12、在某些实施方式中，在所述多头自注意力模块中，对于每一个所述正样本序列和所述负样本序列，通过query向量和key向量计算获得注意力权重矩阵，所述注意力权重矩阵为一个[heads,length,length]的矩阵，通过依次以第一维，第二维平均，获得[length]的向量。

13、在某些实施方式中，所述bilstm层依次包括输入层、前向lstm层、后向lstm层和输出层，其数据处理过程包括：

14、所述输入层接收所述transformer encoder层的输出序列数据；

15、所述前向lstm层接收所述序列数据的正向输入，输出第一序列；

16、所述后向lstm层接收所述序列数据的反向输入，输出第二序列；

17、所述输出层接收由所述第一序列和所述第二序列拼接生成的第三序列，并对所述第三序列进行预测。

18、在某些实施方式中，所述卷积层包括多个一维卷积层，每个所述一维卷积层后都包含一个batchnorm层，最后一个所述一维卷积层的batchnorm层后还包括一个maxpooling层。

19、在第二方面的实施例中，本专利技术提供一种mrna发生n4-乙酰胞苷修饰的预测方法，包括：

20、通过acrip-seq得到发生n4-乙酰胞苷修饰的mrna序列数据库，将其中序列作为第一正样本序列，获取未发生n4-乙酰胞苷修饰的mrna序列数据库，将其中序列作为第一负样本序列；

21、将所述第一正样本序列截短，截短操作时保留其中发生n4-乙酰胞苷修饰的序列段；截短操作完成后，所述正样本序列在预设长度范围内均匀分布；将所述第一负样本序列截短，截短操作完成后，所述负样本序列在所述预设长度范围内均匀分布；截短后的所述第一正样本序列和截短后的所述第一负样本序列构成第一数据库；

22、使用所述第一数据库对如权利要求1至7任一所述的预测模型进行训练，使所述预测模型表现最佳；

23、将待预测的mrna序列输入所述预测模型，得到预测结果。

24、在第三方面的实施例中，本专利技术提供一种rna发生n4-乙酰胞苷修饰的预测方法，包括：

25、通过ac4c-seq得到发生n4-乙酰胞苷修饰的rna序列数据库，将其中序列作为第二正样本序列，获取未发生n4-乙酰胞苷修饰的rna序列数据库，将其中序列作为第二负样本序列；所述第二正样本序列和所述第二负样本序列的长度相同；所述第二正样本序列和所述第二负样本序列构成第二数据库；

26、使用所述第二数据库对如权利要求1至7任一所述的预测模型进行训练，使所述预测模型表现最佳；

27、将待预测的rna序列以c碱基位点为中心迭代性的切割为预设长度的若干子序列；

28、将若干所述子序列输入到所述预测模型，得到每条所述子序列的预测结果。

29、在某些实施方式中，所述rna发生n4-乙酰胞苷修饰的预测方法还包括：

30、将全部所述子序列的预测结果进行整合，得到整条所述待预测的rna序列的预测结果。

31、有益效果

32、正样本序列和负样本序列经过编码后由嵌入层输入预测模型，依次通过transformer encoder层和bilstm层进行特征学习，再通过卷积层提取特征，最后通过全连接层进行拟合，得到预测结果，根据预测结果与样本数据的误差调整参数数值，使预测模型表现最佳。transformer encoder层和bilstm层的结合使预测模型具有更好的学习序列特征信息的能力，提高了预测模型的准确度。

33、本专利技术的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实施方式的实践了解到。

本文档来自技高网...

【技术保护点】

1.RNA修饰预测模型构建方法，其特征在于，包括：

2.如权利要求1所述的RNA修饰预测模型构建方法，其特征在于，对所述预测模型进行训练前，需对所述正样本序列和所述负样本序列进行预处理，包括：

3.如权利要求2所述的RNA修饰预测模型构建方法，其特征在于，所述嵌入层将通过一维矩阵表示的所述正样本序列和所述负样本序列转化为高维矩阵，将所述高维矩阵作为所述transformer encoder层的输入。

4.如权利要求1所述的RNA修饰预测模型构建方法，其特征在于，所述transformerencoder层包括多头自注意力模块和全连接前馈模块，所述多头自注意力模块和所述全连接前馈模块均采用层标准化和残差连接。

5.如权利要求4所述的RNA修饰预测模型构建方法，其特征在于，在所述多头自注意力模块中，对于每一个所述正样本序列和所述负样本序列，通过query向量和key向量计算获得注意力权重矩阵，所述注意力权重矩阵为一个[heads,length,length]的矩阵，通过依次以第一维，第二维平均，获得[length]的向量。

7.如权利要求1所述的RNA修饰预测模型构建方法，其特征在于，所述卷积层包括多个一维卷积层，每个所述一维卷积层后都包含一个Batchnorm层，最后一个所述一维卷积层的Batchnorm层后还包括一个maxpooling层。

8.mRNA发生N4-乙酰胞苷修饰的预测方法，其特征在于，包括：

9.RNA发生N4-乙酰胞苷修饰的预测方法，其特征在于，包括：

10.如权利要求9所述的RNA发生N4-乙酰胞苷修饰的预测方法，其特征在于，还包括：

...

【技术特征摘要】

1.rna修饰预测模型构建方法，其特征在于，包括：

2.如权利要求1所述的rna修饰预测模型构建方法，其特征在于，对所述预测模型进行训练前，需对所述正样本序列和所述负样本序列进行预处理，包括：

3.如权利要求2所述的rna修饰预测模型构建方法，其特征在于，所述嵌入层将通过一维矩阵表示的所述正样本序列和所述负样本序列转化为高维矩阵，将所述高维矩阵作为所述transformer encoder层的输入。

4.如权利要求1所述的rna修饰预测模型构建方法，其特征在于，所述transformerencoder层包括多头自注意力模块和全连接前馈模块，所述多头自注意力模块和所述全连接前馈模块均采用层标准化和残差连接。

5.如权利要求4所述的rna修饰预测模型构建方法，其特征在于，在所述多头自注意力模块中，对于每一个所述正样本序列和所述负样本序列，通过query向量和key向...

【专利技术属性】
技术研发人员：章小平，刘睿杰，王棋，
申请(专利权)人：华中科技大学同济医学院附属协和医院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人