System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法技术_技高网

一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法技术

技术编号:42955585 阅读:28 留言:0更新日期:2024-10-11 16:13
本发明专利技术提供了一种基于改进Transformer和SE‑TextCNN的RNA亚细胞定位预测方法,包括以下部分:建立LncRNA和mRNA数据集,对LncRNA和mRNA数据集进行预处理,筛选并清洗数据;进行特征提取,并分别输入到神经网络的各个位置;特征包括One‑hot编码、EIIP编码、NCP编码、位置编码及RNA‑FM编码,可综合序列物理化学属性和RNA‑FM模型通过自监督学习得到深层次特征;训练网络框架,采用二路并行策略分别对RNA‑FM输出的特征以及基础序列特征进行训练,依次经过Lightning Attention Transformer模块、TextCNN‑SEnet模块和MLP模块输出预测结果。本发明专利技术有效增强了对长序列的处理能力和对关键特征的识别,有效提高了RNA亚细胞定位的预测精度,且本发明专利技术的模型可应用于其他RNA类型的数据集,也展现了鲁棒的预测性能。

【技术实现步骤摘要】

本专利技术涉及rna亚细胞定位,尤其涉及一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法。


技术介绍

1、rna分子的亚细胞定位是指rna分子在细胞内的具体位置分布。rna分子作为基因表达的重要调控因子,在细胞内的定位对于基因表达的调控和细胞的正常功能至关重要。rna根据其功能和结构可分为不同种类的rna类型,其中mrna和lncrna是两种重要的rna。mrna在细胞质中的核糖体上被翻译成蛋白质,这些蛋白质是细胞结构和功能的关键组成部分,参与细胞的几乎所有生化过程。lncrna则在细胞核中聚集,与染色质互动,调节基因表达,参与细胞周期、分化、代谢和疾病发展。对mrna和lncrna等其他类型的rna亚细胞定位对细胞命运和性质具有决定性影响。目前,多种基于实验的定位方法已被应用于研究rna的亚细胞定位,但是这些基于实验的方法通常耗时较久且受实验条件影响干扰较大,定位准确性较差。


技术实现思路

1、针对现有技术中所存在的不足,本专利技术提供了一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其解决了目前的基于实验的rna亚细胞定位方法通常耗时较久且受实验条件影响干扰较大,定位准确性较差的问题。

2、本专利技术的上述技术目的是通过以下技术方案得以实现的:

3、一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,包括以下部分:

4、建立lncrna和mrna数据集,对lncrna和mrna数据集进行预处理,筛选并清洗数据;

5、进行特征提取,并分别输入到神经网络的各个位置;特征包括one-hot编码、eiip编码、ncp编码、位置编码及rna-fm编码,可综合序列物理化学属性和rna-fm模型通过自监督学习得到深层次特征;

6、训练网络框架,采用二路并行策略分别对rna-fm输出的特征以及基础序列特征进行训练,依次经过lightning attention transformer模块、textcnn-senet模块和mlp模块输出预测结果。

7、进一步地,所述lncrna数据集包括lncatlas、cefra-seq和apex-seq,所述mrna数据集的数据源自cefra-seq和apex-seq;通过采取多种过滤策略,以从rna数据集中准确筛选出定位于细胞核或细胞质的rna。

8、进一步地,对lncrna和mrna数据集进行预处理时,设定lncrna统一长度为3000个核苷酸,mrna统一长度为6000个核苷酸。

9、进一步地,在特征提取阶段,采用预训练模型rna-fm对rna序列进行编码,以提取丰富的隐含信息;基础序列编码模块表示使用onehot、eiip和ncp三种编码方式来对rna序列进行编码。

10、进一步地,在textcnn-senet模块中,在textcnn模块的卷积层和最大池化层之间插入了senet模块,以自适应地调整特征通道的权重,从而进一步捕捉重要的特征信息。

11、进一步地,lightning attention transformer模块采用lightning attention-2来有效处理长序列数据,此架构针对于rna亚细胞定位的预测任务,通过编码器层的堆叠以捕捉序列的特性。

12、进一步地,所述se-textcnn为在textcnn中集成senet以增强模型的特征提取和表示能力。

13、本专利技术具有以下有益效果:

14、本专利技术提供了一种基于改进transformer架构的深度学习模型——latnet,本专利技术的方法对lncrna和mrna数据集进行预处理,运用多种过滤策略筛选并清洗数据,保证了输入数据的质量。并且采用了one-hot编码、eiip编码、ncp编码、位置编码及rna-fm五种编码,可综合序列物理化学属性和rna-fm模型通过自监督学习得到深层次特征。在训练网络框架上,设计了一种双路并行结构,一路采用基于rna-fm模型提取特征,另一路处理基础序列特征;并通过改进注意力机制的tramsformer和se-textcnn结构相结合,有效增强了对长序列的处理能力和对关键特征的识别,有效提高了rna亚细胞定位的预测精度。latnet在lncrna和mrna数据集上的表现超越了多个现有的预测方法,特别是在accuracy、mcc和f1-score等评价指标上取得了显著提升。此外,模型在snorna、snrna、circrna和cirna等其他类型的rna数据集上也展现了鲁棒的泛化性能。此外,本申请进一步分析了latnet模型的关键特征,揭示了对rna亚细胞定位具有重要影响的核苷酸组合。这一发现不仅为理解rna的功能和调控机制提供了新的视角,也为未来的生物学研究和应用提供了宝贵的信息。

本文档来自技高网...

【技术保护点】

1.一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法,其特征在于:包括以下部分:

2.根据权利要求1所述的一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法,其特征在于:所述LncRNA数据集包括LncATLAS、CeFra-seq和APEX-Seq,所述mRNA数据集的数据源自CeFra-seq和APEX-Seq;通过采取多种过滤策略,以从RNA数据集中准确筛选出定位于细胞核或细胞质的RNA。

3.根据权利要求1所述的一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法,其特征在于:对LncRNA和mRNA数据集进行预处理时,设定LncRNA统一长度为3000个核苷酸,mRNA统一长度为6000个核苷酸。

4.根据权利要求1所述的一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法,其特征在于:在特征提取阶段,采用预训练模型RNA-FM对RNA序列进行编码,以提取丰富的隐含信息;基础序列编码模块表示使用Onehot、EIIP和NCP三种编码方式来对RNA序列进行编码。

5.根据权利要求1所述的一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法,其特征在于:在TextCNN-SEnet模块中,在TextCNN模块的卷积层和最大池化层之间插入了SEnet模块,以自适应地调整特征通道的权重,从而进一步捕捉重要的特征信息。

6.根据权利要求1所述的一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法,其特征在于:Lightning Attention Transformer模块采用Lightning Attention-2来有效处理长序列数据,此架构针对于RNA亚细胞定位的预测任务,通过编码器层的堆叠以捕捉序列的特性。

7.根据权利要求1所述的一种基于改进Transformer和SE-TextCNN的RNA亚细胞定位预测方法,其特征在于:所述SE-TextCNN为在TextCNN中集成SENet以增强模型的特征提取和表示能力。

...

【技术特征摘要】

1.一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:包括以下部分:

2.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:所述lncrna数据集包括lncatlas、cefra-seq和apex-seq,所述mrna数据集的数据源自cefra-seq和apex-seq;通过采取多种过滤策略,以从rna数据集中准确筛选出定位于细胞核或细胞质的rna。

3.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:对lncrna和mrna数据集进行预处理时,设定lncrna统一长度为3000个核苷酸,mrna统一长度为6000个核苷酸。

4.根据权利要求1所述的一种基于改进transformer和se-textcnn的rna亚细胞定位预测方法,其特征在于:在特征提取阶段,采用预训练模型rna-fm对rna序列进行编码,以提取丰富的隐含信息;...

【专利技术属性】
技术研发人员:李重王凯
申请(专利权)人:湖州师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1